SadTalker – 開源AI數字人項目，一鍵讓照片說話

AI工具1年前 (2024)發佈新公告 AI管理員

67 0 0

SadTalker是什麼

SadTalker是西安交通大學、騰訊AI實驗室和螞蟻集團聯合推出的開源AI數字人項目。SadTalker專注於通過單張人臉圖像和語音音頻，利用3D運動係數生成逼真的說話人臉動畫。通過ExpNet精確學習面部表情，以及PoseVAE合成不同風格的頭部運動，SadTalker能夠創造出高質量、風格化的視頻動畫。SadTalker還包括了豐富的視頻演示和消融研究，展示了其在多種語言和數據集上的應用效果。

SadTalker的主要功能

3D運動係數生成：從音頻中提取頭部姿態和表情的3D運動係數。
ExpNet：一個專門設計的網絡，用於從音頻中學習準確的面部表情。
PoseVAE：一個條件變分自編碼器，用於不同風格的頭部運動合成。
3D面部渲染：將3D運動係數映射到3D關鍵點空間，用於渲染風格化的面部動畫。
多語言支持：能夠處理不同語言的音頻輸入，生成相應語言的說話動畫。

SadTalker的技術原理

3D運動係數學習：SadTalker通過分析音頻信號來學習3D運動係數，包括頭部姿態和麪部表情。是3D形態模型（3DMM）的關鍵參數。
ExpNet（表情網絡）：用於從音頻中提取面部表情信息。ExpNet通過學習音頻與面部表情之間的映射關係，能夠生成準確的面部表情動畫。
PoseVAE（頭部姿態變分自編碼器）：PoseVAE是一個條件變分自編碼器（Conditional Variational Autoencoder, CVAE），用於生成不同風格的頭部運動。可以根據音頻信號合成自然且風格化的頭部姿態。
3D面部渲染：SadTalker使用一種新穎的3D面部渲染技術，將學習到的3D運動係數映射到3D關鍵點空間。這個過程涉及到面部的幾何和紋理信息，以生成逼真的面部動畫。
多模態學習：SadTalker在訓練過程中同時考慮了音頻和視覺信息，通過多模態學習來提高動畫的自然度和準確性。
風格化處理：SadTalker能夠根據需要生成不同風格的人臉動畫，涉及到對面部特徵和運動的非線性變換，以適應不同的視覺風格。
無監督學習：SadTalker在生成3D關鍵點時採用了無監督學習方法，意味着不需要大量的標註數據就能學習到有效的運動模式。
數據融合：通過融合音頻和視覺數據，SadTalker能生成與音頻同步且表情自然的說話人臉動畫。