MimicTalk – 字節聯合浙大推出的開源3D數字人頭項目

AI工具2年前 (2024)發佈新公告 AI管理員

0 0 0

MimicTalk是什麼

MimicTalk是浙江大學和字節跳動共同研發推出基於NeRF（神經輻射場）技術，能在極短的時間內，僅需15分鐘訓練出個性化和富有表現力的3D說話人臉模型。MimicTalk提高了訓練效率，基於高效的微調策略和具有上下文學習能力的人臉動作生成模型，顯著提升生成視頻的質量。MimicTalk的代碼是基於之前的Real3D-Portrait項目，進一步優化而來，支持用音頻驅動來生成特定人物的說話頭像，讓數字人視頻在感官上與真人具有極高的相似性。

MimicTalk的主要功能

快速個性化訓練：MimicTalk能在15分鐘內完成對一個新身份的適應和訓練，相比傳統方法大幅提高訓練效率。
高質量視頻生成：基於精細調整和優化，MimicTalk生成的視頻在視覺質量上超越以往的技術。
表現力增強：MimicTalk能捕捉和模仿目標人物的動態說話風格，讓生成的視頻更加生動和富有表現力。
上下文學習：模型能從上下文中學習目標人的說話風格，提高面部動作的自然度和真實感。
音頻驅動：支持用音頻輸入驅動特定人物的3D說話頭像，實現音頻到面部動作的同步。

MimicTalk的技術原理

人-不可知3D人臉生成模型（Person-Agnostic 3D Face Generation Model）：
- 作爲基礎模型，是一個預訓練的、能處理單張圖片輸入的通用3D人臉生成模型。
- 模型能爲不同的人物身份生成逼真的3D人臉。
靜態-動態混合適應流程（Static-Dynamic Hybrid Adaptation Pipeline）：
- 混合適應流程幫助模型學習特定身份的靜態外觀（如面部幾何形狀和紋理細節）和動態特徵（如面部表情和肌肉運動）。
- 基於優化3D人臉表徵（tri-plane）和用低秩適應（LoRA）技術，模型能快速適應新的身份。
上下文風格化的音頻到運動模型（In-Context Stylized Audio-to-Motion Model, ICS-A2M）：
- 模型負責生成與目標人物說話風格相匹配的面部動作。
- 基於上下文學習模仿參考視頻中的說話風格，無需顯式的風格表示。
Flow Matching模型：
- 用在生成表達性面部動作的先進生成模型，預測數據點的速度場，指導數據點從簡單的先驗分佈向目標分佈移動。
- 在訓練中用條件流匹配（Conditional Flow Matching, CFM）目標，優化模型預測的準確性。
推理過程（Inference Process）：
- 在推理階段，MimicTalk用ICS-A2M模型和個性化渲染器生成高質量的說話人臉視頻。
- 推理過程涉及將音頻輸入與目標人物的參考視頻相結合，產生模仿特定說話風格的面部動作。
數據和訓練效率：MimicTalk的設計注重樣本效率和訓練效率，能在極短的時間內用少量數據完成新身份的適應。