EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

AI項目和框架1年前 (2024)發佈新公告 AI管理員

2 0 0

EmoTalk3D是什麼

EmoTalk3D是華爲諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在於能合成具有豐富情感表達的3D會說話頭像。EmoTalk3D能捕捉和再現人類在說話時的脣部動作、面部表情，甚至是更微妙的情感細節，如皺紋和其他面部微動。EmoTalk3D通過一個名爲“Speech-to-Geometry-to-Appearance”的映射框架，實現了從音頻特徵到3D幾何序列的預測，再到3D頭像外觀的合成。

EmoTalk3D的主要功能

情感表達合成：能根據輸入的音頻信號合成具有相應情感表達的3D頭像動畫，包括不限於喜悅、悲傷、憤怒等多種情感狀態。
脣部同步：高度準確的脣部運動與語音同步，3D頭像在說話時脣部動作與實際發音相匹配。
多視角渲染：支持從不同角度渲染3D頭像，確保在不同視角下觀看時都能保持高質量和一致性。
動態細節捕捉：能捕捉並再現說話時的面部微表情和動態細節，如皺紋、微妙的表情變化等。
可控情感渲染：用戶可根據需要控制3D頭像的情感表達，實現情感的實時調整和控制。
高保真度：通過先進的渲染技術，EmoTalk3D能生成高分辨率、高真實感的3D頭像。

EmoTalk3D的技術原理

數據集建立（EmoTalk3D Dataset）：收集了多視角視頻數據，包括情感標註和每幀的3D面部幾何信息。數據集來源於多個受試者，每個受試者在不同情感狀態下錄製了多視角視頻。
音頻特徵提取：使用預訓練的HuBERT模型作爲音頻編碼器，將輸入語音轉換爲音頻特徵。通過情感提取器從音頻特徵中提取情感標籤。
Speech-to-Geometry Network (S2GNet)：將音頻特徵和情感標籤作爲輸入，預測動態的3D點雲序列。基於門控循環單元（GRU）作爲核心架構，生成4D網格序列。
3D幾何到外觀的映射（Geometry-to-Appearance）：基於預測的4D點雲，使用Geometry-to-Appearance Network (G2ANet)合成3D頭像的外觀。將外觀分解爲規範高斯（靜態外觀）和動態高斯（由面部運動引起的皺紋、陰影等）。
4D高斯模型：使用3D高斯Splatting技術來表示3D頭像的外觀。每個3D高斯由位置、尺度、旋轉和透明度等參數化表示。
動態細節合成：通過FeatureNet和RotationNet網絡預測動態細節，如皺紋和微妙的表情變化。
頭部完整性：對於非面部區域（如頭髮、頸部和肩部），使用優化算法從均勻分佈的點開始構建。
渲染模塊：將動態高斯和規範高斯融合，渲染出具有自由視角的3D頭像動畫。
情感控制：通過情感標籤的人工設置和時間序列的變化，控制生成頭像的情感表達。