EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

AI項目和框架1個月前發佈新公告 AI管理員
0 0

EmoTalk3D是什麼

EmoTalk3D是華爲諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在於能合成具有豐富情感表達的3D會說話頭像。EmoTalk3D能捕捉和再現人類在說話時的脣部動作、面部表情,甚至是更微妙的情感細節,如皺紋和其他面部微動。EmoTalk3D通過一個名爲“Speech-to-Geometry-to-Appearance”的映射框架,實現了從音頻特徵到3D幾何序列的預測,再到3D頭像外觀的合成。

EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

EmoTalk3D的主要功能

  • 情感表達合成:能根據輸入的音頻信號合成具有相應情感表達的3D頭像動畫,包括不限於喜悅、悲傷、憤怒等多種情感狀態。
  • 脣部同步:高度準確的脣部運動與語音同步,3D頭像在說話時脣部動作與實際發音相匹配。
  • 多視角渲染:支持從不同角度渲染3D頭像,確保在不同視角下觀看時都能保持高質量和一致性。
  • 動態細節捕捉:能捕捉並再現說話時的面部微表情和動態細節,如皺紋、微妙的表情變化等。
  • 可控情感渲染:用戶可根據需要控制3D頭像的情感表達,實現情感的實時調整和控制。
  • 高保真度:通過先進的渲染技術,EmoTalk3D能生成高分辨率、高真實感的3D頭像。

EmoTalk3D的技術原理

  • 數據集建立(EmoTalk3D Dataset)收集了多視角視頻數據,包括情感標註和每幀的3D面部幾何信息。數據集來源於多個受試者,每個受試者在不同情感狀態下錄製了多視角視頻。
  • 音頻特徵提取使用預訓練的HuBERT模型作爲音頻編碼器,將輸入語音轉換爲音頻特徵。通過情感提取器從音頻特徵中提取情感標籤。
  • Speech-to-Geometry Network (S2GNet)將音頻特徵和情感標籤作爲輸入,預測動態的3D點雲序列。基於門控循環單元(GRU)作爲核心架構,生成4D網格序列。
  • 3D幾何到外觀的映射(Geometry-to-Appearance)基於預測的4D點雲,使用Geometry-to-Appearance Network (G2ANet)合成3D頭像的外觀。將外觀分解爲規範高斯(靜態外觀)和動態高斯(由面部運動引起的皺紋、陰影等)。
  • 4D高斯模型使用3D高斯Splatting技術來表示3D頭像的外觀。每個3D高斯由位置、尺度、旋轉和透明度等參數化表示。
  • 動態細節合成通過FeatureNet和RotationNet網絡預測動態細節,如皺紋和微妙的表情變化。
  • 頭部完整性對於非面部區域(如頭髮、頸部和肩部),使用優化算法從均勻分佈的點開始構建。
  • 渲染模塊將動態高斯和規範高斯融合,渲染出具有自由視角的3D頭像動畫。
  • 情感控制通過情感標籤的人工設置和時間序列的變化,控制生成頭像的情感表達。

EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

EmoTalk3D的項目地址

  • 項目官網:https://nju3dv.github.io/projects/EmoTalk3D
  • arXiv技術論文:https://arxiv.org/abs/2408.00297

EmoTalk3D的應用場景

  • 虛擬助手和客服:作爲智能客服或虛擬助手的角色,提供更加自然和情感豐富的交互體驗。
  • 電影和視頻製作:在電影、電視和視頻遊戲中生成逼真的角色和動畫,提高視覺體驗。
  • 虛擬現實(VR)和增強現實(AR):在VR和AR應用中提供沉浸式體驗,與用戶進行更真實的互動。
  • 社交媒體和直播:用戶可用EmoTalk3D創建和自定義自己的3D形象,在社交媒體平台或直播中。
  • 廣告和市場營銷:創建吸引人的3D角色,用於廣告宣傳或品牌推廣。
© 版權聲明

相關文章

暫無評論

暫無評論...