UniTalker – 商湯推出的音頻驅動3D面部動畫生成模型

AI項目和框架3個月前發佈新公告 AI管理員
1 0

UniTalker是什麼

UniTalker是推出的音頻驅動3D面部動畫生成模型,能根據輸入的音頻生成逼真的面部動作。採用統一的多頭架構模型,用帶有不同標註的數據集,支持多語言和多種音頻類型的處理,包括語音和歌曲。不管是清晰的人聲,還是帶點噪音的歌聲,UniTalker 都處理得很好。UniTalker可以同時給多個角色生成面部動作,不需要重新設計,非常靈活方便。

UniTalker – 商湯推出的音頻驅動3D面部動畫生成模型

UniTalker的主要功能

  • 音頻驅動3D面部動畫:UniTalker根據輸入的音頻生成逼真的3D面部動作,虛擬角色面部表情和口型能與聲音同步。
  • 支持多語言和多音頻:能處理不同語言的語音和不同類型的音頻文件,UniTalker在國際化的應用場景尤爲有用。
  • 統一模型架構:UniTalker採用統一的多頭架構模型,可以在一個框架內同時處理多種不同的數據集和註釋類型,提高了模型的通用性和靈活性。
  • 訓練穩定性和一致性:採用主成分分析(PCA)、模型預熱和樞紐身份嵌入等訓練策略,UniTalker在訓練過程中展現出更好的穩定性,並確保了多頭輸出之間的一致性。

UniTalker的技術原理

  • 多頭架構模型:UniTalker採用統一的多頭架構設計,基於不同標註的數據集訓練,處理各種3D面部動畫的需求。
  • 訓練策略:爲了提高訓練的穩定性並確保多頭輸出的一致性,UniTalker採用了三種訓練策略,包括主成分分析(PCA)、模型預熱和樞紐身份嵌入。
  • 大規模數據集:研究團隊構建了A2F-Bench,基準測試包含了五個公開可用的數據集和三個新編纂的數據集,擴大了訓練數據的規模和多樣性,覆蓋了多語言語音和歌曲。
  • 音頻編碼器:UniTalker用音頻編碼器將輸入的音頻轉換成上下文化的音頻特徵,爲後續的面部動作生成提供基礎。

UniTalker – 商湯推出的音頻驅動3D面部動畫生成模型

UniTalker的項目地址

  • 項目官網:https://x-niper.github.io/projects/UniTalker/
  • Github庫:https://github.com/X-niper/UniTalker
  • arXiv技術論文:https://arxiv.org/pdf/2408.00762

UniTalker的應用場景

  • 動畫製作:UniTalker可以根據輸入的音頻生成逼真的3D面部動作,爲動畫角色創建豐富的表情和口型。
  • 虛擬現實(VR):在虛擬現實環境中,UniTalker可以根據語音指令生成相應的面部動作,提升沉浸式體驗。
  • 遊戲開發:UniTalker可以爲遊戲中的非玩家角色(NPC)生成自然的面部表情和動作,增強遊戲的互動性和真實感。
  • 語言學習:UniTalker能生成特定語言的口型和表情,幫助學習者模仿發音和表情,提高語言學習效果。
  • 多語言支持:UniTalker支持多種語言的音頻輸入,處理包括中文在內的多語言語音,適用於國際化的場景。
© 版權聲明

相關文章

暫無評論

暫無評論...