UniTalker – 商湯推出的音頻驅動3D面部動畫生成模型

4 0 0

UniTalker是什麼

UniTalker是推出的音頻驅動3D面部動畫生成模型，能根據輸入的音頻生成逼真的面部動作。採用統一的多頭架構模型，用帶有不同標註的數據集，支持多語言和多種音頻類型的處理，包括語音和歌曲。不管是清晰的人聲，還是帶點噪音的歌聲，UniTalker 都處理得很好。UniTalker可以同時給多個角色生成面部動作，不需要重新設計，非常靈活方便。

UniTalker的主要功能

音頻驅動3D面部動畫：UniTalker根據輸入的音頻生成逼真的3D面部動作，虛擬角色面部表情和口型能與聲音同步。
支持多語言和多音頻：能處理不同語言的語音和不同類型的音頻文件，UniTalker在國際化的應用場景尤爲有用。
統一模型架構：UniTalker採用統一的多頭架構模型，可以在一個框架內同時處理多種不同的數據集和註釋類型，提高了模型的通用性和靈活性。
訓練穩定性和一致性：採用主成分分析（PCA）、模型預熱和樞紐身份嵌入等訓練策略，UniTalker在訓練過程中展現出更好的穩定性，並確保了多頭輸出之間的一致性。

UniTalker的技術原理

多頭架構模型：UniTalker採用統一的多頭架構設計，基於不同標註的數據集訓練，處理各種3D面部動畫的需求。
訓練策略：爲了提高訓練的穩定性並確保多頭輸出的一致性，UniTalker採用了三種訓練策略，包括主成分分析（PCA）、模型預熱和樞紐身份嵌入。
大規模數據集：研究團隊構建了A2F-Bench，基準測試包含了五個公開可用的數據集和三個新編纂的數據集，擴大了訓練數據的規模和多樣性，覆蓋了多語言語音和歌曲。
音頻編碼器：UniTalker用音頻編碼器將輸入的音頻轉換成上下文化的音頻特徵，爲後續的面部動作生成提供基礎。

UniTalker – 商湯推出的音頻驅動3D面部動畫生成模型