JoyHallo – 京東推出音頻驅動視頻生成的數字人模型

AI工具11個月前發佈新公告 AI管理員

27 0 0

JoyHallo是什麼

JoyHallo 是京東開源的數字人模型，專爲普通話設計，能根據音頻生成逼真的說話視頻。特別適合處理普通話的複雜口型和語調，具有跨語言生成視頻的能力。JoyHallo 提供了一個開源的數據集和模型訓練方法，使用戶可以生成普通話和英語的說話人視頻。項目基於中文wav2vec2模型進行音頻特徵嵌入，採用半解耦結構來提升推理速度，提高了14.3%。

JoyHallo – 京東推出音頻驅動視頻生成的數字人模型

JoyHallo的主要功能

音頻驅動的視頻生成：JoyHallo 能根據音頻輸入生成對應的視頻，特別是普通話視頻。
跨語言生成能力：除普通話，JoyHallo 能生成英語視頻，顯示跨語言的視頻生成能力。
脣部同步：模型能精確地同步音頻與視頻中的脣部運動，提高視頻的真實感。
面部表情生成：根據音頻中的情感和語調生成相應的面部表情。

JoyHallo的技術原理

半解耦結構：用在提高音頻驅動視頻生成中脣部運動預測的準確性。通過集成然後分離關鍵的面部動畫組件，如脣部、表情和頭部姿態，實現更精確的建模。
特徵嵌入：用中國的 wav2vec2 模型嵌入音頻特徵，有助於模型更好地理解和生成與音頻同步的面部動作。
交叉注意力機制：在半解耦結構中，交叉注意力模塊處理集成的特徵，捕捉相關性。
卷積網絡：在解耦階段，用卷積網絡分離不同的特徵，使模型專注於每個特徵的特定細節。
數據集：JoyHallo 訓練基於 jdh-Hallo 數據集，一個包含多種年齡和說話風格的普通話視頻數據集，涵蓋日常對話和專業醫療話題。

JoyHallo的項目地址

項目官網：jdh-algo.github.io/JoyHallo
GitHub倉庫：https://github.com/jdh-algo/JoyHallo
HuggingFace模型庫：https://huggingface.co/jdh-algo/JoyHallo-v1
arXiv技術論文：https://arxiv.org/pdf/2409.13268

JoyHallo的應用場景

虛擬主播：在新聞播報、天氣預報、體育賽事解說等領域，JoyHallo 生成虛擬主播的視頻，提供24小時不間斷的節目製作。
在線教育：在語言學習、在線課程等領域，JoyHallo 生成教師的虛擬形象，提供更加生動的教學體驗。
客戶服務：在客戶服務領域，JoyHallo 生成虛擬客服代表，提供更加親切和專業的客戶服務。
娛樂產業：在電影、遊戲、動畫製作等領域，JoyHallo生成角色的面部動畫，提高製作效率和降低成本。
社交媒體：用戶用 JoyHallo 生成自己的虛擬形象，在社交媒體上發佈視頻內容，增加互動性和趣味性。
廣告製作：在廣告行業，JoyHallo 生成定製化的廣告視頻，提高廣告的吸引力和個性化程度。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Freepik Mystic – Magnific AI 聯合 Freepik 推出的全高清AI圖像生成器

earnbyshare2016

27 0

LATTE3D – 英偉達推出的快速生成3D對象的文本模型

earnbyshare2016

9 0

VideoAgent – 斯坦福聯合多所研究機構推出自改進的視頻生成系統

earnbyshare2016

4 0

Claude Dev – AI編程助手，基於Claude 3.5 Sonnet模型

earnbyshare2016

7 0

IterComp – 清北、牛津等多所高校聯合推出的文本到圖像生成框架

earnbyshare2016

9 0

teleportHQ – AI網站構建工具，低代碼設計與開發支持代碼導出

earnbyshare2016

6 0

暫無評論

暫無評論...