JoyHallo – 京東推出音頻驅動視頻生成的數字人模型

AI工具2個月前發佈新公告 AI管理員
4 0

JoyHallo是什麼

JoyHallo 是京東開源的數字人模型,專爲普通話設計,能根據音頻生成逼真的說話視頻。特別適合處理普通話的複雜口型和語調,具有跨語言生成視頻的能力。JoyHallo 提供了一個開源的數據集和模型訓練方法,使用戶可以生成普通話和英語的說話人視頻。項目基於中文wav2vec2模型進行音頻特徵嵌入,採用半解耦結構來提升推理速度,提高了14.3%。

JoyHallo – 京東推出音頻驅動視頻生成的數字人模型

JoyHallo的主要功能

  • 音頻驅動的視頻生成:JoyHallo 能根據音頻輸入生成對應的視頻,特別是普通話視頻。
  • 跨語言生成能力:除普通話,JoyHallo 能生成英語視頻,顯示跨語言的視頻生成能力。
  • 脣部同步:模型能精確地同步音頻與視頻中的脣部運動,提高視頻的真實感。
  • 面部表情生成:根據音頻中的情感和語調生成相應的面部表情。

JoyHallo的技術原理

  • 半解耦結構:用在提高音頻驅動視頻生成中脣部運動預測的準確性。通過集成然後分離關鍵的面部動畫組件,如脣部、表情和頭部姿態,實現更精確的建模。
  • 特徵嵌入:用中國的 wav2vec2 模型嵌入音頻特徵,有助於模型更好地理解和生成與音頻同步的面部動作。
  • 交叉注意力機制:在半解耦結構中,交叉注意力模塊處理集成的特徵,捕捉相關性。
  • 卷積網絡:在解耦階段,用卷積網絡分離不同的特徵,使模型專注於每個特徵的特定細節。
  • 數據集:JoyHallo 訓練基於 jdh-Hallo 數據集,一個包含多種年齡和說話風格的普通話視頻數據集,涵蓋日常對話和專業醫療話題。

JoyHallo的項目地址

  • 項目官網:jdh-algo.github.io/JoyHallo
  • GitHub倉庫:https://github.com/jdh-algo/JoyHallo
  • HuggingFace模型庫:https://huggingface.co/jdh-algo/JoyHallo-v1
  • arXiv技術論文:https://arxiv.org/pdf/2409.13268

JoyHallo的應用場景

  • 虛擬主播:在新聞播報、天氣預報、體育賽事解說等領域,JoyHallo 生成虛擬主播的視頻,提供24小時不間斷的節目製作。
  • 在線教育:在語言學習、在線課程等領域,JoyHallo 生成教師的虛擬形象,提供更加生動的教學體驗。
  • 客戶服務:在客戶服務領域,JoyHallo 生成虛擬客服代表,提供更加親切和專業的客戶服務。
  • 娛樂產業:在電影、遊戲、動畫製作等領域,JoyHallo生成角色的面部動畫,提高製作效率和降低成本。
  • 社交媒體:用戶用 JoyHallo 生成自己的虛擬形象,在社交媒體上發佈視頻內容,增加互動性和趣味性。
  • 廣告製作:在廣告行業,JoyHallo 生成定製化的廣告視頻,提高廣告的吸引力和個性化程度。
© 版權聲明

相關文章

暫無評論

暫無評論...