AniTalker – 上海交大開源的對口型說話視頻生成框架

AI工具6個月前發佈新公告 AI管理員
6 0

AniTalker是什麼

AniTalker是由來自上海交大X-LANCE實驗室和思必馳AISpeech的研究人員推出的一個對口型說話視頻生成框架,能夠將單張靜態人像和輸入的音頻轉換成栩栩如生的動畫對話視頻。該框架通過自監督學習策略捕捉面部的複雜動態,包括微妙的表情和頭部動作。AniTalker利用通用運動表示和身份解耦技術,減少了對標記數據的依賴,同時結合擴散模型和方差適配器,生成多樣化和可控制的面部動畫,可實現類似阿里EMO和騰訊AniPortrait的效果。

AniTalker - 上海交大開源的對口型說話視頻生成框架

AniTalker的主要功能

  • 靜態肖像動畫化:AniTalker能夠將任何單張人臉肖像轉換成動態視頻,其中人物能夠進行說話和表情變化。
  • 音頻同步:該框架能夠將輸入的音頻與人物的脣動和語音節奏同步,實現自然的對話效果。
  • 面部動態捕捉:不僅僅是脣動同步,AniTalker還能模擬一系列複雜的面部表情和微妙的肌肉運動。
  • 多樣化動畫生成:利用擴散模型,AniTalker能夠生成具有隨機變化的多樣化面部動畫,增加了生成內容的自然性和不可預測性。
  • 實時面部動畫控制:用戶可以通過控制信號實時指導動畫的生成,包括但不限於頭部姿勢、面部表情和眼睛運動。
  • 語音驅動的動畫生成:框架支持直接使用語音信號來生成動畫,無需額外的視頻輸入。
  • 長視頻連續生成:AniTalker能夠連續生成長時間的動畫視頻,適用於長時間的對話或演講場景。

AniTalker - 上海交大開源的對口型說話視頻生成框架

AniTalker的官網入口

  • 官方項目主頁:https://x-lance.github.io/AniTalker/
  • GitHub源碼庫:https://github.com/X-LANCE/AniTalker
  • arXiv研究論文:https://arxiv.org/abs/2405.03121

AniTalker的工作原理

AniTalker - 上海交大開源的對口型說話視頻生成框架

  • 運動表示學習:AniTalker使用自監督學習方法來訓練一個能夠捕捉面部動態的通用運動編碼器。這個過程涉及到從視頻中選取源圖像和目標圖像,並通過重建目標圖像來學習運動信息。
  • 身份與運動解耦:爲了確保運動表示不包含身份特定的信息,AniTalker採用了度量學習和互信息最小化技術。度量學習幫助模型區分不同個體的身份信息,而互信息最小化確保運動編碼器專注於捕捉運動而非身份特徵。
  • 分層聚合層(HAL):引入HAL( Hierarchical Aggregation Layer)來增強運動編碼器對不同尺度運動變化的理解能力。HAL通過平均池化層和加權和層整合來自圖像編碼器不同階段的信息。
  • 運動生成:在訓練好運動編碼器之後,AniTalker可以基於用戶控制的驅動信號生成運動表示。這包括視頻驅動和語音驅動的管道。
    • 視頻驅動管道:使用驅動演講者的視頻序列來爲源圖像生成動畫,從而準確複製驅動姿勢和麪部表情。
    • 語音驅動管道:與視頻驅動不同,語音驅動方法根據語音信號或其他控制信號來生成視頻,與輸入的音頻同步。
  • 擴散模型和方差適配器:在語音驅動方法中,AniTalker使用擴散模型來生成運動潛在序列,並使用方差適配器引入屬性操作,從而產生多樣化和可控的面部動畫。
  • 渲染模塊:最後,使用圖像渲染器根據生成的運動潛在序列逐幀渲染最終的動畫視頻。
  • 訓練和優化:AniTalker的訓練過程包括多個損失函數,如重建損失、感知損失、對抗損失、互信息損失和身份度量學習損失,以優化模型性能。
  • 控制屬性特徵:AniTalker允許用戶控制頭部姿態和相機參數,如頭部位置和麪部大小,以生成具有特定屬性的動畫。

AniTalker的應用場景

  • 虛擬助手和客服:AniTalker可以生成逼真的虛擬面孔,用於虛擬助手或在線客服,提供更加自然和親切的交互體驗。
  • 電影和視頻製作:在電影后期製作中,AniTalker可以用來生成或編輯演員的面部表情和動作,尤其是在捕捉原始表演時無法實現的場景。
  • 遊戲開發:遊戲開發者可以利用AniTalker爲遊戲角色創建逼真的面部動畫,增強遊戲的沉浸感和角色的表現力。
  • 視頻會議:在視頻會議中,AniTalker可以爲參與者生成虛擬面孔,尤其是在需要保護隱私或增加趣味性的場合。
  • 社交媒體:用戶可以利用AniTalker創建個性化的虛擬形象,在社交媒體上進行交流和分享。
  • 新聞播報:AniTalker可以生成虛擬新聞主播,用於自動化新聞播報,尤其是在需要多語言播報時。
  • 廣告和營銷:企業可以利用AniTalker生成吸引人的虛擬角色,用於廣告宣傳或品牌代言。
© 版權聲明

相關文章

暫無評論

暫無評論...