TANGO是什麼
TANGO 是一個由東京大學和 CyberAgent AI Lab 共同推出的開源框架,專注於生成與目標語音同步的全身手勢視頻。基於分層音頻運動嵌入和擴散插值網絡,將目標語音音頻與參考視頻庫中的動作完美匹配,確保製作出高保真度、動作同步的視頻。TANGO 技術突破極大地降低視頻內容製作的成本,包含新聞播報、虛擬人解說和虛擬 YouTube 內容創作等領域,爲用戶提供一種高效且經濟的解決方案。
TANGO的主要功能
- 語音驅動的全身手勢生成:根據目標語音音頻生成與之同步的全身手勢視頻。
- 高保真視頻製作:確保生成的視頻具有高保真度,動作自然且與語音內容精確匹配。
- 跨模態對齊:基於分層音頻運動嵌入技術,實現音頻信號與視頻動作之間的精準對齊。
- 過渡幀生成:用擴散插值網絡生成高質量的過渡幀,確保視頻動作的連貫性。
- 外觀一致性保持:在生成的視頻中保持與參考視頻相同的人物外觀和背景,避免視覺不一致的問題。
TANGO的技術原理
- 分層音頻運動嵌入(AuMoCLIP):隱式的層次化音頻-動作聯合嵌入空間,用在編碼配對的音頻和動作數據。基於對比學習,將語音音頻和動作數據映射到一個共同的潛在空間中,讓匹配的音頻和動作在空間中的距離更近,實現精準的動作檢索。
- 擴散插值網絡(ACInterp):網絡基於現有的視頻生成擴散模型,用在生成高質量的過渡幀。包括一個參考運動模塊和單應背景流,保持生成視頻與參考視頻間的外觀一致性。有效消除傳統基於流的插值方法中常見的模糊和重影僞影。
- 動作圖檢索方法:TANGO基於學習的方法,而非簡單的音頻起始特徵和關鍵詞匹配,檢索與目標語音音頻最匹配的動作路徑。能更好地處理不同說話者的動作與音頻起始不同步的情況,及參考視頻中缺少特定關鍵詞的問題。
- 圖結構:TANGO用有向圖結構來表示視頻幀(節點)和之間有效的轉換(邊)。給定目標音頻,系統提取時間特徵,用時間特徵檢索視頻播放路徑的一個子集。當原始參考視頻中不存在轉換邊時,用ACInterp生成平滑的過渡幀。
TANGO的項目地址
- 項目官網:pantomatrix.github.io/TANGO
- arXiv技術論文:https://arxiv.org/pdf/2410.04221
- 在線體驗Demo:https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO的應用場景
- 新聞廣播:生成與新聞稿同步的全身手勢視頻,提高新聞播報的自然度和觀衆的觀看體驗。
- 虛擬YouTuber:爲虛擬YouTuber創建與語音同步的全身動作視頻,增強粉絲的互動和參與感。
- 在線教育:製作教育內容時,基於TANGO生成教師的全身手勢視頻,讓遠程教學更加生動和有效。
- 企業培訓:在企業培訓視頻中加入與講解同步的手勢,提高學習材料的吸引力和信息的傳達效率。
- 視頻會議:在視頻會議中,用TANGO生成的手勢視頻提升參與者的交流體驗,尤其是在遠程協作時。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...