Loopy – 字節跳動推出的音頻驅動的AI視頻生成模型

AI工具2個月前發佈新公告 AI管理員
0 0

Loopy是什麼

Loopy是字節跳動推出的音頻驅動的AI視頻生成模型,用戶可以讓一張靜態照片動起來,照片中的人物根據給定的音頻文件進行面部表情和頭部動作的同步,生成逼真的動態視頻。Loopy基於先進的擴散模型技術,無需額外的空間信號或條件,捕捉並學習長期運動信息,生成自然流暢的動作,適用於娛樂、教育等多種場景。

Loopy – 字節跳動推出的音頻驅動的AI視頻生成模型

Loopy的主要功能

  • 音頻驅動: Loopy使用音頻文件作爲輸入,自動生成與音頻同步的動態視頻。
  • 面部動作生成: 生成包括嘴型、眉毛、眼睛等面部部位的自然動作,使靜態圖像看起來像是在說話。
  • 無需額外條件: 與一些需要額外空間信號或條件的類似技術不同,Loopy不需要輔助信息,可以獨立生成視頻。
  • 長期運動信息捕捉: Loopy具備處理長期運動信息的能力,生成更加自然和流暢的動作。
  • 多樣化的輸出: 支持生成多樣化的動作效果,根據輸入的音頻特性,如情感、節奏等,生成相應的面部表情和頭部動作。

Loopy的技術原理

  • 音頻驅動模型:Loopy的核心是音頻驅動的視頻生成模型,根據輸入的音頻信號生成與音頻同步的動態視頻。
  • 擴散模型:Loopy使用擴散模型技術,通過逐步引入噪聲並學習逆向過程來生成數據。
  • 時間模塊:Loopy設計了跨片段和片段內部的時間模塊,模型能理解和利用長期運動信息,生成更加自然和連貫的動作。
  • 音頻到潛空間的轉換:Loopy通過音頻到潛空間的模塊將音頻信號轉換成能夠驅動面部動作的潛在表示。
  • 運動生成:從音頻中提取的特徵和長期運動信息,Loopy生成相應的面部動作,如嘴型、眉毛、眼睛等部位的動態變化。

Loopy的項目地址

  • 項目官網:https://loopyavatar.github.io/
  • arXiv技術論文:https://arxiv.org/pdf/2409.02634

Loopy的應用場景

  • 社交媒體和娛樂:給社交媒體上的照片或視頻添加動態效果,增加互動性和娛樂性。
  • 電影和視頻製作:創造特效,讓歷史人物“復活”。
  • 遊戲開發:爲遊戲中的非玩家角色(NPC)生成更自然和逼真的面部表情和動作。
  • VR和AR:在VR或AR體驗中,生成更加真實和沉浸式的虛擬角色。
  • 教育和培訓:製作教育視頻,模擬歷史人物的演講或重現科學實驗過程。
  • 廣告和營銷:創造吸引人的廣告內容,提高廣告的吸引力和記憶度。
© 版權聲明

相關文章

暫無評論

暫無評論...