Loopy – 字節跳動推出的音頻驅動的AI視頻生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

95 0 0

Loopy是什麼

Loopy是字節跳動推出的音頻驅動的AI視頻生成模型，用戶可以讓一張靜態照片動起來，照片中的人物根據給定的音頻文件進行面部表情和頭部動作的同步，生成逼真的動態視頻。Loopy基於先進的擴散模型技術，無需額外的空間信號或條件，捕捉並學習長期運動信息，生成自然流暢的動作，適用於娛樂、教育等多種場景。

Loopy – 字節跳動推出的音頻驅動的AI視頻生成模型

Loopy的主要功能

音頻驅動： Loopy使用音頻文件作爲輸入，自動生成與音頻同步的動態視頻。
面部動作生成： 生成包括嘴型、眉毛、眼睛等面部部位的自然動作，使靜態圖像看起來像是在說話。
無需額外條件： 與一些需要額外空間信號或條件的類似技術不同，Loopy不需要輔助信息，可以獨立生成視頻。
長期運動信息捕捉： Loopy具備處理長期運動信息的能力，生成更加自然和流暢的動作。
多樣化的輸出： 支持生成多樣化的動作效果，根據輸入的音頻特性，如情感、節奏等，生成相應的面部表情和頭部動作。

Loopy的技術原理

音頻驅動模型：Loopy的核心是音頻驅動的視頻生成模型，根據輸入的音頻信號生成與音頻同步的動態視頻。
擴散模型：Loopy使用擴散模型技術，通過逐步引入噪聲並學習逆向過程來生成數據。
時間模塊：Loopy設計了跨片段和片段內部的時間模塊，模型能理解和利用長期運動信息，生成更加自然和連貫的動作。
音頻到潛空間的轉換：Loopy通過音頻到潛空間的模塊將音頻信號轉換成能夠驅動面部動作的潛在表示。
運動生成：從音頻中提取的特徵和長期運動信息，Loopy生成相應的面部動作，如嘴型、眉毛、眼睛等部位的動態變化。

Loopy的項目地址

項目官網：https://loopyavatar.github.io/
arXiv技術論文：https://arxiv.org/pdf/2409.02634

Loopy的應用場景

社交媒體和娛樂：給社交媒體上的照片或視頻添加動態效果，增加互動性和娛樂性。
電影和視頻製作：創造特效，讓歷史人物“復活”。
遊戲開發：爲遊戲中的非玩家角色（NPC）生成更自然和逼真的面部表情和動作。
VR和AR：在VR或AR體驗中，生成更加真實和沉浸式的虛擬角色。
教育和培訓：製作教育視頻，模擬歷史人物的演講或重現科學實驗過程。
廣告和營銷：創造吸引人的廣告內容，提高廣告的吸引力和記憶度。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

VoxInstruct – 清華推出的開源語音合成技術，支持多語言和跨語言合成

earnbyshare2016

12 0

Parler-TTS – Hugging Face開源的文本轉語音模型

earnbyshare2016

4 0

SFR-RAG – 專注於上下文理解和檢索增強生成的語言模型

earnbyshare2016

1 0

DiT – 基於Transfomer架構的擴散模型

earnbyshare2016

8 0

新Mureka V9 – 崑崙萬維推出的最新AI音樂模型

earnbyshare2016

0 0

新Suno v5.5 – Suno推出的 AI 音樂生成模型

earnbyshare2016

0 0

暫無評論

暫無評論...