VASA-1 – 微軟推出的靜態照片對口型視頻生成框架

AI工具1年前 (2024)發佈新公告 AI管理員

22 0 0

VASA-1是什麼

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換爲對口型動態視頻的生成框架，能夠根據單張靜態人臉照片和一段語音音頻，實時生成逼真的3D說話面部動畫。該技術通過精確的脣音同步、豐富的面部表情細節和自然的頭部動作，創造出高度真實感和活力的虛擬角色。VASA-1的核心創新在於其全貌面部動態和頭部運動生成模型，該模型在面部潛在空間中工作，能夠高效地生成高分辨率的視頻，同時支持在線生成和低延遲。

VASA-1 - 微軟推出的靜態照片對口型視頻生成框架

VASA-1的功能特性

逼真的脣音同步：VASA-1能夠生成與輸入語音音頻精確同步的脣部動作，提供高度逼真的說話效果。
豐富的面部表情：除了脣部動作，VASA-1還能捕捉並再現一系列複雜的面部表情和微妙的情感細節，增加動畫的真實感。
自然頭部運動：模型能夠模擬自然的頭部動作，如轉動和傾斜，使得生成的說話面部視頻更加生動。
高效視頻生成：VASA-1支持在線生成高達40 FPS的512×512分辨率視頻，且具有極低的初始延遲，適合實時應用。
靈活可控生成：通過接受可選信號作爲條件，如主要目光方向、頭部距離和情感偏移，VASA-1能夠控制生成過程，提高輸出的多樣性和適應性。
處理不同輸入：VASA-1能夠處理訓練分佈之外的照片和音頻輸入，如藝術照片、歌唱音頻和非英語語音。

VASA-1的官網入口

官方項目主頁：https://www.microsoft.com/en-us/research/project/vasa-1/
arXiv研究論文：https://arxiv.org/abs/2404.10667

VASA-1的工作原理

VASA-1 - 微軟推出的靜態照片對口型視頻生成框架

輸入準備：VASA-1接受兩個主要輸入：一張任意個體的靜態面部圖像和一個來自任何個人的語音音頻剪輯。
面部特徵提取：使用面部編碼器從輸入的靜態面部圖像中提取3D外觀體積、身份代碼、頭部姿態和麪部動態代碼等特徵。
面部潛在空間建模：構建一個面部潛在空間，該空間能夠高度解耦面部動態和其他因素（如身份和外觀），並具有豐富的表情細節和動態細微差別的表達能力。
擴散模型訓練：訓練一個基於擴散的模型（Diffusion Transformer），該模型能夠在面部潛在空間中生成全面的面部動態和頭部運動，條件是給定的音頻和可選的控制信號。
條件信號整合：將主要目光方向、頭部距離和情感偏移等控制信號作爲條件，輸入到擴散模型中，以指導面部動態的生成。
面部動態和頭部運動生成：利用訓練好的擴散模型，根據輸入的音頻特徵和條件信號，生成面部動態和頭部運動的潛在代碼序列。
視頻幀生成：使用面部解碼器和從編碼器中提取的外觀及身份特徵，根據生成的面部動態和頭部運動潛在代碼，產生最終的視頻幀。