VLOGGER – 谷歌推出的圖像到合成人物動態視頻的模型

AI工具1年前 (2024)發佈新公告 AI管理員

5 0 0

VLOGGER是什麼

VLOGGER AI是谷歌的研究團隊開發的一個多模態擴散模型，專門用於從單一輸入圖像和音頻樣本生成逼真的、連貫的人像動態視頻。該模型的主要功能在於使用人工智能模型，將一張靜態圖片轉換成一個動態的視頻角色，同時保持照片中人物的逼真外觀。此外，VLOGGER還能夠根據音頻來控制人物動作，不僅僅是面部動作和嘴脣同步，還包括頭部運動、目光、眨眼以及上身和手部手勢，從而將音頻驅動的視頻合成推向了一個新的高度。

VLOGGER - 谷歌推出的圖像到合成人物動態視頻的模型

VLOGGER的官網入口

官方項目主頁：https://enriccorona.github.io/vlogger/
arXiv研究論文：https://arxiv.org/abs/2403.08764v1

VLOGGER的功能特性

圖像和音頻驅動的視頻生成： VLOGGER能夠根據單張人物圖像和相應的音頻輸入生成說話人類的視頻。用戶只需提供一張圖片和一段音頻，VLOGGER將生成一個視頻中的人物，其面部表情、嘴脣動作和身體語言與音頻同步。
多樣性和真實性： VLOGGER生成的視頻具有高度的多樣性，能夠展示原始主體的不同動作和表情，同時保持背景的一致性和視頻的真實性。
視頻編輯： VLOGGER可以用於編輯現有視頻，例如改變視頻中人物的表情，使其與原始視頻的未改變像素保持一致。
生成移動和說話的人物： VLOGGER可以從單張輸入圖像和驅動音頻生成說話面部的視頻，即使沒有視頻中人物的原始視頻資料。
視頻翻譯： VLOGGER能夠將一種語言的視頻轉換爲另一種語言的視頻，通過編輯脣部和麪部區域以匹配新的音頻，實現跨語言的視頻內容適配。

VLOGGER的工作原理

VLOGGER的工作原理主要基於一個兩階段的流程，結合了音頻驅動的運動生成和時間連貫的視頻生成。

VLOGGER - 谷歌推出的圖像到合成人物動態視頻的模型

第一階段：音頻驅動的運動生成

音頻處理：VLOGGER首先接收一段音頻輸入，這可以是語音或音樂。如果輸入是文本，它也會通過文本到語音（TTS）模型轉換爲音頻波形。
3D運動預測：接着，系統使用一個基於變換器（Transformer）架構的網絡來處理音頻輸入。這個網絡被訓練來預測與音頻同步的3D面部表情和身體姿勢。網絡使用多步注意力層來捕捉音頻的時間特徵，並生成一系列的3D姿勢參數。
生成控制表示：網絡輸出的是一系列預測的面部表情（θe i）和身體姿勢的殘差（∆θb i）。這些參數隨後用於生成控制視頻生成過程的2D表示。

第二階段：時間連貫的視頻生成

視頻生成模型：VLOGGER的第二個階段是一個時間擴散模型，它接收第一階段生成的3D運動控制和一張參考圖像（即輸入的單一人物圖像）。
條件化視頻生成：視頻生成模型是一個基於擴散的圖像到圖像翻譯模型，它利用預測的2D控制來生成一系列幀，這些幀按照輸入的音頻和3D運動參數進行動畫處理。
超分辨率：爲了提高視頻質量，VLOGGER還包括一個超分辨率擴散模型，它將基礎視頻的分辨率從128×128提升到更高的分辨率，如256×256或512×512。
時間外延：VLOGGER使用時間外延（temporal outpainting）的技術來生成任意長度的視頻。它首先生成一定數量的幀，然後基於前一幀的信息迭代地生成新的幀，從而擴展視頻的長度。