VLOGGER是什麼
VLOGGER AI是谷歌的研究團隊開發的一個多模態擴散模型,專門用於從單一輸入圖像和音頻樣本生成逼真的、連貫的人像動態視頻。該模型的主要功能在於使用人工智能模型,將一張靜態圖片轉換成一個動態的視頻角色,同時保持照片中人物的逼真外觀。此外,VLOGGER還能夠根據音頻來控制人物動作,不僅僅是面部動作和嘴脣同步,還包括頭部運動、目光、眨眼以及上身和手部手勢,從而將音頻驅動的視頻合成推向了一個新的高度。
VLOGGER的官網入口
- 官方項目主頁:https://enriccorona.github.io/vlogger/
- arXiv研究論文:https://arxiv.org/abs/2403.08764v1
VLOGGER的功能特性
- 圖像和音頻驅動的視頻生成: VLOGGER能夠根據單張人物圖像和相應的音頻輸入生成說話人類的視頻。用戶只需提供一張圖片和一段音頻,VLOGGER將生成一個視頻中的人物,其面部表情、嘴脣動作和身體語言與音頻同步。
- 多樣性和真實性: VLOGGER生成的視頻具有高度的多樣性,能夠展示原始主體的不同動作和表情,同時保持背景的一致性和視頻的真實性。
- 視頻編輯: VLOGGER可以用於編輯現有視頻,例如改變視頻中人物的表情,使其與原始視頻的未改變像素保持一致。
- 生成移動和說話的人物: VLOGGER可以從單張輸入圖像和驅動音頻生成說話面部的視頻,即使沒有視頻中人物的原始視頻資料。
- 視頻翻譯: VLOGGER能夠將一種語言的視頻轉換爲另一種語言的視頻,通過編輯脣部和麪部區域以匹配新的音頻,實現跨語言的視頻內容適配。
VLOGGER的工作原理
VLOGGER的工作原理主要基於一個兩階段的流程,結合了音頻驅動的運動生成和時間連貫的視頻生成。
第一階段:音頻驅動的運動生成
- 音頻處理:VLOGGER首先接收一段音頻輸入,這可以是語音或音樂。如果輸入是文本,它也會通過文本到語音(TTS)模型轉換爲音頻波形。
- 3D運動預測:接着,系統使用一個基於變換器(Transformer)架構的網絡來處理音頻輸入。這個網絡被訓練來預測與音頻同步的3D面部表情和身體姿勢。網絡使用多步注意力層來捕捉音頻的時間特徵,並生成一系列的3D姿勢參數。
- 生成控制表示:網絡輸出的是一系列預測的面部表情(θe i)和身體姿勢的殘差(∆θb i)。這些參數隨後用於生成控制視頻生成過程的2D表示。
第二階段:時間連貫的視頻生成
- 視頻生成模型:VLOGGER的第二個階段是一個時間擴散模型,它接收第一階段生成的3D運動控制和一張參考圖像(即輸入的單一人物圖像)。
- 條件化視頻生成:視頻生成模型是一個基於擴散的圖像到圖像翻譯模型,它利用預測的2D控制來生成一系列幀,這些幀按照輸入的音頻和3D運動參數進行動畫處理。
- 超分辨率:爲了提高視頻質量,VLOGGER還包括一個超分辨率擴散模型,它將基礎視頻的分辨率從128×128提升到更高的分辨率,如256×256或512×512。
- 時間外延:VLOGGER使用時間外延(temporal outpainting)的技術來生成任意長度的視頻。它首先生成一定數量的幀,然後基於前一幀的信息迭代地生成新的幀,從而擴展視頻的長度。
數據集和訓練
- VLOGGER在名爲MENTOR的大規模數據集(2200個小時和800000個身份)上進行訓練,這是一個包含大量身份和動態手勢的大規模數據集。訓練過程中,模型學習如何根據3D姿勢參數和輸入圖像生成連貫的、高質量的視頻序列。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...