AniPortrait – 騰訊開源的照片對口型視頻生成框架

AI工具1年前 (2024)發佈新公告 AI管理員

34 0 0

AniPortrait是什麼

AniPortrait是一個由騰訊開源的照片對口型視頻生成框架，類似於此前阿里推出的EMO，能夠通過音頻和一張參考肖像圖片生成高質量的動畫。AniPortrait的工作原理分爲兩個階段：首先從音頻中提取3D面部特徵，並將其轉換爲2D面部標記點；然後，利用擴散模型和運動模塊，將這些標記點轉換成連貫且逼真的動畫。該框架的優勢在於其生成的動畫具有高度的自然性和多樣性，同時提供了編輯和再現面部動作的靈活性。

AniPortrait - 騰訊開源的照片對口型視頻生成框架

AniPortrait的官網入口

GitHub代碼庫：https://github.com/Zejun-Yang/AniPortrait
arXiv研究論文：https://arxiv.org/abs/2403.17694
Hugging Face模型：https://huggingface.co/ZJYang/AniPortrait/tree/main
Hugging Face Demo：https://huggingface.co/spaces/ZJYang/AniPortrait_official

AniPortrait的功能特性

音頻驅動的動畫生成：AniPortrait能夠根據輸入的音頻文件自動生成與語音同步的面部動畫，包括嘴脣的運動、面部表情和頭部姿勢。
高質量的視覺效果：通過使用擴散模型和運動模塊，AniPortrait能夠產生高分辨率、視覺上逼真的肖像動畫，提供出色的視覺體驗。
時間一致性：該框架確保動畫在時間上的連貫性，使得動畫中的角色動作流暢自然，沒有突兀的跳躍或不一致。
靈活性和可控性：利用3D面部表示作爲中間特徵，AniPortrait提供了對動畫編輯的靈活性，允許用戶對生成的動畫進行進一步的定製和調整。
面部表情和嘴脣動作的精確捕捉：通過改進的PoseGuider模塊和多尺度策略，AniPortrait能夠精確捕捉和再現嘴脣的微妙動作和複雜的面部表情。
與參考圖像的一致性：框架通過整合參考圖像的外觀信息，確保生成的動畫在視覺上與原始肖像保持一致，避免了身份不匹配的問題。

AniPortrait的工作機制

AniPortrait主要由兩個模塊組成：Audio2Lmk和Lmk2Video。

AniPortrait - 騰訊開源的照片對口型視頻生成框架

1. Audio2Lmk模塊（音頻到2D面部標記點）

Audio2Lmk模塊的目標是從音頻輸入中提取一系列面部表情和嘴脣動作的3D面部網格和頭部姿勢信息。首先，使用預訓練的wav2vec模型來提取音頻特徵，這個模型能夠準確識別音頻中的發音和語調，對於生成逼真的面部動畫至關重要。然後，利用這些音頻特徵，通過兩個全連接層轉換成3D面部網格。對於頭部姿勢的預測，也使用wav2vec網絡作爲骨幹，但不共享權重，因爲姿勢與音頻中的節奏和語調更爲相關。此外，使用變壓器解碼器來解碼姿勢序列，並通過交叉注意力機制將音頻特徵整合到解碼器中。最終，通過透視投影將3D網格和姿勢信息轉換爲2D面部標記點序列。

2. Lmk2Video模塊（2D面部標記點到視頻）

Lmk2Video模塊負責根據參考肖像圖像和一系列面部標記點生成時間上一致的高質量肖像視頻，參考了AnimateAnyone的網絡架構作爲靈感來源，採用Stable Diffusion 1.5作爲骨幹，結合時間運動模塊，將多幀噪聲輸入轉換爲一系列視頻幀。此外，引入了一個與SD1.5結構相同的ReferenceNet，用於從參考圖像中提取外觀信息，並將其整合到骨幹網絡中，確保視頻中的面部身份保持一致。爲了提高對嘴脣動作的捕捉精度，增強了PoseGuider模塊的設計，採用了ControlNet的多尺度策略，並將參考圖像的標記點作爲額外輸入，通過交叉注意力模塊促進參考標記點與每一幀目標標記點之間的交互，幫助網絡更好地理解面部標記點與外觀之間的關係。

# AI工具