Hallo – 復旦百度等開源的AI對口型肖像視頻生成框架

AI工具2年前 (2024)發佈新公告 AI管理員

57 0 0

Hallo是什麼

Hallo是由復旦大學、百度公司、蘇黎世聯邦理工學院和南京大學的研究人員共同提出的一個AI對口型肖像圖像動畫技術，可基於語音音頻輸入來驅動生成逼真且動態的肖像圖像視頻。該框架採用了基於擴散的生成模型和分層音頻驅動視覺合成模塊，提高了音頻與視覺輸出之間的同步精度。Hallo的網絡架構整合了UNet去噪器、時間對齊技術和參考網絡，以增強動畫的質量和真實感，不僅提升了圖像和視頻的質量，還顯著增強了脣動同步的精度，並增加了動作的多樣性。

Hallo的功能特色

音頻同步動畫：Hallo利用先進的音頻分析技術，將輸入的語音音頻與肖像圖像相結合，生成動態的面部動畫。通過精確的脣動同步算法，確保視頻動畫中的嘴脣動作與音頻中的聲音同步，從而創造出逼真的說話效果。
面部表情生成：根據音頻信號中的情感和語調變化，Hallo能夠自動識別並生成相應的面部表情，包括微笑、皺眉、驚訝等表情，使視頻動畫角色的“表演”更加自然和富有情感。
頭部姿態控制：Hallo允許對視頻動畫中的頭部姿態進行細緻的調整，如頭部的傾斜、轉動等，使得視頻動畫能夠更好地反映音頻內容的意圖和情感，增強視覺與聽覺的協調性。
個性化動畫定製：用戶可以根據不同的應用場景和個人特徵，對動畫的風格、表情和動作進行定製。Hallo的個性化定製功能支持用戶創造出獨一無二的角色，滿足特定的視覺和情感表達需求。
時間一致性維護：Hallo通過時間對齊技術，確保動畫中的動作和表情在時間上流暢過渡，避免突兀和不自然的變化。
動作多樣性：除了同步音頻的基本動作外，Hallo還支持生成多樣化的動作和風格。用戶可以根據需要選擇不同的動作庫，爲動畫角色添加更多動態元素，如手勢、眨眼等，從而豐富視頻的表現力。

Hallo – 復旦百度等開源的AI對口型肖像視頻生成框架

Hallo的官網入口

官方項目主頁：https://fudan-generative-vision.github.io/hallo/#/
GitHub代碼庫：https://github.com/fudan-generative-vision/hallo
Hugging Face模型庫：https://huggingface.co/fudan-generative-ai/hallo
arXiv技術論文：https://arxiv.org/abs/2406.08801

Hallo的技術原理

Hallo – 復旦百度等開源的AI對口型肖像視頻生成框架

分層音頻驅動視覺合成：Hallo採用分層的方法來處理音頻和視覺信息。這種分層結構允許模型分別處理嘴脣動作、面部表情和頭部姿態，然後通過自適應權重將這些元素融合在一起。
端到端擴散模型：Hallo使用基於擴散的生成模型，一種從潛在空間生成數據的方法。在訓練階段，數據逐漸被加入噪聲，然後在逆過程中去除噪聲以重建清晰的圖像。
交叉注意力機制：通過交叉注意力機制，Hallo能夠在音頻特徵和視覺特徵之間建立聯繫。該機制使得模型能夠集中注意力於與當前音頻輸入最相關的面部區域。
UNet去噪器：Hallo利用基於UNet的去噪器來逐步去除圖像中的噪聲，生成清晰的動畫幀。UNet結構因其在圖像分割任務中的有效性而聞名，通過跳躍連接使用低層特徵圖來提高生成質量。
時間對齊技術：爲了保持動畫在時間上的連貫性，Hallo採用了時間對齊技術，這有助於確保連續幀之間的平滑過渡和一致性。
參考網絡（ReferenceNet）：ReferenceNet用於編碼全局視覺紋理信息，以實現一致且可控的角色動畫，可幫助模型在生成過程中參考現有的圖像，以增強輸出的視覺質量。
面部和音頻編碼器：Hallo使用預訓練的面部編碼器來提取肖像的身份特徵，同時使用音頻特徵編碼器（如wav2vec）來將音頻信號轉換爲可以驅動動畫運動的信息。
自適應權重調整：Hallo允許調整不同視覺組件（如嘴脣、表情、姿態）的權重，以控制動畫的多樣性和細節。
訓練與推理：在訓練階段，Hallo通過優化面部圖像編碼器和空間交叉注意力模塊的參數來提高單幀生成能力。在推理階段，模型結合參考圖像和驅動音頻來生成動畫視頻序列。