HunyuanPortrait – 騰訊混元聯合清華等機構推出的肖像動畫生成框架

0 0 0

HunyuanPortrait是什麼

HunyuanPortrait 是騰訊 Hunyuan 團隊聯合清華大學、中山大學和香港科技大學等機構共同推出的基於擴散模型的框架，用在生成高度可控且逼真的肖像動畫。基於給定一張肖像圖片作爲外觀參考和視頻片段作爲驅動模板，根據驅動視頻中的面部表情和頭部姿勢動畫化參考圖片中的人物。HunyuanPortrait 在時間一致性和可控性方面優於現有方法，展現出強大的泛化性能，能有效解耦不同圖像風格下的外觀和運動，廣泛用在虛擬現實、遊戲和人機交互等領域。

HunyuanPortrait的主要功能

高度可控的肖像動畫生成：基於單張肖像圖片作爲外觀參考和視頻片段作爲驅動模板，精確地將驅動視頻中的面部表情和頭部姿勢轉移到參考肖像中，生成自然流暢的動畫。
強大的身份一致性保持：在面部結構和運動強度存在顯著差異的情況下，保持參考肖像的身份特徵，避免身份失真。
逼真的面部動態捕捉：捕捉微妙的面部表情變化，如眼神方向、嘴脣同步等，生成高度逼真的肖像動畫。
時間一致性優化：生成的視頻在時間上具有高度的連貫性和平滑性，避免背景抖動和模糊等問題。
風格泛化能力：適應不同的圖像風格，包括動漫風格和真實照片風格，具有廣泛的適用性。

HunyuanPortrait的技術原理

隱式條件控制：用隱式表示編碼運動信息，更好地捕捉複雜的面部運動和表情變化，避免因關鍵點提取不準確導致僞影和失真。將編碼後的運動信息作爲控制信號，基於注意力機制注入到去噪 U-Net 中，實現對動畫生成過程的精細控制。
穩定的視頻擴散模型：基於擴散模型的框架，在潛在空間中進行擴散和去噪過程，提高生成質量和訓練效率。用 VAE 將圖像從 RGB 空間映射到潛在空間，基於 UNet 進行去噪處理，生成高質量的視頻幀。
增強的特徵提取器：基於估計運動強度（如面部表情的扭曲程度和頭部運動的幅度）增強運動特徵的表示，提高對不同運動強度的適應能力。結合 ArcFace 和 DiNOv2 背景，用多尺度適配器（IMAdapter）增強肖像的身份一致性，確保生成的動畫在不同幀中保持一致的身份特徵。
訓練和推理策略：基於顏色抖動、姿態引導等技術增強訓練數據的多樣性，提高模型的泛化能力。用多種增強訓練策略，如隨機移除某些骨骼邊緣，提高模型在不同輸入條件下的穩定性。
注意力機制：在 UNet 中引入多頭自注意力和交叉注意力機制，增強模型對空間和時間信息的感知能力，提高生成視頻的細節豐富度和時間一致性。