HunyuanPortrait是什麼
HunyuanPortrait 是騰訊 Hunyuan 團隊聯合清華大學、中山大學和香港科技大學等機構共同推出的基於擴散模型的框架,用在生成高度可控且逼真的肖像動畫。基於給定一張肖像圖片作爲外觀參考和視頻片段作爲驅動模板,根據驅動視頻中的面部表情和頭部姿勢動畫化參考圖片中的人物。HunyuanPortrait 在時間一致性和可控性方面優於現有方法,展現出強大的泛化性能,能有效解耦不同圖像風格下的外觀和運動,廣泛用在虛擬現實、遊戲和人機交互等領域。

HunyuanPortrait的主要功能
- 高度可控的肖像動畫生成:基於單張肖像圖片作爲外觀參考和視頻片段作爲驅動模板,精確地將驅動視頻中的面部表情和頭部姿勢轉移到參考肖像中,生成自然流暢的動畫。
- 強大的身份一致性保持:在面部結構和運動強度存在顯著差異的情況下,保持參考肖像的身份特徵,避免身份失真。
- 逼真的面部動態捕捉:捕捉微妙的面部表情變化,如眼神方向、嘴脣同步等,生成高度逼真的肖像動畫。
- 時間一致性優化:生成的視頻在時間上具有高度的連貫性和平滑性,避免背景抖動和模糊等問題。
- 風格泛化能力:適應不同的圖像風格,包括動漫風格和真實照片風格,具有廣泛的適用性。
HunyuanPortrait的技術原理
- 隱式條件控制:用隱式表示編碼運動信息,更好地捕捉複雜的面部運動和表情變化,避免因關鍵點提取不準確導致僞影和失真。將編碼後的運動信息作爲控制信號,基於注意力機制注入到去噪 U-Net 中,實現對動畫生成過程的精細控制。
- 穩定的視頻擴散模型:基於擴散模型的框架,在潛在空間中進行擴散和去噪過程,提高生成質量和訓練效率。用 VAE 將圖像從 RGB 空間映射到潛在空間,基於 UNet 進行去噪處理,生成高質量的視頻幀。
- 增強的特徵提取器:基於估計運動強度(如面部表情的扭曲程度和頭部運動的幅度)增強運動特徵的表示,提高對不同運動強度的適應能力。結合 ArcFace 和 DiNOv2 背景,用多尺度適配器(IMAdapter)增強肖像的身份一致性,確保生成的動畫在不同幀中保持一致的身份特徵。
- 訓練和推理策略:基於顏色抖動、姿態引導等技術增強訓練數據的多樣性,提高模型的泛化能力。用多種增強訓練策略,如隨機移除某些骨骼邊緣,提高模型在不同輸入條件下的穩定性。
- 注意力機制:在 UNet 中引入多頭自注意力和交叉注意力機制,增強模型對空間和時間信息的感知能力,提高生成視頻的細節豐富度和時間一致性。
HunyuanPortrait的項目地址
- 項目官網:https://kkakkkka.github.io/HunyuanPortrait/
- GitHub倉庫:https://github.com/Tencent-Hunyuan/HunyuanPortrait
- HuggingFace模型庫:https://huggingface.co/tencent/HunyuanPortrait
- arXiv技術論文:https://arxiv.org/pdf/2503.18860
HunyuanPortrait的應用場景
- 虛擬現實(VR)和增強現實(AR):創建逼真的虛擬角色,增強用戶體驗。
- 遊戲開發:生成個性化的遊戲角色,提升玩家的沉浸感。
- 人機交互:開發更自然的虛擬助手和客服機器人,增強交互效果。
- 數字內容創作:用在視頻製作、廣告和影視特效,快速生成高質量的動畫內容。
- 社交媒體和娛樂:用戶將自己的照片製作成動態表情包或虛擬形象,增加互動性。
- 教育和培訓:創建個性化的虛擬教師或培訓角色,提供更生動的教學體驗。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...