HunyuanCustom – 騰訊混元開源的多模態定製視頻生成框架

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

HunyuanCustom是什麼

HunyuanCustom是騰訊混元團隊推出的多模態驅動的定製化視頻生成框架。HunyuanCustom支持圖像、音頻、視頻和文本等多種輸入條件,支持生成具有特定主體和場景的高質量視頻。引入基於LLaVA的文本-圖像融合模塊和圖像ID增強模塊,HunyuanCustom在身份一致性、真實感和文本-視頻對齊方面顯著優於現有方法。框架支持音頻驅動和視頻驅動的視頻生成,廣泛用在虛擬人廣告、虛擬試穿和視頻編輯等領域,展示強大的可控性和靈活性。

HunyuanCustom – 騰訊混元開源的多模態定製視頻生成框架

HunyuanCustom的主要功能

  • 單主體視頻定製化:根據輸入的圖像和文本描述生成視頻,確保主體身份一致性。
  • 多主體視頻定製化:支持多個主體的交互生成,處理複雜的多主體場景。
  • 音頻驅動視頻定製化:根據音頻和文本描述生成視頻,支持靈活的音頻驅動動畫。
  • 視頻驅動視頻定製化:支持基於視頻輸入的對象替換或添加,用在視頻編輯和對象替換。
  • 虛擬人廣告和虛擬試穿:生成虛擬人與產品互動的廣告視頻,或進行虛擬試穿展示。
  • 靈活的場景生成:根據文本描述生成不同場景下的視頻,支持多樣化的內容創作。

HunyuanCustom的技術原理

  • 多模態融合模塊
    • 文本圖像融合模塊:基於 LLaVA,將圖像中的身份信息與文本描述進行融合,增強多模態理解能力。
    • 圖像 ID 增強模塊:基於時間軸上的信息拼接,用視頻模型的時間建模能力,強化主體身份特徵,確保視頻生成中的身份一致性。
  • 音頻驅動機制:AudioNet 模塊基於空間交叉注意力機制,將音頻特徵注入視頻特徵中,實現音頻與視頻的層次化對齊,支持音頻驅動的視頻生成。
  • 視頻驅動機制:視頻特徵對齊模塊,將輸入視頻通過 VAE 壓縮到潛在空間,基於 patchify 模塊進行特徵對齊,確保與噪聲潛變量的特徵一致性。
  • 身份解耦模塊:基於身份解耦的視頻條件模塊,將視頻特徵高效注入到潛在空間,支持視頻驅動的視頻生成。
  • 數據處理與增強:基於嚴格的預處理流程,包括視頻分割、文本過濾、主體提取和數據增強,確保輸入數據的高質量,提升模型性能。

HunyuanCustom的項目地址

  • 項目官網:https://hunyuancustom.github.io/
  • GitHub倉庫:https://github.com/Tencent/HunyuanCustom
  • HuggingFace模型庫https://huggingface.co/tencent/HunyuanCustom
  • arXiv技術論文:https://arxiv.org/pdf/2505.04512v1

HunyuanCustom的應用場景

  • 虛擬人廣告:生成虛擬人與產品互動的廣告視頻,增強吸引力。
  • 虛擬試穿:上傳照片生成試穿不同服裝的視頻,提升購物體驗。
  • 視頻編輯:替換或添加視頻中的對象,增強編輯靈活性。
  • 音頻驅動動畫:根據音頻生成同步的視頻動畫,用在虛擬直播或動畫製作。
  • 教育視頻:結合文本和圖像生成教學視頻,提升學習效果。
© 版權聲明

相關文章

暫無評論

暫無評論...