HunyuanCustom – 騰訊混元開源的多模態定製視頻生成框架

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

HunyuanCustom是什麼

HunyuanCustom是騰訊混元團隊推出的多模態驅動的定製化視頻生成框架。HunyuanCustom支持圖像、音頻、視頻和文本等多種輸入條件，支持生成具有特定主體和場景的高質量視頻。引入基於LLaVA的文本-圖像融合模塊和圖像ID增強模塊，HunyuanCustom在身份一致性、真實感和文本-視頻對齊方面顯著優於現有方法。框架支持音頻驅動和視頻驅動的視頻生成，廣泛用在虛擬人廣告、虛擬試穿和視頻編輯等領域，展示強大的可控性和靈活性。

HunyuanCustom的主要功能

單主體視頻定製化：根據輸入的圖像和文本描述生成視頻，確保主體身份一致性。
多主體視頻定製化：支持多個主體的交互生成，處理複雜的多主體場景。
音頻驅動視頻定製化：根據音頻和文本描述生成視頻，支持靈活的音頻驅動動畫。
視頻驅動視頻定製化：支持基於視頻輸入的對象替換或添加，用在視頻編輯和對象替換。
虛擬人廣告和虛擬試穿：生成虛擬人與產品互動的廣告視頻，或進行虛擬試穿展示。
靈活的場景生成：根據文本描述生成不同場景下的視頻，支持多樣化的內容創作。

HunyuanCustom的技術原理

多模態融合模塊：
- 文本圖像融合模塊：基於 LLaVA，將圖像中的身份信息與文本描述進行融合，增強多模態理解能力。
- 圖像 ID 增強模塊：基於時間軸上的信息拼接，用視頻模型的時間建模能力，強化主體身份特徵，確保視頻生成中的身份一致性。
音頻驅動機制：AudioNet 模塊基於空間交叉注意力機制，將音頻特徵注入視頻特徵中，實現音頻與視頻的層次化對齊，支持音頻驅動的視頻生成。
視頻驅動機制：視頻特徵對齊模塊，將輸入視頻通過 VAE 壓縮到潛在空間，基於 patchify 模塊進行特徵對齊，確保與噪聲潛變量的特徵一致性。
身份解耦模塊：基於身份解耦的視頻條件模塊，將視頻特徵高效注入到潛在空間，支持視頻驅動的視頻生成。
數據處理與增強：基於嚴格的預處理流程，包括視頻分割、文本過濾、主體提取和數據增強，確保輸入數據的高質量，提升模型性能。