OmniWeaving是什麼
OmniWeaving是浙江大學聯合騰訊混元、南洋理工大學推出的統一視頻生成框架。框架突破傳統開源模型單一任務限制,實現多模態自由組合與推理增強生成,能將交錯圖文視頻時序綁定生成連貫內容,像”智能導演”主動推斷複雜意圖。框架通過MLLM語義理解、MMDiT生成和VAE編碼三組件架構,配套推出IntelligentVBench評估基準,在開源統一模型中達到SoTA性能,爲縮小開源與商業視頻生成鴻溝提供強有力開源參考。

OmniWeaving的主要功能
- 統一多模態生成:在一個框架內無縫整合文本、多圖像和視頻輸入,支持交錯式自由組合,實現多樣化視頻生成任務,告別傳統單一任務模型的碎片化限制。
- 時序綁定生成:將不同模態的內容進行時序對齊和綁定,生成跨模態連貫的動態視頻。
- 推理增強創作:通過 MLLM 的”思考模式”主動推斷複雜、模糊的用戶意圖,像經驗豐富的導演般自主規劃鏡頭語言和敘事邏輯,從被動渲染升級爲主動創作。
- 高級語義理解:用多模態大語言模型將自由形式輸入映射到高級語義空間,結合擴散 Transformer 生成精細視頻內容。
- 端到端視頻生成:從概念理解到視頻輸出的一體化流程,支持角色一致性維護、風格遷移等複雜創作需求,在 IntelligentVBench 基準測試中達到開源模型 SoTA 水平。
如何使用OmniWeaving
-
環境準備:從 GitHub 克隆 OmniWeaving 倉庫後,安裝項目依賴 requirements.txt 並根據需要選擇安裝 Flash Attention 或 SageAttention 加速庫以優化推理性能。
-
模型下載:從 HuggingFace 平台下載騰訊混元發佈的 HY-OmniWeaving 模型權重文件到本地指定目錄。
-
文生視頻:運行生成腳本並指定任務類型爲 t2v,輸入文本描述、設置畫面比例和輸出路徑,可選添加思考模式讓模型先推理意圖再生成視頻。
-
圖生視頻:用 i2v 任務類型,提供首幀圖片路徑和動作描述文本,模型將根據靜態圖像和提示詞生成連續動態視頻。
-
首尾幀插值:選擇 interpolation 任務,傳入起始幀和結束幀兩張圖片以及過渡描述,模型自動生成填補中間過程的連貫視頻。
-
多圖組合生成:通過 reference2v 任務上傳一至四張參考圖片(如人物、道具、背景),配合文本提示實現多元素自由組合的視頻創作。
-
視頻編輯:用 editing 任務上傳源視頻並輸入編輯指令(如風格轉換或物體替換),模型基於文本指引對視頻內容進行智能修改。
-
圖文視頻聯合編輯:採用 tiv2v 任務同時輸入源視頻和參考圖片,實現將參考圖中的視覺元素融合到視頻動態場景中的高級編輯。
OmniWeaving的項目地址
- 項目官網:https://omniweaving.github.io/
- GitHub倉庫:https://github.com/Tencent-Hunyuan/OmniWeaving
- HuggingFace模型庫:https://huggingface.co/tencent/HY-OmniWeaving
- arXiv技術論文:https://arxiv.org/pdf/2603.24458
OmniWeaving的關鍵信息和使用要求
- 項目定位:騰訊混元聯合浙江大學、南洋理工大學於 2026 年 4 月 3 日開源的統一視頻生成框架。
- 核心技術:
-
MLLM+MMDiT+VAE 架構:多模態大語言模型解析交錯圖文視頻輸入,擴散 Transformer 生成視頻,變分自編碼器壓縮視覺信號
-
自由形式組合:支持文本、多圖像(1-4 張)、視頻輸入的時序綁定與靈活組合
-
推理增強生成:激活 MLLM “思考模式”,主動推斷複雜用戶意圖,生成語義精準的視頻內容
-
- 使用要求:
-
硬件:多 GPU 環境(官方示例使用 8 卡),支持顯存優化選項(Flash Attention/SageAttention)。
-
軟件:Python 環境,基於 PyTorch,需安裝 HunyuanVideo-1.5 依賴。
-
OmniWeaving的核心優勢
- 統一全能:OmniWeaving 通過單一框架整合文生視頻、圖生視頻、多圖組合、視頻編輯等六大類任務,替代傳統需要多個專用模型的碎片化方案,實現全流程統一生成。
- 自由組合:突破傳統模型固定輸入格式的限制,支持 1-4 張圖像、視頻片段與文本的交錯式多模態輸入,能進行時序綁定理解元素間的時空關係,實現複雜場景的真正融合生成而非簡單拼接。
- 推理增強:激活 MLLM 思考模式後,模型從被動執行指令的”渲染器”升級爲主動推斷用戶意圖的”智能導演”,能自動補全鏡頭語言和敘事邏輯,顯著降低複雜創意描述的提示詞工程門檻。
- 深度語義注入:採用 DeepStacking 機制提取 MLLM 多層隱藏狀態的多粒度語義特徵,直接注入生成網絡底層,實現像素級細節控制與高層語義對齊的雙重保障,解決多主體生成中的細節丟失問題。
OmniWeaving的同類競品對比
| 對比維度 | OmniWeaving | Seedance-2.0 | CogVideoX |
|---|---|---|---|
| 所屬機構 | 騰訊混元 × 浙江大學 × 南洋理工大學 | 字節跳動 | 智譜AI (Zhipu AI) |
| 開源狀態 | ✅ 完全開源(代碼+權重+訓練數據構建流程) | ❌ 閉源商業產品 | ✅ 開源(權重+推理代碼) |
| 任務統一性 | 單一框架支持 6 大任務(T2V/I2V/插值/編輯/多圖組合/TIV2V) | 全能統一模型,覆蓋生成與編輯全流程 | 主要支持 T2V/I2V/Video Editing,需切換不同版本或配置 |
| 多模態輸入 | 支持 1-4 張圖像+視頻片段+文本的交錯式自由組合,進行時序綁定理解 | 支持多模態輸入,具體組合形式未公開披露 | 主要支持固定格式的單圖+文本或純文本輸入,多圖組合能力有限 |
| 推理增強 | ✅ 獨有 Thinking Mode,MLLM 先主動推理用戶意圖再生成視頻 | 具備一定意圖理解能力,但具體機制未公開 | ❌ 被動執行指令,無顯式推理增強模塊 |
| 生成質量 | 開源統一模型 SoTA,逼近商業系統水平 | 當前商業模型第一梯隊,物理一致性和畫質更優 | 開源社區主流水平,生態成熟但極致畫質略遜於最新商業模型 |
| 生態集成 | 剛開源,生態建設中,依賴 HunyuanVideo 基礎設施 | 閉源 API 服務,生態依賴官方平台 | ComfyUI/WebUI 插件完善,社區 LoRA 資源豐富,集成門檻低 |
OmniWeaving的應用場景
- 影視廣告創意生產:通過文本直接生成概念預演視頻驗證分鏡,或將角色、場景、道具參考圖自由組合生成完整廣告片。
- 電商產品動態展示:上傳產品白底圖與場景參考圖自動生成產品使用場景視頻,結合用戶照片與商品視頻生成個性化虛擬試穿效果。
- 社交媒體內容創作:將靜態照片轉化爲帶自然表情動作的動態視頻讓老照片”活”起來,基於首尾幀插值快速生成循環動畫或趣味表情包。
- 遊戲動畫資產製作:上傳角色設計圖與動作描述直接生成角色動畫片段加速過場動畫製作,提供關鍵幀讓 AI 自動補全中間動畫用於場景切換。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...