OmniWeaving – 騰訊混元聯合浙大等開源的視頻生成框架

0 0 0

OmniWeaving是什麼

OmniWeaving是浙江大學聯合騰訊混元、南洋理工大學推出的統一視頻生成框架。框架突破傳統開源模型單一任務限制，實現多模態自由組合與推理增強生成，能將交錯圖文視頻時序綁定生成連貫內容，像”智能導演”主動推斷複雜意圖。框架通過MLLM語義理解、MMDiT生成和VAE編碼三組件架構，配套推出IntelligentVBench評估基準，在開源統一模型中達到SoTA性能，爲縮小開源與商業視頻生成鴻溝提供強有力開源參考。

OmniWeaving的主要功能

統一多模態生成：在一個框架內無縫整合文本、多圖像和視頻輸入，支持交錯式自由組合，實現多樣化視頻生成任務，告別傳統單一任務模型的碎片化限制。
時序綁定生成：將不同模態的內容進行時序對齊和綁定，生成跨模態連貫的動態視頻。
推理增強創作：通過 MLLM 的”思考模式”主動推斷複雜、模糊的用戶意圖，像經驗豐富的導演般自主規劃鏡頭語言和敘事邏輯，從被動渲染升級爲主動創作。
高級語義理解：用多模態大語言模型將自由形式輸入映射到高級語義空間，結合擴散 Transformer 生成精細視頻內容。
端到端視頻生成：從概念理解到視頻輸出的一體化流程，支持角色一致性維護、風格遷移等複雜創作需求，在 IntelligentVBench 基準測試中達到開源模型 SoTA 水平。

如何使用OmniWeaving

環境準備：從 GitHub 克隆 OmniWeaving 倉庫後，安裝項目依賴 requirements.txt 並根據需要選擇安裝 Flash Attention 或 SageAttention 加速庫以優化推理性能。
模型下載：從 HuggingFace 平台下載騰訊混元發佈的 HY-OmniWeaving 模型權重文件到本地指定目錄。
文生視頻：運行生成腳本並指定任務類型爲 t2v，輸入文本描述、設置畫面比例和輸出路徑，可選添加思考模式讓模型先推理意圖再生成視頻。
圖生視頻：用 i2v 任務類型，提供首幀圖片路徑和動作描述文本，模型將根據靜態圖像和提示詞生成連續動態視頻。
首尾幀插值：選擇 interpolation 任務，傳入起始幀和結束幀兩張圖片以及過渡描述，模型自動生成填補中間過程的連貫視頻。
多圖組合生成：通過 reference2v 任務上傳一至四張參考圖片（如人物、道具、背景），配合文本提示實現多元素自由組合的視頻創作。
視頻編輯：用 editing 任務上傳源視頻並輸入編輯指令（如風格轉換或物體替換），模型基於文本指引對視頻內容進行智能修改。
圖文視頻聯合編輯：採用 tiv2v 任務同時輸入源視頻和參考圖片，實現將參考圖中的視覺元素融合到視頻動態場景中的高級編輯。

OmniWeaving的項目地址

項目官網：https://omniweaving.github.io/
GitHub倉庫：https://github.com/Tencent-Hunyuan/OmniWeaving
HuggingFace模型庫：https://huggingface.co/tencent/HY-OmniWeaving
arXiv技術論文：https://arxiv.org/pdf/2603.24458

OmniWeaving的關鍵信息和使用要求

項目定位：騰訊混元聯合浙江大學、南洋理工大學於 2026 年 4 月 3 日開源的統一視頻生成框架。
核心技術：
- MLLM+MMDiT+VAE 架構：多模態大語言模型解析交錯圖文視頻輸入，擴散 Transformer 生成視頻，變分自編碼器壓縮視覺信號
- 自由形式組合：支持文本、多圖像（1-4 張）、視頻輸入的時序綁定與靈活組合
- 推理增強生成：激活 MLLM “思考模式”，主動推斷複雜用戶意圖，生成語義精準的視頻內容
使用要求：
- 硬件：多 GPU 環境（官方示例使用 8 卡），支持顯存優化選項（Flash Attention/SageAttention）。
- 軟件：Python 環境，基於 PyTorch，需安裝 HunyuanVideo-1.5 依賴。

OmniWeaving的核心優勢

統一全能：OmniWeaving 通過單一框架整合文生視頻、圖生視頻、多圖組合、視頻編輯等六大類任務，替代傳統需要多個專用模型的碎片化方案，實現全流程統一生成。
自由組合：突破傳統模型固定輸入格式的限制，支持 1-4 張圖像、視頻片段與文本的交錯式多模態輸入，能進行時序綁定理解元素間的時空關係，實現複雜場景的真正融合生成而非簡單拼接。
推理增強：激活 MLLM 思考模式後，模型從被動執行指令的”渲染器”升級爲主動推斷用戶意圖的”智能導演”，能自動補全鏡頭語言和敘事邏輯，顯著降低複雜創意描述的提示詞工程門檻。
深度語義注入：採用 DeepStacking 機制提取 MLLM 多層隱藏狀態的多粒度語義特徵，直接注入生成網絡底層，實現像素級細節控制與高層語義對齊的雙重保障，解決多主體生成中的細節丟失問題。

OmniWeaving的同類競品對比

對比維度	OmniWeaving	Seedance-2.0	CogVideoX
所屬機構	騰訊混元 × 浙江大學 × 南洋理工大學	字節跳動	智譜AI (Zhipu AI)
開源狀態	✅ 完全開源（代碼+權重+訓練數據構建流程）	❌ 閉源商業產品	✅ 開源（權重+推理代碼）
任務統一性	單一框架支持 6 大任務（T2V/I2V/插值/編輯/多圖組合/TIV2V）	全能統一模型，覆蓋生成與編輯全流程	主要支持 T2V/I2V/Video Editing，需切換不同版本或配置
多模態輸入	支持 1-4 張圖像+視頻片段+文本的交錯式自由組合，進行時序綁定理解	支持多模態輸入，具體組合形式未公開披露	主要支持固定格式的單圖+文本或純文本輸入，多圖組合能力有限
推理增強	✅ 獨有 Thinking Mode，MLLM 先主動推理用戶意圖再生成視頻	具備一定意圖理解能力，但具體機制未公開	❌ 被動執行指令，無顯式推理增強模塊
生成質量	開源統一模型 SoTA，逼近商業系統水平	當前商業模型第一梯隊，物理一致性和畫質更優	開源社區主流水平，生態成熟但極致畫質略遜於最新商業模型
生態集成	剛開源，生態建設中，依賴 HunyuanVideo 基礎設施	閉源 API 服務，生態依賴官方平台	ComfyUI/WebUI 插件完善，社區 LoRA 資源豐富，集成門檻低