OmniShow – 字節聯合港中文、港大等開源的視頻生成模型

1 0 0

OmniShow是什麼

OmniShow是字節跳動聯合港中文、莫納什、港大開源的多模態人-物交互視頻生成模型。作爲首個支持RAP2V（參考圖+音頻+姿勢）的端到端框架，模型統一處理文本、圖像、音頻、姿勢四種輸入，單一12.3B參數模型即可生成10秒高質量視頻。模型採用門控局部上下文注意力等技術實現音視頻精確同步，在HOIVG-Bench基準上達多項SOTA。

OmniShow的主要功能

全模態條件輸入：作爲首個完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端框架，OmniShow 能同時接收參考圖像、音頻、姿勢信號和文本描述四種模態輸入，實現對人-物交互視頻的全面控制。
多任務統一生成：模型通過靈活組合不同輸入條件，可在單一架構內完成多種視頻生成任務，包括基於參考圖的視頻生成（R2V）、音頻驅動的數字人視頻（RA2V）、姿勢驅動的動畫（RP2V）以及全模態精確控制（RAP2V）。
高質量長視頻合成：OmniShow 原生支持生成長達 10 秒的連續視頻，在保持角色外觀一致性的同時，實現口型、表情和肢體動作與音頻的精確同步，輸出達到行業級視覺質量。
物體替換與視頻混剪：用戶可在保留人物動作和姿勢的前提下替換視頻中的物體，或從不同來源重組姿勢、物體和人物參考，實現靈活的創意視頻編輯與合成。

OmniShow的技術原理

統一通道條件注入：通過在通道維度拼接參考圖像和姿勢信號，將多模態條件高效注入預訓練視頻生成模型，避免了傳統調製方法對基礎模型預訓練先驗的破壞，確保在引入人-物外觀和動作控制的同時維持原始生成質量。
門控局部上下文注意力：採用掩碼注意力配合可學習門控向量的設計，使模型能動態關注音頻特徵與局部面部/身體區域的關聯，實現口型、表情和肢體動作與音頻信號的精確時間同步，解決多模態融合時的特徵衝突問題。
解耦-聯合訓練策略：針對 R2V 和 A2V 任務數據異構且規模不平衡的挑戰，分別訓練專用子模型學習各模態的獨立映射關係，通過權重插值進行融合，在聯合數據上微調，有效整合異構數據集並提升全模態輸入下的生成一致性。

如何使用OmniShow

獲取開源代碼：從官方渠道克隆代碼庫到本地，按照 README 配置包含依賴項的運行環境。
準備多模態輸入：根據生成任務需求，整理參考圖像（人物或物體外觀）、驅動音頻、姿勢序列文件及文本描述。
執行視頻生成：調用模型 API 或運行推理腳本，輸入組合後的多模態條件，生成長達 10 秒的高質量人-物交互視頻並保存輸出結果。

OmniShow的關鍵信息和使用要求

項目定位：OmniShow 是字節跳動聯合香港中文大學、莫納什大學、香港大學共同開源的行業級多模態人-物交互視頻生成模型，專爲複雜的人與物體互動場景設計。
技術規模：模型採用 12.3B 參數架構，是同類模型（如 HuMo-17B、Phantom-14B）中最爲參數高效的方案，在保持高性能的同時顯著降低計算資源需求。
核心能力：作爲首個完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端統一框架，能同時接收參考圖像、音頻信號、姿勢序列和文本描述四種模態輸入進行聯合推理。
生成質量：原生支持生成最長 10 秒的連續視頻，通過門控局部上下文注意力技術實現口型、表情、肢體動作與音頻的精確同步，達到行業級視覺標準。
性能表現：在自建的 HOIVG-Bench 基準測試中，OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四項任務上均達到 SOTA 水平，是唯一支持全模態輸入的領先方案。

OmniShow的核心優勢

全模態統一架構：作爲業界首個完整支持 RAP2V（參考圖+音頻+姿勢→視頻）的端到端框架，OmniShow 實現了文本、圖像、音頻、姿勢四種條件的原生統一處理，無需多個專用模型拼接即可應對複雜的多模態輸入組合。
極致參數效率：12.3B 參數在 HOIVG-Bench 基準上達到多項 SOTA，顯著優於 HuMo-17B（17B）、Phantom-14B（14B）等更大參數模型，在保持行業級生成質量的同時大幅降低推理成本。
單一模型多任務覆蓋：通過靈活的輸入組合策略，一個 OmniShow 模型即可勝任 R2V（參考圖生成）、RA2V（音頻驅動數字人）、RP2V（姿勢驅動動畫）和完整 RAP2V（全模態控制）四類任務，無需針對不同場景切換模型。
音視頻精確同步：採用創新的門控局部上下文注意力機制，通過可學習門控向量和掩碼注意力實現口型、面部表情、肢體動作與音頻信號的高度同步，在 Sync-C 指標上達到 8.612 的領先水平。
長視頻原生生成：不同於依賴滑動窗口的外推方法，OmniShow 原生支持一次生成長達 10 秒的連續視頻，在保持角色外觀、物體樣式和時間連貫性方面具有顯著優勢。

OmniShow的項目地址

項目官網：https://correr-zhou.github.io/OmniShow/
GitHub倉庫：https://github.com/Correr-Zhou/OmniShow

OmniShow的同類競品對比

對比維度	OmniShow	HuMo-17B	Phantom-14B
參數規模	12.3B（最輕量）	17B（+38%）	14B（+14%）
支持任務	R2V / RA2V / RP2V / RAP2V（全模態）	R2V / RA2V（無姿勢）	僅 R2V（無音頻/姿勢）
架構特點	端到端統一框架，單模型多任務	專用人-物交互模型，需配合其他工具	基礎參考圖生成模型
R2V 質量（NexusScore）	0.389（SOTA）	0.346（低 11%）	0.366（低 6%）
RA2V 同步（Sync-C）	8.612（SOTA）	8.028（低 7%）	不支持
RP2V 精度（PCK）	0.460（SOTA）	不支持	不支持
視頻時長	原生 10 秒	通常 5-8 秒	通常 5 秒
應用場景	數字人、動畫、物體替換、混剪全覆蓋	有限的人-物交互	靜態外觀遷移