OmniShow是什麼
OmniShow是字節跳動聯合港中文、莫納什、港大開源的多模態人-物交互視頻生成模型。作爲首個支持RAP2V(參考圖+音頻+姿勢)的端到端框架,模型統一處理文本、圖像、音頻、姿勢四種輸入,單一12.3B參數模型即可生成10秒高質量視頻。模型採用門控局部上下文注意力等技術實現音視頻精確同步,在HOIVG-Bench基準上達多項SOTA。

OmniShow的主要功能
-
全模態條件輸入:作爲首個完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端框架,OmniShow 能同時接收參考圖像、音頻、姿勢信號和文本描述四種模態輸入,實現對人-物交互視頻的全面控制。
-
多任務統一生成:模型通過靈活組合不同輸入條件,可在單一架構內完成多種視頻生成任務,包括基於參考圖的視頻生成(R2V)、音頻驅動的數字人視頻(RA2V)、姿勢驅動的動畫(RP2V)以及全模態精確控制(RAP2V)。
-
高質量長視頻合成:OmniShow 原生支持生成長達 10 秒的連續視頻,在保持角色外觀一致性的同時,實現口型、表情和肢體動作與音頻的精確同步,輸出達到行業級視覺質量。
-
物體替換與視頻混剪:用戶可在保留人物動作和姿勢的前提下替換視頻中的物體,或從不同來源重組姿勢、物體和人物參考,實現靈活的創意視頻編輯與合成。
OmniShow的技術原理
- 統一通道條件注入:通過在通道維度拼接參考圖像和姿勢信號,將多模態條件高效注入預訓練視頻生成模型,避免了傳統調製方法對基礎模型預訓練先驗的破壞,確保在引入人-物外觀和動作控制的同時維持原始生成質量。
- 門控局部上下文注意力:採用掩碼注意力配合可學習門控向量的設計,使模型能動態關注音頻特徵與局部面部/身體區域的關聯,實現口型、表情和肢體動作與音頻信號的精確時間同步,解決多模態融合時的特徵衝突問題。
- 解耦-聯合訓練策略:針對 R2V 和 A2V 任務數據異構且規模不平衡的挑戰,分別訓練專用子模型學習各模態的獨立映射關係,通過權重插值進行融合,在聯合數據上微調,有效整合異構數據集並提升全模態輸入下的生成一致性。
如何使用OmniShow
-
獲取開源代碼:從官方渠道克隆代碼庫到本地,按照 README 配置包含依賴項的運行環境。
-
準備多模態輸入:根據生成任務需求,整理參考圖像(人物或物體外觀)、驅動音頻、姿勢序列文件及文本描述。
-
執行視頻生成:調用模型 API 或運行推理腳本,輸入組合後的多模態條件,生成長達 10 秒的高質量人-物交互視頻並保存輸出結果。
OmniShow的關鍵信息和使用要求
-
項目定位:OmniShow 是字節跳動聯合香港中文大學、莫納什大學、香港大學共同開源的行業級多模態人-物交互視頻生成模型,專爲複雜的人與物體互動場景設計。
-
技術規模:模型採用 12.3B 參數架構,是同類模型(如 HuMo-17B、Phantom-14B)中最爲參數高效的方案,在保持高性能的同時顯著降低計算資源需求。
-
核心能力:作爲首個完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端統一框架,能同時接收參考圖像、音頻信號、姿勢序列和文本描述四種模態輸入進行聯合推理。
-
生成質量:原生支持生成最長 10 秒的連續視頻,通過門控局部上下文注意力技術實現口型、表情、肢體動作與音頻的精確同步,達到行業級視覺標準。
-
性能表現:在自建的 HOIVG-Bench 基準測試中,OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四項任務上均達到 SOTA 水平,是唯一支持全模態輸入的領先方案。
OmniShow的核心優勢
-
全模態統一架構:作爲業界首個完整支持 RAP2V(參考圖+音頻+姿勢→視頻)的端到端框架,OmniShow 實現了文本、圖像、音頻、姿勢四種條件的原生統一處理,無需多個專用模型拼接即可應對複雜的多模態輸入組合。
-
極致參數效率:12.3B 參數在 HOIVG-Bench 基準上達到多項 SOTA,顯著優於 HuMo-17B(17B)、Phantom-14B(14B)等更大參數模型,在保持行業級生成質量的同時大幅降低推理成本。
-
單一模型多任務覆蓋:通過靈活的輸入組合策略,一個 OmniShow 模型即可勝任 R2V(參考圖生成)、RA2V(音頻驅動數字人)、RP2V(姿勢驅動動畫)和完整 RAP2V(全模態控制)四類任務,無需針對不同場景切換模型。
-
音視頻精確同步:採用創新的門控局部上下文注意力機制,通過可學習門控向量和掩碼注意力實現口型、面部表情、肢體動作與音頻信號的高度同步,在 Sync-C 指標上達到 8.612 的領先水平。
-
長視頻原生生成:不同於依賴滑動窗口的外推方法,OmniShow 原生支持一次生成長達 10 秒的連續視頻,在保持角色外觀、物體樣式和時間連貫性方面具有顯著優勢。
OmniShow的項目地址
- 項目官網:https://correr-zhou.github.io/OmniShow/
- GitHub倉庫:https://github.com/Correr-Zhou/OmniShow
OmniShow的同類競品對比
| 對比維度 | OmniShow | HuMo-17B | Phantom-14B |
|---|---|---|---|
| 參數規模 | 12.3B(最輕量) | 17B(+38%) | 14B(+14%) |
| 支持任務 | R2V / RA2V / RP2V / RAP2V(全模態) | R2V / RA2V(無姿勢) | 僅 R2V(無音頻/姿勢) |
| 架構特點 | 端到端統一框架,單模型多任務 | 專用人-物交互模型,需配合其他工具 | 基礎參考圖生成模型 |
| R2V 質量(NexusScore) | 0.389(SOTA) | 0.346(低 11%) | 0.366(低 6%) |
| RA2V 同步(Sync-C) | 8.612(SOTA) | 8.028(低 7%) | 不支持 |
| RP2V 精度(PCK) | 0.460(SOTA) | 不支持 | 不支持 |
| 視頻時長 | 原生 10 秒 | 通常 5-8 秒 | 通常 5 秒 |
| 應用場景 | 數字人、動畫、物體替換、混剪全覆蓋 | 有限的人-物交互 | 靜態外觀遷移 |
OmniShow的應用場景
- 電商產品展示:通過參考圖像替換功能,可在保持模特動作和姿勢不變的情況下,快速替換展示服裝、配飾或商品,實現高效的商品視頻化呈現。
- 數字人短視頻製作:基於 RA2V(參考圖+音頻)能力,輸入人物照片和語音可生成口型同步的說話或唱歌視頻,適用虛擬主播、社交媒體內容創作。
- 創意視頻混剪:用多模態重組能力,從不同來源提取姿勢、物體和人物參考進行創意合成,實現跨視頻的個性化內容編輯與二次創作。
- 互動娛樂與遊戲:藉助姿勢驅動(RP2V)功能,將用戶動作捕捉實時轉化爲遊戲角色或虛擬形象的動畫,支持全身姿態控制的實時交互體驗。
- 廣告與營銷內容生成:結合全模態輸入(RAP2V),精確控制品牌代言人外觀、台詞音頻和肢體動作,批量生成風格統一的宣傳視頻素材。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...