OmniShow – 字節聯合港中文、港大等開源的視頻生成模型

AI工具3天前發佈新公告 AI管理員
1 0

OmniShow是什麼

OmniShow是字節跳動聯合港中文、莫納什、港大開源的多模態人-物交互視頻生成模型。作爲首個支持RAP2V(參考圖+音頻+姿勢)的端到端框架,模型統一處理文本、圖像、音頻、姿勢四種輸入,單一12.3B參數模型即可生成10秒高質量視頻。模型採用門控局部上下文注意力等技術實現音視頻精確同步,在HOIVG-Bench基準上達多項SOTA。

OmniShow – 字節聯合港中文、港大等開源的視頻生成模型

OmniShow的主要功能

  • 全模態條件輸入:作爲首個完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端框架,OmniShow 能同時接收參考圖像、音頻、姿勢信號和文本描述四種模態輸入,實現對人-物交互視頻的全面控制。
  • 多任務統一生成:模型通過靈活組合不同輸入條件,可在單一架構內完成多種視頻生成任務,包括基於參考圖的視頻生成(R2V)、音頻驅動的數字人視頻(RA2V)、姿勢驅動的動畫(RP2V)以及全模態精確控制(RAP2V)。
  • 高質量長視頻合成:OmniShow 原生支持生成長達 10 秒的連續視頻,在保持角色外觀一致性的同時,實現口型、表情和肢體動作與音頻的精確同步,輸出達到行業級視覺質量。
  • 物體替換與視頻混剪:用戶可在保留人物動作和姿勢的前提下替換視頻中的物體,或從不同來源重組姿勢、物體和人物參考,實現靈活的創意視頻編輯與合成。

OmniShow的技術原理

  • 統一通道條件注入:通過在通道維度拼接參考圖像和姿勢信號,將多模態條件高效注入預訓練視頻生成模型,避免了傳統調製方法對基礎模型預訓練先驗的破壞,確保在引入人-物外觀和動作控制的同時維持原始生成質量。
  • 門控局部上下文注意力:採用掩碼注意力配合可學習門控向量的設計,使模型能動態關注音頻特徵與局部面部/身體區域的關聯,實現口型、表情和肢體動作與音頻信號的精確時間同步,解決多模態融合時的特徵衝突問題。
  • 解耦-聯合訓練策略:針對 R2V 和 A2V 任務數據異構且規模不平衡的挑戰,分別訓練專用子模型學習各模態的獨立映射關係,通過權重插值進行融合,在聯合數據上微調,有效整合異構數據集並提升全模態輸入下的生成一致性。

如何使用OmniShow

  • 獲取開源代碼:從官方渠道克隆代碼庫到本地,按照 README 配置包含依賴項的運行環境。
  • 準備多模態輸入:根據生成任務需求,整理參考圖像(人物或物體外觀)、驅動音頻、姿勢序列文件及文本描述。
  • 執行視頻生成:調用模型 API 或運行推理腳本,輸入組合後的多模態條件,生成長達 10 秒的高質量人-物交互視頻並保存輸出結果。

OmniShow的關鍵信息和使用要求

  • 項目定位:OmniShow 是字節跳動聯合香港中文大學、莫納什大學、香港大學共同開源的行業級多模態人-物交互視頻生成模型,專爲複雜的人與物體互動場景設計。
  • 技術規模:模型採用 12.3B 參數架構,是同類模型(如 HuMo-17B、Phantom-14B)中最爲參數高效的方案,在保持高性能的同時顯著降低計算資源需求。
  • 核心能力:作爲首個完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端統一框架,能同時接收參考圖像、音頻信號、姿勢序列和文本描述四種模態輸入進行聯合推理。
  • 生成質量:原生支持生成最長 10 秒的連續視頻,通過門控局部上下文注意力技術實現口型、表情、肢體動作與音頻的精確同步,達到行業級視覺標準。
  • 性能表現:在自建的 HOIVG-Bench 基準測試中,OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四項任務上均達到 SOTA 水平,是唯一支持全模態輸入的領先方案。

OmniShow的核心優勢

  • 全模態統一架構:作爲業界首個完整支持 RAP2V(參考圖+音頻+姿勢→視頻)的端到端框架,OmniShow 實現了文本、圖像、音頻、姿勢四種條件的原生統一處理,無需多個專用模型拼接即可應對複雜的多模態輸入組合。
  • 極致參數效率:12.3B 參數在 HOIVG-Bench 基準上達到多項 SOTA,顯著優於 HuMo-17B(17B)、Phantom-14B(14B)等更大參數模型,在保持行業級生成質量的同時大幅降低推理成本。
  • 單一模型多任務覆蓋:通過靈活的輸入組合策略,一個 OmniShow 模型即可勝任 R2V(參考圖生成)、RA2V(音頻驅動數字人)、RP2V(姿勢驅動動畫)和完整 RAP2V(全模態控制)四類任務,無需針對不同場景切換模型。
  • 音視頻精確同步:採用創新的門控局部上下文注意力機制,通過可學習門控向量和掩碼注意力實現口型、面部表情、肢體動作與音頻信號的高度同步,在 Sync-C 指標上達到 8.612 的領先水平。
  • 長視頻原生生成:不同於依賴滑動窗口的外推方法,OmniShow 原生支持一次生成長達 10 秒的連續視頻,在保持角色外觀、物體樣式和時間連貫性方面具有顯著優勢。

OmniShow的項目地址

  • 項目官網:https://correr-zhou.github.io/OmniShow/
  • GitHub倉庫:https://github.com/Correr-Zhou/OmniShow

OmniShow的同類競品對比

對比維度 OmniShow HuMo-17B Phantom-14B
參數規模 12.3B(最輕量) 17B(+38%) 14B(+14%)
支持任務 R2V / RA2V / RP2V / RAP2V(全模態) R2V / RA2V(無姿勢) 僅 R2V(無音頻/姿勢)
架構特點 端到端統一框架,單模型多任務 專用人-物交互模型,需配合其他工具 基礎參考圖生成模型
R2V 質量(NexusScore) 0.389(SOTA) 0.346(低 11%) 0.366(低 6%)
RA2V 同步(Sync-C) 8.612(SOTA) 8.028(低 7%) 不支持
RP2V 精度(PCK) 0.460(SOTA) 不支持 不支持
視頻時長 原生 10 秒 通常 5-8 秒 通常 5 秒
應用場景 數字人、動畫、物體替換、混剪全覆蓋 有限的人-物交互 靜態外觀遷移

OmniShow的應用場景

  • 電商產品展示:通過參考圖像替換功能,可在保持模特動作和姿勢不變的情況下,快速替換展示服裝、配飾或商品,實現高效的商品視頻化呈現。
  • 數字人短視頻製作:基於 RA2V(參考圖+音頻)能力,輸入人物照片和語音可生成口型同步的說話或唱歌視頻,適用虛擬主播、社交媒體內容創作。
  • 創意視頻混剪:用多模態重組能力,從不同來源提取姿勢、物體和人物參考進行創意合成,實現跨視頻的個性化內容編輯與二次創作。
  • 互動娛樂與遊戲:藉助姿勢驅動(RP2V)功能,將用戶動作捕捉實時轉化爲遊戲角色或虛擬形象的動畫,支持全身姿態控制的實時交互體驗。
  • 廣告與營銷內容生成:結合全模態輸入(RAP2V),精確控制品牌代言人外觀、台詞音頻和肢體動作,批量生成風格統一的宣傳視頻素材。
© 版權聲明

相關文章

暫無評論

暫無評論...