Bernini – 字節跳動開源的統一視頻生成與編輯框架

AI工具4周前發佈新公告 AI管理員
0 0

Bernini是什麼

Bernini 是字節跳動開源的統一視頻生成與編輯框架,採用MLLM 語義規劃 + DiT 視覺渲染的兩階段解耦架構。多模態大模型理解指令並規劃語義草圖,由 Diffusion Transformer 完成高質量視頻生成。模型支持文本/圖像生成視頻、環境/視角/動作編輯、多參考引導植入等任務,推理代碼與權重已全面開源。

Bernini – 字節跳動開源的統一視頻生成與編輯框架

Bernini的主要功能

  • 文本/圖像生成視頻:支持從文本提示或參考圖像直接生成視頻,可處理單圖、多元素組合圖和多角度參考圖。
  • 視頻編輯:支持環境編輯、視角編輯、焦點編輯和動作編輯。
  • 參考引導編輯:通過主體參考圖、材質參考圖或風格參考圖,將指定物體、紋理或風格精準融入視頻。
  • 圖像/視頻植入:將海報或視頻填入畫面中的屏幕、招牌等區域,跟隨鏡頭移動並保持透視和時序穩定。
  • 多元素組合:將多張互不相關的參考圖組合成同一個視頻角色,或基於同一場景關鍵幀生成連續平移鏡頭。

Bernini的技術原理

  • 兩階段解耦架構:第一階段由多模態大語言模型(MLLM)擔任 Semantic Planner,在 ViT 嵌入空間中預測目標語義表示,負責理解文本指令、源視頻和參考素材並規劃目標內容。第二階段由 Diffusion Transformer(DiT)擔任 Renderer,在 VAE 潛在空間中執行流匹配去噪,將語義規劃轉化爲高質量視頻幀。編輯任務中還會注入源視頻 VAE 特徵保留非編輯區域細節。
  • Segment-Aware 3D RoPE(SA-3D RoPE):當多個參考圖、源視頻、目標輸出被串聯爲統一序列時,不同片段的 token 可能共享相同時空座標。通過爲每個視覺片段分配 segment 索引並整合到旋轉位置編碼中,使模型能區分不同來源的 token,同時保留原始時空建模特性。
  • Chain-of-Thought 推理與三階段訓練:Planner 在潛在空間中進行思維鏈推理,增強複雜編輯場景下的語義保真度。訓練分爲三階段:Planner 預訓練、Renderer 預訓練、Planner 與 Renderer 輕度聯合訓練,保留預訓練優勢又保持高效。

如何使用Bernini

  • 克隆倉庫:從 GitHub 克隆 Bernini 項目到本地。
  • 安裝依賴:運行 pip 安裝 requirements.txt 中的依賴包。
  • 下載模型:通過 HuggingFace 下載 Bernini-R-Diffusers 權重。
  • 配置環境:確保使用 Python 3.11.2 和 CUDA 12.4+,推薦 Hopper 架構 GPU。
  • 運行生成:使用 torchrun 執行多 GPU 推理腳本,指定配置文件和測試用例。
  • 配置提示增強:設置 OpenAI 兼容的 API 端點以提升生成質量。

Bernini的核心優勢

  • 先理解再生成:MLLM 負責語義規劃,DiT 負責視覺渲染,解決傳統視頻模型「聽不懂人話」的痛點。
  • 統一框架:單一架構覆蓋生成、編輯、參考引導等多種任務,無需切換模型。
  • 多參考輸入:支持文本、圖像、視頻同時輸入,通過 SA-3D RoPE 避免時空混淆。
  • 細節保留:編輯時注入源視頻 VAE 特徵,保留非編輯區域細節,避免「一改全改」。
  • 完全開源:推理代碼與權重已開放,降低研究與開發門檻。
  • 強泛化能力:在訓練未明確覆蓋的指令(如因果推理、動作變化)上仍表現出色。

Bernini的項目地址

  • 項目官網:https://bernini-ai.github.io
  • GitHub倉庫:https://github.com/bytedance/Bernini
  • HuggingFace模型庫:https://huggingface.co/ByteDance/Bernini
  • arXiv技術論文:https://arxiv.org/pdf/2605.22344

Bernini的同類競品對比

對比維度 Bernini Runway Gen-4
開發方 字節跳動(開源) Runway(閉源)
核心架構 MLLM Planner + DiT Renderer 專有視頻生成模型
任務覆蓋 生成+編輯統一框架 生成+編輯
可控編輯 ★★★★★ 強(語義規劃+多參考) ★★★★☆ 較強
參考圖支持 ★★★★★ 多元素/多角度/材質/風格 ★★★★☆ 支持
開源程度 ★★★★★ 權重+代碼開源 ★☆☆☆☆ 閉源
硬件要求 推薦 H100/H800(8卡視頻) 雲端 API
視頻編輯 ★★★★★ 保留非編輯區域細節 ★★★★☆
視覺質量 ★★★★☆ 優秀(480p/16fps) ★★★★★ 頂尖

Bernini的應用場景

  • 廣告創意:模型能快速生成產品展示視頻,支持產品圖植入與風格調整。
  • 電商展示:基於商品多角度參考圖生成一致性高的動態展示視頻。
  • 影視預演:通過關鍵幀生成連續鏡頭,輔助虛擬漫遊與場景構建。
  • 二次創作:支持風格遷移、天氣變換、動作編輯,降低視頻再創作門檻。
  • 虛擬拍攝:將海報或視頻精準填入畫面中的屏幕或招牌,實現虛實融合。
© 版權聲明

相關文章

暫無評論

暫無評論...