Bernini是什麼
Bernini 是字節跳動開源的統一視頻生成與編輯框架,採用MLLM 語義規劃 + DiT 視覺渲染的兩階段解耦架構。多模態大模型理解指令並規劃語義草圖,由 Diffusion Transformer 完成高質量視頻生成。模型支持文本/圖像生成視頻、環境/視角/動作編輯、多參考引導植入等任務,推理代碼與權重已全面開源。

Bernini的主要功能
-
文本/圖像生成視頻:支持從文本提示或參考圖像直接生成視頻,可處理單圖、多元素組合圖和多角度參考圖。
-
視頻編輯:支持環境編輯、視角編輯、焦點編輯和動作編輯。
-
參考引導編輯:通過主體參考圖、材質參考圖或風格參考圖,將指定物體、紋理或風格精準融入視頻。
-
圖像/視頻植入:將海報或視頻填入畫面中的屏幕、招牌等區域,跟隨鏡頭移動並保持透視和時序穩定。
- 多元素組合:將多張互不相關的參考圖組合成同一個視頻角色,或基於同一場景關鍵幀生成連續平移鏡頭。
Bernini的技術原理
- 兩階段解耦架構:第一階段由多模態大語言模型(MLLM)擔任 Semantic Planner,在 ViT 嵌入空間中預測目標語義表示,負責理解文本指令、源視頻和參考素材並規劃目標內容。第二階段由 Diffusion Transformer(DiT)擔任 Renderer,在 VAE 潛在空間中執行流匹配去噪,將語義規劃轉化爲高質量視頻幀。編輯任務中還會注入源視頻 VAE 特徵保留非編輯區域細節。
- Segment-Aware 3D RoPE(SA-3D RoPE):當多個參考圖、源視頻、目標輸出被串聯爲統一序列時,不同片段的 token 可能共享相同時空座標。通過爲每個視覺片段分配 segment 索引並整合到旋轉位置編碼中,使模型能區分不同來源的 token,同時保留原始時空建模特性。
- Chain-of-Thought 推理與三階段訓練:Planner 在潛在空間中進行思維鏈推理,增強複雜編輯場景下的語義保真度。訓練分爲三階段:Planner 預訓練、Renderer 預訓練、Planner 與 Renderer 輕度聯合訓練,保留預訓練優勢又保持高效。
如何使用Bernini
-
克隆倉庫:從 GitHub 克隆 Bernini 項目到本地。
-
安裝依賴:運行 pip 安裝 requirements.txt 中的依賴包。
-
下載模型:通過 HuggingFace 下載 Bernini-R-Diffusers 權重。
-
配置環境:確保使用 Python 3.11.2 和 CUDA 12.4+,推薦 Hopper 架構 GPU。
-
運行生成:使用 torchrun 執行多 GPU 推理腳本,指定配置文件和測試用例。
- 配置提示增強:設置 OpenAI 兼容的 API 端點以提升生成質量。
Bernini的核心優勢
- 先理解再生成:MLLM 負責語義規劃,DiT 負責視覺渲染,解決傳統視頻模型「聽不懂人話」的痛點。
- 統一框架:單一架構覆蓋生成、編輯、參考引導等多種任務,無需切換模型。
- 多參考輸入:支持文本、圖像、視頻同時輸入,通過 SA-3D RoPE 避免時空混淆。
- 細節保留:編輯時注入源視頻 VAE 特徵,保留非編輯區域細節,避免「一改全改」。
- 完全開源:推理代碼與權重已開放,降低研究與開發門檻。
- 強泛化能力:在訓練未明確覆蓋的指令(如因果推理、動作變化)上仍表現出色。
Bernini的項目地址
- 項目官網:https://bernini-ai.github.io
- GitHub倉庫:https://github.com/bytedance/Bernini
- HuggingFace模型庫:https://huggingface.co/ByteDance/Bernini
- arXiv技術論文:https://arxiv.org/pdf/2605.22344
Bernini的同類競品對比
| 對比維度 | Bernini | Runway Gen-4 |
|---|---|---|
| 開發方 | 字節跳動(開源) | Runway(閉源) |
| 核心架構 | MLLM Planner + DiT Renderer | 專有視頻生成模型 |
| 任務覆蓋 | 生成+編輯統一框架 | 生成+編輯 |
| 可控編輯 | ★★★★★ 強(語義規劃+多參考) | ★★★★☆ 較強 |
| 參考圖支持 | ★★★★★ 多元素/多角度/材質/風格 | ★★★★☆ 支持 |
| 開源程度 | ★★★★★ 權重+代碼開源 | ★☆☆☆☆ 閉源 |
| 硬件要求 | 推薦 H100/H800(8卡視頻) | 雲端 API |
| 視頻編輯 | ★★★★★ 保留非編輯區域細節 | ★★★★☆ |
| 視覺質量 | ★★★★☆ 優秀(480p/16fps) | ★★★★★ 頂尖 |
Bernini的應用場景
-
廣告創意:模型能快速生成產品展示視頻,支持產品圖植入與風格調整。
-
電商展示:基於商品多角度參考圖生成一致性高的動態展示視頻。
-
影視預演:通過關鍵幀生成連續鏡頭,輔助虛擬漫遊與場景構建。
-
二次創作:支持風格遷移、天氣變換、動作編輯,降低視頻再創作門檻。
-
虛擬拍攝:將海報或視頻精準填入畫面中的屏幕或招牌,實現虛實融合。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...