Bernini – 字節跳動開源的統一視頻生成與編輯框架

0 0 0

Bernini是什麼

Bernini 是字節跳動開源的統一視頻生成與編輯框架，採用MLLM 語義規劃 + DiT 視覺渲染的兩階段解耦架構。多模態大模型理解指令並規劃語義草圖，由 Diffusion Transformer 完成高質量視頻生成。模型支持文本/圖像生成視頻、環境/視角/動作編輯、多參考引導植入等任務，推理代碼與權重已全面開源。

Bernini的主要功能

文本/圖像生成視頻：支持從文本提示或參考圖像直接生成視頻，可處理單圖、多元素組合圖和多角度參考圖。
視頻編輯：支持環境編輯、視角編輯、焦點編輯和動作編輯。
參考引導編輯：通過主體參考圖、材質參考圖或風格參考圖，將指定物體、紋理或風格精準融入視頻。
圖像/視頻植入：將海報或視頻填入畫面中的屏幕、招牌等區域，跟隨鏡頭移動並保持透視和時序穩定。
多元素組合：將多張互不相關的參考圖組合成同一個視頻角色，或基於同一場景關鍵幀生成連續平移鏡頭。

Bernini的技術原理

兩階段解耦架構：第一階段由多模態大語言模型（MLLM）擔任 Semantic Planner，在 ViT 嵌入空間中預測目標語義表示，負責理解文本指令、源視頻和參考素材並規劃目標內容。第二階段由 Diffusion Transformer（DiT）擔任 Renderer，在 VAE 潛在空間中執行流匹配去噪，將語義規劃轉化爲高質量視頻幀。編輯任務中還會注入源視頻 VAE 特徵保留非編輯區域細節。
Segment-Aware 3D RoPE（SA-3D RoPE）：當多個參考圖、源視頻、目標輸出被串聯爲統一序列時，不同片段的 token 可能共享相同時空座標。通過爲每個視覺片段分配 segment 索引並整合到旋轉位置編碼中，使模型能區分不同來源的 token，同時保留原始時空建模特性。
Chain-of-Thought 推理與三階段訓練：Planner 在潛在空間中進行思維鏈推理，增強複雜編輯場景下的語義保真度。訓練分爲三階段：Planner 預訓練、Renderer 預訓練、Planner 與 Renderer 輕度聯合訓練，保留預訓練優勢又保持高效。

如何使用Bernini

克隆倉庫：從 GitHub 克隆 Bernini 項目到本地。
安裝依賴：運行 pip 安裝 requirements.txt 中的依賴包。
下載模型：通過 HuggingFace 下載 Bernini-R-Diffusers 權重。
配置環境：確保使用 Python 3.11.2 和 CUDA 12.4+，推薦 Hopper 架構 GPU。
運行生成：使用 torchrun 執行多 GPU 推理腳本，指定配置文件和測試用例。
配置提示增強：設置 OpenAI 兼容的 API 端點以提升生成質量。

Bernini的核心優勢

先理解再生成：MLLM 負責語義規劃，DiT 負責視覺渲染，解決傳統視頻模型「聽不懂人話」的痛點。
統一框架：單一架構覆蓋生成、編輯、參考引導等多種任務，無需切換模型。
多參考輸入：支持文本、圖像、視頻同時輸入，通過 SA-3D RoPE 避免時空混淆。
細節保留：編輯時注入源視頻 VAE 特徵，保留非編輯區域細節，避免「一改全改」。
完全開源：推理代碼與權重已開放，降低研究與開發門檻。
強泛化能力：在訓練未明確覆蓋的指令（如因果推理、動作變化）上仍表現出色。

Bernini的項目地址

項目官網：https://bernini-ai.github.io
GitHub倉庫：https://github.com/bytedance/Bernini
HuggingFace模型庫：https://huggingface.co/ByteDance/Bernini
arXiv技術論文：https://arxiv.org/pdf/2605.22344

Bernini的同類競品對比

對比維度	Bernini	Runway Gen-4
開發方	字節跳動（開源）	Runway（閉源）
核心架構	MLLM Planner + DiT Renderer	專有視頻生成模型
任務覆蓋	生成+編輯統一框架	生成+編輯
可控編輯	★★★★★ 強（語義規劃+多參考）	★★★★☆ 較強
參考圖支持	★★★★★ 多元素/多角度/材質/風格	★★★★☆ 支持
開源程度	★★★★★ 權重+代碼開源	★☆☆☆☆ 閉源
硬件要求	推薦 H100/H800（8卡視頻）	雲端 API
視頻編輯	★★★★★ 保留非編輯區域細節	★★★★☆
視覺質量	★★★★☆ 優秀（480p/16fps）	★★★★★ 頂尖