Boximator – 字節推出的控制視頻生成中對象運動的框架

AI工具2年前 (2024)發佈新公告 AI管理員

7 0 0

Boximator是什麼？

Boximator是由字節跳動的研究團隊開發的一種視頻合成技術，旨在生成豐富且可控的運動，以增強視頻合成的質量和可控性。該技術通過引入兩種類型的約束框（硬框和軟框）來實現對視頻中對象位置、形狀或運動路徑的精細控制。

官方項目主頁：https://boximator.github.io/
Arxiv研究論文：https://arxiv.org/abs/2402.01566

Boximator - 字節推出的控制視頻生成中對象運動的框架

Boximator的工作原理

Boximator的工作原理基於視頻擴散模型，它通過引入一種新的控制機制來增強視頻合成的精細度和可控性。以下是Boximator工作原理的關鍵步驟：

對象選擇與框定義：
- 用戶在視頻的起始幀或條件幀中使用硬框（Hard Box）來選擇和精確定位對象。這些硬框定義了對象的精確邊界。
- 對於需要更寬鬆控制的場景，用戶可以定義軟框（Soft Box），這些框提供了一個對象必須存在的大致區域，允許對象在該區域內自由移動。
對象ID與框關聯：
- Boximator爲每個對象分配一個唯一的對象ID，這個ID以RGB顏色空間表示，使得每個對象的框都有一個獨特的“顏色”。這樣，模型可以跨幀跟蹤和控制同一個對象。
視頻擴散模型集成：
- Boximator作爲一個插件，與現有的視頻擴散模型（如PixelDance和ModelScope）集成。在訓練過程中，基礎模型的權重被凍結，以保留其預訓練的知識，而只訓練新增的控制模塊。
自跟蹤技術：
- 爲了簡化模型學習框-對象關聯的過程，Boximator引入了自跟蹤技術。在訓練階段，模型被訓練生成彩色的邊界框，這些框的顏色與對象ID相對應。模型需要在每一幀中生成正確的框並將其與Boximator的約束對齊。
多階段訓練過程：
- Boximator的訓練分爲三個階段。第一階段使用硬框約束，幫助模型建立對座標和ID的基本理解。第二階段引入軟框，通過隨機擴展硬框來增加訓練的難度。第三階段繼續使用軟框，但不生成可見的邊界框，而是讓模型內部保留這種關聯。
推理階段：
- 在推理（生成視頻）階段，Boximator在用戶定義的框之外的幀中插入軟框。這些軟框通過線性插值和放鬆處理來生成，確保對象大致遵循預期的運動軌跡，同時給予模型足夠的靈活性來引入變化。
運動控制與質量評估：
- Boximator通過平均精度（AP）分數來評估運動控制的準確性，這涉及到比較生成的視頻中的檢測到的邊界框與真實邊界框的一致性。
- 視頻質量則通過Fréchet Video Distance（FVD）分數和CLIP相似性分數（CLIPSIM）來衡量。

通過這些步驟，Boximator能夠在視頻合成過程中實現對對象運動的精細控制，同時保持視頻的高質量和逼真度。

Boximator - 字節推出的控制視頻生成中對象運動的框架

Boximator的應用場景

電影和電視製作：在電影和電視劇的後期製作中，Boximator可以用來生成或修改場景，例如添加或移除角色、調整動作場景，或者創造複雜的特效，而無需昂貴的現場拍攝。
遊戲開發：遊戲開發者可以使用Boximator來創建動態的遊戲場景和角色動畫，特別是在需要高度定製化或快速迭代內容時，這可以大大節省開發時間和成本。
VR和AR內容創作：在虛擬現實（VR）和增強現實（AR）領域，Boximator可以用來生成逼真的虛擬環境和交互式對象，爲用戶提供沉浸式的體驗。

# AI工具