Tora – 阿里推出的AI視頻生成框架

8 0 0

Tora是什麼

Tora是阿里推出的AI視頻生成框架，基於軌跡導向的擴散變換器（DiT）技術，將文本、視覺和軌跡條件融合，生成高質量且符合物理世界動態的視頻內容。Tora由軌跡提取器、時空DiT和運動引導融合器組成，能夠精確控制視頻的動態表現，支持長達204幀、720p分辨率的視頻製作。Tora在運動保真度和模擬現實世界物理動態方面表現出色，爲視頻生成領域提供了一個強大的新工具。

Tora的主要功能

簡單來說，Tora能夠根據你給的指令（比如文字描述、圖片或者物體移動的路線），製作出既真實又流暢的視頻。

軌跡提取器（Trajectory Extractor, TE）：將輸入的軌跡轉換成層次化的時空運動塊，這些運動塊與視頻內容的潛在空間相匹配。
時空擴散變換器（Spatial-Temporal DiT）：結合空間和時間的自注意力機制，處理視頻數據，使模型能夠理解和生成具有連貫運動的視頻。
運動引導融合器（Motion-guidance Fuser, MGF）：負責將軌跡提取器生成的時空運動塊整合到DiT模型中，確保生成的視頻內容遵循預定的軌跡和動態。

Tora的技術原理

軌跡理解：Tora使用一個叫做“軌跡提取器”的工具，它能夠理解給定的軌跡信息。就像是給Tora一張地圖，告訴它視頻中的物體應該在哪裏以及如何移動。
時空編碼：Tora將這些軌跡信息轉換成一種特殊的編碼形式，稱爲“時空運動塊”。這些運動塊就像是視頻的骨架，決定了視頻中物體的運動方式。
視頻生成框架：Tora採用了一種叫做“擴散變換器”（DiT）的先進技術。技術結合了擴散模型和變換器架構的優點，讓Tora能夠生成高質量的視頻。
動態融合：Tora還有一個“運動引導融合器”，作用是將前面得到的時空運動塊與視頻內容結合起來。Tora就可以確保生成的視頻不僅畫面好看，而且物體的運動也非常自然和流暢。
兩階段訓練：爲了讓Tora更好地理解和生成運動，通過一個兩階段的訓練過程來學習。學習如何從密集的光流（一種描述物體運動的密集數據）中提取運動信息。學習如何根據用戶提供的更簡單的軌跡信息來生成視頻。
數據預處理：在訓練之前，Tora還需要對視頻數據進行一些處理，比如根據場景檢測將長視頻分割成短片段，然後根據美學評分和運動分割結果選擇適合訓練的視頻片段。

Tora – 阿里推出的AI視頻生成框架