Tora – 阿里推出的AI視頻生成框架

AI項目和框架1個月前發佈新公告 AI管理員
1 0

Tora是什麼

Tora是阿里推出的AI視頻生成框架,基於軌跡導向的擴散變換器(DiT)技術,將文本、視覺和軌跡條件融合,生成高質量且符合物理世界動態的視頻內容。Tora由軌跡提取器、時空DiT和運動引導融合器組成,能夠精確控制視頻的動態表現,支持長達204幀、720p分辨率的視頻製作。Tora在運動保真度和模擬現實世界物理動態方面表現出色,爲視頻生成領域提供了一個強大的新工具。

Tora – 阿里推出的AI視頻生成框架

Tora的主要功能

簡單來說,Tora能夠根據你給的指令(比如文字描述、圖片或者物體移動的路線),製作出既真實又流暢的視頻。

  • 軌跡提取器(Trajectory Extractor, TE):將輸入的軌跡轉換成層次化的時空運動塊,這些運動塊與視頻內容的潛在空間相匹配。
  • 時空擴散變換器(Spatial-Temporal DiT):結合空間和時間的自注意力機制,處理視頻數據,使模型能夠理解和生成具有連貫運動的視頻。
  • 運動引導融合器(Motion-guidance Fuser, MGF):負責將軌跡提取器生成的時空運動塊整合到DiT模型中,確保生成的視頻內容遵循預定的軌跡和動態。

Tora的技術原理

  • 軌跡理解:Tora使用一個叫做“軌跡提取器”的工具,它能夠理解給定的軌跡信息。就像是給Tora一張地圖,告訴它視頻中的物體應該在哪裏以及如何移動。
  • 時空編碼:Tora將這些軌跡信息轉換成一種特殊的編碼形式,稱爲“時空運動塊”。這些運動塊就像是視頻的骨架,決定了視頻中物體的運動方式。
  • 視頻生成框架:Tora採用了一種叫做“擴散變換器”(DiT)的先進技術。技術結合了擴散模型和變換器架構的優點,讓Tora能夠生成高質量的視頻。
  • 動態融合:Tora還有一個“運動引導融合器”,作用是將前面得到的時空運動塊與視頻內容結合起來。Tora就可以確保生成的視頻不僅畫面好看,而且物體的運動也非常自然和流暢。
  • 兩階段訓練:爲了讓Tora更好地理解和生成運動,通過一個兩階段的訓練過程來學習。學習如何從密集的光流(一種描述物體運動的密集數據)中提取運動信息。學習如何根據用戶提供的更簡單的軌跡信息來生成視頻。
  • 數據預處理:在訓練之前,Tora還需要對視頻數據進行一些處理,比如根據場景檢測將長視頻分割成短片段,然後根據美學評分和運動分割結果選擇適合訓練的視頻片段。

Tora – 阿里推出的AI視頻生成框架

Tora的項目地址

  • 項目官網:https://ali-videoai.github.io/tora_video/
  • GitHub倉庫:https://github.com/ali-videoai/Tora
  • arXiv技術論文:https://arxiv.org/pdf/2407.21705

Tora的應用場景

  • 影視製作:Tora可以用於生成電影、電視劇或短片中的特效場景,通過軌跡控制生成複雜的動態畫面,減少實際拍攝成本和時間。
  • 動畫創作:在動畫領域,Tora可以根據腳本自動生成動畫序列,爲動畫師提供初步的動態草圖,加速創作過程。
  • 虛擬現實(VR)和增強現實(AR):Tora可以生成與用戶互動的動態環境,爲VR和AR應用提供逼真的視覺效果。
  • 遊戲開發:在電子遊戲中,Tora可以用來快速生成遊戲環境和角色動畫,提高遊戲設計的效率。
© 版權聲明

相關文章

暫無評論

暫無評論...