StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型

AI工具1年前 (2024)發佈新公告 AI管理員

2 0 0

StreamingT2V是什麼

StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型，旨在解決現有模型僅能生成16幀或24幀的高質量短視頻，而當在生成長視頻時則會遇到如視頻質量下降、場景轉換不一致和視頻停滯等問題的挑戰。StreamingT2V通過引入條件注意模塊（CAM）和外觀保持模塊（APM）以及隨機混合方法，實現了長視頻（最長達1200幀、時長2分鐘）的流暢生成，確保了時間上的連貫性和與文本描述的緊密對齊。該方法不僅提高了視頻的質量，還使得視頻內容更加豐富和動態，從而在長視頻生成領域取得了顯著進步。

StreamingT2V的官網入口

官方項目主頁：https://streamingt2v.github.io/
GitHub代碼庫：https://github.com/Picsart-AI-Research/StreamingT2V（模型和源碼待上線）
arXiv研究論文：https://arxiv.org/abs/2403.14773

StreamingT2V的功能特性

長視頻生成：StreamingT2V能夠根據文本描述生成長視頻（80, 240, 600, 1200幀或更多），遠超傳統模型通常生成的短視頻長度。
時間連貫性：生成的視頻幀之間具有平滑的過渡和一致性，避免了生成長視頻時常見的硬切換或不連貫現象。
高質量圖像幀：該模型注重幀級別的圖像質量，保證即使在視頻較長的情況下，每一幀的圖像也能保持清晰和細膩。
文本對齊：StreamingT2V生成的視頻緊密對齊於輸入的文本提示描述，確保視頻內容與用戶的文本指導保持一致。
視頻增強：利用隨機混合方法，StreamingT2V可以在不引入塊間不一致性的情況下，對生成的視頻進行質量增強，提高視頻的分辨率和視覺效果。

StreamingT2V的工作流程

StreamingT2V的工作流程可以分爲以下幾個主要階段：

StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型

初始化階段（Initialization Stage）：
- 在這一階段，首先使用預訓練的文本到視頻模型（例如Modelscope）來合成一個初始的視頻塊，通常是一個短的16幀的視頻序列。
流式生成階段（Streaming T2V Stage）：
- 接下來，模型進入自迴歸的長視頻生成過程。在這個階段，StreamingT2V使用條件注意模塊（CAM）和外觀保持模塊（APM）來生成長視頻的後續幀。
- CAM利用短期記憶，通過注意力機制關注前一個視頻塊的特徵，從而實現塊之間的平滑過渡。
- APM則利用長期記憶，從初始視頻塊中提取關鍵的視覺特徵，確保在整個視頻生成過程中保持場景和對象的一致性。
流式細化階段（Streaming Refinement Stage）：
- 在生成了足夠長的視頻（例如80, 240, 600, 1200幀或更多）後，模型進入細化階段。
- 在這一階段，使用高分辨率的文本到視頻模型（例如MS-Vid2Vid-XL）對生成的視頻進行自迴歸增強。
- 通過隨機混合方法，對連續的24幀視頻塊進行增強，同時保持塊之間的平滑過渡，從而提高視頻的整體質量和分辨率。