StreamingT2V是什麼
StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,而當在生成長視頻時則會遇到如視頻質量下降、場景轉換不一致和視頻停滯等問題的挑戰。StreamingT2V通過引入條件注意模塊(CAM)和外觀保持模塊(APM)以及隨機混合方法,實現了長視頻(最長達1200幀、時長2分鐘)的流暢生成,確保了時間上的連貫性和與文本描述的緊密對齊。該方法不僅提高了視頻的質量,還使得視頻內容更加豐富和動態,從而在長視頻生成領域取得了顯著進步。
StreamingT2V的官網入口
- 官方項目主頁:https://streamingt2v.github.io/
- GitHub代碼庫:https://github.com/Picsart-AI-Research/StreamingT2V(模型和源碼待上線)
- arXiv研究論文:https://arxiv.org/abs/2403.14773
StreamingT2V的功能特性
- 長視頻生成:StreamingT2V能夠根據文本描述生成長視頻(80, 240, 600, 1200幀或更多),遠超傳統模型通常生成的短視頻長度。
- 時間連貫性:生成的視頻幀之間具有平滑的過渡和一致性,避免了生成長視頻時常見的硬切換或不連貫現象。
- 高質量圖像幀:該模型注重幀級別的圖像質量,保證即使在視頻較長的情況下,每一幀的圖像也能保持清晰和細膩。
- 文本對齊:StreamingT2V生成的視頻緊密對齊於輸入的文本提示描述,確保視頻內容與用戶的文本指導保持一致。
- 視頻增強:利用隨機混合方法,StreamingT2V可以在不引入塊間不一致性的情況下,對生成的視頻進行質量增強,提高視頻的分辨率和視覺效果。
StreamingT2V的工作流程
StreamingT2V的工作流程可以分爲以下幾個主要階段:
- 初始化階段(Initialization Stage):
- 在這一階段,首先使用預訓練的文本到視頻模型(例如Modelscope)來合成一個初始的視頻塊,通常是一個短的16幀的視頻序列。
- 流式生成階段(Streaming T2V Stage):
- 接下來,模型進入自迴歸的長視頻生成過程。在這個階段,StreamingT2V使用條件注意模塊(CAM)和外觀保持模塊(APM)來生成長視頻的後續幀。
- CAM利用短期記憶,通過注意力機制關注前一個視頻塊的特徵,從而實現塊之間的平滑過渡。
- APM則利用長期記憶,從初始視頻塊中提取關鍵的視覺特徵,確保在整個視頻生成過程中保持場景和對象的一致性。
- 流式細化階段(Streaming Refinement Stage):
- 在生成了足夠長的視頻(例如80, 240, 600, 1200幀或更多)後,模型進入細化階段。
- 在這一階段,使用高分辨率的文本到視頻模型(例如MS-Vid2Vid-XL)對生成的視頻進行自迴歸增強。
- 通過隨機混合方法,對連續的24幀視頻塊進行增強,同時保持塊之間的平滑過渡,從而提高視頻的整體質量和分辨率。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...