Snap Video – Snapchat公司推出的AI視頻生成模型

AI工具1年前 (2024)發佈新公告 AI管理員

41 0 0

Snap Video是什麼

Snap Video是由Snap（社交媒體Snapchat所屬的公司）研究團隊開發的一個AI視頻生成模型，目標是通過文本描述來合成視頻，即用戶可以輸入一段描述性的文本，模型能夠根據這段文本生成相應的視頻內容。由於視頻內容具有高度的冗餘性和複雜性，Snap Video旨在解決從文本描述生成高質量、時間上連貫、高運動保真度的視頻的挑戰。用戶研究顯示，Snap Video與Pika、Runway Gen-2等視頻生成模型相比毫不遜色甚至效果更好。

Snap Video - Snapchat公司推出的AI視頻生成模型

Snap Video的官網入口

官方項目主頁：https://snap-research.github.io/snapvideo/
arXiv研究論文：https://arxiv.org/abs/2402.14797

Snap Video的主要特點

視頻優先模型：Snap Video是專門爲視頻內容生成設計的模型，在處理視頻的時間連續性和運動方面進行了特別的優化。這與許多其他模型不同，後者通常是從圖像生成模型擴展而來，可能在處理視頻時存在侷限性。
擴展的EDM框架：該模型擴展了EDM框架，使其能夠更好地處理視頻數據的空間和時間冗餘，從而提高視頻生成的質量。
高效的Transformer架構：Snap Video採用了基於Transformer的FIT架構，在處理序列數據和捕捉長期依賴關係方面非常有效，尤其是在視頻生成任務和處理高分辨率視頻中。
快速訓練和推理：與U-Net等傳統架構相比，Snap Video的訓練和推理速度更快，能夠更高效地生成視頻。
高分辨率視頻生成：Snap Video能夠生成高分辨率的視頻內容，這在以往的文本到視頻生成模型中是一個挑戰，因爲需要處理更多的細節和複雜的運動。
聯合空間-時間建模：Snap Video通過聯合空間和時間維度的建模，能夠生成具有複雜運動和高時間一致性的視頻。

Snap Video的技術架構

擴展的EDM框架：Snap Video對EDM框架進行了擴展，以適應高分辨率視頻的生成。EDM框架原本用於圖像生成，通過模擬數據的擴散過程來生成新的數據樣本。Snap Video通過引入輸入縮放因子（σin），調整了EDM的正向擴散過程，以保持原始分辨率下的信噪比（SNR），從而在高分辨率視頻生成中保持了性能。
變換器架構：Snap Video採用了基於變換器（Transformer）的架構，這是一種高效的深度學習模型，特別適合處理序列數據。變換器通過自注意力機制（Self-Attention）和跨注意力機制（Cross-Attention）來捕捉輸入數據中的全局依賴關係。在Snap Video中，變換器被用來處理視頻幀，以生成具有連貫運動的視頻。
FIT架構：Snap Video使用了FIT（Far-reaching Interleaved Transformers）架構，這是一種專門爲高分辨率圖像和視頻合成設計的變換器架構。FIT通過學習輸入數據的壓縮表示，並在可學習的潛在空間上執行計算，從而允許輸入維度的增長而不會顯著影響性能。這種壓縮表示使得Snap Video能夠有效地處理高分辨率視頻數據。
聯合空間-時間建模：Snap Video在生成視頻時，同時考慮空間和時間維度，這有助於捕捉視頻中的動態變化和運動。這種聯合建模策略提高了視頻的時間一致性和運動質量。
兩階段級聯模型：爲了生成高分辨率視頻，Snap Video採用了兩階段級聯模型。第一階段模型生成低分辨率的視頻，第二階段模型則將這些視頻上採樣到更高的分辨率。這種級聯方法允許模型在保持性能的同時生成高質量的視頻。
訓練和推理過程：Snap Video在訓練過程中使用了LAMB優化器，並採用了餘弦學習率調度。在推理過程中，模型使用確定性採樣器從高斯噪聲中生成視頻樣本，並應用分類器自由引導（Classifier-Free Guidance）來提高文本-視頻對齊。
條件信息：Snap Video在生成過程中利用了條件信息，如文本描述、噪聲水平、幀率和分辨率，這些信息通過額外的讀取操作提供給模型，以控制生成過程。