VideoCrafter2 – 騰訊推出的高質量視頻生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

8 0 0

VideoCrafter2 是什麼？

VideoCrafter2是一個由騰訊AI實驗室開發的視頻生成模型，旨在克服高質量視頻數據獲取的侷限性，訓練出能夠生成高質量視頻的模型。該模型的核心思想是將視頻的生成過程分解爲兩個主要部分：運動（motion）和外觀（appearance）。通過這種方法，VideoCrafter2 能夠在沒有高質量視頻數據的情況下，利用低質量視頻來保證運動的一致性，同時使用高質量的圖像來確保生成視頻的畫面質量和概念組合能力。

VideoCrafter2 - 騰訊推出的高質量視頻生成模型

項目主頁：https://ailab-cvc.github.io/videocrafter2/

論文地址：https://arxiv.org/abs/2401.09047

GitHub代碼庫：https://github.com/AILab-CVC/VideoCrafter

Hugging Face Demo：https://huggingface.co/spaces/VideoCrafter/VideoCrafter2

VideoCrafter2 的功能特色

文本到視頻的轉換：用戶可以提供一段描述性的文本，VideoCrafter2 即可根據這段文本生成相應的視頻
高質量視頻生成：VideoCrafter2 能夠生成具有高分辨率和良好視覺效果的視頻，能夠創造出具有豐富細節和自然運動的視頻。
美學效果：通過將運動和外觀信息分開處理，VideoCrafter2 能夠在保證視頻運動連貫性的同時，提升視頻的美學質量，例如清晰度、色彩飽和度和整體視覺效果。
概念組合：VideoCrafter2 能夠理解和組合複雜的概念，可以生成包含多個現實或虛擬的元素和場景的視頻
風格和藝術性：VideoCrafter2 可以模擬不同的藝術風格，如賽博朋克、新波普風格等，從而爲視頻創作提供更多的創意可能性。

VideoCrafter2 - 騰訊推出的高質量視頻生成模型

VideoCrafter2 的工作原理

VideoCrafter2 的工作原理基於深度學習和擴散模型（Diffusion Models）的原理，通過以下幾個關鍵步驟來實現從文本到視頻的生成：

數據解耦：VideoCrafter2 將視頻內容的生成分解爲兩個主要部分：運動（motion）和外觀（appearance）。運動部分負責視頻中物體的移動和動畫效果，而外觀部分則關注圖像的清晰度、顏色和細節。
運動學習：使用低質量的視頻數據集（如 WebVid-10M）來訓練模型的運動部分。這些視頻雖然質量不高，但能夠提供足夠的運動信息，確保生成的視頻在運動上是連貫的。
外觀學習：使用高質量的圖像數據集（如 JDB，即 Journey Database，由 Midjourney 生成的圖像）來訓練模型的外觀部分。這些圖像具有高分辨率和複雜的概念組合，有助於提升生成視頻的視覺質量。
模型訓練：首先，使用低質量視頻和高分辨率圖像聯合訓練一個基礎的視頻模型。這個模型包含了空間（外觀）和時間（運動）兩個模塊。然後，通過微調空間模塊，使用高質量的圖像來進一步提升視頻的視覺效果。
概念組合能力提升：爲了增強模型在概念組合方面的能力，VideoCrafter2 使用合成的圖像數據集，這些圖像包含了複雜的概念組合，幫助模型學習如何將不同的元素和場景融合在一起。
生成過程：在訓練完成後，VideoCrafter2 可以根據文本提示生成視頻。它首先從文本中提取關鍵信息，然後結合運動和外觀的知識，逐步生成每一幀圖像，最終拼接成完整的視頻序列。
評估和優化：通過定量和定性評估，如使用 EvalCrafter 基準測試，來評估生成視頻的質量，並根據評估結果進行模型的進一步優化。