VideoCrafter2 – 騰訊推出的高質量視頻生成模型

AI工具10個月前發佈新公告 AI管理員
7 0

VideoCrafter2 是什麼?

VideoCrafter2是一個由騰訊AI實驗室開發的視頻生成模型,旨在克服高質量視頻數據獲取的侷限性,訓練出能夠生成高質量視頻的模型。該模型的核心思想是將視頻的生成過程分解爲兩個主要部分:運動(motion)和外觀(appearance)。通過這種方法,VideoCrafter2 能夠在沒有高質量視頻數據的情況下,利用低質量視頻來保證運動的一致性,同時使用高質量的圖像來確保生成視頻的畫面質量和概念組合能力。

VideoCrafter2 - 騰訊推出的高質量視頻生成模型

項目主頁:https://ailab-cvc.github.io/videocrafter2/

論文地址:https://arxiv.org/abs/2401.09047

GitHub代碼庫:https://github.com/AILab-CVC/VideoCrafter

Hugging Face Demo:https://huggingface.co/spaces/VideoCrafter/VideoCrafter2

VideoCrafter2 的功能特色

  • 文本到視頻的轉換:用戶可以提供一段描述性的文本,VideoCrafter2 即可根據這段文本生成相應的視頻
  • 高質量視頻生成:VideoCrafter2 能夠生成具有高分辨率和良好視覺效果的視頻,能夠創造出具有豐富細節和自然運動的視頻。
  • 美學效果:通過將運動和外觀信息分開處理,VideoCrafter2 能夠在保證視頻運動連貫性的同時,提升視頻的美學質量,例如清晰度、色彩飽和度和整體視覺效果。
  • 概念組合:VideoCrafter2 能夠理解和組合複雜的概念,可以生成包含多個現實或虛擬的元素和場景的視頻
  • 風格和藝術性:VideoCrafter2 可以模擬不同的藝術風格,如賽博朋克、新波普風格等,從而爲視頻創作提供更多的創意可能性。

VideoCrafter2 - 騰訊推出的高質量視頻生成模型

VideoCrafter2 的工作原理

VideoCrafter2 的工作原理基於深度學習和擴散模型(Diffusion Models)的原理,通過以下幾個關鍵步驟來實現從文本到視頻的生成:

  1. 數據解耦:VideoCrafter2 將視頻內容的生成分解爲兩個主要部分:運動(motion)和外觀(appearance)。運動部分負責視頻中物體的移動和動畫效果,而外觀部分則關注圖像的清晰度、顏色和細節。
  2. 運動學習:使用低質量的視頻數據集(如 WebVid-10M)來訓練模型的運動部分。這些視頻雖然質量不高,但能夠提供足夠的運動信息,確保生成的視頻在運動上是連貫的。
  3. 外觀學習:使用高質量的圖像數據集(如 JDB,即 Journey Database,由 Midjourney 生成的圖像)來訓練模型的外觀部分。這些圖像具有高分辨率和複雜的概念組合,有助於提升生成視頻的視覺質量。
  4. 模型訓練:首先,使用低質量視頻和高分辨率圖像聯合訓練一個基礎的視頻模型。這個模型包含了空間(外觀)和時間(運動)兩個模塊。然後,通過微調空間模塊,使用高質量的圖像來進一步提升視頻的視覺效果。
  5. 概念組合能力提升:爲了增強模型在概念組合方面的能力,VideoCrafter2 使用合成的圖像數據集,這些圖像包含了複雜的概念組合,幫助模型學習如何將不同的元素和場景融合在一起。
  6. 生成過程:在訓練完成後,VideoCrafter2 可以根據文本提示生成視頻。它首先從文本中提取關鍵信息,然後結合運動和外觀的知識,逐步生成每一幀圖像,最終拼接成完整的視頻序列。
  7. 評估和優化:通過定量和定性評估,如使用 EvalCrafter 基準測試,來評估生成視頻的質量,並根據評估結果進行模型的進一步優化。

如何使用 VideoCrafter2

  1. 訪問VideoCrafter2的官方項目主頁或VideoCrafter2的Hugging Face空間,然後在 User Input 處輸入簡短的文本
  2. 點擊 Expand Prompt 按鈕生成更加豐富的提示描述
  3. 然後點擊Generate Videos,將分別根據原始用戶輸入和豐富後的提示生成兩個視頻
  4. 生成高清視頻需要2-3分鐘。
© 版權聲明

相關文章

暫無評論

暫無評論...