CogVideoX – 智譜AI推出的開源AI視頻生成模型

AI項目和框架1個月前發佈新公告 AI管理員
1 0

CogVideoX是什麼

CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞,能生成6秒長、每秒8幀、分辨率爲720*480的視頻。模型推理需16-36GB顯存,目前不支持量化推理和多卡推理。項目還包括3D Causal VAE組件用於視頻重建,以及豐富的示例和工具,包括CLI/WEB Demo、在線體驗、API接口示例和微調指南。

CogVideoX – 智譜AI推出的開源AI視頻生成模型

CogVideoX的主要功能

  • AI文生視頻:支持用戶輸入的文本提示詞生成視頻內容。
  • 高顯存需求:推理過程需要較高的GPU顯存支持,優化前使用diffusers爲36GB,使用SAT爲16GB。
  • 視頻參數定製:可以定製視頻長度、幀率和分辨率,目前支持6秒長視頻,8幀/秒,分辨率爲720*480。
  • 3D Causal VAE技術:使用3D Causal VAE技術,實現視頻內容的高效重建。
  • 推理與微調:模型支持基本的推理生成視頻,同時提供了微調能力,以適應不同需求。

CogVideoX的技術原理

  • 文本到視頻生成:CogVideoX使用深度學習模型,特別是基於Transformer的架構,來理解輸入的文本提示並生成視頻內容。
  • 3D Causal VAE:CogVideoX採用了3D Causal Variational Autoencoder(變分自編碼器),一種用於視頻重建和壓縮的技術,能夠幾乎無損地重構視頻,減少存儲和計算需求。
  • 專家Transformer:CogVideoX使用專家Transformer模型,一種特殊的Transformer,通過多個專家處理不同的任務,例如空間和時間信息的處理,以及控制信息流動等。
  • 編碼器-解碼器架構:在3D VAE中,編碼器將視頻轉換成簡化的代碼,而解碼器根據這些代碼重建視頻,潛在空間正則化器確保編碼和解碼之間的信息傳遞更準確。
  • 混合時長訓練:CogVideoX的訓練過程採用混合時長訓練,允許模型學習不同長度的視頻,提高泛化能力。
  • 多階段訓練:CogVideoX的訓練分爲幾個階段,包括低分辨率預訓練、高分辨率預訓練和高質量視頻微調,逐步提升模型的生成質量和細節。
  • 自動和人工評估:CogVideoX使用自動評估和人工評估相結合的方式,確保生成的視頻質量達到預期。

CogVideoX – 智譜AI推出的開源AI視頻生成模型

CogVideoX的項目地址

  • 智譜清影體驗:https://ai-bot.cn/chatglm-video/
  • GitHub倉庫:https://github.com/THUDM/CogVideo
  • HuggingFace模型庫:https://huggingface.co/THUDM/CogVideoX-2b
  • 技術報告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
  • arXiv技術論文:Coming soon

CogVideoX的性能評估

爲了評估文本到視頻生成的質量,我們使用了VBench中的多個指標,如人類動作、場景、動態程度等。我們還使用了兩個額外的視頻評估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,這些工具專注於視頻的動態特性。如下表所示。

CogVideoX – 智譜AI推出的開源AI視頻生成模型

CogVideoX的應用場景

  • 創意視頻製作:爲獨立視頻創作者和藝術家提供工具,快速將創意文本描述轉化爲視覺視頻內容。
  • 教育和培訓材料:自動化生成教育視頻,幫助解釋複雜概念或展示教學場景。
  • 廣告和品牌宣傳:企業可以用CogVideoX模型根據廣告文案生成視頻廣告,提高營銷效果。
  • 遊戲和娛樂產業:輔助遊戲開發者快速生成遊戲內動畫或劇情視頻,提升遊戲體驗。
  • 電影和視頻編輯:輔助視頻編輯工作,通過文本描述生成特定場景或特效視頻。
  • 虛擬現實(VR)和增強現實(AR):爲VR和AR應用生成沉浸式視頻內容,增強用戶互動體驗。
© 版權聲明

相關文章

暫無評論

暫無評論...