CogVideoX – 智譜AI推出的開源AI視頻生成模型

34 0 0

CogVideoX是什麼

CogVideoX是智譜AI最新推出的開源AI視頻生成模型，與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞，能生成6秒長、每秒8幀、分辨率爲720*480的視頻。模型推理需16-36GB顯存，目前不支持量化推理和多卡推理。項目還包括3D Causal VAE組件用於視頻重建，以及豐富的示例和工具，包括CLI/WEB Demo、在線體驗、API接口示例和微調指南。

CogVideoX的主要功能

AI文生視頻：支持用戶輸入的文本提示詞生成視頻內容。
高顯存需求：推理過程需要較高的GPU顯存支持，優化前使用diffusers爲36GB，使用SAT爲16GB。
視頻參數定製：可以定製視頻長度、幀率和分辨率，目前支持6秒長視頻，8幀/秒，分辨率爲720*480。
3D Causal VAE技術：使用3D Causal VAE技術，實現視頻內容的高效重建。
推理與微調：模型支持基本的推理生成視頻，同時提供了微調能力，以適應不同需求。

CogVideoX的技術原理

文本到視頻生成：CogVideoX使用深度學習模型，特別是基於Transformer的架構，來理解輸入的文本提示並生成視頻內容。
3D Causal VAE：CogVideoX採用了3D Causal Variational Autoencoder（變分自編碼器），一種用於視頻重建和壓縮的技術，能夠幾乎無損地重構視頻，減少存儲和計算需求。
專家Transformer：CogVideoX使用專家Transformer模型，一種特殊的Transformer，通過多個專家處理不同的任務，例如空間和時間信息的處理，以及控制信息流動等。
編碼器-解碼器架構：在3D VAE中，編碼器將視頻轉換成簡化的代碼，而解碼器根據這些代碼重建視頻，潛在空間正則化器確保編碼和解碼之間的信息傳遞更準確。
混合時長訓練：CogVideoX的訓練過程採用混合時長訓練，允許模型學習不同長度的視頻，提高泛化能力。
多階段訓練：CogVideoX的訓練分爲幾個階段，包括低分辨率預訓練、高分辨率預訓練和高質量視頻微調，逐步提升模型的生成質量和細節。
自動和人工評估：CogVideoX使用自動評估和人工評估相結合的方式，確保生成的視頻質量達到預期。