ExVideo – 阿里和華東師大推出的AI視頻長度擴展調優技術

AI工具1年前 (2024)發佈新公告 AI管理員

30 0 0

ExVideo是什麼

ExVideo是由阿里巴巴和華東師大的研究人員推出的一種視頻合成模型的後調優技術，能夠擴展現有視頻合成模型的時間尺度，以生成更長和幀數更多的視頻。該團隊基於Stable Video Diffusion模型，訓練了一個能夠生成長達128幀連貫視頻的擴展模型，同時保留了原始模型的生成能力。ExVideo通過優化3D卷積、時間注意力和位置嵌入等時間模塊，使模型能夠處理更長時間跨度的內容，在保持原始模型生成能力的同時，顯著增加了視頻幀數，且訓練成本較低，特別適合計算資源有限的情況。

ExVideo的功能特點

時間尺度擴展：ExVideo的核心功能之一是擴展視頻合成模型的時間尺度，可以處理和生成比原始模型設計時更長的視頻序列。通過這種擴展，ExVideo能夠生成具有更多幀的視頻，從而講述更完整的故事或展示更長時間的動態場景。
後調優策略：ExVideo的後調優策略是其技術的關鍵部分，通過對Stable Video Diffusion等模型的特定部分進行再訓練，ExVideo能夠使這些模型生成更長的視頻，達到128幀或更多。不僅提高了視頻的長度，還保持了模型對各種輸入的泛化能力，使得生成的視頻多樣化且適應性強。
參數高效：與傳統的訓練方法相比，ExVideo採用後調優策略，無需從頭開始訓練一個全新的模型，而是在現有模型的基礎上進行優化，顯著減少了所需的參數數量和計算資源，使得模型的擴展更加高效和實用。
保持生成能力：在對視頻長度進行擴展的同時，ExVideo注重保持視頻的質量，生成的視頻不僅在時間上有所延長，而且在視覺連貫性、清晰度和整體質量上也能滿足高標準。
兼容性和通用性：ExVideo的設計考慮到了與多種視頻合成模型的兼容性，使其能夠廣泛應用於不同的視頻生成任務。無論是3D卷積、時間注意力還是位置嵌入，ExVideo都能夠提供相應的擴展策略，以適應不同的模型架構。

ExVideo – 阿里和華東師大推出的AI視頻長度擴展調優技術

ExVideo的官網入口

官方項目主頁：https://ecnu-cilab.github.io/ExVideoProjectPage/
GitHub代碼庫：https://github.com/modelscope/DiffSynth-Studio
Hugging Face模型下載：https://huggingface.co/ECNU-CILab/ExVideo-SVD-128f-v1
ModelScope模型下載：https://www.modelscope.cn/models/ECNU-CILab/ExVideo-SVD-128f-v1/summary
arXiv技術論文：https://arxiv.org/abs/2406.14130

ExVideo的技術原理

參數後調優（Post-Tuning）：ExVideo採用參數後調優的方法，對現有的視頻合成模型進行改進。這包括對模型的特定部分進行再訓練，而不是重新訓練整個模型，從而提高效率。
時間模塊擴展：針對視頻合成模型中的時間模塊，ExVideo提出了擴展策略。這些策略包括對3D卷積層、時間注意力機制和位置嵌入層的優化，以適應更長的視頻序列。
3D卷積層：3D卷積層在視頻合成中用於捕捉時間維度上的特徵。ExVideo保留了原始模型中的3D卷積層，因爲它們能夠適應不同的時間尺度，而無需額外的微調。
時間注意力機制：爲了提高模型處理長時間序列的能力，ExVideo對時間注意力模塊進行了微調。這有助於模型更好地理解視頻內容的時間連貫性。
位置嵌入：傳統的視頻合成模型可能使用靜態或可訓練的位置嵌入來表示視頻中的幀順序。ExVideo通過引入可訓練的位置嵌入，並通過循環模式初始化，來適應更長的視頻序列。
身份3D卷積層（Identity 3D Convolution）：在位置嵌入層之後，ExVideo引入了一個額外的身份3D卷積層，用於學習長期視頻特徵。這個層在訓練前初始化爲單位矩陣，確保不會改變視頻表示，保持與原始模型的一致性。
工程優化：爲了在有限的計算資源下進行有效的訓練，ExVideo採用了多種工程優化技術，如參數凍結、混合精度訓練、梯度檢查點技術和Flash Attention，以及使用DeepSpeed庫來分片優化器狀態和梯度。
訓練過程：ExVideo使用了一個公開可用的數據集OpenSoraPlan2進行訓練，該數據集包含大量視頻，以此來增強模型生成多樣化視頻的能力。
損失函數和噪聲調度：在訓練過程中，ExVideo保持了與原始模型一致的損失函數和噪聲調度策略，確保了模型訓練的穩定性和效率。