MOFA-Video – 騰訊開源的可控性AI圖生視頻模型

AI工具2年前 (2024)更新 AI管理員

49 0 0

MOFA-Video是什麼

MOFA-Video是由騰訊AI實驗室和東京大學的研究人員開源的一個可控性的圖像生成視頻的模型，該技術利用生成運動場適應器對圖像進行動畫處理以生成視頻。MOFA-Video能夠在預訓練的Stable Video Diffusion模型基礎上，通過稀疏控制信號如手動軌跡、面部標記序列或音頻等，實現對視頻生成過程中動作的精細控制。MOFA-Video不僅能夠單獨使用這些控制信號，還能將它們組合使用，以零樣本（zero-shot）的方式進行更復雜的動畫製作，提供了一種全新的、高度可控的圖像動畫視頻解決方案。

MOFA-Video的功能特色

軌跡控制動畫：用戶通過在圖像上手動繪製軌跡，指導MOFA-Video生成相應的視頻動畫。這種功能特別適合需要精確控制物體或相機運動的場景。
面部關鍵點動畫：系統利用面部關鍵點數據，如通過面部識別技術獲得的標記，來生成逼真的面部表情和頭部動作動畫。
混合控制動畫：MOFA-Video能夠將軌跡控制和麪部關鍵點控制相結合，實現面部表情和身體動作的同步動畫，創造出複雜的多部分動畫效果。
音頻驅動面部動畫：通過分析音頻信號，MOFA-Video能夠生成與語音或音樂同步的面部動畫，例如口型同步。
視頻驅動面部動畫：使用參考視頻，MOFA-Video能夠使靜態圖像中的面部動作模仿視頻中的動作，實現動態的面部表情再現。
零樣本多模態控制：MOFA-Video支持零樣本學習，即不同控制信號可以無需額外訓練即可組合使用，這大大提高了動畫生成的靈活性和多樣性。
長視頻生成能力：通過採用週期性採樣策略，MOFA-Video能夠生成比傳統模型更長的視頻動畫，突破了幀數限制。
用戶界面操作：MOFA-Video提供了基於Gradio的簡單易用的用戶界面，用戶可以通過這個界面直觀地進行動畫生成，無需具備專業的編程技能。

MOFA-Video – 騰訊開源的可控性AI圖生視頻模型

MOFA-Video的官網入口

官方項目主頁：https://myniuuu.github.io/MOFA_Video
GitHub代碼庫：https://github.com/MyNiuuu/MOFA-Video
基於軌跡的圖像動畫Gradio演示和模型檢查點：https://huggingface.co/MyNiuuu/MOFA-Video-Traj
Gradio演示和混合控制圖像動畫檢查點：https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid

MOFA-Video的工作原理

MOFA-Video – 騰訊開源的可控性AI圖生視頻模型

稀疏控制信號生成：在訓練階段，系統通過稀疏運動採樣技術生成稀疏控制信號。這些信號可能是基於軌跡的動畫控制點，面部關鍵點序列，或者是其他形式的運動指示。
MOFA-Adapter設計：MOFA-Adapter是系統的核心，它是一個專門設計的網絡結構，用於將稀疏控制信號轉換爲密集的運動場。這一組件包括：
- S2D網絡：將稀疏的運動提示轉換爲密集的運動場。
- 參考圖像編碼器：提取參考圖像的多尺度特徵，用於後續的運動場生成。
- 特徵融合編碼器：將S2D網絡生成的運動場與參考圖像編碼器的特徵結合。
多尺度特徵提取：參考圖像編碼器對輸入的參考圖像進行處理，提取出多尺度的特徵表示，這些特徵將用於後續的視頻幀生成過程中的引導和變形。
運動場的生成與應用：S2D網絡根據稀疏控制信號生成密集的運動場，這些運動場隨後用於對多尺度特徵進行空間變形，以模擬視頻中的運動效果。
預訓練的SVD模型：MOFA-Adapter與預訓練的Stable Video Diffusion模型（SVD）結合，利用從MOFA-Adapter獲得的條件特徵來引導視頻幀的生成。
空間變形：利用生成的運動場，系統對參考圖像的多尺度特徵進行空間變形，確保視頻幀中的物體和場景元素按照預定的運動軌跡進行移動。
視頻幀生成：在特徵空間中經過變形的特徵被用於生成視頻幀。這一過程涉及到從潛在空間中採樣並逐步去除噪聲，以重建清晰的視頻幀。
多模態控制信號集成：MOFA-Video能夠處理來自不同源的控制信號，並將它們融合到統一的生成過程中，實現複雜的動畫效果。
零樣本學習：MOFA-Adapter訓練完成後，可以在不同控制域中無需額外訓練即可聯合工作，實現對視頻生成的精細控制。
長視頻生成策略：爲了生成更長的視頻，MOFA-Video採用了週期性採樣策略，通過在潛在空間中對幀進行分組和重疊採樣，解決了長視頻生成中的連貫性和計算複雜性問題。