AnyI2V – 復旦聯合阿里達摩院等推出的圖像動畫生成框架

0 0 0

AnyI2V是什麼

AnyI2V 是復旦大學、阿里巴巴達摩院和湖畔實驗室聯合推出的創新圖像動畫生成框架。框架無需大量訓練數據，能將靜態條件圖像（如網格、點雲等）轉化爲動態視頻，支持用戶自定義運動軌跡。AnyI2V 支持多種模態輸入，可通過 LoRA 和文本提示靈活編輯，框架在空間和運動控制方面表現出色，爲圖像動畫化提供高效、靈活的新方法。

AnyI2V的主要功能

多模態支持：支持多種類型的條件輸入，包括網格、點雲等難以獲取成對訓練數據的模態。
混合條件輸入：框架能接受不同類型的條件輸入組合，進一步增加輸入的靈活性。
編輯功能：通過LoRA或不同的文本提示，對原始圖像進行編輯，實現風格遷移和內容調整。
運動控制：支持用戶通過定義運動軌跡控制視頻的動畫效果，實現精確的運動控制。
無需訓練：無需大量的訓練數據和複雜的訓練過程，降低使用門檻。

AnyI2V的技術原理

DDIM反演：AnyI2V 對條件圖像進行 DDIM（Denoising Diffusion Implicit Model）反演。DDIM 是擴散模型，通過逐步去除噪聲恢復圖像。在反演過程中，AnyI2V 從條件圖像中提取特徵，將用在後續的動畫生成。
特徵提取與替換：在提取特徵時，AnyI2V 移除 3D U-Net 中的時間模塊（temporal self-attention），模塊主要用在處理視頻中的時間信息，條件圖像只有空間信息。從 3D U-Net 的空間塊中提取特徵，在特定的時間步保存特徵。
優化潛在表示：AnyI2V 將提取的特徵替換回 3D U-Net 中，優化潛在表示。通過自動生成的語義掩碼進行約束，確保優化只在特定區域進行。語義掩碼根據條件圖像的內容動態生成，提高生成效果的準確性。
運動控制：用戶通過定義運動軌跡控制動畫的生成。AnyI2V 將運動軌跡作爲輸入，結合優化後的潛在表示，生成符合用戶定義運動的視頻。運動控制機制使用戶能精確地控制視頻中對象的運動路徑。