AnyI2V – 復旦聯合阿里達摩院等推出的圖像動畫生成框架

AI工具9個月前發佈新公告 AI管理員
0 0

AnyI2V是什麼

AnyI2V 是復旦大學、阿里巴巴達摩院和湖畔實驗室聯合推出的創新圖像動畫生成框架。框架無需大量訓練數據,能將靜態條件圖像(如網格、點雲等)轉化爲動態視頻,支持用戶自定義運動軌跡。AnyI2V 支持多種模態輸入,可通過 LoRA 和文本提示靈活編輯,框架在空間和運動控制方面表現出色,爲圖像動畫化提供高效、靈活的新方法。

AnyI2V – 復旦聯合阿里達摩院等推出的圖像動畫生成框架

AnyI2V的主要功能

  • 多模態支持:支持多種類型的條件輸入,包括網格、點雲等難以獲取成對訓練數據的模態。
  • 混合條件輸入:框架能接受不同類型的條件輸入組合,進一步增加輸入的靈活性。
  • 編輯功能:通過LoRA或不同的文本提示,對原始圖像進行編輯,實現風格遷移和內容調整。
  • 運動控制:支持用戶通過定義運動軌跡控制視頻的動畫效果,實現精確的運動控制。
  • 無需訓練:無需大量的訓練數據和複雜的訓練過程,降低使用門檻。

AnyI2V的技術原理

  • DDIM反演:AnyI2V 對條件圖像進行 DDIM(Denoising Diffusion Implicit Model)反演。DDIM 是擴散模型,通過逐步去除噪聲恢復圖像。在反演過程中,AnyI2V 從條件圖像中提取特徵,將用在後續的動畫生成。
  • 特徵提取與替換:在提取特徵時,AnyI2V 移除 3D U-Net 中的 時間模塊(temporal self-attention),模塊主要用在處理視頻中的時間信息,條件圖像只有空間信息。從 3D U-Net 的空間塊中提取特徵,在特定的時間步保存特徵。
  • 優化潛在表示:AnyI2V 將提取的特徵替換回 3D U-Net 中,優化潛在表示。通過自動生成的語義掩碼進行約束,確保優化只在特定區域進行。語義掩碼根據條件圖像的內容動態生成,提高生成效果的準確性。
  • 運動控制:用戶通過定義運動軌跡控制動畫的生成。AnyI2V 將運動軌跡作爲輸入,結合優化後的潛在表示,生成符合用戶定義運動的視頻。運動控制機制使用戶能精確地控制視頻中對象的運動路徑。

AnyI2V的項目地址

  • 項目官網:https://henghuiding.com/AnyI2V/
  • GitHub倉庫:https://github.com/FudanCVL/AnyI2V
  • arXiv技術論文:https://arxiv.org/pdf/2507.02857

AnyI2V的應用場景

  • 動畫製作:動畫師快速生成動畫原型,直接將靜態圖像轉化爲動態視頻,爲動畫創作提供更多的創意空間。
  • 視頻特效:在影視製作中,用在生成複雜的視覺特效,將靜態的場景圖像轉化爲動態的背景,或爲角色添加動態效果,增強視覺衝擊力。
  • 遊戲開發:遊戲開發者生成遊戲中的動態場景和角色動畫,爲遊戲帶來更加豐富和生動的視覺效果。
  • 動態廣告:廣告設計師將靜態廣告圖像轉化爲動態視頻,吸引觀衆的注意力。
  • 社交媒體內容:品牌和內容創作者生成引人注目的社交媒體視頻,,提高內容的傳播率和用戶參與度。
© 版權聲明

相關文章

暫無評論

暫無評論...