I2VGen-XL:阿里推出的圖像到視頻生成模型

I2VGen-XL是什麼

I2VGen-XL 是阿里巴巴達摩院推出的一款開源的圖像到視頻的生成模型,通過創新的級聯擴散方法,將文本視頻數據與視頻結構解耦,同時利用靜態圖像作爲關鍵指導形式,確保了輸入數據的對齊性,將靜態圖像合成爲高質量的動態視頻。這種方法有效解決了AI視頻合成過程中的語義準確性、清晰度和時空連續性的挑戰。

I2VGen-XL:阿里推出的圖像到視頻生成模型

I2VGen-XL的功能特色

  • 靜態圖像轉視頻:用戶只需提供靜態圖像和相應的文本描述,模型就能生成與輸入圖像內容和語義高度一致的動態視頻。
  • 生成寬屏高清視頻:I2VGen-XL 能夠生成分辨率爲1280*720、16:9寬屏比例的高清視頻,爲用戶提供了高質量的視覺體驗。
  • 時序連貫:模型生成的視頻在時間序列上連貫,保證了視頻內容的流暢性和觀看的舒適度。
  • 質感好、細節豐富:I2VGen-XL 在視頻合成過程中注重細節的保留和質感的呈現,使得生成的視頻具有較高的真實感和藝術性。

I2VGen-XL:阿里推出的圖像到視頻生成模型

如何使用I2VGen-XL

I2VGen-XL的項目主頁爲:https://i2vgen-xl.github.io/,GitHub代碼庫爲:https://github.com/ali-vilab/i2vgen-xl,研究論文地址爲:https://arxiv.org/abs/2311.04145,普通用戶可以通過Hugging Face或ModelScope魔搭社區的Demo進行在線體驗:

  1. 訪問I2VGen-XL的Demo主頁(Hugging Face版:https://huggingface.co/spaces/modelscope/I2VGen-XL;ModelScope版:https://www.modelscope.cn/studios/damo/I2VGen-XL-Demo/summary)
  2. 選擇合適的圖片進行上傳(建議圖片比例爲1:1),然後點擊「生成視頻」
  3. 待初步生成的視頻完成後,進入下一步添加對視頻內容的英文文本描述
  4. 點擊「生成高分辨率視頻」,等待2分鐘左右,視頻便能生成好了
© 版權聲明

相關文章

暫無評論

暫無評論...