AtomoVideo是什麼
AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(Image-to-Video, I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內容。該框架基於多粒度圖像注入和高質量的數據集及訓練策略,使其能夠保持生成視頻與給定參考圖像之間的高保真度,同時實現豐富的運動強度和良好的時間一致性。
相較於Runway Gen-2和Pika 1.0,AtomoVideo在保持圖像細節、生成動態視頻以及提供個性化和可控生成方面表現出了一定的優勢。
AtomoVideo的官網入口
- 官方項目主頁:https://atomo-video.github.io/
- arXiv研究論文:https://arxiv.org/abs/2403.01800
AtomoVideo的功能特性
- 高保真圖像到視頻生成:AtomoVideo能夠根據用戶輸入的靜態圖像生成與之高度一致的視頻內容,生成的視頻在風格、內容和細節上都與原始圖像保持高度相似。
- 視頻幀預測:該框架支持長視頻序列的生成,通過迭代預測後續幀的方式,可以從一系列初始幀生成更長的視頻內容。
- 時間一致性和穩定性:AtomoVideo在生成視頻時,注重時間上的連貫性和穩定性,確保視頻播放時動作流暢,不會出現突兀的跳轉或不連貫的畫面。
- 文本到視頻生成:結合先進的文本到圖像模型,AtomoVideo還能夠實現文本到視頻的生成,用戶可以通過文本描述來指導視頻內容的創作。
- 個性化和可控生成:通過與個性化的文生圖模型和可控生成模型的結合,AtomoVideo能夠根據用戶的特定需求生成定製化的視頻內容。
AtomoVideo的工作原理
- 整體流程:AtomoVideo 使用預訓練的文本到圖像(T2I)模型作爲基礎,並在每個空間卷積和注意力層之後添加新的一維時間卷積和時間注意力模塊。在訓練過程中,只有添加的時間層和輸入層的參數會被更新,而T2I模型的參數保持固定。
- 圖像信息注入:爲了在生成視頻中保持與輸入圖像的一致性,AtomoVideo 在兩個不同的位置上注入圖像信息。首先,通過VAE編碼器將輸入圖像編碼爲低級表示,然後將其與高斯噪聲結合。同時,使用CLIP圖像編碼器提取圖像的高級語義表示,並通過交叉注意力層注入到生成過程中。
- 視頻幀預測:爲了實現長視頻的生成,AtomoVideo採用迭代預測的方法。給定一系列初始視頻幀,模型會預測接下來的幀。這種方法允許在有限的GPU內存約束下生成長視頻序列。
- 訓練和推理:在訓練階段,AtomoVideo使用內部的15M數據集,其中每個視頻大約10-30秒長,並且視頻的文本描述也被輸入到模型中。訓練過程中採用了零終端信噪比(SNR)和v-prediction策略,以提高視頻生成的穩定性。模型的輸入尺寸爲512×512,包含24幀。在推理階段,模型執行分類器自由引導(Classifier-Free Guidance),結合圖像和文本條件注入,以提高生成輸出的穩定性。
- 個性化視頻生成:AtomoVideo在訓練時固定了基礎2D UNet的參數,只訓練添加的參數,因此可以與社區中流行的個性化模型結合。例如,可以與epiCRealism這樣的T2I模型結合,該模型擅長生成光和影效果,用於I2V生成時傾向於生成包含光元素的視頻。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...