Pix2Gif – 微軟推出的靜態圖像轉動態GIF的擴散模型

AI工具1年前 (2024)發佈新公告 AI管理員

10 0 0

Pix2Gif是什麼

Pix2Gif是由微軟研究院的研究人員提出的一個基於運動引導的擴散模型，專門用於將靜態圖像轉換成動態的GIF動畫/視頻。該模型通過運動引導的擴散過程來實現單張圖像到GIF的生成，利用文本描述和運動幅度提示作爲輸入，來引導圖像內容的動態變化。此外，Pix2Gif還引入了感知損失，以保持生成的GIF幀與目標圖像在視覺上的一致性和連貫性。

Pix2Gif - 微軟推出的靜態圖像轉動態GIF的擴散模型

Pix2Gif的官網入口

官方項目主頁：https://hiteshk03.github.io/Pix2Gif/
arXiv研究論文：https://arxiv.org/abs/2403.04634
GitHub代碼庫：https://github.com/hiteshK03/Pix2Gif
在線Demo體驗：https://520a83a7524ec7d864.gradio.live/

Pix2Gif的功能特性

文本引導的動畫生成：用戶可以通過輸入文本描述來指導模型生成符合特定主題或動作的GIF動畫，模型會根據文本內容理解並創造出相應的動態視覺效果。
運動幅度控制：Pix2Gif允許用戶指定運動幅度，從而控制GIF中動作的強度和速度。這爲用戶提供了精細的運動控制能力，可創造出從緩慢微妙到快速劇烈的不同動態效果。
運動引導的圖像變換：模型使用運動引導變形模塊來根據文本提示和運動幅度在空間上變換源圖像的特徵，創造出連貫的動態幀。
感知損失優化：爲了確保生成的GIF在視覺上與源圖像保持一致，Pix2Gif採用了感知損失函數，以保持高級視覺特徵的一致性，如顏色、紋理和形狀等。

Pix2Gif的工作原理

Pix2Gif的工作原理基於擴散模型的原理，結合了文本引導和運動幅度控制來生成動態GIF動畫。以下是Pix2Gif工作原理的詳細步驟：

Pix2Gif - 微軟推出的靜態圖像轉動態GIF的擴散模型

輸入處理：
- 文本提示：用戶提供一個描述所需動畫內容的文本提示。
- 運動幅度：用戶還可以指定一個運動幅度值，該值量化了期望在GIF中表現的運動強度。
特徵提取與編碼：
- 源圖像編碼：源圖像通過一個編碼器（例如VQ-VAE）轉換成潛在空間中的向量表示。
- 文本嵌入：文本提示通過預訓練的語言模型（如CLIP）處理，得到文本的嵌入表示。
- 運動嵌入：運動幅度值也被嵌入爲一個向量，以便與文本嵌入一起作爲模型的條件輸入。
運動引導變形：
- FlowNet (FNet)：一個子網絡，根據文本和運動嵌入生成一個光流特徵圖，該圖表示圖像中的運動方向和幅度。
- WarpNet (WNet)：另一個子網絡，它使用光流特徵圖和源圖像的潛在表示來生成一個變形後的潛在表示。
潛在擴散過程：
- 逆擴散：Pix2Gif模型在潛在空間中執行逆擴散過程，這是一個逐步去除噪聲以生成清晰圖像的過程。
- 條件生成：在逆擴散過程中，模型使用文本嵌入和運動嵌入作爲條件，引導生成過程以符合用戶的輸入提示。
感知損失：
- 高級特徵一致性：爲了確保生成的圖像在視覺上與源圖像保持一致，模型使用感知損失函數，這通常涉及到比較預訓練深度網絡（如VGG網絡）中的特徵圖。
輸出生成：
- 圖像解碼：最終，模型輸出的潛在表示被解碼成像素空間中的圖像幀，形成動態的GIF動畫。
端到端訓練：
- 優化：整個模型通過端到端的方式進行訓練，最小化由真實圖像、文本提示和運動幅度定義的損失函數。