IDM-VTON – 逼真的開源AI虛擬試穿框架

AI工具1年前 (2024)發佈新公告 AI管理員

63 0 0

IDM-VTON是什麼

IDM-VTON（Improved Diffusion Models for Virtual Try-ON）是由韓國科學技術院和OMNIOUS.AI的研究人員提出的一種先進的AI虛擬試穿技術，通過改進擴散模型來生成逼真的人物穿戴圖像，實現更真實的虛擬試穿效果。該技術包含兩個關鍵組件：一是視覺編碼器，用於提取服裝圖像的高級語義信息；二是GarmentNet，一個並行UNet網絡，用於捕捉服裝的低級細節特徵。IDM-VTON還引入了詳細的文本提示，以增強模型對服裝特徵的理解，從而提升生成圖像的真實度。

IDM-VTON - 逼真的開源AI虛擬試穿框架

IDM-VTON的功能特色

虛擬試穿圖像生成：根據用戶和服裝的圖像，生成用戶穿戴特定服裝的虛擬圖像。
服裝細節保留：通過GarmentNet提取服裝的低級特徵，確保服裝的圖案、紋理等細節在生成的圖像中得到準確反映。
支持文本提示理解：利用視覺編碼器和文本提示，使模型能夠理解服裝的高級語義信息，如款式、類型等。
個性化定製：允許用戶通過提供自己的圖像和服裝圖像，定製化生成更符合個人特徵的試穿效果。
逼真的試穿效果：IDM-VTON能夠生成視覺上逼真的試穿圖像，不僅在視覺上與服裝圖像保持一致，而且能夠自然地適應人物的姿態和體型。

IDM-VTON - 逼真的開源AI虛擬試穿框架

IDM-VTON的官網入口

官方項目主頁：https://idm-vton.github.io/
GitHub源碼庫：https://github.com/yisol/IDM-VTON
Hugging Face Demo：https://huggingface.co/spaces/yisol/IDM-VTON
Hugging Face模型：https://huggingface.co/yisol/IDM-VTON
arXiv研究論文：https://arxiv.org/abs/2403.05139

IDM-VTON的工作原理

IDM-VTON - 逼真的開源AI虛擬試穿框架

圖像編碼：首先，將人物（xp）和服裝（xg）的圖像編碼成模型可以處理的潛在空間表示。
高級語義提取：使用圖像提示適配器（IP-Adapter），這是一個利用圖像編碼器（如CLIP模型）來提取服裝圖像的高級語義信息的組件。
低級特徵提取：通過GarmentNet，一個專門設計的UNet網絡，來提取服裝圖像的低級細節特徵，如紋理、圖案等。
注意力機制：
- 交叉注意力：將高級語義信息與文本條件結合，通過交叉注意力層進行融合。
- 自注意力：將低級特徵與來自TryonNet的特徵結合，並通過自注意力層進行處理。
詳細文本提示：爲了增強模型對服裝細節的理解，提供詳細的文本提示，描述服裝的具體特徵，如“短袖圓領T恤”。
定製化：通過微調TryonNet的解碼器層，可以使用特定的人物-服裝圖像對來定製化模型，以適應不同的人物和服裝特徵。
生成過程：利用擴散模型的逆過程，從加入噪聲的潛在表示開始，逐步去噪生成最終的虛擬試穿圖像。
評估與優化：在不同的數據集上評估模型的性能，使用定量指標（如LPIPS、SSIM、CLIP圖像相似性得分和FID得分）和定性分析來優化模型。
泛化測試：在In-the-Wild數據集上測試模型的泛化能力，該數據集包含真實世界的場景，以驗證模型在未見過的服裝和人物姿態上的表現。