MIP-Adapter – 阿里開源多參考圖像融合的個性化圖像生成技術

8 0 0

MIP-Adapter是什麼

MIP-Adapter是一種個性化圖像生成技術，由阿里巴巴集團推出並開源。基於IP-Adapter模型，進一步擴展其能力，支持同時處理多個參考圖像，生成更準確和高質量的定製化圖像。MIP-Adapter通過爲每個參考圖像分配一個重要性分數，解決多圖像輸入時的對象混淆問題。分數基於參考圖像與目標對象的相關性，確保生成的圖像中每個對象的特徵都能得到正確表現。該方法在多對象個性化圖像生成任務上達到最先進的性能，且訓練效率高，僅需在8個GPU上訓練5小時即可實現。MIP-Adapter的推出，爲個性化圖像生成領域帶來新的突破，特別是在需要結合多個參考圖像進行創作的場景中。

MIP-Adapter的主要功能

多參考圖像融合：MIP-Adapter能處理多個參考圖像，並根據每個圖像與目標對象的相關性進行加權融合。
個性化圖像生成：基於參考圖像和文本提示生成個性化的圖像內容。
無需測試時微調：模型在測試階段不需要進一步微調，減少計算資源的消耗和使用成本。
高質量圖像輸出：通過解決對象混淆問題，生成的圖像質量得到顯著提升。

MIP-Adapter的技術原理

解耦交叉注意力機制：MIP-Adapter基於一種解耦的交叉注意力機制，將文本特徵和參考圖像特徵分別處理，然後合併到模型的中間層。
加權合併方法：通過估計潛藏圖像特徵中不同位置與目標對象的相關性，MIP-Adapter爲每個參考圖像分配不同的權重，從而在生成圖像時更準確地反映每個對象的特徵。
對象質量評分：提出一種對象質量評分系統，評估和選擇高質量的訓練樣本，減輕對象混淆問題並提高訓練效率。
多對象數據集訓練：MIP-Adapter在由開源SA-1B數據集構建的多對象數據集上繼續訓練，提高模型在多對象生成任務上的性能。
高性能實現：模型在Concept101和DreamBooth等數據集上實現最先進的性能，證明在多對象個性化圖像生成任務上的有效性。

MIP-Adapter的項目地址

GitHub倉庫：https://github.com/hqhQAQ/MIP-Adapter
HuggingFace模型庫：https://huggingface.co/datasets/hqhQAQ/subject_dataset_10k/tree/main
arXiv技術論文：https://arxiv.org/pdf/2409.17920v1