InstantID – 高保真的個性化圖像合成框架

AI工具9個月前發佈新公告 AI管理員
5 0

InstantID是一種基於擴散模型的圖像生成技術,專注於實現零次(zero-shot)身份保留(Identity-Preserving)的個性化圖像合成。該技術允許用戶僅使用一張面部圖像,就能在多種風格中生成個性化的圖像,同時確保高保真度,類似於PhotoMaker的生成效果。InstantID的設計旨在解決現有個性化圖像合成方法在實際應用中的一些限制,例如高存儲需求、漫長的微調過程以及需要多張參考圖像。

InstantID - 高保真的個性化圖像合成框架

項目主頁:https://instantid.github.io/

論文地址:https://arxiv.org/abs/2401.07519

GitHub代碼庫:https://github.com/InstantID/InstantID

InstantID的功能特色

  • 個性化圖像合成:用戶可以基於一張面部圖像生成具有不同姿勢或風格的個性化圖像,同時保持高保真度。
  • 身份特徵保留:在生成新圖像時,InstantID能夠精確地保留原始圖像中的人臉特徵,如表情、年齡和身份等。
  • 風格遷移:InstantID可以將一個人的面部特徵轉移到不同的藝術風格或背景中,例如將現實風格的面部特徵融入到動漫風格的圖像中。
  • 新視角合成:通過InstantID,可以生成同一人物的新視角圖像,即使原始圖像中沒有這些視角。
  • 身份插值:InstantID能夠實現不同人物特徵的平滑過渡,例如在兩個不同人物之間進行面部特徵的插值。
  • 多身份合成:在複雜的場景中,InstantID可以同時處理多個人物,生成包含多個角色的圖像。
  • 兼容預訓練模型:InstantID作爲一個插件,可以無縫集成到流行的預訓練文本到圖像擴散模型中,如SD1.5和SDXL,而不需要額外的微調。

InstantID - 高保真的個性化圖像合成框架

InstantID的工作原理

InstantID包含了三個關鍵的組成部分,ID嵌入、圖像適配器和IdentityNet。

InstantID - 高保真的個性化圖像合成框架

  1. ID嵌入:首先,InstantID使用一個預訓練的面部模型來提取參考面部圖像的身份嵌入,包含了豐富的語義信息,如身份、年齡和性別等,由此來保持生成圖像中的人臉細節。
  2. 圖像適配器:InstantID引入了一個輕量級的圖像適配器,這個適配器使用解耦的交叉注意力機制來支持圖像作爲視覺提示。該適配器可以將參考圖像作爲條件輸入,而不影響其他模型參數。
  3. IdentityNet:一個專門設計的網絡,用於編碼參考面部圖像的詳細特徵,並結合額外的空間控制。IdentityNet通過將面部特徵與文本提示結合起來,引導圖像生成過程,確保在生成過程中保持面部身份的細節。
  4. 訓練和推理策略:在訓練過程中,InstantID只優化圖像適配器和IdentityNet的參數,而保持預訓練的擴散模型參數不變。這樣,即使在沒有額外微調的情況下,InstantID也能在推理時保持靈活性。
  5. 生成過程:在生成圖像時,InstantID首先使用ID嵌入作爲條件,然後通過圖像適配器和IdentityNet的引導,將這些條件傳遞給擴散模型,擴散模型隨後在這些條件下生成圖像。
© 版權聲明

相關文章

暫無評論

暫無評論...