PuLID – 字節跳動開源的個性化文本到圖像生成框架

AI工具2年前 (2024)發佈新公告 AI管理員

21 0 0

PuLID是什麼

PuLID是由字節跳動的團隊開源的一種個性化文本到圖像生成技術，通過對比對齊和快速採樣方法，實現了無需調整模型的高效ID定製，輕鬆實現圖像換臉效果。該技術能夠保持高身份（ID）保真度，同時最大限度地減少對原始圖像風格和背景的干擾，支持用戶通過文本提示輕鬆編輯圖像，生成逼真且個性化的圖像結果。PuLID支持個性化編輯，允許用戶通過簡單提示調整人物屬性，且易於大規模應用，適用於藝術創作、虛擬形象定製和影視製作等多個領域。

PuLID的功能特色

高度逼真的面部定製：用戶只需提供目標人物的面部圖像，PuLID便能精準地將該面部特徵應用到各種風格的圖像中，生成極具真實感的定製化肖像。
原始風格保留：在進行面部替換的過程中，PuLID精心設計算法以最大程度地保留原始圖像的風格元素，如背景、光照和整體藝術風格，確保生成的圖像與原圖風格一致。
靈活的個性化編輯：PuLID支持通過簡單的文本提示對生成的圖像進行細緻的編輯，包括但不限於人物的表情、髮型、配飾等，賦予用戶更大的創作自由度。
快速出圖能力：利用先進的快速採樣技術，PuLID能夠在極短的時間內生成高質量的圖像，大幅提升了圖像生成的效率。
無需精細調整：用戶在使用PuLID時，無需進行繁瑣的模型調整或參數優化，即可快速獲得理想的圖像結果，極大降低了技術門檻。
兼容性與靈活性：PuLID與多種現有的基礎模型和身份編碼器具有良好的兼容性，使其能夠輕鬆集成到不同的應用平台中。

PuLID – 字節跳動開源的個性化文本到圖像生成框架

PuLID的官網入口

GitHub源碼庫：https://github.com/ToTheBeginning/PuLID
Hugging Face Demo：https://huggingface.co/spaces/yanze/PuLID
arXiv研究論文：https://arxiv.org/abs/2404.16022

PuLID的工作原理

PuLID – 字節跳動開源的個性化文本到圖像生成框架

雙分支訓練框架：PuLID採用一個結合了標準擴散模型和快速Lightning T2I分支的雙分支訓練框架。這種設計允許模型在生成圖像時同時優化身份定製和原始圖像風格的保持。
對比對齊：通過構建具有相同文本提示和初始潛在條件的兩條生成路徑（一條包含ID插入，另一條不包含），PuLID使用對比對齊損失來語義上對齊這兩條路徑的UNet特徵，指導模型如何在不干擾原始模型行爲的情況下嵌入ID信息。
快速採樣：PuLID利用快速採樣技術，從純噪聲狀態快速生成高質量的圖像，這爲精確計算ID損失提供了條件，因爲生成的圖像更接近真實世界數據的分佈。
精確ID損失：在ID插入後，PuLID使用生成的高質量初始圖像（x0）來提取面部嵌入，並與真實面部嵌入計算準確的ID損失，確保生成的圖像在身份特徵上的高保真度。
校準損失：包括語義校準損失和佈局校準損失，確保模型對文本提示的響應在兩條路徑中保持一致，從而保持風格、佈局的一致性，並允許個性化編輯。
端到端優化：PuLID的訓練目標是聯合優化擴散損失、對齊損失和ID損失，以訓練出一個既能夠生成高質量圖像，又能保持高ID保真度的模型。