SDXL-Lightning – 字節跳動推出的文本到圖像生成模型

AI工具1年前 (2024)發佈新公告 AI管理員

18 0 0

SDXL-Lightning是什麼

SDXL-Lightning是由字節跳動的研究團隊推出的一種基於擴散模型的文本到圖像生成技術，旨在解決傳統擴散模型在圖像生成速度和計算成本上的侷限性。該模型基於 SDXL（Stable Diffusion XL）架構，通過結合漸進式和對抗式蒸餾方法，實現了在一步或少數幾步內快速生成1024像素分辨率的高質量圖像。這種方法在保持圖像質量的同時，顯著提高了生成速度，解決了傳統擴散模型在生成速度和計算成本上的瓶頸。

SDXL-Lightning - 字節跳動推出的文本到圖像生成模型

SDXL-Lightning的官網入口

Hugging Face模型地址：https://huggingface.co/ByteDance/SDXL-Lightning
Arxiv研究論文：https://arxiv.org/pdf/2402.13929.pdf
SDXL-Lightning的文生圖Demo：https://huggingface.co/spaces/AP123/SDXL-Lightning
SDXL-Lightning的實時圖片生成Demo：https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning

SDXL-Lightning - 字節跳動推出的文本到圖像生成模型

SDXL-Lightning的主要特點

快速生成高質量圖像：SDXL-Lightning 能夠在極短的時間內生成高分辨率（1024px）的圖像，支持一步或少步生成，用戶可以迅速從文本描述中得到高質量的圖像結果。
漸進式蒸餾：該方法通過訓練學生Student模型來預測數據流的下一個位置，而不是直接預測當前位置的梯度。這允許模型在生成過程中跳過多個步驟，從而加快圖像生成速度。
對抗式蒸餾：SDXL-Lightning結合了對抗性訓練，通過引入鑑別器網絡來區分真實圖像和生成圖像，以提高生成圖像的真實感和質量。
模型和權重開源：SDXL-Lightning 提供了開源的模型和權重，包括LoRA（Low-Rank Adaptation）版本和完整的UNet權重。研究人員和開發者可以輕鬆地訪問和使用這些資源，進行進一步的研究和開發。
兼容性和擴展型：SDXL-Lightning 支持與現有的LoRA模塊和控制插件（ControlNet）兼容，可以輕鬆地集成到現有的圖片生成系統（如SD WebUI、ComfyUI）中，爲用戶提供更多的創作靈活性。

SDXL-Lightning的技術原理

擴散模型（Diffusion Models）：擴散模型是一種生成模型，通過模擬從數據分佈到噪聲分佈的連續過程來生成新的數據樣本。這個過程通常涉及求解一個隨機微分方程（ODE），並且需要多個推理步驟來生成高質量的圖像。
漸進式蒸餾（Progressive Distillation）：漸進式蒸餾是一種訓練策略，訓練學生模型來預測教師模型在多個推理步驟中的中間狀態。該方法允許學生模型在較少的推理步驟中生成圖像，從而加快生成過程。
對抗式蒸餾（Adversarial Distillation）：對抗式蒸餾利用鑑別器網絡來區分真實圖像和生成圖像。學生模型被訓練以生成能夠“欺騙”鑑別器的圖像，使其認爲這些圖像是由教師模型生成的。該方法有助於提高生成圖像的質量。
鑑別器設計：SDXL-Lightning使用預訓練的擴散模型的U-Net編碼器作爲鑑別器的骨幹網絡。這種設計允許鑑別器在潛在空間中操作，從而支持在所有時間步長上的鑑別，並且具有很好的泛化能力。
損失函數和訓練技術：爲了平衡質量和模式覆蓋，SDXL-Lightning在蒸餾過程中使用對抗式損失。此外，還採用了其他訓練技術，如在多個時間步長上訓練學生網絡和鑑別器，以及在x0預測形式中切換模型，以提高訓練的穩定性。
模型訓練和評估：
- 在訓練過程中，首先使用均方誤差（MSE）損失進行蒸餾，然後在後續階段切換到對抗式損失。在每個階段，首先使用條件目標來保持ODE流，然後使用無條件目標來放鬆模式覆蓋要求。
- 評估模型性能時，使用了Fréchet Inception Distance (FID) 和CLIP分數等指標，以定量比較生成圖像的質量和多樣性。