Hyper-SD – 字節跳動推出的高效的圖像合成框架

AI工具1年前 (2024)發佈新公告 AI管理員

7 0 0

Hyper-SD是什麼

Hyper-SD是由字節跳動的研究人員推出的一個高效的圖像合成框架，旨在解決現有擴散模型在多步推理過程中計算成本高昂的問題。Hyper-SD通過軌跡分割一致性蒸餾（TSCD）技術，在不同時間段內保持數據的一致性，從而有效保留了原始的ODE（常微分方程）軌跡。此外，它還融入了人類反饋學習，優化了在低步數推理情況下的模型性能，並利用分數蒸餾進一步提升了單步推理的圖像質量。該框架能夠在保持高圖像質量的同時，大幅減少必要的推理步驟，實現快速生成高分辨率圖像，進一步推動了生成AI領域的發展。

Hyper-SD - 字節跳動推出的高效的圖像合成框架

Hyper-SD的官網入口

官方項目主頁：https://hyper-sd.github.io/
Hugging Face模型地址：https://huggingface.co/ByteDance/Hyper-SD
arXiv研究論文：https://arxiv.org/abs/2404.13686
Hyper-SD T2I版Demo：https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
Hyper-SD 塗鴉版Demo：https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

Hyper-SD的工作原理

軌跡分割一致性蒸餾（TSCD）：將訓練時間步長範圍[0, T]劃分爲k個均勻的時間段。在每個時間段內部執行一致性蒸餾，使用原始模型作爲教師，學生模型逐步學習教師模型的行爲。通過逐步減少時間段的數量（如8 → 4 → 2 → 1），訓練學生模型以逼近教師模型的全局行爲。
人類反饋學習（ReFL）：利用人類對圖像的偏好反饋來優化模型。訓練獎勵模型，使其能夠識別並獎勵更符合人類審美的圖像。通過迭代去噪和直接預測，結合獎勵模型的反饋，微調學生模型。
分數蒸餾：使用真實分佈和假分佈的得分函數來指導單步推理過程。通過最小化兩個分佈之間的KL散度，優化學生的單步生成性能。
低秩適應（LoRA）：使用LoRA技術來適配和訓練學生模型，使其成爲一個輕量級的插件，可以快速部署和使用。
訓練和損失函數優化：定義損失函數，結合一致性損失、人類反饋損失和分數蒸餾損失。使用梯度下降等優化算法來訓練學生模型，同時更新LoRA插件。
推理和圖像生成：在訓練完成後，使用學生模型進行圖像生成的推理過程。根據應用場景的需求，選擇適當的推理步驟數量，以平衡生成質量和效率。
性能評估：使用定量指標（如CLIP分數、美學分數）和定性指標（如用戶研究）來評估生成圖像的質量。根據評估結果，進一步調整和優化模型參數。