Hyper-SD是什麼
Hyper-SD是由字節跳動的研究人員推出的一個高效的圖像合成框架,旨在解決現有擴散模型在多步推理過程中計算成本高昂的問題。Hyper-SD通過軌跡分割一致性蒸餾(TSCD)技術,在不同時間段內保持數據的一致性,從而有效保留了原始的ODE(常微分方程)軌跡。此外,它還融入了人類反饋學習,優化了在低步數推理情況下的模型性能,並利用分數蒸餾進一步提升了單步推理的圖像質量。該框架能夠在保持高圖像質量的同時,大幅減少必要的推理步驟,實現快速生成高分辨率圖像,進一步推動了生成AI領域的發展。
Hyper-SD的官網入口
- 官方項目主頁:https://hyper-sd.github.io/
- Hugging Face模型地址:https://huggingface.co/ByteDance/Hyper-SD
- arXiv研究論文:https://arxiv.org/abs/2404.13686
- Hyper-SD T2I版Demo:https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
- Hyper-SD 塗鴉版Demo:https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble
Hyper-SD的工作原理
- 軌跡分割一致性蒸餾(TSCD):將訓練時間步長範圍[0, T]劃分爲k個均勻的時間段。在每個時間段內部執行一致性蒸餾,使用原始模型作爲教師,學生模型逐步學習教師模型的行爲。通過逐步減少時間段的數量(如8 → 4 → 2 → 1),訓練學生模型以逼近教師模型的全局行爲。
- 人類反饋學習(ReFL):利用人類對圖像的偏好反饋來優化模型。訓練獎勵模型,使其能夠識別並獎勵更符合人類審美的圖像。通過迭代去噪和直接預測,結合獎勵模型的反饋,微調學生模型。
- 分數蒸餾:使用真實分佈和假分佈的得分函數來指導單步推理過程。通過最小化兩個分佈之間的KL散度,優化學生的單步生成性能。
- 低秩適應(LoRA):使用LoRA技術來適配和訓練學生模型,使其成爲一個輕量級的插件,可以快速部署和使用。
- 訓練和損失函數優化:定義損失函數,結合一致性損失、人類反饋損失和分數蒸餾損失。使用梯度下降等優化算法來訓練學生模型,同時更新LoRA插件。
- 推理和圖像生成:在訓練完成後,使用學生模型進行圖像生成的推理過程。根據應用場景的需求,選擇適當的推理步驟數量,以平衡生成質量和效率。
- 性能評估:使用定量指標(如CLIP分數、美學分數)和定性指標(如用戶研究)來評估生成圖像的質量。根據評估結果,進一步調整和優化模型參數。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...