Hyper-SD – 字節跳動推出的高效的圖像合成框架

AI工具7個月前發佈新公告 AI管理員
0 0

Hyper-SD是什麼

Hyper-SD是由字節跳動的研究人員推出的一個高效的圖像合成框架,旨在解決現有擴散模型在多步推理過程中計算成本高昂的問題。Hyper-SD通過軌跡分割一致性蒸餾(TSCD)技術,在不同時間段內保持數據的一致性,從而有效保留了原始的ODE(常微分方程)軌跡。此外,它還融入了人類反饋學習,優化了在低步數推理情況下的模型性能,並利用分數蒸餾進一步提升了單步推理的圖像質量。該框架能夠在保持高圖像質量的同時,大幅減少必要的推理步驟,實現快速生成高分辨率圖像,進一步推動了生成AI領域的發展。

Hyper-SD – 字節跳動推出的高效的圖像合成框架

Hyper-SD的官網入口

  • 官方項目主頁:https://hyper-sd.github.io/
  • Hugging Face模型地址:https://huggingface.co/ByteDance/Hyper-SD
  • arXiv研究論文:https://arxiv.org/abs/2404.13686
  • Hyper-SD T2I版Demo:https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
  • Hyper-SD 塗鴉版Demo:https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

Hyper-SD的工作原理

  1. 軌跡分割一致性蒸餾(TSCD)將訓練時間步長範圍[0, T]劃分爲k個均勻的時間段。在每個時間段內部執行一致性蒸餾,使用原始模型作爲教師,學生模型逐步學習教師模型的行爲。通過逐步減少時間段的數量(如8 → 4 → 2 → 1),訓練學生模型以逼近教師模型的全局行爲。
  2. 人類反饋學習(ReFL)利用人類對圖像的偏好反饋來優化模型。訓練獎勵模型,使其能夠識別並獎勵更符合人類審美的圖像。通過迭代去噪和直接預測,結合獎勵模型的反饋,微調學生模型。
  3. 分數蒸餾使用真實分佈和假分佈的得分函數來指導單步推理過程。通過最小化兩個分佈之間的KL散度,優化學生的單步生成性能。
  4. 低秩適應(LoRA)使用LoRA技術來適配和訓練學生模型,使其成爲一個輕量級的插件,可以快速部署和使用。
  5. 訓練和損失函數優化定義損失函數,結合一致性損失、人類反饋損失和分數蒸餾損失。使用梯度下降等優化算法來訓練學生模型,同時更新LoRA插件。
  6. 推理和圖像生成在訓練完成後,使用學生模型進行圖像生成的推理過程。根據應用場景的需求,選擇適當的推理步驟數量,以平衡生成質量和效率。
  7. 性能評估使用定量指標(如CLIP分數、美學分數)和定性指標(如用戶研究)來評估生成圖像的質量。根據評估結果,進一步調整和優化模型參數。
© 版權聲明

相關文章

暫無評論

暫無評論...