混元DiT是什麼
混元DiT(Hunyuan-DiT)是由騰訊混元團隊開源的一款高性能的文本到圖像的擴散Transformer模型,具備細粒度的中英文理解能力,能夠根據文本提示生成多分辨率的高質量圖像。混元DiT採用了創新的網絡架構,結合了雙語CLIP和多語言T5編碼器,通過精心設計的數據管道進行訓練和優化,支持多輪對話,能夠根據上下文生成並完善圖像。在中文到圖像生成領域,混元DiT達到了開源模型中的領先水平。
混元DiT的主要功能
- 雙語文本到圖像生成:混元DiT能夠根據中文或英文的文本提示生成圖像,這使得它在跨語言的圖像生成任務中具有廣泛的應用潛力。
- 細粒度中文元素理解:模型特別針對中文進行了優化,可以更好地理解和生成與中國傳統文化相關的元素,如中國古詩、中國傳統服飾、中國節日等。
- 長文本處理能力:支持長達256個標記的文本輸入,使得DiT能夠理解和生成與複雜長文本描述相匹配的圖像。
- 多尺寸圖像生成:Hunyuan-DiT能夠在多種尺寸比例下生成高質量的圖像,滿足從社交媒體帖子到大尺寸打印等不同用途的需求。
- 多輪對話和上下文理解:通過與用戶進行多輪對話,混元DiT能夠根據對話歷史和上下文信息生成和迭代圖像,這增強了交互性和創造性。
- 圖像與文本的高一致性:Hunyuan-DiT生成的圖像在內容上與輸入的文本提示高度一致,確保了圖像能夠準確反映文本的意圖和細節。
- 藝術性和創意性:混元DiT不僅能夠生成常見的圖像,還能夠捕捉文本中的創意描述,生成具有藝術性和創意性的圖像作品。
混元DiT的官網入口
- 官方項目主頁:https://dit.hunyuan.tencent.com/
- Hugging Face模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
- GitHub源碼:https://github.com/Tencent/HunyuanDiT
- 技術報告:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
混元DiT的技術架構
- 雙文本編碼器:混元DiT結合了雙語CLIP和多語言T5編碼器,以增強對輸入文本的理解和編碼能力。CLIP模型因其強大的圖像和文本之間的關聯能力而被選用,而T5模型則因其在多語言和文本理解方面的能力。
- 變分自編碼器(VAE):使用預訓練的VAE將圖像壓縮到低維潛在空間,這有助於擴散模型學習數據分佈。VAE的潛在空間對生成質量有重要影響。
- 擴散模型:基於擴散Transformer,混元DiT使用擴散模型來學習數據分佈。該模型通過交叉注意力機制將文本條件與擴散模型結合。
- 改進的生成器:擴散Transformer相比於基線DiT有若干改進,例如使用自適應層歸一化(AdaNorm)來加強細粒度文本條件的執行。
- 位置編碼:混元DiT採用旋轉位置嵌入(RoPE)來同時編碼絕對位置和相對位置依賴性,支持多分辨率訓練和推理。
- 多模態大型語言模型(MLLM):用於圖像-文本對的原始標題的重構,以提高數據質量。MLLM經過微調,能夠生成包含世界知識的結構化標題。
- 數據管道:包括數據獲取、解釋、分層和應用。通過一個稱爲“數據車隊”的迭代過程來檢查新數據的有效性。
- 後訓練優化:在推理階段進行優化,以降低部署成本,包括ONNX圖優化、內核優化、操作融合等。
混元DiT與其他文生圖模型的比較
爲了全面比較HunyuanDiT與其他模型的生成能力,混元團隊構建了4個維度的測試集,超過50名專業評估人員進行評估,包括文本圖像一致性、排除AI僞影、主題清晰度、審美。
模型 | 開源 | 文圖一致性(%) | 排除 AI 僞影(%) | 主題清晰度(%) | 審美(%) | 綜合得分(%) |
---|---|---|---|---|---|---|
SDXL | ✔ | 64.3 | 60.6 | 91.1 | 76.3 | 42.7 |
PixArt-α | ✔ | 68.3 | 60.9 | 93.2 | 77.5 | 45.5 |
Playground 2.5 | ✔ | 71.9 | 70.8 | 94.9 | 83.3 | 54.3 |
SD 3 | ✘ | 77.1 | 69.3 | 94.6 | 82.5 | 56.7 |
Midjourney v6 | ✘ | 73.5 | 80.2 | 93.5 | 87.2 | 63.3 |
DALL-E 3 | ✘ | 83.9 | 80.3 | 96.5 | 89.4 | 71.0 |
Hunyuan-DiT | ✔ | 74.2 | 74.3 | 95.4 | 86.6 | 59.0 |
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...