混元DiT – 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

AI工具6個月前發佈新公告 AI管理員
4 0

混元DiT是什麼

混元DiT(Hunyuan-DiT)是由騰訊混元團隊開源的一款高性能的文本到圖像的擴散Transformer模型,具備細粒度的中英文理解能力,能夠根據文本提示生成多分辨率的高質量圖像。混元DiT採用了創新的網絡架構,結合了雙語CLIP和多語言T5編碼器,通過精心設計的數據管道進行訓練和優化,支持多輪對話,能夠根據上下文生成並完善圖像。在中文到圖像生成領域,混元DiT達到了開源模型中的領先水平。

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

混元DiT的主要功能

  • 雙語文本到圖像生成:混元DiT能夠根據中文或英文的文本提示生成圖像,這使得它在跨語言的圖像生成任務中具有廣泛的應用潛力。
  • 細粒度中文元素理解:模型特別針對中文進行了優化,可以更好地理解和生成與中國傳統文化相關的元素,如中國古詩、中國傳統服飾、中國節日等。
  • 長文本處理能力:支持長達256個標記的文本輸入,使得DiT能夠理解和生成與複雜長文本描述相匹配的圖像。
  • 多尺寸圖像生成:Hunyuan-DiT能夠在多種尺寸比例下生成高質量的圖像,滿足從社交媒體帖子到大尺寸打印等不同用途的需求。
  • 多輪對話和上下文理解:通過與用戶進行多輪對話,混元DiT能夠根據對話歷史和上下文信息生成和迭代圖像,這增強了交互性和創造性。
  • 圖像與文本的高一致性:Hunyuan-DiT生成的圖像在內容上與輸入的文本提示高度一致,確保了圖像能夠準確反映文本的意圖和細節。
  • 藝術性和創意性:混元DiT不僅能夠生成常見的圖像,還能夠捕捉文本中的創意描述,生成具有藝術性和創意性的圖像作品。

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

混元DiT的官網入口

  • 官方項目主頁:https://dit.hunyuan.tencent.com/
  • Hugging Face模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • GitHub源碼:https://github.com/Tencent/HunyuanDiT
  • 技術報告:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

混元DiT的技術架構

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

  • 雙文本編碼器:混元DiT結合了雙語CLIP和多語言T5編碼器,以增強對輸入文本的理解和編碼能力。CLIP模型因其強大的圖像和文本之間的關聯能力而被選用,而T5模型則因其在多語言和文本理解方面的能力。
  • 變分自編碼器(VAE):使用預訓練的VAE將圖像壓縮到低維潛在空間,這有助於擴散模型學習數據分佈。VAE的潛在空間對生成質量有重要影響。
  • 擴散模型:基於擴散Transformer,混元DiT使用擴散模型來學習數據分佈。該模型通過交叉注意力機制將文本條件與擴散模型結合。
  • 改進的生成器:擴散Transformer相比於基線DiT有若干改進,例如使用自適應層歸一化(AdaNorm)來加強細粒度文本條件的執行。
  • 位置編碼:混元DiT採用旋轉位置嵌入(RoPE)來同時編碼絕對位置和相對位置依賴性,支持多分辨率訓練和推理。
  • 多模態大型語言模型(MLLM):用於圖像-文本對的原始標題的重構,以提高數據質量。MLLM經過微調,能夠生成包含世界知識的結構化標題。
  • 數據管道:包括數據獲取、解釋、分層和應用。通過一個稱爲“數據車隊”的迭代過程來檢查新數據的有效性。
  • 後訓練優化:在推理階段進行優化,以降低部署成本,包括ONNX圖優化、內核優化、操作融合等。

混元DiT與其他文生圖模型的比較

爲了全面比較HunyuanDiT與其他模型的生成能力,混元團隊構建了4個維度的測試集,超過50名專業評估人員進行評估,包括文本圖像一致性、排除AI僞影、主題清晰度、審美。

模型 開源 文圖一致性(%) 排除 AI 僞影(%) 主題清晰度(%) 審美(%) 綜合得分(%)
SDXL 64.3 60.6 91.1 76.3 42.7
PixArt-α 68.3 60.9 93.2 77.5 45.5
Playground 2.5 71.9 70.8 94.9 83.3 54.3
SD 3 77.1 69.3 94.6 82.5 56.7
Midjourney v6 73.5 80.2 93.5 87.2 63.3
DALL-E 3 83.9 80.3 96.5 89.4 71.0
Hunyuan-DiT 74.2 74.3 95.4 86.6 59.0
© 版權聲明

相關文章

暫無評論

暫無評論...