混元DiT – 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

AI工具1年前 (2024)發佈新公告 AI管理員

7 0 0

混元DiT是什麼

混元DiT（Hunyuan-DiT）是由騰訊混元團隊開源的一款高性能的文本到圖像的擴散Transformer模型，具備細粒度的中英文理解能力，能夠根據文本提示生成多分辨率的高質量圖像。混元DiT採用了創新的網絡架構，結合了雙語CLIP和多語言T5編碼器，通過精心設計的數據管道進行訓練和優化，支持多輪對話，能夠根據上下文生成並完善圖像。在中文到圖像生成領域，混元DiT達到了開源模型中的領先水平。

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

混元DiT的主要功能

雙語文本到圖像生成：混元DiT能夠根據中文或英文的文本提示生成圖像，這使得它在跨語言的圖像生成任務中具有廣泛的應用潛力。
細粒度中文元素理解：模型特別針對中文進行了優化，可以更好地理解和生成與中國傳統文化相關的元素，如中國古詩、中國傳統服飾、中國節日等。
長文本處理能力：支持長達256個標記的文本輸入，使得DiT能夠理解和生成與複雜長文本描述相匹配的圖像。
多尺寸圖像生成：Hunyuan-DiT能夠在多種尺寸比例下生成高質量的圖像，滿足從社交媒體帖子到大尺寸打印等不同用途的需求。
多輪對話和上下文理解：通過與用戶進行多輪對話，混元DiT能夠根據對話歷史和上下文信息生成和迭代圖像，這增強了交互性和創造性。
圖像與文本的高一致性：Hunyuan-DiT生成的圖像在內容上與輸入的文本提示高度一致，確保了圖像能夠準確反映文本的意圖和細節。
藝術性和創意性：混元DiT不僅能夠生成常見的圖像，還能夠捕捉文本中的創意描述，生成具有藝術性和創意性的圖像作品。

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

混元DiT的官網入口

官方項目主頁：https://dit.hunyuan.tencent.com/
Hugging Face模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
GitHub源碼：https://github.com/Tencent/HunyuanDiT
技術報告：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

混元DiT的技術架構

混元DiT - 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

雙文本編碼器：混元DiT結合了雙語CLIP和多語言T5編碼器，以增強對輸入文本的理解和編碼能力。CLIP模型因其強大的圖像和文本之間的關聯能力而被選用，而T5模型則因其在多語言和文本理解方面的能力。
變分自編碼器（VAE）：使用預訓練的VAE將圖像壓縮到低維潛在空間，這有助於擴散模型學習數據分佈。VAE的潛在空間對生成質量有重要影響。
擴散模型：基於擴散Transformer，混元DiT使用擴散模型來學習數據分佈。該模型通過交叉注意力機制將文本條件與擴散模型結合。
改進的生成器：擴散Transformer相比於基線DiT有若干改進，例如使用自適應層歸一化（AdaNorm）來加強細粒度文本條件的執行。
位置編碼：混元DiT採用旋轉位置嵌入（RoPE）來同時編碼絕對位置和相對位置依賴性，支持多分辨率訓練和推理。
多模態大型語言模型（MLLM）：用於圖像-文本對的原始標題的重構，以提高數據質量。MLLM經過微調，能夠生成包含世界知識的結構化標題。
數據管道：包括數據獲取、解釋、分層和應用。通過一個稱爲“數據車隊”的迭代過程來檢查新數據的有效性。
後訓練優化：在推理階段進行優化，以降低部署成本，包括ONNX圖優化、內核優化、操作融合等。

混元DiT與其他文生圖模型的比較

爲了全面比較HunyuanDiT與其他模型的生成能力，混元團隊構建了4個維度的測試集，超過50名專業評估人員進行評估，包括文本圖像一致性、排除AI僞影、主題清晰度、審美。

模型	開源	文圖一致性(%)	排除 AI 僞影(%)	主題清晰度(%)	審美(%)	綜合得分(%)
SDXL	✔	64.3	60.6	91.1	76.3	42.7
PixArt-α	✔	68.3	60.9	93.2	77.5	45.5
Playground 2.5	✔	71.9	70.8	94.9	83.3	54.3
SD 3	✘	77.1	69.3	94.6	82.5	56.7
Midjourney v6	✘	73.5	80.2	93.5	87.2	63.3
DALL-E 3	✘	83.9	80.3	96.5	89.4	71.0
Hunyuan-DiT	✔	74.2	74.3	95.4	86.6	59.0