PixArt-Σ – 華爲推出的可生成4K高清圖像的文生圖模型

AI工具1年前 (2024)發佈新公告 AI管理員

54 0 0

PixArt-Σ是什麼

PixArt-Σ是由來自華爲諾亞方舟實驗室、大連理工大學和香港大學的研究人員推出的一個基於擴散Transformer架構（DiT）的文生圖模型，專門設計用於從文本提示直接生成可達4K分辨率的高質量圖像。該模型是在PixArt-α的基礎上，通過整合高級元素和採用由弱到強式訓練方法得到的更加強大的模型，不僅提高了生成圖像的保真度，還改善了圖像與文本提示之間的對齊程度。PixArt-Σ的生成圖像在美學質量上與當前頂級的文本到圖像產品不相上下，如DALL·E 3和Midjourney V6，並且在遵循文本提示方面表現出色。

PixArt-Σ - 華爲推出的可生成4K高清圖像的文生圖模型

PixArt-Σ的官網入口

官方項目主頁：https://pixart-alpha.github.io/PixArt-sigma-project/
GitHub代碼庫：https://github.com/PixArt-alpha/PixArt-sigma（源碼和模型待上線）
arXiv研究論文：https://arxiv.org/abs/2403.04692

PixArt-Σ的功能特性

4K分辨率圖像生成：PixArt-Σ能夠直接從文本提示生成3840×2160分辨率的高清圖像，無需後續處理或其他軟件的介入。
文本到圖像的高保真轉換：模型在生成圖像時，能夠精確地遵循文本描述的內容，確保圖像與文本之間的高度一致性。
高效率訓練：PixArt-Σ採用了“弱到強訓練”的策略，通過引入高質量數據和高效的令牌壓縮技術，顯著提高了訓練效率。
較小的模型尺寸：儘管PixArt-Σ能夠生成高分辨率的圖像，但其模型參數量相對較小（0.6B參數），這使得模型更加高效且易於部署。

PixArt-Σ - 華爲推出的可生成4K高清圖像的文生圖模型

PixArt-Σ的工作原理

PixArt-Σ的工作原理基於DiT（Diffusion Transformer）架構，這是一種結合了擴散模型和Transformer架構的深度學習方法，專門用於將文本描述轉換成相應的圖像。以下是PixArt-Σ工作原理的詳細介紹：

1. 預訓練階段：

在預訓練階段，PixArt-Σ使用了大量的文本-圖像對來學習文本和圖像之間的關聯。這個過程通常包括以下幾個步驟：

文本編碼：首先，輸入的文本描述通過文本編碼器（如Flan-T5）轉換成一系列token的嵌入表示。在PixArt-Σ中，爲了處理更復雜的描述，文本編碼器的token長度被擴展到了大約300詞。
條件特徵提取：接着，這些文本嵌入與圖像的條件特徵一起被送入擴散模型。條件特徵提取器通常是一個預訓練的神經網絡，用於從文本嵌入中提取與圖像生成相關的特徵。
擴散過程：擴散模型通過模擬一個從數據分佈逐漸添加噪聲的過程來學習數據的分佈。在訓練過程中，模型學習如何從帶有噪聲的數據中恢復出清晰的圖像。
迭代細化：通過迭代過程，模型逐漸學習如何根據文本描述生成高質量的圖像。這個過程涉及到調整模型參數，使得生成的圖像與真實的圖像越來越接近。