PixArt-Σ – 華爲推出的可生成4K高清圖像的文生圖模型

AI工具6個月前發佈新公告 AI管理員
7 0

PixArt-Σ是什麼

PixArt-Σ是由來自華爲諾亞方舟實驗室、大連理工大學和香港大學的研究人員推出的一個基於擴散Transformer架構(DiT)的文生圖模型,專門設計用於從文本提示直接生成可達4K分辨率的高質量圖像。該模型是在PixArt-α的基礎上,通過整合高級元素和採用由弱到強式訓練方法得到的更加強大的模型,不僅提高了生成圖像的保真度,還改善了圖像與文本提示之間的對齊程度。PixArt-Σ的生成圖像在美學質量上與當前頂級的文本到圖像產品不相上下,如DALL·E 3和Midjourney V6,並且在遵循文本提示方面表現出色。

PixArt-Σ - 華爲推出的可生成4K高清圖像的文生圖模型

PixArt-Σ的官網入口

  • 官方項目主頁:https://pixart-alpha.github.io/PixArt-sigma-project/
  • GitHub代碼庫:https://github.com/PixArt-alpha/PixArt-sigma(源碼和模型待上線)
  • arXiv研究論文:https://arxiv.org/abs/2403.04692

PixArt-Σ的功能特性

  • 4K分辨率圖像生成:PixArt-Σ能夠直接從文本提示生成3840×2160分辨率的高清圖像,無需後續處理或其他軟件的介入。
  • 文本到圖像的高保真轉換:模型在生成圖像時,能夠精確地遵循文本描述的內容,確保圖像與文本之間的高度一致性。
  • 高效率訓練:PixArt-Σ採用了“弱到強訓練”的策略,通過引入高質量數據和高效的令牌壓縮技術,顯著提高了訓練效率。
  • 較小的模型尺寸:儘管PixArt-Σ能夠生成高分辨率的圖像,但其模型參數量相對較小(0.6B參數),這使得模型更加高效且易於部署。

PixArt-Σ - 華爲推出的可生成4K高清圖像的文生圖模型

PixArt-Σ的工作原理

PixArt-Σ的工作原理基於DiT(Diffusion Transformer)架構,這是一種結合了擴散模型和Transformer架構的深度學習方法,專門用於將文本描述轉換成相應的圖像。以下是PixArt-Σ工作原理的詳細介紹:

1. 預訓練階段:

在預訓練階段,PixArt-Σ使用了大量的文本-圖像對來學習文本和圖像之間的關聯。這個過程通常包括以下幾個步驟:

  • 文本編碼:首先,輸入的文本描述通過文本編碼器(如Flan-T5)轉換成一系列token的嵌入表示。在PixArt-Σ中,爲了處理更復雜的描述,文本編碼器的token長度被擴展到了大約300詞。
  • 條件特徵提取:接着,這些文本嵌入與圖像的條件特徵一起被送入擴散模型。條件特徵提取器通常是一個預訓練的神經網絡,用於從文本嵌入中提取與圖像生成相關的特徵。
  • 擴散過程:擴散模型通過模擬一個從數據分佈逐漸添加噪聲的過程來學習數據的分佈。在訓練過程中,模型學習如何從帶有噪聲的數據中恢復出清晰的圖像。
  • 迭代細化:通過迭代過程,模型逐漸學習如何根據文本描述生成高質量的圖像。這個過程涉及到調整模型參數,使得生成的圖像與真實的圖像越來越接近。

2. 由弱到強式訓練:

PixArt-Σ採用了由弱到強式訓練策略,這意味着模型首先在較低質量的數據集上進行訓練,然後逐步引入更高質量的數據集和更復雜的訓練策略。這種方法有助於模型在有限的資源下有效地利用新數據和算法來增強性能。

3. 高質量訓練數據集(Internal-Σ):

PixArt-Σ使用了一個新的高質量數據集,這個數據集包含了高分辨率的圖像和密集且準確的描述。這些數據爲模型提供了豐富的視覺信息和文本信息,有助於提高生成圖像的質量和與文本描述的對齊程度。

4. 高效的token壓縮和權重初始化:

爲了生成高分辨率圖像,PixArt-Σ引入了鍵和值token的壓縮技術,以及專門設計的權重初始化方案。這些技術使得模型能夠有效地處理高分辨率圖像的生成,同時減少了計算資源的需求。
PixArt-Σ - 華爲推出的可生成4K高清圖像的文生圖模型

5. 微調技術:

在微調階段,PixArt-Σ通過替換更強大的變分自動編碼器(VAE)、從低分辨率到高分辨率的擴展,以及從不使用KV壓縮到使用KV壓縮的模型演進,進一步提升了模型的性能。

6. 生成階段:

在生成階段,用戶輸入文本描述,模型根據學到的文本-圖像關聯,通過迭代過程逐步生成與描述相匹配的圖像。生成的圖像會根據文本描述的內容、風格和細節進行調整,以確保最終輸出的圖像既美觀又準確地反映了文本的意圖。

© 版權聲明

相關文章

暫無評論

暫無評論...