Stable Diffusion 3 – Stability AI推出的新一代圖像生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

7 0 0

Stable Diffusion 3是什麼

Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型，是 Stable Diffusion 系列模型的最新迭代，旨在通過文本提示生成高質量的圖像。該模型相較於上代模型在多個關鍵方面（如文本渲染能力、多主題提示能力、圖像質量等）進行了改進，使其在生成圖像的質量和多樣性上都有顯著提升。

Stable Diffusion 3 - Stability AI推出的新一代圖像生成模型

Stable Diffusion 3的主要特點

改進的文本渲染能力：Stable Diffusion 3 在處理文本渲染方面有顯著提升，能夠更準確地生成包含文字的圖像，減少了亂碼和錯誤。
可擴展的參數量：Stable Diffusion 3 提供了不同規模的模型，參數量從 800M 到 8B 不等，這使得它能夠在多種設備上運行，包括便攜式設備，降低了 AI 大模型的使用門檻。
多主題提示支持：新模型支持多主題提示，允許用戶通過一個文本提示生成包含多個元素或主題的複雜圖像，提高了創作的靈活性。
圖像質量提升：Stable Diffusion 3 在圖像質量上進行了優化，提供了更高的分辨率和更好的色彩飽和度，使得生成的圖像更加逼真和細緻。
Diffusion Transformer 架構：該模型採用了 Diffusion Transformer（DiT架構），一種結合了 Transformer 和擴散模型的技術（OpenAI 的 Sora 也採用了該技術），提高了模型的效率和生成圖像的質量。
Flow Matching 技術：Stable Diffusion 3 還採用了 Flow Matching 技術，一種提高採樣效率的方法，通過迴歸固定條件概率路徑來實現無模擬訓練，從而提高了模型的訓練和採樣速度。