DiffusionGPT – 開源的大模型驅動的文本到圖像生成系統

AI工具2年前 (2024)發佈新公告 AI管理員

8 0 0

DiffusionGPT是什麼？

DiffusionGPT是由來自字節跳動與中山大學的研究人員推出的一個開源的大模型（LLM）驅動的文本到圖像生成系統，旨在解決文生圖領域無法處理不同的輸入或者僅限於單一模型結果的挑戰。該系統利用思維樹和優勢數據庫的技術能夠處理多種類型的文本提示，並將這些提示與領域專家模型相結合，以生成高質量的圖像。

DiffusionGPT - 開源的大模型驅動的文本到圖像生成系統

DiffusionGPT的官網入口

官方項目主頁：https://diffusiongpt.github.io/
Arxiv研究論文：https://arxiv.org/abs/2401.10061
GitHub代碼庫：https://github.com/DiffusionGPT/DiffusionGPT
Hugging Face運行地址：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT
DiffusionGPT-XL Demo：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT-XL

DiffusionGPT的主要特點

文本提示解析：DiffusionGPT能夠理解和解析各種類型的文本提示，包括基於描述的、基於指令的、基於啓發的和基於假設的提示。這一功能使得系統能夠準確把握用戶想要生成的圖像內容。
模型選擇與集成：系統通過構建一個基於思維樹（Tree-of-Thought, ToT）的結構，將多個領域專家生成模型進行分類和組織。這允許DiffusionGPT根據輸入的文本提示，從衆多模型中選擇最合適的一個來生成圖像。
人類反饋優化：DiffusionGPT利用人類反饋來優化模型選擇過程。通過優勢數據庫（Advantage Databases），系統可以根據人類對模型生成結果的評分來選擇表現最佳的模型，從而提高生成圖像的質量和用戶滿意度。
圖像生成執行：在選擇了合適的模型後，DiffusionGPT會執行圖像生成過程。爲了增強生成圖像的細節和藝術性，系統還會通過提示擴展代理來豐富和細化輸入提示。
多領域適用性：DiffusionGPT設計爲一個全能系統，不僅適用於描述性文本提示，還能夠處理更復雜的指令和啓發性內容，這使得它在多樣化的應用場景中具有廣泛的適用性。
即插即用解決方案：DiffusionGPT的設計使其成爲一個訓練免費、易於集成的解決方案，可以輕鬆地集成到現有的圖像生成流程中，爲用戶提供便捷的服務。

DiffusionGPT - 開源的大模型驅動的文本到圖像生成系統

DiffusionGPT的工作原理

DiffusionGPT的工作原理可以分爲四個主要步驟，這些步驟共同協作以實現從文本提示到高質量圖像生成的過程：

DiffusionGPT - 開源的大模型驅動的文本到圖像生成系統

提示解析（Prompt Parse）：
- DiffusionGPT首先使用大語言模型（LLM）來分析和提取輸入文本提示中的關鍵信息。這個過程對於生成用戶期望的內容至關重要，因爲用戶輸入可能包含多種類型的提示，如基於描述的、基於指令的、基於啓發的或基於假設的。
- LLM能夠識別這些提示的不同形式，並提取出核心內容，以便爲後續的圖像生成提供準確的指導。
模型構建和搜索的思維樹（Tree-of-Thought of Models）：
- 在解析了提示之後，系統會構建一個基於思維樹（ToT）的結構，這個結構包含了多個領域專家生成模型。這些模型根據它們的屬性被分類到不同的節點，形成一個層次化的結構。
- 通過這個思維樹，系統可以縮小候選模型的範圍，提高模型選擇的準確性。這個過程類似於在樹中搜索，從根節點開始，根據提示內容逐步向下尋找最匹配的模型。
模型選擇（Model Selection）：
- 在確定了候選模型集之後，DiffusionGPT會利用人類反饋和優勢數據庫（Advantage Databases）來選擇最合適的模型。這個數據庫包含了對模型生成結果的評分，基於這些評分，系統可以確定哪些模型在處理特定類型的提示時表現最佳。
- 系統會根據輸入提示與數據庫中的提示進行語義相似度計算，然後選擇與這些提示最匹配的模型，以確保生成的圖像符合用戶的期望。
生成執行（Execution of Generation）：
- 最後，選定的模型會根據提取的核心提示生成圖像。爲了提高生成圖像的質量，DiffusionGPT還會使用提示擴展代理（Prompt Extension Agent）來豐富和細化輸入提示，使其更加詳細和具有描述性。
- 這樣，生成的圖像不僅能夠捕捉到提示的核心內容，還能展現出更高的細節和藝術性。