StreamMultiDiffusion – 實時生成和編輯圖像的交互式框架

AI工具1年前 (2024)發佈新公告 AI管理員

11 0 0

StreamMultiDiffusion是什麼

StreamMultiDiffusion是一個開源的實時交互式的圖像生成框架，結合了擴散模型的高質量圖像合成能力和區域控制的靈活性，可根據用戶指定的區域文本提示生成實時、交互式、多文本到圖像。該框架的目的是提高圖像生成的速度和用戶交互性，使得用戶能夠實時地生成和編輯圖像。

StreamMultiDiffusion - 實時生成和編輯圖像的交互式框架

StreamMultiDiffusion的官網入口

GitHub源碼：https://github.com/ironjr/StreamMultiDiffusion
Hugging Face Demo：https://huggingface.co/spaces/ironjr/SemanticPalette
arXiv研究論文：https://arxiv.org/abs/2403.09055

StreamMultiDiffusion的功能特性

實時圖像生成：StreamMultiDiffusion能夠實現快速的圖像生成，使得用戶可以實時地看到由文本描述轉換成的圖像。這種實時性大大提高了用戶體驗，並允許即時的迭代和修改。
指定區域文本到圖像生成：用戶可以通過指定的文本提示和手繪區域來生成圖像的特定部分。這意味着用戶可以控制圖像的特定區域，如指定某個區域應包含“鷹”或“女孩”，而其他區域則由模型根據上下文自動生成。
Semantic Palette（語義畫板）允許用戶通過直觀的方式與模型交互，類似於使用畫筆在畫布上繪製。用戶可以通過輸入文本提示和繪製區域來“繪製”圖像，從而實現高度個性化的圖像創作。
高質量圖像輸出：利用強大的擴散模型，StreamMultiDiffusion能夠生成高分辨率和高質量的圖像，滿足專業級圖像生成的需求。
直觀的用戶交互界面：StreamMultiDiffusion提供了一個直觀的用戶界面，使得用戶可以通過簡單的操作來控制圖像生成過程，包括上傳背景圖像、輸入文本提示、繪製區域以及實時查看生成結果。

StreamMultiDiffusion - 實時生成和編輯圖像的交互式框架

StreamMultiDiffusion的工作原理

多提示流批處理架構：StreamMultiDiffusion將模型重構爲一個新的流批處理架構，可同時處理多個文本提示和對應的區域掩碼（masks）。該架構通過在每個時間步輸入新的圖像和上一批處理過的圖像，使得模型能夠在不同的時間步處理不同階段的圖像生成任務，從而提高整體的生成速度和效率。
快速推理技術：爲了實現實時生成，StreamMultiDiffusion採用了快速推理技術，如Latent Consistency Models（LCM）和其LoRA（Low-rank Adaptation）擴展，減少了從擴散模型生成圖像所需的推理步驟，從而加快了生成速度。
區域控制：StreamMultiDiffusion允許用戶通過手繪區域和文本提示來控制圖像的特定部分。這些區域掩碼指導模型在指定區域內生成與文本提示相對應的內容，從而實現對圖像細節的精細控制。
穩定化技術：爲了確保在快速推理的同時保持圖像質量，StreamMultiDiffusion引入了幾種穩定化技術：
- Latent Pre-Averaging：在進行區域合成之前，先對潛在表示進行預平均，以減少不同區域間的突兀感。
- Mask-Centering Bootstrapping：在生成過程的早期階段，將區域的中心引導到圖像的中心位置，以確保模型不會在後續步驟中忽略這些區域。
- Quantized Masks：通過量化掩碼來平滑區域邊界，使得不同區域之間的過渡更加自然。
Semantic Palette（語義畫板）：這是StreamMultiDiffusion提出的一個新的交互式圖像生成範式，允許用戶通過文本提示和手繪區域來“繪製”圖像。用戶可以實時地調整這些輸入，模型將根據這些輸入生成相應的圖像。
實時反饋和迭代：StreamMultiDiffusion提供了一個實時反饋機制，用戶可以通過觀察生成的圖像流來評估模型的輸出，並根據需要實時調整文本提示和區域掩碼。這種實時反饋機制使得用戶可以快速迭代和優化生成的圖像。