DesignEdit – 微軟等開源的AI圖像分層處理編輯框架

AI工具2年前 (2024)發佈新公告 AI管理員

42 0 0

DesignEdit是什麼

DesignEdit是由來自微軟亞洲研究院和北京大學的研究人員共同開發的一個AI圖像編輯框架，引入了設計領域的圖層概念，採用多層潛在分解和融合的技術，實現了無需額外訓練即可進行精確的空間感知圖像編輯和處理。通過關鍵掩碼自注意力機制和僞影抑制方案，DesignEdit能夠靈活處理圖像中的各個對象，並執行諸如移動、調整大小、移除等複雜操作。

DesignEdit - 微軟等開源的AI圖像分層處理編輯框架

DesignEdit的官網入口

官方項目主頁：https://design-edit.github.io/
arXiv研究論文：https://arxiv.org/abs/2403.14487
GitHub源碼庫：https://github.com/design-edit/DesignEdit
Hugging Face Demo：https://huggingface.co/spaces/YuhuiYuan/DesignEdit

DesignEdit的主要功能

對象移除：DesignEdit可以從圖像中精確移除指定的對象，無論是單個還是多個對象。通過多層潛在分解，框架能夠獨立處理每個對象，並在移除後自然地修復背景。
對象移動：框架允許用戶將圖像中的一個或多個對象移動到新的位置。通過指令引導的潛在融合，對象可以在畫布上重新定位，同時保持與周圍環境的和諧。
對象調整大小和翻轉：DesignEdit能夠對圖像中的對象進行縮放和翻轉操作，用戶可以改變對象的尺寸或方向，而不會影響圖像的其他部分。
相機平移和縮放：模擬相機視角的變化，DesignEdit可以在圖像中實現平移和縮放效果，允許用戶調整圖像的構圖，就像通過相機鏡頭觀察時移動或調整焦距一樣。
跨圖像組合：DesignEdit支持將來自不同圖像的元素組合在一起，創建全新的圖像。這項功能特別適合於創意工作，可以結合多個圖像的元素來創作新的視覺內容。
設計圖像編輯：特別針對設計圖像/海報，DesignEdit能夠處理文本、裝飾和其他設計元素的編輯任務。它能夠理解設計圖像的特殊需求，如排版和樣式的調整，提供更加精細的編輯控制。

DesignEdit的工作原理

DesignEdit的工作原理基於兩個核心子任務的結合：多層潛在分解（Multi-Layered Latent Decomposition）和多層潛在融合（Multi-Layered Latent Fusion）。

DesignEdit - 微軟等開源的AI圖像分層處理編輯框架

多層潛在分解：
- 概念：DesignEdit將源圖像的潛在表示（latent representation）分割成多個層次，每個層次代表圖像中的不同對象或背景部分。
- 關鍵掩碼自注意力：爲了在不破壞圖像其他區域的情況下編輯特定區域，DesignEdit採用了一種特殊的自注意力機制，稱爲關鍵掩碼（key-masking）自注意力。這種機制允許模型在處理圖像時忽略或修改掩碼區域內的像素，同時保留周圍區域的上下文信息。
- 背景修復：在移除對象後，DesignEdit利用自注意力機制中的內在修復能力來填補背景中的空白區域，確保圖像的連貫性和自然過渡。
多層潛在融合：
- 指令引導的融合：在分解步驟之後，DesignEdit根據用戶的編輯指令，將編輯後的多個潛在表示層融合到一個新的畫布上。這個過程是按照特定的圖層順序和用戶指定的佈局安排進行的。
- 僞影抑制：爲了提高編輯質量，DesignEdit在潛在空間中引入了僞影抑制方案。這個方案有助於減少編輯過程中可能出現的視覺瑕疵，使圖像看起來更加自然和真實。
- 和諧化處理：在融合過程中，DesignEdit通過額外的去噪步驟來協調融合後的多層潛在表示，進一步優化圖像邊緣的整合和界面的平滑過渡。