ConsiStory – 免訓練實現主題一致性的文生圖方法

AI工具1年前 (2024)發佈新公告 AI管理員

11 0 0

ConsiStory是什麼

ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法，可以實現讓圖像在保持風格和主題不變的情況下，遵循不同的文本提示快速且自然地擴展到不同的場景下。ConsiStory的核心思想是在圖像生成過程中，通過共享預訓練文生圖模型的內部激活來實現主題的一致性。這種方法不需要對模型進行任何形式的優化或預訓練，從而大大簡化了生成一致性圖像的過程。

ConsiStory - 免訓練實現主題一致性的文生圖方法

ConsiStory的官網入口

官方項目主頁：https://consistory-paper.github.io/
Arxiv研究論文：https://arxiv.org/abs/2402.03286
GitHub源代碼庫：即將推出

ConsiStory的主要特點

無需訓練：ConsiStory不需要對預訓練的文本到圖像（T2I）模型進行任何形式的優化或個性化訓練，即用戶可以直接使用現有的模型來生成一致性的圖像，大大節省了時間和資源。
一致性主題生成：該方法能夠生成一系列圖像，這些圖像在不同文本提示下保持相同的主題身份，例如相同的人物、動物或物體。這對於需要一致視覺元素的應用（如故事書、角色設計、虛擬資產創建等）非常有用。
跨幀一致性：ConsiStory通過內部激活共享和注意力機制，確保生成的圖像在主題特徵上保持一致，即使在不同的背景和情境下。
佈局多樣性：爲了增加生成圖像的多樣性，ConsiStory採用了注意力丟棄和查詢特徵混合等技術，以避免圖像佈局的過度一致性。
兼容性：該方法與現有的圖像編輯工具（如ControlNet）兼容，可以結合使用以實現更復雜的圖像控制。
快速生成：由於不需要訓練步驟，ConsiStory能夠快速生成圖像，比現有的最先進技術（SoTA）快約20倍。

ConsiStory的技術原理

ConsiStory - 免訓練實現主題一致性的文生圖方法

主題定位：在生成過程的每一步，ConsiStory首先在每張生成的圖像中定位主題。這是通過分析模型的交叉注意力特徵來完成的，這些特徵有助於識別圖像中可能包含主題的區域。
主題驅動的共享注意力：ConsiStory擴展了自注意力機制，允許一個圖像中的查詢不僅關注自身圖像的特徵，還能關注其他圖像中與主題相關的特徵。這樣，相同主題的不同實例可以在生成過程中相互影響，從而保持一致性。爲了限制背景和佈局的一致性，ConsiStory使用主題掩碼來確保只有主題相關的特徵被共享。
佈局多樣性增強：爲了保持生成圖像的多樣性，ConsiStory採用了兩種策略：一是將非一致性採樣步驟中的特徵與生成的特徵混合；二是在共享注意力過程中引入隨機的注意力丟棄，以減少不同圖像之間的過度一致性。
特徵注入：爲了進一步提高主題一致性，特別是在細節上，ConsiStory引入了特徵注入機制。通過構建跨圖像的密集對應關係圖（使用DIFT特徵），ConsiStory能夠在不同圖像之間精確地對齊和混合特徵，以增強主題的一致性。
錨定圖像和可重用主題：爲了提高計算效率，ConsiStory可以選擇一部分生成圖像作爲“錨定圖像”。在共享注意力步驟中，只有錨定圖像會共享和接收其他圖像的特徵。這不僅減少了計算負擔，還提高了生成質量，並允許在新場景中重用相同的主題。
多主題一致性生成：ConsiStory能夠處理包含多個主題的圖像。通過簡單地取所有主題掩碼的並集，就可以在單個圖像中保持多個主題的一致性。