TextDiffuser-2 – 微軟等推出的AI圖像文本渲染融合框架

AI工具2年前 (2024)發佈新公告 AI管理員

9 0 0

TextDiffuser-2是什麼

Text-Diffuser 2是由來自微軟研究院、香港科技大學和中山大學的研究人員最新推出的一個基於擴散模型的文本渲染方法，旨在解決圖像擴散模型生成文字時在靈活性、自動化、佈局預測能力和風格多樣性方面的侷限性，以提高生成圖像中視覺文本的質量和多樣性。

TextDiffuser-2的創新之處在於其利用了語言模型的強大能力來自動規劃和編碼文本佈局，從而在保持文本準確性的同時，增加了生成圖像的多樣性和視覺吸引力。相比於第一代TextDiffuser，在多個方面進行了提升和優化，如佈局規劃的改進、行級別的文本編碼、聊天交互動態調整文本佈局、文本渲染的優化、更多樣化風格的文本等。

TextDiffuser-2 - 微軟等推出的AI圖像文本渲染融合框架

TextDiffuser-2的官網入口

官方項目主頁：https://jingyechen.github.io/textdiffuser2/
Hugging Face Demo：https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2
GitHub地址：https://github.com/microsoft/unilm/tree/master/textdiffuser-2
arXiv研究論文：https://arxiv.org/abs/2311.16465

TextDiffuser-2 - 微軟等推出的AI圖像文本渲染融合框架

TextDiffuser-2的功能特性

文本佈局規劃：自動從用戶輸入的提示中推斷出關鍵詞，並規劃文本在圖像中的佈局，且允許用戶指定關鍵詞，並確定它們在圖像中的位置。還支持通過與用戶進行交互式聊天，動態調整文本佈局，如重新生成、添加或移動文本元素。
文本佈局編碼：在擴散模型中，使用語言模型來編碼文本的位置和內容，以生成文本圖像。採用行級別的文本編碼，而不是字符級別的，以提供更大的靈活性和風格多樣性。
文本圖像生成：根據規劃的文本佈局，生成包含準確、視覺吸引人的文本的圖像。支持多種文本風格，包括手寫體和藝術字體，以增強圖像的視覺多樣性。
文本模板圖像生成：當提供模板圖像時，TextDiffuser-2可以直接使用現有的OCR工具提取文本信息，並將其作爲條件輸入到擴散模型中，無需從語言模型中預測佈局。
文本修復：類似於第一代TextDiffuser，TextDiffuser-2可以適應文本修復任務，通過修改U-Net的輸入卷積核通道來訓練模型，以填補圖像中的文本區域。
無文本的自然圖像生成：即使在文本數據上進行微調，TextDiffuser-2也能在原始領域（如COCO數據集）中保持其生成能力，生成不包含文本的圖像。
處理重疊佈局：TextDiffuser-2在處理預測佈局中出現的重疊文本框時表現出更高的魯棒性，能夠生成更準確的文本圖像。

TextDiffuser-2的工作原理

TextDiffuser-2 - 微軟等推出的AI圖像文本渲染融合框架

用戶輸入：用戶提供一個描述性的提示（prompt），這個提示可以是關於所需生成圖像的文本內容和佈局的描述。
佈局規劃：使用一個預訓練的大型語言模型（例如GPT-4），該模型經過微調，能夠根據用戶提示自動推斷出文本內容和佈局。該模型可以處理兩種情況：一是在沒有用戶提供關鍵詞的情況下自動生成文本和佈局；二是在用戶提供關鍵詞的情況下，確定這些關鍵詞的佈局位置。語言模型輸出的佈局信息包括文本行的座標，如每個文本行的左上角和右下角座標。
佈局編碼：基於佈局規劃的結果，TextDiffuser-2使用另一個語言模型來編碼文本佈局信息。該模型將用戶提示和佈局信息結合起來，形成一個適合於擴散模型處理的格式。爲了編碼文本位置，TextDiffuser-2引入了特殊的標記來表示座標，例如“[x5]”和“[y70]”分別表示x座標和y座標的值。
擴散模型訓練：TextDiffuser-2的擴散模型通過去噪L2損失進行訓練，以學習如何根據編碼的文本佈局信息生成圖像。這個過程涉及到從隨機噪聲狀態逐步引導到目標圖像的生成過程。
圖像文本生成：在生成階段，擴散模型根據編碼的文本佈局信息生成圖像。這個過程通常需要多個步驟，每一步都會使生成的圖像逐漸接近最終的文本佈局和內容。
用戶交互：TextDiffuser-2允許用戶通過多輪聊天與模型交互，以進一步調整文本佈局。用戶可以請求重新生成佈局、添加或刪除關鍵詞，或者移動關鍵詞到新的位置。
評估和優化：生成的圖像會經過評估，以確保文本的準確性和圖像的視覺質量。這可能包括使用OCR工具來評估文本的可讀性和準確性，以及通過用戶研究來評估圖像的美學和實用性。