CSGO AI – 小紅書聯合南理工推出的AI文生圖項目

AI工具2個月前發佈新公告 AI管理員
0 0

CSGO是什麼

CSGO(Content-Style Composition in Text-to-Image Generation)是南京理工大學、小紅書等機構合作推出的圖像風格遷移和文本到圖像生成的研究項目。CSGO的目標是爲用戶提供更加豐富和多樣化的圖像創作工具。項目提出創新的數據構建流程,用於生成和清洗風格化數據三元組,並構建名爲IMAGStyle的大規模風格遷移數據集。基於數據集,CSGO框架通過端到端訓練,實現圖像驅動的風格遷移、文本驅動的風格化合成以及文本編輯驅動的風格化合成,顯著提升圖像生成中的風格控制能力。

CSGO AI – 小紅書聯合南理工推出的AI文生圖項目

CSGO的主要功能

  • 圖像驅動的風格遷移:用戶將一種圖像的風格應用到另一種圖像上,實現視覺上的風格轉換,同時保持原始內容的語義。
  • 文本驅動的風格化合成:輸入文本描述,生成具有特定風格的圖像,展示了在理解自然語言和將文本轉化爲視覺風格方面的能力。
  • 文本編輯驅動的風格化合成:在生成圖像後,用戶通過編輯文本描述進一步調整圖像的風格,提供更高級別的創作控制。
  • 端到端訓練模型:CSGO採用端到端的訓練方法,模型從輸入到輸出的整個過程是連續的,無需分階段處理,提高了模型的效率和效果。
  • 特徵注入技術:通過獨立的特徵注入技術,CSGO將內容和風格特徵明確解耦,分別提取並融合到生成的圖像中,確保內容的準確性和風格的一致性。

CSGO的技術原理

  • 數據構建流程:CSGO通過一個自動化的數據構建流程生成和清洗風格化數據三元組,三元組包括內容圖像、風格圖像和對應的風格化結果圖像。
  • 端到端訓練模型:CSGO採用端到端的訓練方法,模型直接從輸入學習到輸出,無需分階段處理,提高了模型的效率和效果。
  • 特徵注入技術
    • 內容控制:使用預訓練的ControlNet和額外的可學習交叉注意力層,將內容特徵注入到基礎模型中,保留原始內容的語義和佈局。
    • 風格控制:通過預訓練的圖像編碼器和風格投影層,提取風格特徵,將其注入到模型的上採樣塊和獨立的風格控制模塊中。
  • 擴散模型:CSGO利用擴散模型逐步去除噪聲來生成圖像,在風格遷移的上下文中將一種風格應用到內容圖像上,同時保持內容的完整性。
  • 內容對齊評分(CAS):CSGO引入內容對齊評分(Content Alignment Score),衡量生成圖像與原始內容圖像在內容上的一致性,評估風格遷移的質量。

CSGO的項目地址

  • 項目官網:csgo-gen.github.io
  • GitHub倉庫:https://github.com/instantX-research/CSGO
  • HuggingFace模型庫:https://huggingface.co/spaces/xingpng/CSGO
  • arXiv技術論文:https://arxiv.org/pdf/2408.16766

CSGO的應用場景

  • 藝術創作:藝術家和設計師用CSGO來探索新的藝術風格,創作獨特的數字藝術作品,或在保持內容主題不變的情況下嘗試不同的視覺表現手法。
  • 數字娛樂:在遊戲開發和電影製作中,CSGO用來生成具有特定風格的場景和角色概念圖,爲數字內容創作提供多樣化的視覺元素。
  • 設計行業:設計師基於CSGO快速生成設計草圖和原型,通過不同的風格化圖像來展示產品設計,或在設計過程中快速迭代和測試不同的視覺風格。
  • 廣告營銷:營銷人員用CSGO生成吸引人的廣告視覺內容,將產品圖像風格化來吸引目標受衆,或根據品牌形象定製獨特的視覺風格。
  • 社交媒體內容創作:內容創作者和影響者用CSGO爲社交媒體平台(如Instagram、小紅書等)創作風格化的內容,提高視覺吸引力和個性化表達。
© 版權聲明

相關文章

暫無評論

暫無評論...