CogView3 – 智譜AI推出的開源AI圖像生成模型

AI工具2個月前發佈新公告 AI管理員
2 0

CogView3是什麼

CogView3是清華大學聯合智譜AI推出的開源AI圖像生成模型,採用中繼擴散技術。模型分階段生成圖像,首先創建低分辨率圖像,然後通過中繼超分辨率技術提升至高分辨率,提高生成效率並降低成本。CogView3在生成質量和速度上均超越現有的開源模型SDXL,實現在保持圖像細節的同時,大幅減少推理時間。此外,CogView3的精簡版本在僅使用SDXL十分之一推理時間的情況下,依然能保持可比的性能,展現出在圖像生成領域的顯著優勢。

CogView3 – 智譜AI推出的開源AI圖像生成模型

CogView3的主要功能

  • 中繼擴散技術:分階段生成圖像,首先創建低分辨率圖像,然後基於中繼超分辨率技術提升至高分辨率。
  • 高性能:在人類評估中,CogView3的生成質量優於現有的最先進模型SDXL,並且推理速度快。
  • 高效率:CogView3的推理時間比SDXL快了約一半,其精簡變體快了十倍。
  • 多分辨率支持:生成從512×512到2048×2048不等的多種分辨率的圖像。

CogView3的技術原理

  • 級聯框架:採用多階段生成過程,基於級聯的方式逐步提高圖像分辨率。
  • 中繼擴散:在生成低分辨率圖像後,添加高斯噪聲並從中繼點開始擴散過程,生成高分辨率圖像。
  • Zero-SNR擴散噪聲調度:用一種優化的噪聲調度方法,提高生成圖像的質量和速度。
  • 聯合文本-圖像注意力機制:結合文本和圖像信息,用注意力機制提高生成圖像與文本描述的一致性。
  • 變分自編碼器(VAE):用VAE將高維像素空間壓縮成低維潛在空間,減少計算成本。
  • 蒸餾技術:基於蒸餾過程,減少模型推理時所需的採樣步驟,同時保持生成質量。

CogView3的項目地址

  • GitHub倉庫:https://github.com/THUDM/CogView3
  • arXiv技術論文:https://arxiv.org/pdf/2403.05121
  • CogView-3-Plus:https://ai-bot.cn/cogview-3-plus/
  • 智譜清言產品體驗:https://ai-bot.cn/sites/2005.html

CogView3的應用場景

  • 藝術創作:藝術家和設計師用CogView3生成獨特的藝術作品或設計草圖,作爲創作靈感的起點。
  • 數字娛樂:在遊戲和電影製作中,模型快速生成場景概念圖或角色設計,加速前期製作流程。
  • 廣告和營銷:營銷人員用CogView3設計吸引人的廣告圖像,滿足不同營銷渠道的視覺需求。
  • 虛擬試穿:在時尚行業,用戶通過上傳圖片和選擇樣式,用CogView3生成服裝試穿效果。
  • 個性化禮品定製:爲用戶提供個性化的禮品設計,如定製T恤、杯子或手機殼等,通過圖像生成滿足個性化需求。
© 版權聲明

相關文章

暫無評論

暫無評論...