CogView3 – 智譜AI推出的開源AI圖像生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

6 0 0

CogView3是什麼

CogView3是清華大學聯合智譜AI推出的開源AI圖像生成模型，採用中繼擴散技術。模型分階段生成圖像，首先創建低分辨率圖像，然後通過中繼超分辨率技術提升至高分辨率，提高生成效率並降低成本。CogView3在生成質量和速度上均超越現有的開源模型SDXL，實現在保持圖像細節的同時，大幅減少推理時間。此外，CogView3的精簡版本在僅使用SDXL十分之一推理時間的情況下，依然能保持可比的性能，展現出在圖像生成領域的顯著優勢。

CogView3 – 智譜AI推出的開源AI圖像生成模型

CogView3的主要功能

中繼擴散技術：分階段生成圖像，首先創建低分辨率圖像，然後基於中繼超分辨率技術提升至高分辨率。
高性能：在人類評估中，CogView3的生成質量優於現有的最先進模型SDXL，並且推理速度快。
高效率：CogView3的推理時間比SDXL快了約一半，其精簡變體快了十倍。
多分辨率支持：生成從512×512到2048×2048不等的多種分辨率的圖像。

CogView3的技術原理

級聯框架：採用多階段生成過程，基於級聯的方式逐步提高圖像分辨率。
中繼擴散：在生成低分辨率圖像後，添加高斯噪聲並從中繼點開始擴散過程，生成高分辨率圖像。
Zero-SNR擴散噪聲調度：用一種優化的噪聲調度方法，提高生成圖像的質量和速度。
聯合文本-圖像注意力機制：結合文本和圖像信息，用注意力機制提高生成圖像與文本描述的一致性。
變分自編碼器（VAE）：用VAE將高維像素空間壓縮成低維潛在空間，減少計算成本。
蒸餾技術：基於蒸餾過程，減少模型推理時所需的採樣步驟，同時保持生成質量。

CogView3的項目地址

GitHub倉庫：https://github.com/THUDM/CogView3
arXiv技術論文：https://arxiv.org/pdf/2403.05121
CogView-3-Plus：https://ai-bot.cn/cogview-3-plus/
智譜清言產品體驗：https://ai-bot.cn/sites/2005.html

CogView3的應用場景

藝術創作：藝術家和設計師用CogView3生成獨特的藝術作品或設計草圖，作爲創作靈感的起點。
數字娛樂：在遊戲和電影製作中，模型快速生成場景概念圖或角色設計，加速前期製作流程。
廣告和營銷：營銷人員用CogView3設計吸引人的廣告圖像，滿足不同營銷渠道的視覺需求。
虛擬試穿：在時尚行業，用戶通過上傳圖片和選擇樣式，用CogView3生成服裝試穿效果。
個性化禮品定製：爲用戶提供個性化的禮品設計，如定製T恤、杯子或手機殼等，通過圖像生成滿足個性化需求。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Amazon Q – 亞馬遜推出的專爲IT專業人士和開發人員設計的AI助手

earnbyshare2016

2 0

新SClaw – 超算互聯網推出的科研專屬 AI Agent

earnbyshare2016

0 0

新Tokeny – 桌面 AI Agent 助手應用，你的 AI 全能搭子

earnbyshare2016

0 0

Pixtral 12B – Mistral AI推出的首款多模態AI模型

earnbyshare2016

1 0

Moises – 音樂人的AI應用，智能分離人聲和各種樂器軌道

earnbyshare2016

63 0

新OpenCLI – 開源 AI 命令行工具，網站一鍵轉爲命令行接口

earnbyshare2016

0 0

暫無評論

暫無評論...