CogVLM2 – 智譜AI推出的新一代多模態大模型

AI工具1年前 (2024)發佈新公告 AI管理員

7 0 0

CogVLM2是什麼

CogVLM2是由智譜AI推出的新一代多模態大模型，在視覺和語言理解方面實現了顯著的性能提升，支持高達8K的文本長度和1344*1344分辨率的圖像輸入，具備強大的文檔圖像理解能力。該模型採用50億參數的視覺編碼器與70億參數的視覺專家模塊，通過深度融合策略，優化了視覺與語言模態的交互，確保了在增強視覺理解的同時，語言處理能力也得到保持。CogVLM2的開源版本支持中英文雙語，模型大小爲19億參數，但實際推理時激活的參數量約爲120億，展現了在多模態任務中的高效性能。

CogVLM2的改進點

CogVLM2模型相比前代的改進點主要包括以下幾個方面：

性能提升：在OCRbench和TextVQA等多個關鍵基準測試上，CogVLM2的性能有了顯著提升，例如在OCRbench上性能提升了32%，在TextVQA上性能提升了21.9%。
文檔圖像理解：CogVLM2增強了對文檔圖像的理解和問答能力，特別是在DocVQA基準測試中表現出色。
支持高分辨率圖像：模型支持高達1344*1344像素的圖像分辨率，能夠處理更高清晰度的圖像。
支持長文本：CogVLM2支持長達8K的文本輸入，這使得模型能夠處理更長的文檔和更復雜的語言任務。
雙語支持：CogVLM2提供了支持中英文雙語的開源模型版本，增強了模型的多語言能力。

CogVLM2的模型信息

CogVLM2開源了兩款以Meta-Llama-3-8B-Instruct爲語言基座模型的CogVLM2，分別是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B，感興趣的用戶可以前往GitHub、Hugging Face或魔搭社區進行下載或在線體驗。

模型名稱	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
語言	英文	中文、英文
模型大小	19B	19B
任務	圖像理解，對話模型	圖像理解，對話模型
模型鏈接	? Huggingface ? ModelScope ? 始智AI ?GitHub	? Huggingface ? ModelScope ? 始智AI
體驗鏈接	? 官方頁面	? 官方頁面 ? ModelScope
Int4模型	暫未推出	暫未推出
文本長度	8K	8K
圖片分辨率	1344 * 1344	1344 * 1344

CogVLM2的模型架構

CogVLM2的模型架構在繼承上一代模型的基礎上進行了優化和創新，具體特點如下：

視覺編碼器：CogVLM2採用了一個擁有50億參數的視覺編碼器，負責對輸入圖像進行特徵提取和編碼。
視覺專家模塊：在大語言模型中整合了一個70億參數的視覺專家模塊，這一模塊通過獨特的參數設置，精細地建模了視覺與語言序列的交互。
深度融合策略：CogVLM2採用了深度融合策略，使得視覺模態與語言模態能夠更加緊密地結合，從而增強了模型在視覺理解能力的同時，保持了在語言處理上的優勢。
MLP Adapter：模型中使用了MLP（多層感知器）Adapter，用於調整和適配不同模態之間的特徵。
降採樣模塊：爲了更好地處理和理解高分辨率的文檔或網頁圖片，CogVLM2在視覺編碼器後引入了一個專門的降採樣模塊，有效提取關鍵信息，減少輸入到語言模型中的序列長度。
Word Embedding：模型包含了Word Embedding層，用於將文本轉換爲模型可以理解的數值型向量。
多專家模塊結構：CogVLM2設計了多專家模塊結構，使得在進行推理時，實際激活的參數量僅約120億，這種設計既保證了模型的性能，又提高了推理效率。
語言基座模型：CogVLM2使用了Meta-Llama-3-8B-Instruct作爲語言基座模型，爲模型提供了強大的語言理解和生成能力。

CogVLM2 – 智譜AI推出的新一代多模態大模型

CogVLM2的模型性能

CogVLM2的團隊在一系列多模態基準上進行了定量評估，這些基準包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。從下表可以看出CogVLM2 的兩個模型，儘管具有較小的模型尺寸，但在多個基準中取得 SOTA性能；而在其他性能上，也能達到與閉源模型（例如GPT-4V、Gemini Pro等）接近的水平。
CogVLM2 – 智譜AI推出的新一代多模態大模型

模型	是否開源	模型規模	TextVQA	DocVQA	ChartQA	OCRbench	MMMU	MMVet	MMBench
LLaVA-1.5	✅	13B	61.3	–	–	337	37.0	35.4	67.7
Mini-Gemini	✅	34B	74.1	–	–	–	48.0	59.3	80.6
LLaVA-NeXT-LLaMA3	✅	8B	–	78.2	69.5	–	41.7	–	72.1
LLaVA-NeXT-110B	✅	110B	–	85.7	79.7	–	49.1	–	80.5
InternVL-1.5	✅	20B	80.6	90.9	83.8	720	46.8	55.4	82.3
QwenVL-Plus	❌	–	78.9	91.4	78.1	726	51.4	55.7	67.0
Claude3-Opus	❌	–	–	89.3	80.8	694	59.4	51.7	63.3
Gemini Pro 1.5	❌	–	73.5	86.5	81.3	–	58.5	–	–
GPT-4V	❌	–	78.0	88.4	78.5	656	56.8	67.7	75.0
CogVLM1.1 (Ours)	✅	7B	69.7	–	68.3	590	37.3	52.0	65.8
CogVLM2-LLaMA3 (Ours)	✅	8B	84.2	92.3	81.0	756	44.3	60.4	80.5
CogVLM2-LLaMA3-Chinese (Ours)	✅	8B	85.0	88.4	74.7	780	42.8	60.5	78.9