CogVLM2 – 智譜AI推出的新一代多模態大模型

AI工具4個月前發佈新公告 AI管理員
3 0

CogVLM2是什麼

CogVLM2是由智譜AI推出的新一代多模態大模型,在視覺和語言理解方面實現了顯著的性能提升,支持高達8K的文本長度和1344*1344分辨率的圖像輸入,具備強大的文檔圖像理解能力。該模型採用50億參數的視覺編碼器與70億參數的視覺專家模塊,通過深度融合策略,優化了視覺與語言模態的交互,確保了在增強視覺理解的同時,語言處理能力也得到保持。CogVLM2的開源版本支持中英文雙語,模型大小爲19億參數,但實際推理時激活的參數量約爲120億,展現了在多模態任務中的高效性能。

CogVLM2 – 智譜AI推出的新一代多模態大模型

CogVLM2的改進點

CogVLM2模型相比前代的改進點主要包括以下幾個方面:

  • 性能提升:在OCRbench和TextVQA等多個關鍵基準測試上,CogVLM2的性能有了顯著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。
  • 文檔圖像理解:CogVLM2增強了對文檔圖像的理解和問答能力,特別是在DocVQA基準測試中表現出色。
  • 支持高分辨率圖像:模型支持高達1344*1344像素的圖像分辨率,能夠處理更高清晰度的圖像。
  • 支持長文本:CogVLM2支持長達8K的文本輸入,這使得模型能夠處理更長的文檔和更復雜的語言任務。
  • 雙語支持:CogVLM2提供了支持中英文雙語的開源模型版本,增強了模型的多語言能力。

CogVLM2的模型信息

CogVLM2開源了兩款以Meta-Llama-3-8B-Instruct爲語言基座模型的CogVLM2,分別是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感興趣的用戶可以前往GitHub、Hugging Face或魔搭社區進行下載或在線體驗。

模型名稱
cogvlm2-llama3-chat-19B
cogvlm2-llama3-chinese-chat-19B
基座模型
Meta-Llama-3-8B-Instruct
Meta-Llama-3-8B-Instruct
語言
英文
中文、英文
模型大小
19B
19B
任務
圖像理解,對話模型
圖像理解,對話模型
模型鏈接
? Huggingface ? ModelScope ? 始智AI ?GitHub
? Huggingface ? ModelScope ? 始智AI
體驗鏈接
? 官方頁面
? 官方頁面 ? ModelScope
Int4模型
暫未推出
暫未推出
文本長度
8K
8K
圖片分辨率
1344 * 1344
1344 * 1344

CogVLM2的模型架構

CogVLM2的模型架構在繼承上一代模型的基礎上進行了優化和創新,具體特點如下:

  1. 視覺編碼器:CogVLM2採用了一個擁有50億參數的視覺編碼器,負責對輸入圖像進行特徵提取和編碼。
  2. 視覺專家模塊:在大語言模型中整合了一個70億參數的視覺專家模塊,這一模塊通過獨特的參數設置,精細地建模了視覺與語言序列的交互。
  3. 深度融合策略:CogVLM2採用了深度融合策略,使得視覺模態與語言模態能夠更加緊密地結合,從而增強了模型在視覺理解能力的同時,保持了在語言處理上的優勢。
  4. MLP Adapter:模型中使用了MLP(多層感知器)Adapter,用於調整和適配不同模態之間的特徵。
  5. 降採樣模塊:爲了更好地處理和理解高分辨率的文檔或網頁圖片,CogVLM2在視覺編碼器後引入了一個專門的降採樣模塊,有效提取關鍵信息,減少輸入到語言模型中的序列長度。
  6. Word Embedding:模型包含了Word Embedding層,用於將文本轉換爲模型可以理解的數值型向量。
  7. 多專家模塊結構:CogVLM2設計了多專家模塊結構,使得在進行推理時,實際激活的參數量僅約120億,這種設計既保證了模型的性能,又提高了推理效率。
  8. 語言基座模型:CogVLM2使用了Meta-Llama-3-8B-Instruct作爲語言基座模型,爲模型提供了強大的語言理解和生成能力。

CogVLM2 – 智譜AI推出的新一代多模態大模型

CogVLM2的模型性能

CogVLM2的團隊在一系列多模態基準上進行了定量評估,這些基準包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。從下表可以看出CogVLM2 的兩個模型,儘管具有較小的模型尺寸,但在多個基準中取得 SOTA性能;而在其他性能上,也能達到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。
CogVLM2 – 智譜AI推出的新一代多模態大模型

模型 是否開源 模型規模 TextVQA DocVQA ChartQA OCRbench MMMU MMVet MMBench
LLaVA-1.5 13B 61.3 337 37.0 35.4 67.7
Mini-Gemini 34B 74.1 48.0 59.3 80.6
LLaVA-NeXT-LLaMA3 8B 78.2 69.5 41.7 72.1
LLaVA-NeXT-110B 110B 85.7 79.7 49.1 80.5
InternVL-1.5 20B 80.6 90.9 83.8 720 46.8 55.4 82.3
QwenVL-Plus 78.9 91.4 78.1 726 51.4 55.7 67.0
Claude3-Opus 89.3 80.8 694 59.4 51.7 63.3
Gemini Pro 1.5 73.5 86.5 81.3 58.5
GPT-4V 78.0 88.4 78.5 656 56.8 67.7 75.0
CogVLM1.1 (Ours) 7B 69.7 68.3 590 37.3 52.0 65.8
CogVLM2-LLaMA3 (Ours) 8B 84.2 92.3 81.0 756 44.3 60.4 80.5
CogVLM2-LLaMA3-Chinese (Ours) 8B 85.0 88.4 74.7 780 42.8 60.5 78.9
© 版權聲明

相關文章

暫無評論

暫無評論...