CogVLM2是什麼
CogVLM2是由智譜AI推出的新一代多模態大模型,在視覺和語言理解方面實現了顯著的性能提升,支持高達8K的文本長度和1344*1344分辨率的圖像輸入,具備強大的文檔圖像理解能力。該模型採用50億參數的視覺編碼器與70億參數的視覺專家模塊,通過深度融合策略,優化了視覺與語言模態的交互,確保了在增強視覺理解的同時,語言處理能力也得到保持。CogVLM2的開源版本支持中英文雙語,模型大小爲19億參數,但實際推理時激活的參數量約爲120億,展現了在多模態任務中的高效性能。
CogVLM2的改進點
CogVLM2模型相比前代的改進點主要包括以下幾個方面:
- 性能提升:在OCRbench和TextVQA等多個關鍵基準測試上,CogVLM2的性能有了顯著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。
- 文檔圖像理解:CogVLM2增強了對文檔圖像的理解和問答能力,特別是在DocVQA基準測試中表現出色。
- 支持高分辨率圖像:模型支持高達1344*1344像素的圖像分辨率,能夠處理更高清晰度的圖像。
- 支持長文本:CogVLM2支持長達8K的文本輸入,這使得模型能夠處理更長的文檔和更復雜的語言任務。
- 雙語支持:CogVLM2提供了支持中英文雙語的開源模型版本,增強了模型的多語言能力。
CogVLM2的模型信息
CogVLM2開源了兩款以Meta-Llama-3-8B-Instruct爲語言基座模型的CogVLM2,分別是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感興趣的用戶可以前往GitHub、Hugging Face或魔搭社區進行下載或在線體驗。
模型名稱
|
cogvlm2-llama3-chat-19B
|
cogvlm2-llama3-chinese-chat-19B
|
基座模型
|
Meta-Llama-3-8B-Instruct
|
Meta-Llama-3-8B-Instruct
|
語言
|
英文
|
中文、英文
|
模型大小
|
19B
|
19B
|
任務
|
圖像理解,對話模型
|
圖像理解,對話模型
|
模型鏈接
|
? Huggingface ? ModelScope ? 始智AI ?GitHub
|
? Huggingface ? ModelScope ? 始智AI
|
體驗鏈接
|
? 官方頁面
|
? 官方頁面 ? ModelScope
|
Int4模型
|
暫未推出
|
暫未推出
|
文本長度
|
8K
|
8K
|
圖片分辨率
|
1344 * 1344
|
1344 * 1344
|
CogVLM2的模型架構
CogVLM2的模型架構在繼承上一代模型的基礎上進行了優化和創新,具體特點如下:
- 視覺編碼器:CogVLM2採用了一個擁有50億參數的視覺編碼器,負責對輸入圖像進行特徵提取和編碼。
- 視覺專家模塊:在大語言模型中整合了一個70億參數的視覺專家模塊,這一模塊通過獨特的參數設置,精細地建模了視覺與語言序列的交互。
- 深度融合策略:CogVLM2採用了深度融合策略,使得視覺模態與語言模態能夠更加緊密地結合,從而增強了模型在視覺理解能力的同時,保持了在語言處理上的優勢。
- MLP Adapter:模型中使用了MLP(多層感知器)Adapter,用於調整和適配不同模態之間的特徵。
- 降採樣模塊:爲了更好地處理和理解高分辨率的文檔或網頁圖片,CogVLM2在視覺編碼器後引入了一個專門的降採樣模塊,有效提取關鍵信息,減少輸入到語言模型中的序列長度。
- Word Embedding:模型包含了Word Embedding層,用於將文本轉換爲模型可以理解的數值型向量。
- 多專家模塊結構:CogVLM2設計了多專家模塊結構,使得在進行推理時,實際激活的參數量僅約120億,這種設計既保證了模型的性能,又提高了推理效率。
- 語言基座模型:CogVLM2使用了Meta-Llama-3-8B-Instruct作爲語言基座模型,爲模型提供了強大的語言理解和生成能力。
CogVLM2的模型性能
CogVLM2的團隊在一系列多模態基準上進行了定量評估,這些基準包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。從下表可以看出CogVLM2 的兩個模型,儘管具有較小的模型尺寸,但在多個基準中取得 SOTA性能;而在其他性能上,也能達到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。
模型 | 是否開源 | 模型規模 | TextVQA | DocVQA | ChartQA | OCRbench | MMMU | MMVet | MMBench |
---|---|---|---|---|---|---|---|---|---|
LLaVA-1.5 | ✅ | 13B | 61.3 | – | – | 337 | 37.0 | 35.4 | 67.7 |
Mini-Gemini | ✅ | 34B | 74.1 | – | – | – | 48.0 | 59.3 | 80.6 |
LLaVA-NeXT-LLaMA3 | ✅ | 8B | – | 78.2 | 69.5 | – | 41.7 | – | 72.1 |
LLaVA-NeXT-110B | ✅ | 110B | – | 85.7 | 79.7 | – | 49.1 | – | 80.5 |
InternVL-1.5 | ✅ | 20B | 80.6 | 90.9 | 83.8 | 720 | 46.8 | 55.4 | 82.3 |
QwenVL-Plus | ❌ | – | 78.9 | 91.4 | 78.1 | 726 | 51.4 | 55.7 | 67.0 |
Claude3-Opus | ❌ | – | – | 89.3 | 80.8 | 694 | 59.4 | 51.7 | 63.3 |
Gemini Pro 1.5 | ❌ | – | 73.5 | 86.5 | 81.3 | – | 58.5 | – | – |
GPT-4V | ❌ | – | 78.0 | 88.4 | 78.5 | 656 | 56.8 | 67.7 | 75.0 |
CogVLM1.1 (Ours) | ✅ | 7B | 69.7 | – | 68.3 | 590 | 37.3 | 52.0 | 65.8 |
CogVLM2-LLaMA3 (Ours) | ✅ | 8B | 84.2 | 92.3 | 81.0 | 756 | 44.3 | 60.4 | 80.5 |
CogVLM2-LLaMA3-Chinese (Ours) | ✅ | 8B | 85.0 | 88.4 | 74.7 | 780 | 42.8 | 60.5 | 78.9 |
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...