Qwen2-VL – 阿里巴巴達摩院開源的視覺多模態AI模型

AI工具2年前 (2024)發佈新公告 AI管理員

1 0 0

Qwen2-VL是什麼

Qwen2-VL是阿里巴巴達摩院開源的視覺多模態AI模型，具備高級圖像和視頻理解能力。Qwen2-VL支持多種語言，能處理不同分辨率和長寬比的圖片，實時分析動態視頻內容。Qwen2-VL在多語言文本理解、文檔理解等任務上表現卓越，適用於多模態應用開發，推動了AI在視覺理解和內容生成領域的進步。

多模態學習能力：Qwen2-VL設計用於同時處理和理解文本、圖像和視頻等多種類型的數據，要求模型能夠在不同模態之間建立聯繫和理解。
原生動態分辨率支持：Qwen2-VL能處理任意分辨率的圖像輸入，不同大小的圖片可以被轉換成動態數量的tokens，模擬了人類視覺感知的自然方式，支持模型處理任意尺寸的圖像。
多模態旋轉位置嵌入（M-ROPE）：創新的位置編碼技術，將傳統的旋轉位置嵌入分解爲代表時間、高度和寬度的三個部分，使模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息。
變換器架構：Qwen2-VL採用了變換器（Transformer）架構，在自然語言處理領域廣泛使用的模型架構，特別適合處理序列數據，並且能夠通過自注意力機制捕捉長距離依賴關係。
注意力機制：模型使用自注意力機制來加強不同模態數據之間的關聯，模型能更好地理解輸入數據的上下文信息。
預訓練和微調：Qwen2-VL通過在大量數據上進行預訓練來學習通用的特徵表示，然後通過微調來適應特定的應用場景或任務。
量化技術：爲了提高模型的部署效率，Qwen2-VL採用了量化技術，將模型的權重和激活從浮點數轉換爲較低精度的表示，以減少模型的大小和提高推理速度。

Qwen2-VL – 阿里巴巴達摩院開源的視覺多模態AI模型

模型規模性能對比：
- 72B規模模型：在多個指標上達到最優，甚至超過了GPT-4o和Claude3.5-Sonnet等閉源模型，特別是在文檔理解方面表現突出，但在綜合大學題目上與GPT-4o有一定差距。
- 7B規模模型：在成本效益和性能之間取得平衡，支持圖像、多圖、視頻輸入，在文檔理解能力和多語言文字理解能力方面處於最前沿水平。
- 2B規模模型：爲移動端應用優化，具備完整的圖像視頻多語言理解能力，在視頻文檔理解和通用場景問答方面相比同規模模型有明顯優勢。
多分辨率圖像理解：Qwen2-VL在視覺理解基準測試如MathVista、DocVQA、RealWorldQA、MTVQA中取得了全球領先的表現，顯示出其能夠理解不同分辨率和長寬比的圖片。
長視頻內容理解：Qwen2-VL能夠理解長達20分鐘的視頻內容，這使得它在視頻問答、對話和內容創作等應用場景中表現出色。
多語言文本理解：除了英語和中文，Qwen2-VL還支持理解圖像中的多語言文本，包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等，這增強了其全球範圍內的應用潛力。