Ovis1.6 – 阿里國際AI團隊推出的多模態大模型，超過閉源GPT-4o-mini

AI工具2年前 (2024)發佈新公告 AI管理員

9 0 0

Ovis1.6是什麼

Ovis1.6是阿里國際AI團隊推出的多模態大模型，在多模態權威綜合評測基準OpenCompass上取得了優異的成績，特別是在30億參數以下的模型中綜合得分排名第一，超越了其他主流模型。Ovis1.6模型在數學推理、視覺理解等多項任務中表現出色，甚至超過閉源的GPT-4o-mini模型。Ovis1.6能處理包括文本和圖像在內的多種數據輸入，具備強大的視覺感知推理、數學和科學問題解答、生活場景理解等多模態任務處理能力。

Ovis1.6的主要功能

數學推理問答：準確回答各種數學問題，包括複雜的數學公式和邏輯推理。
物體識別：識別不同物體，例如花卉品種，表明其在圖像識別方面的能力。
文本提取：支持多種語言的文本提取，Ovis1.6能從各種文檔中識別和提取文本信息。
複雜任務決策：處理和理解多種類型的數據輸入，進行復雜的決策任務，如圖像和文本的綜合分析。
圖像理解：在圖像理解任務上達到SOTA（State of the Art）水平，能處理高分辨率和極端長寬比的圖像。

Ovis1.6的技術原理

創新架構設計：Ovis1.6基於視覺tokenizer加上視覺嵌入表和大語言模型的架構。設計引入可學習的視覺嵌入表，將連續的視覺特徵轉換爲概率化的視覺token，再通過視覺嵌入表多次索引加權得到結構化的視覺嵌入，提升多模態任務的表現。
高分圖像處理：Ovis1.6支持處理極端長寬比的圖像，並且兼容高分辨率圖像，使模型在圖像理解任務上展現出色的能力。
全面數據優化：Ovis1.6在訓練中使用多種類型的數據集，包括Caption、VQA、OCR、Table、Chart等，全面數據覆蓋顯著提升模型在多模態問答、指令跟隨等任務上的表現。
卓越模型性能：在多模態權威綜合評測OpenCompass上，Ovis1.6-Gemma2-9B在30B參數以下的模型中取得綜合排名第一的成績，展現了優異的性能。