Ovis1.6 – 阿里國際AI團隊推出的多模態大模型,超過閉源GPT-4o-mini

AI工具2個月前發佈新公告 AI管理員
0 0

Ovis1.6是什麼

Ovis1.6是阿里國際AI團隊推出的多模態大模型,在多模態權威綜合評測基準OpenCompass上取得了優異的成績,特別是在30億參數以下的模型中綜合得分排名第一,超越了其他主流模型。Ovis1.6模型在數學推理、視覺理解等多項任務中表現出色,甚至超過閉源的GPT-4o-mini模型。Ovis1.6能處理包括文本和圖像在內的多種數據輸入,具備強大的視覺感知推理、數學和科學問題解答、生活場景理解等多模態任務處理能力。

Ovis1.6 – 阿里國際AI團隊推出的多模態大模型,超過閉源GPT-4o-mini

Ovis1.6的主要功能

  • 數學推理問答:準確回答各種數學問題,包括複雜的數學公式和邏輯推理。
  • 物體識別:識別不同物體,例如花卉品種,表明其在圖像識別方面的能力。
  • 文本提取:支持多種語言的文本提取,Ovis1.6能從各種文檔中識別和提取文本信息。
  • 複雜任務決策:處理和理解多種類型的數據輸入,進行復雜的決策任務,如圖像和文本的綜合分析。
  • 圖像理解:在圖像理解任務上達到SOTA(State of the Art)水平,能處理高分辨率和極端長寬比的圖像。

Ovis1.6的技術原理

  • 創新架構設計:Ovis1.6基於視覺tokenizer加上視覺嵌入表和大語言模型的架構。設計引入可學習的視覺嵌入表,將連續的視覺特徵轉換爲概率化的視覺token,再通過視覺嵌入表多次索引加權得到結構化的視覺嵌入,提升多模態任務的表現。
  • 高分圖像處理:Ovis1.6支持處理極端長寬比的圖像,並且兼容高分辨率圖像,使模型在圖像理解任務上展現出色的能力。
  • 全面數據優化:Ovis1.6在訓練中使用多種類型的數據集,包括Caption、VQA、OCR、Table、Chart等,全面數據覆蓋顯著提升模型在多模態問答、指令跟隨等任務上的表現。
  • 卓越模型性能:在多模態權威綜合評測OpenCompass上,Ovis1.6-Gemma2-9B在30B參數以下的模型中取得綜合排名第一的成績,展現了優異的性能。

Ovis1.6的項目地址

  • GitHub倉庫:https://github.com/AIDC-AI/Ovis
  • HuggingFace模型庫:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
  • arXiv技術論文:https://arxiv.org/pdf/2405.20797

Ovis1.6的應用場景

  • 教育和學習輔助:Ovis1.6能準確回答數學問題,識別和解釋數學公式,作爲教育工具,能幫助學生學習和理解複雜概念。
  • 農業和植物識別:通過物體識別能力,Ovis1.6幫助識別不同品種的植物,對農業研究和植物保護等領域有重要作用。
  • 語言翻譯和文本處理:支持多種語言的文本提取和翻譯,適用於跨語言交流、國際商務和多語言內容創作。
  • 圖像識別和分析:識別手寫字體和複雜圖像,適用於圖像內容審覈、安全監控和藝術作品分析。
  • 自動駕駛:整合視覺數據,提高自動駕駛車輛的環境感知和決策能力,增強行車安全。
  • 醫療診斷:輔助醫生進行醫學圖像分析,提高疾病診斷的準確性和效率。
© 版權聲明

相關文章

暫無評論

暫無評論...