MOCR – 小紅書聯合華中科技推出的多模態文檔解析模型

AI工具8小時前發佈新公告 AI管理員
0 0

MOCR是什麼

MOCR(Multimodal OCR)是華中科技大學與小紅書hi lab聯合推出的多模態文檔解析模型,僅3B參數在文檔解析和圖形重建上實現突破性表現。模型打破傳統OCR只識別文字的侷限,將圖表、公式、流程圖等視覺元素解析爲可編輯的SVG代碼,實現”解析一切”的新範式。在開源模型中排名第一,圖形重建能力更超越Gemini 3 Pro,爲文檔AI領域帶來範式轉變。

MOCR – 小紅書聯合華中科技推出的多模態文檔解析模型

MOCR的主要功能

  • 文檔全要素解析:支持識別文字、表格、公式、圖表等所有頁面元素,輸出結構化數據並保持閱讀順序。
  • 圖形轉SVG代碼:將統計圖表、科學插圖、UI佈局等視覺內容重建爲可編輯的SVG代碼。
  • 多格式輸入支持:支持PDF、網頁截圖、掃描件、手機拍照等多種文檔類型的解析。
  • 通用視覺能力:模型具備視覺問答、視覺定位、圖像描述等通用多模態理解能力。
  • 雙版本模型:提供均衡版dots.mocr和SVG優化版dots.mocr-svg,滿足不同場景需求。

MOCR的關鍵信息和使用要求

  • 開發團隊:華中科技大學 × 小紅書hi lab
  • 模型參數:3B(1.2B視覺編碼器 + 1.5B語言解碼器)
  • 模型版本:dots.mocr(均衡版)、dots.mocr-svg(SVG增強版)
  • 核心創新:將圖形解析爲SVG代碼,實現”解析一切”的新範式
  • 性能表現:文檔解析開源第一,圖形重建超越Gemini 3 Pro
  • GPU:支持CUDA的NVIDIA顯卡(推薦用於推理加速)
  • 內存:根據輸入分辨率調整,高分辨率文檔需要更大顯存

MOCR的核心優勢

  • 小參數大能力:僅3B參數,性能卻超越衆多大模型,文檔解析開源第一,圖形重建反超Gemini 3 Pro。
  • 全要素解析:模型打破傳統OCR只識文字的侷限,將圖表、公式、流程圖等視覺元素統一解析爲結構化代碼。
  • 圖形可編輯化:將圖形轉換爲SVG代碼,實現無損重建和二次編輯,非簡單裁剪爲像素圖片。
  • 數據引擎創新:支持構建PDF、網頁、SVG資產等多源數據管道,解決圖形監督信號稀缺難題。
  • 評估方法革新:模型提出OCR Arena框架,用強VLM作裁判進行可靠對比評估。

如何使用MOCR

  • 環境準備:創建Python 3.12虛擬環境,克隆GitHub倉庫並安裝依賴。
  • 下載模型:運行下載腳本獲取模型權重,注意保存路徑不要包含英文句點。
  • 啓動服務:使用vLLM部署模型服務,支持GPU加速推理。
  • 文檔解析:調用解析腳本處理圖片或PDF文件,輸出結構化結果。
  • 圖形轉換:使用SVG專用腳本將圖表轉換爲可編輯的SVG代碼。
  • 獲取結果:獲取生成包含邊界框的JSON文件、Markdown文本和可視化標註圖。

MOCR的項目地址

  • GitHub倉庫:https://github.com/rednote-hilab/dots.mocr
  • arXiv技術論文:https://arxiv.org/pdf/2603.13032
  • 在線體驗Demo:https://dotsocr.xiaohongshu.com/

MOCR的同類競品對比

維度 MOCR Gemini 3 Pro PaddleOCR-VL
開發方 華中科大×小紅書 谷歌 百度
參數規模 3B 未公開(大得多) 0.9B
開源狀態 完全開源 閉源API 開源
核心定位 文檔全要素解析+圖形重建 通用多模態大模型 傳統文字識別
文檔解析Elo 1125(開源第一) 1211(業界第一) 920.5
olmOCR-Bench 83.9 未公開 80.0
圖形處理能力 轉爲SVG代碼(可編輯) 基礎識別 不支持
部署方式 vLLM/Transformers本地部署 API調用 本地部署
核心優勢 小參數大能力、圖形可編輯化 通用能力極強、生態完善 輕量快速、中文優化好

MOCR的應用場景

  • 學術科研:解析論文PDF、提取公式、重建圖表,將掃描論文轉爲可編輯LaTeX,復現科研圖表數據。
  • 金融財經:分析財報、提取數據報表、數字化圖表,把PDF財報中的柱狀圖折線圖轉爲Excel可用數據。
  • 法律政務:審查合同、數字化卷宗、識別證件,結構化提取多頁合同關鍵信息並保持格式完整。
  • 教育出版:數字化教材、建設試題庫、識別板書,將印刷教材中的複雜公式和圖表轉爲電子資源。
  • 醫療健康:解析病歷、提取檢驗報告、標註醫學影像,處理包含化學分子式和醫學示意圖的文檔。
© 版權聲明

相關文章

暫無評論

暫無評論...