MOCR是什麼
MOCR(Multimodal OCR)是華中科技大學與小紅書hi lab聯合推出的多模態文檔解析模型,僅3B參數在文檔解析和圖形重建上實現突破性表現。模型打破傳統OCR只識別文字的侷限,將圖表、公式、流程圖等視覺元素解析爲可編輯的SVG代碼,實現”解析一切”的新範式。在開源模型中排名第一,圖形重建能力更超越Gemini 3 Pro,爲文檔AI領域帶來範式轉變。

MOCR的主要功能
-
文檔全要素解析:支持識別文字、表格、公式、圖表等所有頁面元素,輸出結構化數據並保持閱讀順序。
-
圖形轉SVG代碼:將統計圖表、科學插圖、UI佈局等視覺內容重建爲可編輯的SVG代碼。
-
多格式輸入支持:支持PDF、網頁截圖、掃描件、手機拍照等多種文檔類型的解析。
-
通用視覺能力:模型具備視覺問答、視覺定位、圖像描述等通用多模態理解能力。
-
雙版本模型:提供均衡版dots.mocr和SVG優化版dots.mocr-svg,滿足不同場景需求。
MOCR的關鍵信息和使用要求
- 開發團隊:華中科技大學 × 小紅書hi lab
- 模型參數:3B(1.2B視覺編碼器 + 1.5B語言解碼器)
- 模型版本:dots.mocr(均衡版)、dots.mocr-svg(SVG增強版)
- 核心創新:將圖形解析爲SVG代碼,實現”解析一切”的新範式
- 性能表現:文檔解析開源第一,圖形重建超越Gemini 3 Pro
-
GPU:支持CUDA的NVIDIA顯卡(推薦用於推理加速)
-
內存:根據輸入分辨率調整,高分辨率文檔需要更大顯存
MOCR的核心優勢
- 小參數大能力:僅3B參數,性能卻超越衆多大模型,文檔解析開源第一,圖形重建反超Gemini 3 Pro。
- 全要素解析:模型打破傳統OCR只識文字的侷限,將圖表、公式、流程圖等視覺元素統一解析爲結構化代碼。
- 圖形可編輯化:將圖形轉換爲SVG代碼,實現無損重建和二次編輯,非簡單裁剪爲像素圖片。
- 數據引擎創新:支持構建PDF、網頁、SVG資產等多源數據管道,解決圖形監督信號稀缺難題。
- 評估方法革新:模型提出OCR Arena框架,用強VLM作裁判進行可靠對比評估。
如何使用MOCR
-
環境準備:創建Python 3.12虛擬環境,克隆GitHub倉庫並安裝依賴。
-
下載模型:運行下載腳本獲取模型權重,注意保存路徑不要包含英文句點。
-
啓動服務:使用vLLM部署模型服務,支持GPU加速推理。
-
文檔解析:調用解析腳本處理圖片或PDF文件,輸出結構化結果。
-
圖形轉換:使用SVG專用腳本將圖表轉換爲可編輯的SVG代碼。
-
獲取結果:獲取生成包含邊界框的JSON文件、Markdown文本和可視化標註圖。
MOCR的項目地址
- GitHub倉庫:https://github.com/rednote-hilab/dots.mocr
- arXiv技術論文:https://arxiv.org/pdf/2603.13032
- 在線體驗Demo:https://dotsocr.xiaohongshu.com/
MOCR的同類競品對比
| 維度 | MOCR | Gemini 3 Pro | PaddleOCR-VL |
|---|---|---|---|
| 開發方 | 華中科大×小紅書 | 谷歌 | 百度 |
| 參數規模 | 3B | 未公開(大得多) | 0.9B |
| 開源狀態 | 完全開源 | 閉源API | 開源 |
| 核心定位 | 文檔全要素解析+圖形重建 | 通用多模態大模型 | 傳統文字識別 |
| 文檔解析Elo | 1125(開源第一) | 1211(業界第一) | 920.5 |
| olmOCR-Bench | 83.9 | 未公開 | 80.0 |
| 圖形處理能力 | 轉爲SVG代碼(可編輯) | 基礎識別 | 不支持 |
| 部署方式 | vLLM/Transformers本地部署 | API調用 | 本地部署 |
| 核心優勢 | 小參數大能力、圖形可編輯化 | 通用能力極強、生態完善 | 輕量快速、中文優化好 |
MOCR的應用場景
- 學術科研:解析論文PDF、提取公式、重建圖表,將掃描論文轉爲可編輯LaTeX,復現科研圖表數據。
- 金融財經:分析財報、提取數據報表、數字化圖表,把PDF財報中的柱狀圖折線圖轉爲Excel可用數據。
- 法律政務:審查合同、數字化卷宗、識別證件,結構化提取多頁合同關鍵信息並保持格式完整。
- 教育出版:數字化教材、建設試題庫、識別板書,將印刷教材中的複雜公式和圖表轉爲電子資源。
- 醫療健康:解析病歷、提取檢驗報告、標註醫學影像,處理包含化學分子式和醫學示意圖的文檔。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...