MOCR – 小紅書聯合華中科技推出的多模態文檔解析模型

AI工具8小時前發佈新公告 AI管理員

0 0 0

MOCR是什麼

MOCR（Multimodal OCR）是華中科技大學與小紅書hi lab聯合推出的多模態文檔解析模型，僅3B參數在文檔解析和圖形重建上實現突破性表現。模型打破傳統OCR只識別文字的侷限，將圖表、公式、流程圖等視覺元素解析爲可編輯的SVG代碼，實現”解析一切”的新範式。在開源模型中排名第一，圖形重建能力更超越Gemini 3 Pro，爲文檔AI領域帶來範式轉變。

MOCR – 小紅書聯合華中科技推出的多模態文檔解析模型

MOCR的主要功能

文檔全要素解析：支持識別文字、表格、公式、圖表等所有頁面元素，輸出結構化數據並保持閱讀順序。
圖形轉SVG代碼：將統計圖表、科學插圖、UI佈局等視覺內容重建爲可編輯的SVG代碼。
多格式輸入支持：支持PDF、網頁截圖、掃描件、手機拍照等多種文檔類型的解析。
通用視覺能力：模型具備視覺問答、視覺定位、圖像描述等通用多模態理解能力。
雙版本模型：提供均衡版dots.mocr和SVG優化版dots.mocr-svg，滿足不同場景需求。

MOCR的關鍵信息和使用要求

開發團隊：華中科技大學 × 小紅書hi lab
模型參數：3B（1.2B視覺編碼器 + 1.5B語言解碼器）
模型版本：dots.mocr（均衡版）、dots.mocr-svg（SVG增強版）
核心創新：將圖形解析爲SVG代碼，實現”解析一切”的新範式
性能表現：文檔解析開源第一，圖形重建超越Gemini 3 Pro
GPU：支持CUDA的NVIDIA顯卡（推薦用於推理加速）
內存：根據輸入分辨率調整，高分辨率文檔需要更大顯存

MOCR的核心優勢

小參數大能力：僅3B參數，性能卻超越衆多大模型，文檔解析開源第一，圖形重建反超Gemini 3 Pro。
全要素解析：模型打破傳統OCR只識文字的侷限，將圖表、公式、流程圖等視覺元素統一解析爲結構化代碼。
圖形可編輯化：將圖形轉換爲SVG代碼，實現無損重建和二次編輯，非簡單裁剪爲像素圖片。
數據引擎創新：支持構建PDF、網頁、SVG資產等多源數據管道，解決圖形監督信號稀缺難題。
評估方法革新：模型提出OCR Arena框架，用強VLM作裁判進行可靠對比評估。

如何使用MOCR

環境準備：創建Python 3.12虛擬環境，克隆GitHub倉庫並安裝依賴。
下載模型：運行下載腳本獲取模型權重，注意保存路徑不要包含英文句點。
啓動服務：使用vLLM部署模型服務，支持GPU加速推理。
文檔解析：調用解析腳本處理圖片或PDF文件，輸出結構化結果。
圖形轉換：使用SVG專用腳本將圖表轉換爲可編輯的SVG代碼。
獲取結果：獲取生成包含邊界框的JSON文件、Markdown文本和可視化標註圖。

MOCR的項目地址

GitHub倉庫：https://github.com/rednote-hilab/dots.mocr
arXiv技術論文：https://arxiv.org/pdf/2603.13032
在線體驗Demo：https://dotsocr.xiaohongshu.com/

MOCR的同類競品對比

維度	MOCR	Gemini 3 Pro	PaddleOCR-VL
開發方	華中科大×小紅書	谷歌	百度
參數規模	3B	未公開（大得多）	0.9B
開源狀態	完全開源	閉源API	開源
核心定位	文檔全要素解析+圖形重建	通用多模態大模型	傳統文字識別
文檔解析Elo	1125（開源第一）	1211（業界第一）	920.5
olmOCR-Bench	83.9	未公開	80.0
圖形處理能力	轉爲SVG代碼（可編輯）	基礎識別	不支持
部署方式	vLLM/Transformers本地部署	API調用	本地部署
核心優勢	小參數大能力、圖形可編輯化	通用能力極強、生態完善	輕量快速、中文優化好

MOCR的應用場景

學術科研：解析論文PDF、提取公式、重建圖表，將掃描論文轉爲可編輯LaTeX，復現科研圖表數據。
金融財經：分析財報、提取數據報表、數字化圖表，把PDF財報中的柱狀圖折線圖轉爲Excel可用數據。
法律政務：審查合同、數字化卷宗、識別證件，結構化提取多頁合同關鍵信息並保持格式完整。
教育出版：數字化教材、建設試題庫、識別板書，將印刷教材中的複雜公式和圖表轉爲電子資源。
醫療健康：解析病歷、提取檢驗報告、標註醫學影像，處理包含化學分子式和醫學示意圖的文檔。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Pixlr – 免費的在線AI圖像編輯工具

earnbyshare2016

203 0

StarCoder 2 – BigCode推出的第二代開源代碼大模型

earnbyshare2016

4 0

秒畫趣拍 – 商湯科技推出的AI創意寫真小程序

earnbyshare2016

78 0

混元DiT – 騰訊混元開源的文生圖擴散模型Hunyuan-DiT

earnbyshare2016

7 0

Resume Worded – AI驅動的在線簡歷優化平台

earnbyshare2016

6 0

CrushOn AI – AI 角色扮演聊天應用

earnbyshare2016

6 0

暫無評論

暫無評論...