Unlimited-OCR是什麼
Unlimited-OCR 是百度推出的端到端長文檔 OCR 模型,通過 Reference Sliding Window Attention機制將解碼器 KV cache 從線性增長壓縮爲常數,實現單次前向轉錄數十頁文檔。模型基於 3B 總參 MoE 架構,在 OmniDocBench v1.6 上以 93.92% 總分取得端到端 SOTA,推理速度達 5580 TPS,代碼與權重已全面開源。

Unlimited-OCR的主要功能
-
超長文檔一次識別:支持 2 頁至 40+ 頁 PDF 文檔的單次前向轉錄,無需逐頁 for 循環處理。
-
多類型文檔解析:覆蓋 PPT、學術論文、書籍、彩色教材、試卷、雜誌、報紙、筆記、研究報告等 9 類版式。
-
高精度內容提取:文本、公式、表格、閱讀順序全鏈路端到端輸出,公式 CDM 達 95.79%,表格 TEDS 達 93.32%。
-
雙分辨率視覺編碼:Base 模式 1024×1024 用於多頁長文檔,Gundam 模式動態分辨率用於單頁高精度識別。
-
常數延遲推理:無論輸出序列多長,KV cache 恆定爲 m+n,推理延遲與顯存佔用保持水平穩定。
Unlimited-OCR的技術原理
-
R-SWA 注意力機制:每個生成 token 僅關注全部參考 token(視覺+提示詞)和最近 128 個輸出 token,視覺 token 被排除在滑動窗口狀態轉移之外,避免長程生成中視覺特徵被逐步糊化。
-
常數 KV Cache 設計:將 KV cache 實現爲容量 m+n 的隊列,每生成一個新 token 即淘汰第 (m+1) 個 token,計算成本與內存佔用不隨序列長度遞增。
-
DeepEncoder 視覺編碼:沿用 SAM-ViT 級聯 CLIP-ViT 架構,通過 bridge 層做 16 倍 token 壓縮,1024×1024 圖像壓縮爲 256 個視覺 token,編碼一次後凍結。
-
MoE-LLM 解碼器:3B 總參、500M 激活的 MoE 架構,全部注意力層替換爲 R-SWA,基於 DeepSeek-OCR checkpoint 續訓 4000 步,全局 batch 256,最大序列 32K。
-
推理引擎優化:在 Transformers 與 SGLang 中均實現常數 TPS 與常數顯存的 KV cache 管理,Flash Attention v3 內核下 per-call 延遲全程水平。

微信關注回覆 “開源”,加入AI開源項目交流羣
如何使用Unlimited-OCR
-
模型下載:通過 Hugging Face
baidu/Unlimited-OCR或 GitHubbaidu/Unlimited-OCR獲取代碼與權重。 -
環境準備:支持 Transformers 庫與 SGLang 推理引擎,需配置對應 GPU 環境。
-
輸入格式:支持 PDF 頁面圖像輸入,Base 模式用於多頁長文檔,Gundam 模式用於單頁高分辨率識別。
-
推理調用:單次前向即可完成整本/整份文檔的 OCR 轉錄,無需外部調度器分頁處理。
-
擴展應用:R-SWA 機制可遷移至 ASR、翻譯、字幕生成等長輸出任務。
Unlimited-OCR的核心優勢
-
SOTA 識別精度:OmniDocBench v1.5 總分 93.23%,v1.6 總分 93.92% 端到端第一。
-
常數資源佔用:KV cache 不隨文檔頁數增長,20 頁、40+ 頁長文檔顯存與延遲保持穩定。
-
速度隨長度放大:輸出越長優勢越明顯,6144 token 時理論 TPS 上限較 DeepSeek-OCR 領先約 35%。
-
通用解碼架構:R-SWA 非 OCR 專屬 trick,適用於任何”參考源+長輸出”的生成任務。
-
輕量開源:3B 總參、500M 激活,模型與代碼已開源,便於部署與二次開發。
Unlimited-OCR的項目地址
- GitHub倉庫:https://github.com/baidu/Unlimited-OCR
- HuggingFace模型庫:https://github.com/baidu/Unlimited-OCR
Unlimited-OCR的同類競品對比
| 維度 | Unlimited-OCR | DeepSeek-OCR |
|---|---|---|
| 模型規模 | 3B-A0.5B (MoE) | 3B-A0.5B (MoE) |
| 注意力機制 | R-SWA(參考滑動窗口注意力) | 標準全注意力 |
| KV Cache 增長 | 常數(m+n),不隨序列長度增加 | 線性增長,隨輸出序列持續累積 |
| OmniDocBench v1.5 總分 | 93.23% | 87.01% |
| OmniDocBench v1.6 總分 | 93.92% | 90.25%(DeepSeek-OCR 2) |
| 文本編輯距離 | 0.038 | 0.073 |
| 公式 CDM | 92.61% | 83.37% |
| 表格 TEDS | 90.93% | 84.97% |
| 閱讀順序編輯距離 | 0.045 | 0.086 |
| 推理速度 | 5580 TPS,全程常數延遲 | 4951 TPS,延遲隨長度遞增 |
| 長文檔支持 | 單次前向 40+ 頁,無需分頁 | 長序列受限於 KV cache 膨脹,需分頁處理 |
| 訓練基礎 | 基於 DeepSeek-OCR checkpoint 續訓 4000 步 | 基座模型 |
Unlimited-OCR的應用場景
-
企業檔案數字化:批量處理成百上千頁掃描版 PDF、古籍、合訂本,無需拆分即可一次性結構化提取。
-
學術文獻解析:整本論文、期刊合輯、研究報告的端到端轉錄,保留公式、表格與閱讀順序。
-
教育試卷批改:多頁試卷、練習冊的批量識別,支持彩色教材與複雜版式。
-
法律合同審覈:長篇幅合同文本的精準 OCR 提取,用於後續 NLP 分析與合規審查。
-
多語言翻譯流水線:作爲 R-SWA 通用解碼方案的驗證場景,可擴展至 ASR、字幕生成等長序列任務。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...