Unlimited-OCR – 百度開源的端到端長文檔 OCR 模型

0 0 0

Unlimited-OCR是什麼

Unlimited-OCR 是百度推出的端到端長文檔 OCR 模型，通過 Reference Sliding Window Attention機制將解碼器 KV cache 從線性增長壓縮爲常數，實現單次前向轉錄數十頁文檔。模型基於 3B 總參 MoE 架構，在 OmniDocBench v1.6 上以 93.92% 總分取得端到端 SOTA，推理速度達 5580 TPS，代碼與權重已全面開源。

Unlimited-OCR的主要功能

超長文檔一次識別：支持 2 頁至 40+ 頁 PDF 文檔的單次前向轉錄，無需逐頁 for 循環處理。
多類型文檔解析：覆蓋 PPT、學術論文、書籍、彩色教材、試卷、雜誌、報紙、筆記、研究報告等 9 類版式。
高精度內容提取：文本、公式、表格、閱讀順序全鏈路端到端輸出，公式 CDM 達 95.79%，表格 TEDS 達 93.32%。
雙分辨率視覺編碼：Base 模式 1024×1024 用於多頁長文檔，Gundam 模式動態分辨率用於單頁高精度識別。
常數延遲推理：無論輸出序列多長，KV cache 恆定爲 m+n，推理延遲與顯存佔用保持水平穩定。

Unlimited-OCR的技術原理

R-SWA 注意力機制：每個生成 token 僅關注全部參考 token（視覺+提示詞）和最近 128 個輸出 token，視覺 token 被排除在滑動窗口狀態轉移之外，避免長程生成中視覺特徵被逐步糊化。
常數 KV Cache 設計：將 KV cache 實現爲容量 m+n 的隊列，每生成一個新 token 即淘汰第 (m+1) 個 token，計算成本與內存佔用不隨序列長度遞增。
DeepEncoder 視覺編碼：沿用 SAM-ViT 級聯 CLIP-ViT 架構，通過 bridge 層做 16 倍 token 壓縮，1024×1024 圖像壓縮爲 256 個視覺 token，編碼一次後凍結。
MoE-LLM 解碼器：3B 總參、500M 激活的 MoE 架構，全部注意力層替換爲 R-SWA，基於 DeepSeek-OCR checkpoint 續訓 4000 步，全局 batch 256，最大序列 32K。
推理引擎優化：在 Transformers 與 SGLang 中均實現常數 TPS 與常數顯存的 KV cache 管理，Flash Attention v3 內核下 per-call 延遲全程水平。

Unlimited-OCR – 百度開源的端到端長文檔 OCR 模型

微信關注回覆 “開源”，加入AI開源項目交流羣

如何使用Unlimited-OCR

模型下載：通過 Hugging Face baidu/Unlimited-OCR 或 GitHub baidu/Unlimited-OCR 獲取代碼與權重。
環境準備：支持 Transformers 庫與 SGLang 推理引擎，需配置對應 GPU 環境。
輸入格式：支持 PDF 頁面圖像輸入，Base 模式用於多頁長文檔，Gundam 模式用於單頁高分辨率識別。
推理調用：單次前向即可完成整本/整份文檔的 OCR 轉錄，無需外部調度器分頁處理。
擴展應用：R-SWA 機制可遷移至 ASR、翻譯、字幕生成等長輸出任務。

Unlimited-OCR的核心優勢

SOTA 識別精度：OmniDocBench v1.5 總分 93.23%，v1.6 總分 93.92% 端到端第一。
常數資源佔用：KV cache 不隨文檔頁數增長，20 頁、40+ 頁長文檔顯存與延遲保持穩定。
速度隨長度放大：輸出越長優勢越明顯，6144 token 時理論 TPS 上限較 DeepSeek-OCR 領先約 35%。
通用解碼架構：R-SWA 非 OCR 專屬 trick，適用於任何”參考源+長輸出”的生成任務。
輕量開源：3B 總參、500M 激活，模型與代碼已開源，便於部署與二次開發。

Unlimited-OCR的項目地址

GitHub倉庫：https://github.com/baidu/Unlimited-OCR
HuggingFace模型庫：https://github.com/baidu/Unlimited-OCR

Unlimited-OCR的同類競品對比

維度	Unlimited-OCR	DeepSeek-OCR
模型規模	3B-A0.5B (MoE)	3B-A0.5B (MoE)
注意力機制	R-SWA（參考滑動窗口注意力）	標準全注意力
KV Cache 增長	常數（m+n），不隨序列長度增加	線性增長，隨輸出序列持續累積
OmniDocBench v1.5 總分	93.23%	87.01%
OmniDocBench v1.6 總分	93.92%	90.25%（DeepSeek-OCR 2）
文本編輯距離	0.038	0.073
公式 CDM	92.61%	83.37%
表格 TEDS	90.93%	84.97%
閱讀順序編輯距離	0.045	0.086
推理速度	5580 TPS，全程常數延遲	4951 TPS，延遲隨長度遞增
長文檔支持	單次前向 40+ 頁，無需分頁	長序列受限於 KV cache 膨脹，需分頁處理
訓練基礎	基於 DeepSeek-OCR checkpoint 續訓 4000 步	基座模型