Unlimited-OCR – 百度開源的端到端長文檔 OCR 模型

AI工具1天前發佈新公告 AI管理員
0 0

Unlimited-OCR是什麼

Unlimited-OCR 是百度推出的端到端長文檔 OCR 模型,通過 Reference Sliding Window Attention機制將解碼器 KV cache 從線性增長壓縮爲常數,實現單次前向轉錄數十頁文檔。模型基於 3B 總參 MoE 架構,在 OmniDocBench v1.6 上以 93.92% 總分取得端到端 SOTA,推理速度達 5580 TPS,代碼與權重已全面開源。

Unlimited-OCR – 百度開源的端到端長文檔 OCR 模型

Unlimited-OCR的主要功能

  • 超長文檔一次識別:支持 2 頁至 40+ 頁 PDF 文檔的單次前向轉錄,無需逐頁 for 循環處理。
  • 多類型文檔解析:覆蓋 PPT、學術論文、書籍、彩色教材、試卷、雜誌、報紙、筆記、研究報告等 9 類版式。
  • 高精度內容提取:文本、公式、表格、閱讀順序全鏈路端到端輸出,公式 CDM 達 95.79%,表格 TEDS 達 93.32%。
  • 雙分辨率視覺編碼:Base 模式 1024×1024 用於多頁長文檔,Gundam 模式動態分辨率用於單頁高精度識別。
  • 常數延遲推理:無論輸出序列多長,KV cache 恆定爲 m+n,推理延遲與顯存佔用保持水平穩定。

Unlimited-OCR的技術原理

  • R-SWA 注意力機制:每個生成 token 僅關注全部參考 token(視覺+提示詞)和最近 128 個輸出 token,視覺 token 被排除在滑動窗口狀態轉移之外,避免長程生成中視覺特徵被逐步糊化。
  • 常數 KV Cache 設計:將 KV cache 實現爲容量 m+n 的隊列,每生成一個新 token 即淘汰第 (m+1) 個 token,計算成本與內存佔用不隨序列長度遞增。
  • DeepEncoder 視覺編碼:沿用 SAM-ViT 級聯 CLIP-ViT 架構,通過 bridge 層做 16 倍 token 壓縮,1024×1024 圖像壓縮爲 256 個視覺 token,編碼一次後凍結。
  • MoE-LLM 解碼器:3B 總參、500M 激活的 MoE 架構,全部注意力層替換爲 R-SWA,基於 DeepSeek-OCR checkpoint 續訓 4000 步,全局 batch 256,最大序列 32K。
  • 推理引擎優化:在 Transformers 與 SGLang 中均實現常數 TPS 與常數顯存的 KV cache 管理,Flash Attention v3 內核下 per-call 延遲全程水平。

Unlimited-OCR – 百度開源的端到端長文檔 OCR 模型

微信關注回覆 “開源”,加入AI開源項目交流羣

如何使用Unlimited-OCR

  • 模型下載:通過 Hugging Face baidu/Unlimited-OCR 或 GitHub baidu/Unlimited-OCR 獲取代碼與權重。
  • 環境準備:支持 Transformers 庫與 SGLang 推理引擎,需配置對應 GPU 環境。
  • 輸入格式:支持 PDF 頁面圖像輸入,Base 模式用於多頁長文檔,Gundam 模式用於單頁高分辨率識別。
  • 推理調用:單次前向即可完成整本/整份文檔的 OCR 轉錄,無需外部調度器分頁處理。
  • 擴展應用:R-SWA 機制可遷移至 ASR、翻譯、字幕生成等長輸出任務。

Unlimited-OCR的核心優勢

  • SOTA 識別精度:OmniDocBench v1.5 總分 93.23%,v1.6 總分 93.92% 端到端第一。
  • 常數資源佔用:KV cache 不隨文檔頁數增長,20 頁、40+ 頁長文檔顯存與延遲保持穩定。
  • 速度隨長度放大:輸出越長優勢越明顯,6144 token 時理論 TPS 上限較 DeepSeek-OCR 領先約 35%。
  • 通用解碼架構:R-SWA 非 OCR 專屬 trick,適用於任何”參考源+長輸出”的生成任務。
  • 輕量開源:3B 總參、500M 激活,模型與代碼已開源,便於部署與二次開發。

Unlimited-OCR的項目地址

  • GitHub倉庫:https://github.com/baidu/Unlimited-OCR
  • HuggingFace模型庫:https://github.com/baidu/Unlimited-OCR

Unlimited-OCR的同類競品對比

維度 Unlimited-OCR DeepSeek-OCR
模型規模 3B-A0.5B (MoE) 3B-A0.5B (MoE)
注意力機制 R-SWA(參考滑動窗口注意力) 標準全注意力
KV Cache 增長 常數(m+n),不隨序列長度增加 線性增長,隨輸出序列持續累積
OmniDocBench v1.5 總分 93.23% 87.01%
OmniDocBench v1.6 總分 93.92% 90.25%(DeepSeek-OCR 2)
文本編輯距離 0.038 0.073
公式 CDM 92.61% 83.37%
表格 TEDS 90.93% 84.97%
閱讀順序編輯距離 0.045 0.086
推理速度 5580 TPS,全程常數延遲 4951 TPS,延遲隨長度遞增
長文檔支持 單次前向 40+ 頁,無需分頁 長序列受限於 KV cache 膨脹,需分頁處理
訓練基礎 基於 DeepSeek-OCR checkpoint 續訓 4000 步 基座模型

Unlimited-OCR的應用場景

  • 企業檔案數字化:批量處理成百上千頁掃描版 PDF、古籍、合訂本,無需拆分即可一次性結構化提取。
  • 學術文獻解析:整本論文、期刊合輯、研究報告的端到端轉錄,保留公式、表格與閱讀順序。
  • 教育試卷批改:多頁試卷、練習冊的批量識別,支持彩色教材與複雜版式。
  • 法律合同審覈:長篇幅合同文本的精準 OCR 提取,用於後續 NLP 分析與合規審查。
  • 多語言翻譯流水線:作爲 R-SWA 通用解碼方案的驗證場景,可擴展至 ASR、字幕生成等長序列任務。
© 版權聲明

相關文章

暫無評論

暫無評論...