MinerU – OpenDataLab推出的開源智能數據提取工具

AI工具2年前 (2024)發佈新公告 AI管理員

63 0 0

MinerU是什麼

MinerU是上海人工智能實驗室OpenDataLab團隊推出的開源智能數據提取工具，專注於複雜PDF文檔的高效解析與提取。MinerU能將包含圖片、公式、表格等元素的多模態PDF文檔轉化爲易於分析的Markdown格式，支持從網頁和電子書中提取內容，提高AI語料準備效率。MinerU具備高精度的PDF模型解析工具鏈，支持多種輸入模型，自動識別亂碼，保留文檔結構，轉換公式爲LaTex，適用於學術、財務、法律等多個領域，支持CPU和GPU，兼容Windows/Linux/Mac平台，性能卓越。

MinerU的主要功能

PDF到Markdown轉換：將包含多種內容類型的PDF文檔轉換爲結構化的Markdown格式，便於進一步的編輯和分析。
多模態內容處理：能識別和處理PDF中的圖像、公式、表格和文本等多種內容。
結構和格式保留：在轉換過程中，保留原始文檔的結構和格式，如標題、段落和列表。
公式識別與轉換：特別針對數學公式，能識別並轉換成LaTeX格式，方便學術交流和技術文檔使用。
干擾元素去除：自動刪除頁眉、頁腳、腳註和頁碼等非內容元素，淨化文檔信息。
亂碼識別與處理：自動識別並糾正PDF文檔中的亂碼，提高信息提取的準確性。
高質量解析工具鏈：集成了先進的PDF解析工具，包括佈局檢測、公式檢測和光學字符識別（OCR），確保提取結果的高準確度。

MinerU的技術原理

PDF文檔分類預處理：在處理PDF文檔之前，MinerU首先對文檔進行分類，識別其類型（如文本型、圖層型或掃描版PDF），並進行相應的預處理，例如檢測亂碼和識別是否爲掃描文檔。
模型解析與內容提取：
- 佈局檢測：使用基於深度學習的模型，如LayoutLMv3，進行區域檢測，識別文檔中的圖像、表格、標題和文本等不同區域。
- 公式檢測：利用基於YOLOv8的自研模型來識別文檔中的數學公式，區分行內公式和行間公式。
- 公式識別：通過自研的UniMERNet模型來識別和解析數學公式，將它們轉換成LaTeX格式。
- 光學字符識別（OCR）：使用PaddleOCR等OCR技術來識別文檔中的文本內容。
管線處理：將模型解析得到的數據輸入到處理管線中，進行後處理，包括：
- 確定塊級別的順序。
- 刪除無用元素。
- 根據版面進行內容排序和拼裝，以保證正文的流暢性。
- 進行座標修復、高iou處理、圖片和表格描述合併、公式替換、圖標轉儲、Layout排序等操作。
多種格式輸出：處理後的文檔信息可以轉換爲統一的中間態格式（middle-json），並根據需求輸出爲不同的格式，如Layout、Span、Markdown或Content list等。
PDF提取結果質檢：使用人工標註的PDF自測評測集對整個流程進行檢測，確保提取效果的優化。使用可視化質檢工具進行人工質檢與標註，反饋給模型訓練，進一步提升模型能力。