Granite-Docling-258M – IBM推出的輕量級視覺語言模型

0 0 0

Granite-Docling-258M是什麼

Granite-Docling-258M 是 IBM 推出的輕量級視覺語言模型，專爲高效文檔轉換設計。模型能將文檔轉換爲機器可讀格式，同時完整保留佈局、表格、公式等元素。模型僅含 258M 參數，性能卓越，成本效益高，支持多語言（包括阿拉伯語、中文和日語）處理。模型使用 DocTags 格式精準描述文檔結構，避免信息丟失。Granite-Docling-258M能與 Docling 庫無縫集成，提供強大的定製化和錯誤處理能力，適用企業級文檔處理，是文檔處理領域的強大工具。

Granite-Docling-258M的主要功能

精準文檔解析：模型能準確識別、解析文檔中的文字、表格、公式、圖表等各類元素，爲後續處理提供清晰、準確的數據基礎。
結構保留轉換：在將文檔轉換爲電子格式時，完整保留原始文檔的佈局和結構，確保轉換後的文檔與原文高度一致，便於閱讀和進一步編輯。
多模態輸入支持：同時支持圖像和文本輸入，能處理掃描文檔、手寫筆記及電子文檔等多種形式的文檔，拓寬應用範圍。
多語言文檔處理：具備多語言處理能力，能處理不同語言的文檔，爲跨國企業和多語言環境下的文檔處理提供便利。
高效數據提取：支持快速從文檔中提取關鍵信息和結構化數據，提高工作效率，減少人工處理時間。
靈活的輸出格式：支持將文檔轉換爲多種常見格式，如Markdown、HTML、JSON等，方便用戶根據需求進行後續處理和應用。
強大的定製化能力：與Docling庫集成，用戶能根據具體需求定製文檔處理流程，實現個性化的文檔轉換和分析功能。
企業級穩定性：經過優化，模型在處理文檔時更加穩定，減少錯誤和異常情況的發生，適合在企業級環境中大規模應用。

Granite-Docling-258M的技術原理

模型架構：
- 視覺編碼器：用 siglip2-base-patch16-512 作爲視覺編碼器，能高效處理圖像輸入，提取文檔中的視覺特徵。
- 視覺語言連接器：基於像素洗牌投影器（pixel shuffle projector），將視覺特徵與語言模型連接起來，實現視覺和語言信息的融合。
- 語言模型：基於 Granite 165M 的語言模型，能處理和生成自然語言文本，確保文檔內容的準確轉換。
DocTags 格式：DocTags 通用標記語言，能精準描述文檔中的各種元素（如圖表、表格、公式等）及上下文關係和位置。：DocTags 格式優化 LLM 的可讀性，使模型輸出的文檔能直接轉換爲 Markdown、HTML 或 JSON 等格式，便於後續處理和應用。
訓練數據：訓練數據包括公開數據集和內部合成數據集，如 SynthCodeNet（代碼片段）、SynthFormulaNet（數學公式）、SynthChartNet（圖表）和 DoclingMatix（真實文檔頁面）。通過高質量的標註數據，模型能更好地學習文檔的結構和內容，提高轉換的準確性和穩定性。

Granite-Docling-258M的項目地址

項目官網：https://www.ibm.com/new/announcements/granite-docling-end-to-end-document-conversion
HuggingFace模型庫：https://huggingface.co/ibm-granite/granite-docling-258M
在線體驗Demo：https://huggingface.co/spaces/ibm-granite/granite-docling-258m-demo