Granite-Docling-258M – IBM推出的輕量級視覺語言模型

AI工具7個月前發佈新公告 AI管理員
0 0

Granite-Docling-258M是什麼

Granite-Docling-258M 是 IBM 推出的輕量級視覺語言模型,專爲高效文檔轉換設計。模型能將文檔轉換爲機器可讀格式,同時完整保留佈局、表格、公式等元素。模型僅含 258M 參數,性能卓越,成本效益高,支持多語言(包括阿拉伯語、中文和日語)處理。模型使用 DocTags 格式精準描述文檔結構,避免信息丟失。Granite-Docling-258M能與 Docling 庫無縫集成,提供強大的定製化和錯誤處理能力,適用企業級文檔處理,是文檔處理領域的強大工具。

Granite-Docling-258M – IBM推出的輕量級視覺語言模型

Granite-Docling-258M的主要功能

  • 精準文檔解析:模型能準確識別、解析文檔中的文字、表格、公式、圖表等各類元素,爲後續處理提供清晰、準確的數據基礎。
  • 結構保留轉換:在將文檔轉換爲電子格式時,完整保留原始文檔的佈局和結構,確保轉換後的文檔與原文高度一致,便於閱讀和進一步編輯。
  • 多模態輸入支持:同時支持圖像和文本輸入,能處理掃描文檔、手寫筆記及電子文檔等多種形式的文檔,拓寬應用範圍。
  • 多語言文檔處理:具備多語言處理能力,能處理不同語言的文檔,爲跨國企業和多語言環境下的文檔處理提供便利。
  • 高效數據提取:支持快速從文檔中提取關鍵信息和結構化數據,提高工作效率,減少人工處理時間。
  • 靈活的輸出格式:支持將文檔轉換爲多種常見格式,如Markdown、HTML、JSON等,方便用戶根據需求進行後續處理和應用。
  • 強大的定製化能力:與Docling庫集成,用戶能根據具體需求定製文檔處理流程,實現個性化的文檔轉換和分析功能。
  • 企業級穩定性:經過優化,模型在處理文檔時更加穩定,減少錯誤和異常情況的發生,適合在企業級環境中大規模應用。

Granite-Docling-258M的技術原理

  • 模型架構
    • 視覺編碼器:用 siglip2-base-patch16-512 作爲視覺編碼器,能高效處理圖像輸入,提取文檔中的視覺特徵。
    • 視覺語言連接器:基於像素洗牌投影器(pixel shuffle projector),將視覺特徵與語言模型連接起來,實現視覺和語言信息的融合。
    • 語言模型:基於 Granite 165M 的語言模型,能處理和生成自然語言文本,確保文檔內容的準確轉換。
  • DocTags 格式:DocTags 通用標記語言,能精準描述文檔中的各種元素(如圖表、表格、公式等)及上下文關係和位置。:DocTags 格式優化 LLM 的可讀性,使模型輸出的文檔能直接轉換爲 Markdown、HTML 或 JSON 等格式,便於後續處理和應用。
  • 訓練數據:訓練數據包括公開數據集和內部合成數據集,如 SynthCodeNet(代碼片段)、SynthFormulaNet(數學公式)、SynthChartNet(圖表)和 DoclingMatix(真實文檔頁面)。通過高質量的標註數據,模型能更好地學習文檔的結構和內容,提高轉換的準確性和穩定性。

Granite-Docling-258M的項目地址

  • 項目官網:https://www.ibm.com/new/announcements/granite-docling-end-to-end-document-conversion
  • HuggingFace模型庫:https://huggingface.co/ibm-granite/granite-docling-258M
  • 在線體驗Demo:https://huggingface.co/spaces/ibm-granite/granite-docling-258m-demo

Granite-Docling-258M的應用場景

  • 企業文檔管理:模型能快速將紙質文檔數字化,便於存儲和檢索,提升工作效率。
  • 學術研究:模型能高效處理大量文獻,助力研究人員快速獲取和分析資料。
  • 政府檔案數字化:用在精準轉換歷史檔案,確保信息完整,便於長期保存和查詢。
  • 教育領域:教師能快速整理教學資料,學生能便捷獲取電子版學習材料。
  • 多語言文檔處理:跨國企業能處理多語言文檔,打破語言障礙,促進國際交流。
© 版權聲明

相關文章

暫無評論

暫無評論...