mPLUG-DocOwl2 – 阿里推出多頁文檔理解的多模態大模型,單頁僅需324個token

AI工具14小時前發佈新公告 AI管理員
0 0

mPLUG-DocOwl2是什麼

mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用於多頁文檔理解的多模態大型語言模型。在不依賴光學字符識別(OCR)技術的情況下,通過高分辨率文檔圖像壓縮技術,實現對文檔圖片的高效理解和處理。mPLUG-DocOwl 2在多頁文檔理解基準測試中達到了新的最高標準(SOTA),每頁文檔圖像消耗324個token,降低顯存佔用和首包時間,提高處理速度。模型的訓練分爲三個階段:單頁預訓練、多頁預訓練和多任務指令微調。mPLUG-DocOwl 2支持理解單頁文檔,還能處理多頁文檔中的複雜問題,如跨頁內容關聯和結構解析。

mPLUG-DocOwl2 – 阿里推出多頁文檔理解的多模態大模型,單頁僅需324個token

mPLUG-DocOwl2的主要功能

  • 多頁文檔理解:在不依賴OCR技術的情況下,直接從多頁文檔圖像中提取和理解信息。
  • 高分辨率圖像處理:通過高分辨率文檔圖像壓縮模塊,將每頁文檔圖像壓縮成324個視覺token,減少顯存佔用和首包時間。
  • 多頁問答能力:回答有關多頁文檔內容的問題,提供詳細的解釋以及相關頁碼。
  • 文檔結構解析:解析並表示多頁文檔的層級結構,以JSON格式輸出,便於進一步的數據處理和分析。
  • 跨頁內容關聯:理解和關聯多頁文檔中跨頁的內容,提供跨頁結構理解。
  • 高效處理:在單個A100-80G GPU上,同時處理多達60頁的高清文檔圖片,提高處理效率。

mPLUG-DocOwl2的技術原理

  • 高分辨率文檔圖像壓縮(High-resolution DocCompressor):基於低分辨率全局視覺特徵作爲指導,通過cross-attention機制將高分辨率文檔圖像壓縮成較少的視覺token。
  • Shape-adaptive Cropping:自適應裁剪模塊根據文檔的形狀和大小進行切割,來適應不同頁面的佈局。
  • 視覺特徵提取:使用視覺編碼器(如ViT)提取每個切片的視覺特徵,並通過H-Reducer模塊進行特徵合併和維度對齊。
  • 跨注意力機制:在壓縮過程中,使用全局圖特徵作爲查詢,切片特徵作爲鍵值對,通過cross-attention層實現特徵壓縮。
  • 全局與局部視覺特徵結合:結合全局視覺特徵(捕捉佈局信息)和局部視覺特徵(保留文本和圖像細節),實現更準確的文檔理解。

mPLUG-DocOwl2的項目地址

  • GitHub倉庫:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2
  • arXiv技術論文:https://arxiv.org/pdf/2409.03420v2

mPLUG-DocOwl2的應用場景

  • 法律文件分析:自動化解析法律文件和案例,提取關鍵信息,支持法律研究和案件準備。
  • 醫療記錄管理:從醫療記錄和報告中提取重要數據,支持病人護理、研究和行政管理。
  • 學術研究:幫助研究人員快速理解和總結大量文獻,加速科學發現和知識創新。
  • 金融報告分析:自動化處理年度報告、財務報表和其他金融文檔,提取關鍵財務指標和趨勢。
  • 政府文檔處理:自動化處理政府發佈的公告、法規和政策文件,提高政府服務效率。
© 版權聲明

相關文章

暫無評論

暫無評論...