mPLUG-DocOwl2 – 阿里推出多頁文檔理解的多模態大模型，單頁僅需324個token

AI工具2年前 (2024)發佈新公告 AI管理員

29 0 0

mPLUG-DocOwl2是什麼

mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用於多頁文檔理解的多模態大型語言模型。在不依賴光學字符識別（OCR）技術的情況下，通過高分辨率文檔圖像壓縮技術，實現對文檔圖片的高效理解和處理。mPLUG-DocOwl 2在多頁文檔理解基準測試中達到了新的最高標準（SOTA），每頁文檔圖像消耗324個token，降低顯存佔用和首包時間，提高處理速度。模型的訓練分爲三個階段：單頁預訓練、多頁預訓練和多任務指令微調。mPLUG-DocOwl 2支持理解單頁文檔，還能處理多頁文檔中的複雜問題，如跨頁內容關聯和結構解析。

mPLUG-DocOwl2的主要功能

多頁文檔理解：在不依賴OCR技術的情況下，直接從多頁文檔圖像中提取和理解信息。
高分辨率圖像處理：通過高分辨率文檔圖像壓縮模塊，將每頁文檔圖像壓縮成324個視覺token，減少顯存佔用和首包時間。
多頁問答能力：回答有關多頁文檔內容的問題，提供詳細的解釋以及相關頁碼。
文檔結構解析：解析並表示多頁文檔的層級結構，以JSON格式輸出，便於進一步的數據處理和分析。
跨頁內容關聯：理解和關聯多頁文檔中跨頁的內容，提供跨頁結構理解。
高效處理：在單個A100-80G GPU上，同時處理多達60頁的高清文檔圖片，提高處理效率。

mPLUG-DocOwl2的技術原理

高分辨率文檔圖像壓縮（High-resolution DocCompressor）：基於低分辨率全局視覺特徵作爲指導，通過cross-attention機制將高分辨率文檔圖像壓縮成較少的視覺token。
Shape-adaptive Cropping：自適應裁剪模塊根據文檔的形狀和大小進行切割，來適應不同頁面的佈局。
視覺特徵提取：使用視覺編碼器（如ViT）提取每個切片的視覺特徵，並通過H-Reducer模塊進行特徵合併和維度對齊。
跨注意力機制：在壓縮過程中，使用全局圖特徵作爲查詢，切片特徵作爲鍵值對，通過cross-attention層實現特徵壓縮。
全局與局部視覺特徵結合：結合全局視覺特徵（捕捉佈局信息）和局部視覺特徵（保留文本和圖像細節），實現更準確的文檔理解。