ScreenAI – 谷歌推出的可讀屏AI視覺模型，可理解UI和信息圖表

AI工具2年前 (2024)發佈新公告 AI管理員

25 0 0

ScreenAI是什麼

ScreenAI是一個由谷歌的研究人員推出的可讀屏AI視覺語言模型，專門設計用於理解和處理用戶界面（UI）和信息圖表。該模型基於PaLI架構結合了視覺和語言處理的能力，並借鑑了Pix2Struct的靈活拼貼策略，使其能夠理解和生成與屏幕UI元素相關的文本，如問題回答、UI導航指令和內容摘要。
ScreenAI - 谷歌推出的可讀屏AI視覺模型，可理解UI和信息圖表

arXiv研究論文：https://arxiv.org/abs/2402.04615
GitHub PyTorch實現：https://github.com/kyegomez/ScreenAI

ScreenAI的主要功能

ScreenAI - 谷歌推出的可讀屏AI視覺模型，可理解UI和信息圖表

屏幕信息理解：ScreenAI能夠識別和理解UI元素和信息圖表的內容，包括它們的類型、位置和相互之間的關係。
問題回答（QA）：ScreenAI可以對獲取到的視覺信息的進行理解並回答關於UI和信息圖表內容的問題。
UI導航：ScreenAI能夠解釋導航指令（如“返回”）並識別適當的UI元素進行交互，可理解用戶意圖並能夠在界面中準確導航。
內容摘要：ScreenAI能夠簡潔地總結屏幕內容，可提煉和概括屏幕信息的核心要點。
適應不同屏幕格式：ScreenAI能夠處理不同分辨率和寬高比的屏幕截圖，可以適應移動設備和台式機等不同設備的屏幕格式。

ScreenAI的技術原理

ScreenAI - 谷歌推出的可讀屏AI視覺模型，可理解UI和信息圖表

多模態編碼器：受PaLI架構啓發，ScreenAI使用一個多模態編碼器塊，該塊由兩個主要部分組成：一個視覺編碼器和一個語言編碼器。視覺編碼器基於Vision Transformer (ViT) 架構，用於將輸入的屏幕截圖轉換爲一系列圖像嵌入。語言編碼器則處理與屏幕截圖相關的文本信息，如用戶界面（UI）元素的標籤和描述。
圖像和文本融合：在多模態編碼器中，圖像嵌入和文本嵌入被結合在一起，以便模型能夠同時理解視覺內容和與之相關的語言信息。這種融合使得ScreenAI能夠處理複雜的屏幕交互任務。
自迴歸解碼器：編碼器的輸出被傳遞給一個自迴歸解碼器T5，負責生成文本輸出，能夠根據輸入的圖像和文本嵌入生成自然語言響應。
自動數據生成：爲了訓練ScreenAI，研究人員利用了自動數據生成技術。他們使用PaLM 2-S語言模型來生成合成的訓練數據，這些數據包括屏幕模式和相應的問題-答案對。這種方法提高了數據的多樣性和複雜性，同時減少了對手動標註的依賴。
圖像分割策略：ScreenAI採用了Pix2Struct技術來處理不同分辨率和寬高比的屏幕截圖。這種技術允許模型根據輸入圖像的形狀和預定義的最大塊數生成任意網格形狀的圖像塊，從而使模型能夠適應各種屏幕格式。
模型配置和訓練：ScreenAI有不同規模的模型版本，包括670M、2B和5B參數的模型。這些模型在預訓練階段使用了不同的起點，例如從PaLI-3的多模態預訓練檢查點開始。預訓練任務和微調任務的結合使得模型能夠在廣泛的任務上進行訓練和優化。