ScreenAgent – 基於視覺語言模型的計算機控制智能體

AI工具2年前 (2024)發佈新公告 AI管理員

8 0 0

ScreenAgent是什麼

ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體，該智能體是基於視覺語言模型（VLM）構建的，能夠與真實計算機屏幕進行交互。研究人員構建了一個包含“計劃-執行-反思”的運行流程，以引導智能體與計算機屏幕進行持續性的交互。ScreenAgent的核心功能是通過觀察屏幕截圖，並輸出相應的鼠標和鍵盤動作來操縱圖形用戶界面（GUI），從而執行多步驟的複雜任務。

ScreenAgent - 基於視覺語言模型的計算機控制智能體

ScreenAgent的官網入口

官方GitHub代碼庫：https://github.com/niuzaisheng/ScreenAgent
Arxiv研究論文入口：https://arxiv.org/abs/2402.07945

ScreenAgent的運行流程

ScreenAgent - 基於視覺語言模型的計算機控制智能體

屏幕觀察：ScreenAgent能夠觀察和理解計算機屏幕上的截圖。該特性通過VNC協議實現，允許智能體查看桌面操作系統的實時圖像。
動作生成：基於觀察到的屏幕截圖，ScreenAgent可以生成相應的鼠標和鍵盤動作。這些動作以JSON格式的命令序列輸出，包括移動鼠標、點擊、雙擊、滾動、拖動以及鍵盤輸入等。
任務規劃：ScreenAgent 能夠根據用戶的任務提示，分解複雜的任務爲一系列子任務，併爲每個子任務規劃相應的動作序列。這涉及到對任務的理解、分解和策略制定。
執行動作：在規劃階段之後，ScreenAgent執行規劃好的子任務，通過發送鼠標和鍵盤動作命令到計算機，以實現用戶的目標。
反思評估：在執行動作之後，ScreenAgent會評估執行的結果，決定是否需要重試當前子任務、繼續執行下一個子任務，或者調整整個計劃。

ScreenAgent的技術原理

視覺語言模型（VLM）：
- VLM是一種結合了視覺和語言處理能力的模型，它可以理解圖像內容並生成相應的自然語言描述。
- 在ScreenAgent中，VLM用於解析屏幕截圖，理解用戶的任務提示，並規劃出一系列動作來完成任務。
強化學習環境：
- ScreenAgent通過VNC協議與真實計算機屏幕交互，創建了一個強化學習環境。在這個環境中，智能體可以觀察屏幕狀態（狀態空間），執行動作（動作空間），並根據執行結果獲得獎勵（獎勵函數）。
控制流程：
- 計劃（Planning）：智能體根據當前屏幕截圖和任務提示，分解任務並規劃一系列子任務和相應的動作序列。
- 執行（Acting）：智能體根據規劃階段的輸出，通過發送鼠標和鍵盤動作命令來操縱計算機界面。
- 反思（Reflecting）：智能體評估執行動作後的結果，決定是否需要重試、繼續或調整計劃。
數據集和評估：
- ScreenAgent數據集包含了完成各種日常計算機任務時的屏幕截圖和動作序列，用於訓練和評估模型。
- CC-Score（Vision Language Computer Control Score）是一個細粒度的評估指標，用於衡量智能體在計算機控制任務中的表現。
模型訓練：
- ScreenAgent 模型通過在 ScreenAgent 數據集上進行訓練，學習如何有效地規劃、執行和反思以完成複雜的計算機控制任務。訓練過程中採用多種技術，如監督學習、強化學習以及人類反饋循環（RLHF）等。