Cradle – 通用計算機控制的多模態AI Agent框架

AI項目和框架4周前發佈新公告 AI管理員
0 0

Cradle是什麼

Cradle是面向通用計算機控制(General Computer Control, GCC)的多模態AI Agent框架,由崑崙萬維攜手北京智源人工智能研究院、新加坡南洋理工大學、北京大學等頂尖名校機構推出的通用計算機控制框架,使AI Agent無需訓練便能像人一樣直接控制鍵盤鼠標,不依賴任何內部API,實現任意開閉源軟件交互。 Cradle是迄今爲止第一個既能玩多種商業遊戲又能操作各種軟件應用的AI框架,其論文、項目、代碼均已開源。
Cradle – 通用計算機控制的多模態AI Agent框架

Cradle的主要功能

  • 信息收集:從屏幕圖像和可能的聲音中提取多模態信息,用於決策制定。
  • 自我反思:評估先前行動的成功與否,並分析失敗原因,以指導後續行動。
  • 任務推斷:根據當前環境和歷史信息,推斷並選擇最佳的下一個任務。
  • 技能策劃:生成和更新與給定任務相關的技能,以適應不同的計算機操作需求。
  • 動作規劃:爲鍵盤和鼠標控制生成具體操作,將策略轉化爲可執行的命令。

Cradle的技術原理

  • 多模態輸入處理:Cradle能接收並處理屏幕圖像和音頻的多模態輸入,模擬人類感知方式理解計算機界面和環境。
  • 信息提取與理解:用大型多模態模型(如GPT-4V)來識別圖像中的視覺元素、文本信息和音頻中的指令或反饋。
  • 自我反思機制:通過反思模塊,Cradle評估之前執行動作是否成功,並分析失敗原因,爲調整策略提供依據。
  • 任務推斷與規劃:Cradle通過任務推斷模塊確定當前的優先任務,並在動作規劃模塊中制定出新動作完成任務。
  • 技能生成與更新:技能策劃模塊負責根據當前任務生成新的技能或更新現有技能,技能以代碼函數的形式存在,可以被實例化並執行。
  • 記憶與知識管理:Cradle擁有長期和短期記憶系統,存儲過去的經驗和技能,在需要時進行檢索和應用。

Cradle – 通用計算機控制的多模態AI Agent框架

Cradle的項目地址

  • GitHub倉庫:https://github.com/BAAI-Agents/Cradle
  • arXiv技術論文:https://arxiv.org/pdf/2403.03186

Cradle的應用場景

  • 桌面軟件自動化:自動化執行桌面軟件中的重複性任務,如文檔編輯、表格處理、圖像編輯等。
  • 網頁內容交互:模擬用戶與網頁的交互,包括填寫表單、點擊按鈕、導航鏈接等。
  • 遊戲環境:在遊戲環境中,如Red Dead Redemption II,Cradle可控制遊戲角色執行任務、探索環境、戰鬥等。
  • 專業軟件操作:在需要專業技能的軟件中,如圖形設計或視頻編輯軟件,Cradle可學習並執行特定的創作任務。
  • 日常計算機任務:執行日常計算機使用中的任務,比如文件管理、電子郵件處理、日程安排等。
© 版權聲明

相關文章

暫無評論

暫無評論...