BrowserAct Skills – 開源的 AI Agent 瀏覽器自動化 CLI 工具

AI工具9小時前發佈新公告 AI管理員
0 0

BrowserAct Skills是什麼

BrowserAct Skills 是面向 AI Agent 的瀏覽器自動化 CLI 工具,能解決 Agent 操控瀏覽器時的核心痛點,無 Cookie 環境、反爬攔截、驗證碼阻斷、人機協作斷層等。工具通過三層遞進架構,包括環境層→執行層→人工層,讓 Agent 能在真實瀏覽器環境中穩定執行任務。

BrowserAct Skills – 開源的 AI Agent 瀏覽器自動化 CLI 工具

BrowserAct Skills的主要功能

  • 反檢測環境:支持命令行與視覺雙模式控制,繞過反爬機制,不被識別爲 Bot。
  • 三層遞進結構:環境層負責指紋僞裝、TLS 輪換、代理切換;執行層自動破解驗證碼、隱蔽提取受保護頁面;人工層生成遠程協助鏈接,用戶從任意設備接管完成後,Agent 無縫續接任務。
  • 三種瀏覽器模式chrome 模式複用本地登錄態,stealth 隱私模式用於無登錄批量抓取,stealth 固定身份模式用於已登錄賬戶的多瀏覽器並行。
  • 多賬號隔離:通過 Stealth Browser + Static Proxy,每個賬號放在獨立瀏覽器環境中運行,綁定獨立登錄狀態和網絡環境。
  • 併發零干擾:跨瀏覽器並行時 Cookie、指紋、代理完全獨立;同瀏覽器多會話時共享登錄態但執行互不阻塞。
  • Skill-Forge 擴展:自動探索目標網站 API 與數據路徑,生成可複用的 Skill 包,Agent 後續可直接複用已驗證路徑執行批量任務。

BrowserAct Skills的技術原理

  • 環境層僞裝:通過動態瀏覽器指紋 spoofing、TLS 指紋輪換與住宅代理切換,使每個會話呈現真實用戶網絡特徵,規避反 bot 檢測。
  • 執行層穿透:內置自動驗證碼解析引擎與隱蔽數據提取通道,Agent 無需人工干預即可直接抓取受保護頁面內容。
  • 人工層續接:當任務遇阻時生成實時遠程協作鏈接,用戶介入完成後系統自動恢復會話上下文,實現人機無縫接力。
  • 索引化交互:將頁面元素映射爲緊湊數字索引,Agent 通過編號指令操控瀏覽器,無需解析 DOM 或加載可訪問性樹。
  • 語義化記憶:爲每個瀏覽器會話綁定描述標籤,Agent 按任務語義自動匹配最合適的瀏覽器環境執行操作。

如何使用BrowserAct Skills

  • 環境準備:確保系統爲 Windows、macOS 或 Linux,已安裝支持 Shell 命令的 AI Agent。
  • 一鍵安裝:對 Agent 下達”安裝 browser-act”指令並提供 GitHub Skill 源地址,Agent 將自動完成安裝與驗證。
  • 環境探測:安裝完成後,Agent 會在每次會話開始時自動獲取環境狀態、瀏覽器列表和可用命令。
  • 提取頁面:直接讓 Agent 執行”提取某網頁內容”任務,BrowserAct 會自動以零配置模式抓取受保護頁面。
  • 創建會話:告知 Agent 打開特定網站並創建命名會話,後續所有操作均在該會話內獨立執行。
  • 查看狀態:Agent 會返回當前頁面的索引化可交互元素列表,無需解析 DOM 即可理解頁面結構。
  • 執行操作:Agent 通過索引化指令(如點擊第3個元素、在第2個輸入框填入文本)精確操控瀏覽器。
  • 模式選擇:根據任務需求讓 Agent 切換三種瀏覽器模式——複用本地 Chrome 登錄態、隱私批量抓取、或固定身份多賬號並行。
  • 安裝擴展:如需自動生成可複用 Skill,讓 Agent 安裝 browser-act-skill-forge 擴展,之後直接描述目標網站與數據字段即可。
  • 人機接力:遇到驗證碼或掃碼登錄時,Agent 自動生成遠程協助鏈接,你從任意設備完成操作後 Agent 無縫續接任務。
  • 安全確認:涉及瀏覽器創建刪除、Profile 導入、代理變更等敏感操作時,每次均需你顯式獨立批准,不自動繼承先前授權。

BrowserAct Skills的核心優勢

  • 人機接力不中斷: 唯一內置 remote-assist 遠程協作鏈路,遇驗證碼或掃碼時生成實時鏈接,用戶從任意設備接管操作完成後,Agent 無縫續接任務,不中斷、不報錯。
  • 三層遞進反檢測:環境層+ 執行層+ 人工層,覆蓋從純自動化到必須人工介入的完整光譜,多數反爬機制在到達 Agent 前即被消解。
  • Agent 原生高效交互:採用索引化指令click 3 / input 2 "...",Agent 無需解析 DOM 或加載 Accessibility Tree,Token 效率顯著高於自然語言或 JSON/HTML 輸出方案。
  • Skill 自沉澱複用:Skill-Forge 自動探索目標網站 API 與數據路徑,生成可部署的 Skill 包;後續批量任務直接複用已驗證路徑執行,無需 Agent 每次重新理解頁面結構。

BrowserAct Skills的項目地址

  • GitHub倉庫:https://github.com/browser-act/skills

BrowserAct Skills的同類競品對比

對比維度 BrowserAct Skills browser-use
定位 面向 AI Agent 的瀏覽器自動化 CLI + Skill 基礎設施,強調”執行層”補足 社區最活躍的 AI 瀏覽器自動化 SDK 框架(94k+ stars),強調端到端 Agent 自主決策
架構形態 CLI 工具 + Skill 包(Agent 通過 Shell 調用命令) Python/TypeScript SDK + 自研 bu-ultra 專用模型(LLM-first)
核心交互範式 索引化指令click 3 / input 2 "..."),Agent 無需解析 DOM,Token 效率極高 自然語言 + DOM 解析,Agent 讀取可訪問性樹或 DOM 自主決策點擊與輸入
反檢測能力 三層遞進:環境層(指紋/TLS/代理輪換)→ 執行層(自動解驗證碼/stealth-extract)→ 人工層(遠程協助) 內置 stealth 瀏覽器技術繞過基礎反爬,但無系統級分層架構,遇高級驗證碼需自行處理
人機協作鏈路 內置 remote-assist:生成實時鏈接,用戶掃碼/驗證後 Agent 無縫續接,任務不中斷 無內置人機協作:遇驗證碼、掃碼、2FA 等需外部中斷,Agent 直接報錯或停滯
瀏覽器模式 三種模式chrome(複用本地登錄態)、stealth 隱私(零殘留批量抓取)、stealth 固定身份(多賬號並行) 主要提供 stealth 模式,無本地 Chrome 登錄態複用能力,每次啓動多爲空白環境

BrowserAct Skills的應用場景

  • 數據自動化採集:複用已有登錄態進入公衆號後台、知乎、小紅書等,提取文章數據與用戶信息,無需重複掃碼。
  • 繞過反爬機制:在小紅書等反爬嚴格平台正常抓取內容,自動處理動態頁面。
  • 人機接力協作:遇到驗證碼或掃碼登錄時,生成遠程協助鏈接,用戶操作完成後 Agent 自動續接,不中斷任務流。
  • 多賬號矩陣運營:電商店鋪、社交媒體多賬號獨立運行,避免環境交叉污染。
  • 批量技能沉澱:通過 Skill-Forge 將重複性網站操作固化爲可複用 Skill,後續直接批量執行。
© 版權聲明

相關文章

暫無評論

暫無評論...