BrowserAct Skills – 開源的 AI Agent 瀏覽器自動化 CLI 工具

0 0 0

BrowserAct Skills是什麼

BrowserAct Skills 是面向 AI Agent 的瀏覽器自動化 CLI 工具，能解決 Agent 操控瀏覽器時的核心痛點,無 Cookie 環境、反爬攔截、驗證碼阻斷、人機協作斷層等。工具通過三層遞進架構，包括環境層→執行層→人工層，讓 Agent 能在真實瀏覽器環境中穩定執行任務。

BrowserAct Skills的主要功能

反檢測環境：支持命令行與視覺雙模式控制，繞過反爬機制，不被識別爲 Bot。
三層遞進結構：環境層負責指紋僞裝、TLS 輪換、代理切換；執行層自動破解驗證碼、隱蔽提取受保護頁面；人工層生成遠程協助鏈接，用戶從任意設備接管完成後，Agent 無縫續接任務。
三種瀏覽器模式：chrome 模式複用本地登錄態，stealth 隱私模式用於無登錄批量抓取，stealth 固定身份模式用於已登錄賬戶的多瀏覽器並行。
多賬號隔離：通過 Stealth Browser + Static Proxy，每個賬號放在獨立瀏覽器環境中運行，綁定獨立登錄狀態和網絡環境。
併發零干擾：跨瀏覽器並行時 Cookie、指紋、代理完全獨立；同瀏覽器多會話時共享登錄態但執行互不阻塞。
Skill-Forge 擴展：自動探索目標網站 API 與數據路徑，生成可複用的 Skill 包，Agent 後續可直接複用已驗證路徑執行批量任務。

BrowserAct Skills的技術原理

環境層僞裝：通過動態瀏覽器指紋 spoofing、TLS 指紋輪換與住宅代理切換，使每個會話呈現真實用戶網絡特徵，規避反 bot 檢測。
執行層穿透：內置自動驗證碼解析引擎與隱蔽數據提取通道，Agent 無需人工干預即可直接抓取受保護頁面內容。
人工層續接：當任務遇阻時生成實時遠程協作鏈接，用戶介入完成後系統自動恢復會話上下文，實現人機無縫接力。
索引化交互：將頁面元素映射爲緊湊數字索引，Agent 通過編號指令操控瀏覽器，無需解析 DOM 或加載可訪問性樹。
語義化記憶：爲每個瀏覽器會話綁定描述標籤，Agent 按任務語義自動匹配最合適的瀏覽器環境執行操作。

如何使用BrowserAct Skills

環境準備：確保系統爲 Windows、macOS 或 Linux，已安裝支持 Shell 命令的 AI Agent。
一鍵安裝：對 Agent 下達”安裝 browser-act”指令並提供 GitHub Skill 源地址，Agent 將自動完成安裝與驗證。
環境探測：安裝完成後，Agent 會在每次會話開始時自動獲取環境狀態、瀏覽器列表和可用命令。
提取頁面：直接讓 Agent 執行”提取某網頁內容”任務，BrowserAct 會自動以零配置模式抓取受保護頁面。
創建會話：告知 Agent 打開特定網站並創建命名會話，後續所有操作均在該會話內獨立執行。
查看狀態：Agent 會返回當前頁面的索引化可交互元素列表，無需解析 DOM 即可理解頁面結構。
執行操作：Agent 通過索引化指令（如點擊第3個元素、在第2個輸入框填入文本）精確操控瀏覽器。
模式選擇：根據任務需求讓 Agent 切換三種瀏覽器模式——複用本地 Chrome 登錄態、隱私批量抓取、或固定身份多賬號並行。
安裝擴展：如需自動生成可複用 Skill，讓 Agent 安裝 browser-act-skill-forge 擴展，之後直接描述目標網站與數據字段即可。
人機接力：遇到驗證碼或掃碼登錄時，Agent 自動生成遠程協助鏈接，你從任意設備完成操作後 Agent 無縫續接任務。
安全確認：涉及瀏覽器創建刪除、Profile 導入、代理變更等敏感操作時，每次均需你顯式獨立批准，不自動繼承先前授權。

BrowserAct Skills的核心優勢

人機接力不中斷：唯一內置 remote-assist 遠程協作鏈路，遇驗證碼或掃碼時生成實時鏈接，用戶從任意設備接管操作完成後，Agent 無縫續接任務，不中斷、不報錯。
三層遞進反檢測：環境層+ 執行層+ 人工層，覆蓋從純自動化到必須人工介入的完整光譜，多數反爬機制在到達 Agent 前即被消解。
Agent 原生高效交互：採用索引化指令click 3 / input 2 "..."，Agent 無需解析 DOM 或加載 Accessibility Tree，Token 效率顯著高於自然語言或 JSON/HTML 輸出方案。
Skill 自沉澱複用：Skill-Forge 自動探索目標網站 API 與數據路徑，生成可部署的 Skill 包；後續批量任務直接複用已驗證路徑執行，無需 Agent 每次重新理解頁面結構。

BrowserAct Skills的項目地址

GitHub倉庫：https://github.com/browser-act/skills

BrowserAct Skills的同類競品對比

對比維度	BrowserAct Skills	browser-use
定位	面向 AI Agent 的瀏覽器自動化 CLI + Skill 基礎設施，強調”執行層”補足	社區最活躍的 AI 瀏覽器自動化 SDK 框架（94k+ stars），強調端到端 Agent 自主決策
架構形態	CLI 工具 + Skill 包（Agent 通過 Shell 調用命令）	Python/TypeScript SDK + 自研 `bu-ultra` 專用模型（LLM-first）
核心交互範式	索引化指令（`click 3` / `input 2 "..."`），Agent 無需解析 DOM，Token 效率極高	自然語言 + DOM 解析，Agent 讀取可訪問性樹或 DOM 自主決策點擊與輸入
反檢測能力	三層遞進：環境層（指紋/TLS/代理輪換）→ 執行層（自動解驗證碼/`stealth-extract`）→ 人工層（遠程協助）	內置 stealth 瀏覽器技術繞過基礎反爬，但無系統級分層架構，遇高級驗證碼需自行處理
人機協作鏈路	✅ 內置 `remote-assist`：生成實時鏈接，用戶掃碼/驗證後 Agent 無縫續接，任務不中斷	❌ 無內置人機協作：遇驗證碼、掃碼、2FA 等需外部中斷，Agent 直接報錯或停滯
瀏覽器模式	三種模式：`chrome`（複用本地登錄態）、`stealth` 隱私（零殘留批量抓取）、`stealth` 固定身份（多賬號並行）	主要提供 stealth 模式，無本地 Chrome 登錄態複用能力，每次啓動多爲空白環境