Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

AI教程14小時前發佈新公告 AI管理員
0 0

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南,涵蓋截圖預處理、模型選型到安全防禦的完整方案。面向 Claude 4.6 家族與 Opus 4.7 模型,核心建議包括預縮截圖至 1280×720 提升點擊準確率、文字先於截圖排序、以教學模式替代 Prompt 工程,同時集成三層注入防禦與長對話上下文壓縮策略,助力構建生產級 Agent 自動化系統。

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

分辨率與縮放

點擊準確率是 Computer Use 集成的根基。若點擊偏移,後續所有工作流都會失敗。文章指出,影響最大的優化同時也是最簡單的:在發送 API 前,預先將截圖降採樣。

API 內部處理限制

Claude 4.6 家族的 API 限製爲

  • 長邊最大 1568 像素
  • 總像素最大 1.15MP
  • 超出任一限制即被內部靜默降採樣

Opus 4.7 支持更高分辨率

  • 長邊最大 2576 像素
  • 總像素最大 3.75MP
  • 超出限制同樣會被靜默降採樣

核心問題

當截圖超過 API 限制時,模型看到的是被壓縮後的圖像,返回的座標也基於壓縮後的尺寸,客戶端 harness 仍按原始分辨率執行點擊。座標空間與模型感知的圖像不匹配,是高分辨率下點擊不準的首要原因。

推薦分辨率

  • 通用默認:1280×720。使用約 80% 像素預算,在訓練數據中常見,兼容性好。
  • Opus 4.7 推薦:1080p,在 token 消耗與性能間取得更好平衡。
  • 最大化 API 適配:按原生寬高比計算最優分辨率,避免強制拉伸導致的比例失真。

需避免的分辨率

  • 原生分辨率(未縮放):除非碰巧低於限制,否則是點擊不準的最常見原因。
  • 過低分辨率(低於 960×540):細節丟失過多,模型無法識別小 UI 元素。
  • macOS 注意:截圖常帶有 2x 設備像素比,1440p 屏幕實際輸出 2880p,遠超 API 上限。
  • 4.6 家族避免 1920×1080 及以上:會超出像素限制被靜默壓縮;Opus 4.7 上限更高,1080p 和 1440p 在預算內,但仍需避免原生 4K 不縮放直接發送。

座標縮放

發送前自行縮小截圖後,模型返回的座標基於發送時的 display_width_px / display_height_px,執行前必須按比例還原到真實屏幕座標:

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

消息數組內容排序

構造消息 content 數組時,將文字指令放在截圖之前。

推薦順序:

content = [
    {"type": "text", "text": "Click on the Submit button"},
    {"type": "image", ...},
]
不推薦順序:
content = [
    {"type": "image", ...},
    {"type": "text", "text": "Click on the Submit button"},
]

模型選擇

基於 Anthropic 內部測試,不同模型各有所長:

  • Sonnet 4.6:機械點擊精度最高,空間定位準,近距離失誤少,對重度圖片壓縮的容忍度更好。適合大部分機械執行類任務,在準確率、推理和成本間取得最佳平衡。
  • Opus 4.7:推理能力更強,且點擊精度已追上 Sonnet 4.6。加上分辨率預算更大(3.75MP vs 1.15MP),需要壓縮的幅度更小。若任務既需推理又需精準點擊,Opus 4.7 是目前最優解。
  • Haiku 4.5:延遲優先的選擇,適合對速度要求極高的場景。

高級模式:指揮官模式(Orchestrator + Sub-agent)

複雜工作流中,可用一個推理能力強的模型(如 Opus)做”指揮官”負責規劃和決策,再讓 Sonnet 或 Haiku 執行具體點擊操作,分工協作。

小目標處理

大按鈕、輸入框、標準菜單項,Claude 都能穩定點中。複選框、系統托盤圖標、下拉箭頭、小開關等微小元素,準確率會下滑。

原因:4K 屏幕(3840×2160)壓縮到 720p 後,原本 16 像素的複選框大概只剩 5 個像素,難以精準命中。

解決方案

  • 開啓 Zoom:Claude 4.6 和 4.7 支持 zoom 能力,讓模型先放大特定區域看清再點擊。工具配置中加 “enable_zoom”: True。
  • 放大目標:若 UI 可控,增大點擊目標尺寸(降低系統 DPI、放大瀏覽器縮放、調整 UI 比例)對準確率有不成比例的提升。
  • 鍵盤替代:對極小元素,Tab 導航或快捷鍵比鼠標點擊更可靠。
  • 考慮源分辨率:4K+ 顯示器壓縮到 720p 會丟失大量細節。若使用 4.6 模型,可嘗試降低 DPI 或聚焦截圖到相關屏幕區域;若用 Opus 4.7,更高分辨率預算可減少壓縮需求。

思考力度(Thinking Effort)調優

Claude 支持自適應思考(adaptive thinking),通過 thinking 參數設置力度:low、medium、high、xhigh(僅 Opus 4.7)、max。

Opus 4.7

在 OSWorld Verified 基準測試中:

  • high 檔準確率接近 max,輸出 token 僅約一半。
  • low 檔得分與 Opus 4.6 的 high/max 相近,token 用量約爲 1/10。
  • max 檔得分最高,token 成本顯著增加。

推薦:

  • 默認:high(複雜多步交互的最佳性價比)
  • 高吞吐/成本敏感:low
  • 簡單快速任務:嘗試 Sonnet 4.6
  • 複雜一次性任務:max

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

Claude 4.6 家族

測試顯示 medium 的任務成功率已接近最高值,繼續增加思考力度收益遞減。

  • 推薦默認:medium
  • low 比關閉思考要好,因爲減少出錯和重試,實際總 token 消耗反而更少。
  • 不推薦在 Computer Use 中使用 max:測試中相比 high 無準確率提升,只會增加 token 成本。

提示注入防禦

讓 AI Agent 直接操作電腦,安全至關重要。Anthropic 的防禦體系分三層:

第一層:訓練免疫

模型在訓練時接觸大量含注入內容的網頁和應用界面,通過強化學習學會識別和拒絕惡意指令。

第二層:實時分類器

每次請求時並行掃描進入 Claude 上下文的內容,檢測文本中隱藏的指令、圖片中嵌入的指令、以及試圖欺騙 Agent 的僞造 UI 元素。

使用官方 computer_20251124 工具類型時,提示注入分類器自動運行,與模型推理並行,零額外延遲,零額外成本。若自行實現工具而未用官方類型,則沒有這層自動保護。

第三層:人類兜底(Human-in-the-loop)

在執行不可逆操作(提交表單、付款、發消息、改數據)前讓 Agent 暫停,請用戶確認。原文強調:最有效的防禦其實是 human-in-the-loop。

長對話上下文管理

Computer Use 任務往往很長,每次截圖消耗 1000–1800 token,200K 上下文窗口不到 100 張截圖就滿,1M 窗口同樣喫緊。

第一層:緩存斷點(Cache Breakpoints)

API 支持最多 4 個緩存斷點。推薦做法:1 個放在系統提示和工具定義上(固定內容),另外 3 個放在最新的 tool_result 上,每輪清除舊標記、放置新標記。這樣 API 不會每次都重新處理整個對話前綴。

第二層:滾動緩衝(Rolling Buffer)

只保留最近 N 張截圖的完整數據,更早截圖替換爲文字佔位符 [Image omitted]。

關鍵細節:採用批量替換而非逐張清理。默認保留最近 3 張(keep_n=3),每累積 25 張做一次清理(interval=25)。若逐張替換,對話前綴每輪變化會導致緩存失效;批量替換能讓前綴在多輪內保持字節一致,維持緩存命中率。

第三層:LLM 壓縮

當滾動緩衝也兜不住時,用模型本身總結對話歷史,然後丟棄原始內容。

壓縮提示模板要求保留 8 類信息:用戶完整指令(逐字保留所有”必須””不要””始終”等約束)、任務模板、約束規則、已執行操作、出錯及修復記錄、進度追蹤、當前狀態、下一步計劃。

最關鍵原則:必須逐字保留所有用戶指令。用戶指令是最關鍵的元素,丟失會導致 Agent 偏離任務。

服務端自動壓縮

在 API 請求中添加 context_management 參數和 compact-2026-01-12 beta 標識,服務端會在輸入 token 達閾值時自動觸發壓縮。客戶端只需在收到壓縮響應後,將本地消息數組截斷到相同位置,保持緩存對齊。

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

教學模式

傳統做法是用文字描述任務,但寫起來費勁,模型理解也容易偏差。原文提出新思路:別告訴 Claude 怎麼做,直接”示範”給它看。

錄製階段

用戶手動執行一遍任務,系統錄製每一步操作(點擊座標、輸入內容、頁面導航),每步配一張截圖,截圖上用藍色圓圈標註點擊位置。

回放階段

Claude 收到完整操作示範:”第 1 步,點擊費用類型下拉菜單”配標註截圖,”第 2 步,選擇差旅類型”配下一張截圖……Claude 在當前真實環境中執行相同序列,但不會死板按座標重放。若 UI 佈局變化、按鈕移位、菜單重排,Claude 會根據示範理解”要做什麼”,在當前界面找到對應元素。

三種回放模式

  • 嚴格模式:完全按步驟執行,UI 變化太大就停下來報告。適合合規敏感場景。
  • 自適應模式:以示範爲參考但靈活調整,應對輕微佈局變化、按鈕改名、菜單重排。推薦默認模式。
  • 目標導向模式:只關注最終結果,錄製步驟僅作參考。適合 UI 經常變但目標不變的場景。

顧問模式

Computer Use 大部分操作是機械性的(點擊、輸入、滾動),用 Sonnet 成本低速度快。但偶爾需要深度思考:該不該點這個按鈕?信息不對怎麼辦?流程走錯怎麼回退?

做法:讓 Sonnet 自行執行常規操作,在需要戰略決策時調用 Opus 4.7 做顧問。Opus 做出決策後,交回 Sonnet 繼續執行機械步驟,實現低成本與高智能的平衡。

無效優化(經內部測試未見效)

原文明確列出以下方法在內部評估中未產生一致提升:

  • 將截圖切分爲小瓦片(quadrants/regions)分別發送。
  • 在截圖上疊加座標網格幫助模型定位。
  • 更換縮放算法(PIL LANCZOS、sips 等結果無差異)。

故障診斷速查表

原文提供系統化的診斷框架:

症狀 可能原因 解決方法
點擊系統性單向偏移 display 尺寸與實際發送圖像不匹配;截圖超 API 限制被靜默壓縮;消息數組圖片在前 確保 display 尺寸與縮放後截圖一致;預縮至 1280×720;文字先於圖片
大致正確但偏離目標 目標極小;源圖 4K+ 壓縮過度;強制非原生比例 開 enable_zoom;降低 DPI 或裁剪區域;保持寬高比
完全點錯元素 指令歧義;視覺相似元素;單步過於複雜 增加位置上下文;拆分爲小步驟;補充頁面佈局描述
整體準確率差 截圖超上限;4K+ 高分辨率源;分辨率過低 預縮放;Opus 4.7 減少壓縮;嘗試 1280×720 基線

特殊場景:某些下拉菜單可能調用系統級 UI,瀏覽器視口無法捕獲——模型看似失敗,實則是看不見菜單。此時應讓模型改用 JavaScript 執行、鍵盤導航或直接 DOM 操作,非點擊。

快速參考代碼

指南提供可直接使用的 Python 代碼模板,涵蓋:

  • compute_max_api_fit():基於原生寬高比計算最優 API 適配分辨率
  • prepare_screenshot():縮放截圖並轉爲 base64
  • scale_coordinates():將 API 返回座標還原爲屏幕真實座標

以及完整的 API 調用示例:從截圖捕獲、預縮放、消息構造(文字先於圖片)、工具配置到座標還原執行的完整流程。

總結

指南的核心工程邏輯可歸納爲:預縮放截圖消除座標錯位 → 文字先於截圖優化理解 → 按場景選型(Sonnet 執行/Opus 推理)→ 小目標開 zoom 或鍵盤替代 → medium/high 思考力度最優 → 三層防禦保安全 → 三層漏斗管上下文 → 錄代替寫降成本 → 顧問模式省 token。”預縮放截圖”是投入產出比最高的單點優化,”教學模式”代表了從 Prompt Engineering 向 Demonstration Learning 演進的新範式。

官網地址

  • 官網地址:https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude
© 版權聲明

相關文章

暫無評論

暫無評論...