Anthropic 推出 Claude Computer Use 開發者最佳實踐指南,涵蓋截圖預處理、模型選型到安全防禦的完整方案。面向 Claude 4.6 家族與 Opus 4.7 模型,核心建議包括預縮截圖至 1280×720 提升點擊準確率、文字先於截圖排序、以教學模式替代 Prompt 工程,同時集成三層注入防禦與長對話上下文壓縮策略,助力構建生產級 Agent 自動化系統。

分辨率與縮放
點擊準確率是 Computer Use 集成的根基。若點擊偏移,後續所有工作流都會失敗。文章指出,影響最大的優化同時也是最簡單的:在發送 API 前,預先將截圖降採樣。
API 內部處理限制
Claude 4.6 家族的 API 限製爲:
- 長邊最大 1568 像素
- 總像素最大 1.15MP
- 超出任一限制即被內部靜默降採樣
Opus 4.7 支持更高分辨率:
- 長邊最大 2576 像素
- 總像素最大 3.75MP
- 超出限制同樣會被靜默降採樣
核心問題
當截圖超過 API 限制時,模型看到的是被壓縮後的圖像,返回的座標也基於壓縮後的尺寸,客戶端 harness 仍按原始分辨率執行點擊。座標空間與模型感知的圖像不匹配,是高分辨率下點擊不準的首要原因。
推薦分辨率
- 通用默認:1280×720。使用約 80% 像素預算,在訓練數據中常見,兼容性好。
- Opus 4.7 推薦:1080p,在 token 消耗與性能間取得更好平衡。
- 最大化 API 適配:按原生寬高比計算最優分辨率,避免強制拉伸導致的比例失真。
需避免的分辨率
- 原生分辨率(未縮放):除非碰巧低於限制,否則是點擊不準的最常見原因。
- 過低分辨率(低於 960×540):細節丟失過多,模型無法識別小 UI 元素。
- macOS 注意:截圖常帶有 2x 設備像素比,1440p 屏幕實際輸出 2880p,遠超 API 上限。
- 4.6 家族避免 1920×1080 及以上:會超出像素限制被靜默壓縮;Opus 4.7 上限更高,1080p 和 1440p 在預算內,但仍需避免原生 4K 不縮放直接發送。
座標縮放
發送前自行縮小截圖後,模型返回的座標基於發送時的 display_width_px / display_height_px,執行前必須按比例還原到真實屏幕座標:

消息數組內容排序
構造消息 content 數組時,將文字指令放在截圖之前。
推薦順序:
content = [
{"type": "text", "text": "Click on the Submit button"},
{"type": "image", ...},
]
content = [
{"type": "image", ...},
{"type": "text", "text": "Click on the Submit button"},
]
模型選擇
基於 Anthropic 內部測試,不同模型各有所長:
- Sonnet 4.6:機械點擊精度最高,空間定位準,近距離失誤少,對重度圖片壓縮的容忍度更好。適合大部分機械執行類任務,在準確率、推理和成本間取得最佳平衡。
- Opus 4.7:推理能力更強,且點擊精度已追上 Sonnet 4.6。加上分辨率預算更大(3.75MP vs 1.15MP),需要壓縮的幅度更小。若任務既需推理又需精準點擊,Opus 4.7 是目前最優解。
- Haiku 4.5:延遲優先的選擇,適合對速度要求極高的場景。
高級模式:指揮官模式(Orchestrator + Sub-agent)
複雜工作流中,可用一個推理能力強的模型(如 Opus)做”指揮官”負責規劃和決策,再讓 Sonnet 或 Haiku 執行具體點擊操作,分工協作。
小目標處理
大按鈕、輸入框、標準菜單項,Claude 都能穩定點中。複選框、系統托盤圖標、下拉箭頭、小開關等微小元素,準確率會下滑。
原因:4K 屏幕(3840×2160)壓縮到 720p 後,原本 16 像素的複選框大概只剩 5 個像素,難以精準命中。
解決方案
- 開啓 Zoom:Claude 4.6 和 4.7 支持 zoom 能力,讓模型先放大特定區域看清再點擊。工具配置中加 “enable_zoom”: True。
- 放大目標:若 UI 可控,增大點擊目標尺寸(降低系統 DPI、放大瀏覽器縮放、調整 UI 比例)對準確率有不成比例的提升。
- 鍵盤替代:對極小元素,Tab 導航或快捷鍵比鼠標點擊更可靠。
- 考慮源分辨率:4K+ 顯示器壓縮到 720p 會丟失大量細節。若使用 4.6 模型,可嘗試降低 DPI 或聚焦截圖到相關屏幕區域;若用 Opus 4.7,更高分辨率預算可減少壓縮需求。
思考力度(Thinking Effort)調優
Claude 支持自適應思考(adaptive thinking),通過 thinking 參數設置力度:low、medium、high、xhigh(僅 Opus 4.7)、max。
Opus 4.7
在 OSWorld Verified 基準測試中:
- high 檔準確率接近 max,輸出 token 僅約一半。
- low 檔得分與 Opus 4.6 的 high/max 相近,token 用量約爲 1/10。
- max 檔得分最高,token 成本顯著增加。
推薦:
- 默認:high(複雜多步交互的最佳性價比)
- 高吞吐/成本敏感:low
- 簡單快速任務:嘗試 Sonnet 4.6
- 複雜一次性任務:max

Claude 4.6 家族
測試顯示 medium 的任務成功率已接近最高值,繼續增加思考力度收益遞減。
- 推薦默認:medium
- low 比關閉思考要好,因爲減少出錯和重試,實際總 token 消耗反而更少。
- 不推薦在 Computer Use 中使用 max:測試中相比 high 無準確率提升,只會增加 token 成本。
提示注入防禦
讓 AI Agent 直接操作電腦,安全至關重要。Anthropic 的防禦體系分三層:
第一層:訓練免疫
模型在訓練時接觸大量含注入內容的網頁和應用界面,通過強化學習學會識別和拒絕惡意指令。
第二層:實時分類器
每次請求時並行掃描進入 Claude 上下文的內容,檢測文本中隱藏的指令、圖片中嵌入的指令、以及試圖欺騙 Agent 的僞造 UI 元素。
使用官方 computer_20251124 工具類型時,提示注入分類器自動運行,與模型推理並行,零額外延遲,零額外成本。若自行實現工具而未用官方類型,則沒有這層自動保護。
第三層:人類兜底(Human-in-the-loop)
在執行不可逆操作(提交表單、付款、發消息、改數據)前讓 Agent 暫停,請用戶確認。原文強調:最有效的防禦其實是 human-in-the-loop。
長對話上下文管理
Computer Use 任務往往很長,每次截圖消耗 1000–1800 token,200K 上下文窗口不到 100 張截圖就滿,1M 窗口同樣喫緊。
第一層:緩存斷點(Cache Breakpoints)
API 支持最多 4 個緩存斷點。推薦做法:1 個放在系統提示和工具定義上(固定內容),另外 3 個放在最新的 tool_result 上,每輪清除舊標記、放置新標記。這樣 API 不會每次都重新處理整個對話前綴。
第二層:滾動緩衝(Rolling Buffer)
只保留最近 N 張截圖的完整數據,更早截圖替換爲文字佔位符 [Image omitted]。
關鍵細節:採用批量替換而非逐張清理。默認保留最近 3 張(keep_n=3),每累積 25 張做一次清理(interval=25)。若逐張替換,對話前綴每輪變化會導致緩存失效;批量替換能讓前綴在多輪內保持字節一致,維持緩存命中率。
第三層:LLM 壓縮
當滾動緩衝也兜不住時,用模型本身總結對話歷史,然後丟棄原始內容。
壓縮提示模板要求保留 8 類信息:用戶完整指令(逐字保留所有”必須””不要””始終”等約束)、任務模板、約束規則、已執行操作、出錯及修復記錄、進度追蹤、當前狀態、下一步計劃。
最關鍵原則:必須逐字保留所有用戶指令。用戶指令是最關鍵的元素,丟失會導致 Agent 偏離任務。
服務端自動壓縮
在 API 請求中添加 context_management 參數和 compact-2026-01-12 beta 標識,服務端會在輸入 token 達閾值時自動觸發壓縮。客戶端只需在收到壓縮響應後,將本地消息數組截斷到相同位置,保持緩存對齊。

教學模式
傳統做法是用文字描述任務,但寫起來費勁,模型理解也容易偏差。原文提出新思路:別告訴 Claude 怎麼做,直接”示範”給它看。
錄製階段
用戶手動執行一遍任務,系統錄製每一步操作(點擊座標、輸入內容、頁面導航),每步配一張截圖,截圖上用藍色圓圈標註點擊位置。
回放階段
Claude 收到完整操作示範:”第 1 步,點擊費用類型下拉菜單”配標註截圖,”第 2 步,選擇差旅類型”配下一張截圖……Claude 在當前真實環境中執行相同序列,但不會死板按座標重放。若 UI 佈局變化、按鈕移位、菜單重排,Claude 會根據示範理解”要做什麼”,在當前界面找到對應元素。
三種回放模式
- 嚴格模式:完全按步驟執行,UI 變化太大就停下來報告。適合合規敏感場景。
- 自適應模式:以示範爲參考但靈活調整,應對輕微佈局變化、按鈕改名、菜單重排。推薦默認模式。
- 目標導向模式:只關注最終結果,錄製步驟僅作參考。適合 UI 經常變但目標不變的場景。
顧問模式
Computer Use 大部分操作是機械性的(點擊、輸入、滾動),用 Sonnet 成本低速度快。但偶爾需要深度思考:該不該點這個按鈕?信息不對怎麼辦?流程走錯怎麼回退?
做法:讓 Sonnet 自行執行常規操作,在需要戰略決策時調用 Opus 4.7 做顧問。Opus 做出決策後,交回 Sonnet 繼續執行機械步驟,實現低成本與高智能的平衡。
無效優化(經內部測試未見效)
原文明確列出以下方法在內部評估中未產生一致提升:
- 將截圖切分爲小瓦片(quadrants/regions)分別發送。
- 在截圖上疊加座標網格幫助模型定位。
- 更換縮放算法(PIL LANCZOS、sips 等結果無差異)。
故障診斷速查表
原文提供系統化的診斷框架:
| 症狀 | 可能原因 | 解決方法 |
|---|---|---|
| 點擊系統性單向偏移 | display 尺寸與實際發送圖像不匹配;截圖超 API 限制被靜默壓縮;消息數組圖片在前 | 確保 display 尺寸與縮放後截圖一致;預縮至 1280×720;文字先於圖片 |
| 大致正確但偏離目標 | 目標極小;源圖 4K+ 壓縮過度;強制非原生比例 | 開 enable_zoom;降低 DPI 或裁剪區域;保持寬高比 |
| 完全點錯元素 | 指令歧義;視覺相似元素;單步過於複雜 | 增加位置上下文;拆分爲小步驟;補充頁面佈局描述 |
| 整體準確率差 | 截圖超上限;4K+ 高分辨率源;分辨率過低 | 預縮放;Opus 4.7 減少壓縮;嘗試 1280×720 基線 |
特殊場景:某些下拉菜單可能調用系統級 UI,瀏覽器視口無法捕獲——模型看似失敗,實則是看不見菜單。此時應讓模型改用 JavaScript 執行、鍵盤導航或直接 DOM 操作,非點擊。
快速參考代碼
指南提供可直接使用的 Python 代碼模板,涵蓋:
- compute_max_api_fit():基於原生寬高比計算最優 API 適配分辨率
- prepare_screenshot():縮放截圖並轉爲 base64
- scale_coordinates():將 API 返回座標還原爲屏幕真實座標
以及完整的 API 調用示例:從截圖捕獲、預縮放、消息構造(文字先於圖片)、工具配置到座標還原執行的完整流程。
總結
指南的核心工程邏輯可歸納爲:預縮放截圖消除座標錯位 → 文字先於截圖優化理解 → 按場景選型(Sonnet 執行/Opus 推理)→ 小目標開 zoom 或鍵盤替代 → medium/high 思考力度最優 → 三層防禦保安全 → 三層漏斗管上下文 → 錄代替寫降成本 → 顧問模式省 token。”預縮放截圖”是投入產出比最高的單點優化,”教學模式”代表了從 Prompt Engineering 向 Demonstration Learning 演進的新範式。
官網地址
- 官網地址:https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude