Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

0 0 0

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南，涵蓋截圖預處理、模型選型到安全防禦的完整方案。面向 Claude 4.6 家族與 Opus 4.7 模型，核心建議包括預縮截圖至 1280×720 提升點擊準確率、文字先於截圖排序、以教學模式替代 Prompt 工程，同時集成三層注入防禦與長對話上下文壓縮策略，助力構建生產級 Agent 自動化系統。

分辨率與縮放

點擊準確率是 Computer Use 集成的根基。若點擊偏移，後續所有工作流都會失敗。文章指出，影響最大的優化同時也是最簡單的：在發送 API 前，預先將截圖降採樣。

API 內部處理限制

Claude 4.6 家族的 API 限製爲：

長邊最大 1568 像素
總像素最大 1.15MP
超出任一限制即被內部靜默降採樣

Opus 4.7 支持更高分辨率：

長邊最大 2576 像素
總像素最大 3.75MP
超出限制同樣會被靜默降採樣

核心問題

當截圖超過 API 限制時，模型看到的是被壓縮後的圖像，返回的座標也基於壓縮後的尺寸，客戶端 harness 仍按原始分辨率執行點擊。座標空間與模型感知的圖像不匹配，是高分辨率下點擊不準的首要原因。

推薦分辨率

通用默認：1280×720。使用約 80% 像素預算，在訓練數據中常見，兼容性好。
Opus 4.7 推薦：1080p，在 token 消耗與性能間取得更好平衡。
最大化 API 適配：按原生寬高比計算最優分辨率，避免強制拉伸導致的比例失真。

需避免的分辨率

原生分辨率（未縮放）：除非碰巧低於限制，否則是點擊不準的最常見原因。
過低分辨率（低於 960×540）：細節丟失過多，模型無法識別小 UI 元素。
macOS 注意：截圖常帶有 2x 設備像素比，1440p 屏幕實際輸出 2880p，遠超 API 上限。
4.6 家族避免 1920×1080 及以上：會超出像素限制被靜默壓縮；Opus 4.7 上限更高，1080p 和 1440p 在預算內，但仍需避免原生 4K 不縮放直接發送。

座標縮放

發送前自行縮小截圖後，模型返回的座標基於發送時的 display_width_px / display_height_px，執行前必須按比例還原到真實屏幕座標：

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

消息數組內容排序

構造消息 content 數組時，將文字指令放在截圖之前。

推薦順序：

content = [
    {"type": "text", "text": "Click on the Submit button"},
    {"type": "image", ...},
]

不推薦順序：

content = [
    {"type": "image", ...},
    {"type": "text", "text": "Click on the Submit button"},
]

模型選擇

基於 Anthropic 內部測試，不同模型各有所長：

Sonnet 4.6：機械點擊精度最高，空間定位準，近距離失誤少，對重度圖片壓縮的容忍度更好。適合大部分機械執行類任務，在準確率、推理和成本間取得最佳平衡。
Opus 4.7：推理能力更強，且點擊精度已追上 Sonnet 4.6。加上分辨率預算更大（3.75MP vs 1.15MP），需要壓縮的幅度更小。若任務既需推理又需精準點擊，Opus 4.7 是目前最優解。
Haiku 4.5：延遲優先的選擇，適合對速度要求極高的場景。

高級模式：指揮官模式（Orchestrator + Sub-agent）

複雜工作流中，可用一個推理能力強的模型（如 Opus）做”指揮官”負責規劃和決策，再讓 Sonnet 或 Haiku 執行具體點擊操作，分工協作。

小目標處理

大按鈕、輸入框、標準菜單項，Claude 都能穩定點中。複選框、系統托盤圖標、下拉箭頭、小開關等微小元素，準確率會下滑。

原因：4K 屏幕（3840×2160）壓縮到 720p 後，原本 16 像素的複選框大概只剩 5 個像素，難以精準命中。

解決方案

開啓 Zoom：Claude 4.6 和 4.7 支持 zoom 能力，讓模型先放大特定區域看清再點擊。工具配置中加 “enable_zoom”: True。
放大目標：若 UI 可控，增大點擊目標尺寸（降低系統 DPI、放大瀏覽器縮放、調整 UI 比例）對準確率有不成比例的提升。
鍵盤替代：對極小元素，Tab 導航或快捷鍵比鼠標點擊更可靠。
考慮源分辨率：4K+ 顯示器壓縮到 720p 會丟失大量細節。若使用 4.6 模型，可嘗試降低 DPI 或聚焦截圖到相關屏幕區域；若用 Opus 4.7，更高分辨率預算可減少壓縮需求。

思考力度（Thinking Effort）調優

Claude 支持自適應思考（adaptive thinking），通過 thinking 參數設置力度：low、medium、high、xhigh（僅 Opus 4.7）、max。

Opus 4.7

在 OSWorld Verified 基準測試中：

high 檔準確率接近 max，輸出 token 僅約一半。
low 檔得分與 Opus 4.6 的 high/max 相近，token 用量約爲 1/10。
max 檔得分最高，token 成本顯著增加。

提示注入防禦

讓 AI Agent 直接操作電腦，安全至關重要。Anthropic 的防禦體系分三層：

第一層：訓練免疫

模型在訓練時接觸大量含注入內容的網頁和應用界面，通過強化學習學會識別和拒絕惡意指令。

第二層：實時分類器

每次請求時並行掃描進入 Claude 上下文的內容，檢測文本中隱藏的指令、圖片中嵌入的指令、以及試圖欺騙 Agent 的僞造 UI 元素。

使用官方 computer_20251124 工具類型時，提示注入分類器自動運行，與模型推理並行，零額外延遲，零額外成本。若自行實現工具而未用官方類型，則沒有這層自動保護。

第三層：人類兜底（Human-in-the-loop）

在執行不可逆操作（提交表單、付款、發消息、改數據）前讓 Agent 暫停，請用戶確認。原文強調：最有效的防禦其實是 human-in-the-loop。

長對話上下文管理

Computer Use 任務往往很長，每次截圖消耗 1000–1800 token，200K 上下文窗口不到 100 張截圖就滿，1M 窗口同樣喫緊。

第一層：緩存斷點（Cache Breakpoints）

API 支持最多 4 個緩存斷點。推薦做法：1 個放在系統提示和工具定義上（固定內容），另外 3 個放在最新的 tool_result 上，每輪清除舊標記、放置新標記。這樣 API 不會每次都重新處理整個對話前綴。

第二層：滾動緩衝（Rolling Buffer）

只保留最近 N 張截圖的完整數據，更早截圖替換爲文字佔位符 [Image omitted]。

關鍵細節：採用批量替換而非逐張清理。默認保留最近 3 張（keep_n=3），每累積 25 張做一次清理（interval=25）。若逐張替換，對話前綴每輪變化會導致緩存失效；批量替換能讓前綴在多輪內保持字節一致，維持緩存命中率。

第三層：LLM 壓縮

當滾動緩衝也兜不住時，用模型本身總結對話歷史，然後丟棄原始內容。

壓縮提示模板要求保留 8 類信息：用戶完整指令（逐字保留所有”必須””不要””始終”等約束）、任務模板、約束規則、已執行操作、出錯及修復記錄、進度追蹤、當前狀態、下一步計劃。

最關鍵原則：必須逐字保留所有用戶指令。用戶指令是最關鍵的元素，丟失會導致 Agent 偏離任務。

服務端自動壓縮

在 API 請求中添加 context_management 參數和 compact-2026-01-12 beta 標識，服務端會在輸入 token 達閾值時自動觸發壓縮。客戶端只需在收到壓縮響應後，將本地消息數組截斷到相同位置，保持緩存對齊。

Anthropic 推出 Claude Computer Use 開發者最佳實踐指南

教學模式

傳統做法是用文字描述任務，但寫起來費勁，模型理解也容易偏差。原文提出新思路：別告訴 Claude 怎麼做，直接”示範”給它看。

錄製階段

用戶手動執行一遍任務，系統錄製每一步操作（點擊座標、輸入內容、頁面導航），每步配一張截圖，截圖上用藍色圓圈標註點擊位置。

回放階段

Claude 收到完整操作示範：”第 1 步，點擊費用類型下拉菜單”配標註截圖，”第 2 步，選擇差旅類型”配下一張截圖……Claude 在當前真實環境中執行相同序列，但不會死板按座標重放。若 UI 佈局變化、按鈕移位、菜單重排，Claude 會根據示範理解”要做什麼”，在當前界面找到對應元素。

三種回放模式

嚴格模式：完全按步驟執行，UI 變化太大就停下來報告。適合合規敏感場景。
自適應模式：以示範爲參考但靈活調整，應對輕微佈局變化、按鈕改名、菜單重排。推薦默認模式。
目標導向模式：只關注最終結果，錄製步驟僅作參考。適合 UI 經常變但目標不變的場景。

顧問模式

Computer Use 大部分操作是機械性的（點擊、輸入、滾動），用 Sonnet 成本低速度快。但偶爾需要深度思考：該不該點這個按鈕？信息不對怎麼辦？流程走錯怎麼回退？

做法：讓 Sonnet 自行執行常規操作，在需要戰略決策時調用 Opus 4.7 做顧問。Opus 做出決策後，交回 Sonnet 繼續執行機械步驟，實現低成本與高智能的平衡。

無效優化（經內部測試未見效）

原文明確列出以下方法在內部評估中未產生一致提升：

將截圖切分爲小瓦片（quadrants/regions）分別發送。
在截圖上疊加座標網格幫助模型定位。
更換縮放算法（PIL LANCZOS、sips 等結果無差異）。

故障診斷速查表

原文提供系統化的診斷框架：

症狀	可能原因	解決方法
點擊系統性單向偏移	display 尺寸與實際發送圖像不匹配；截圖超 API 限制被靜默壓縮；消息數組圖片在前	確保 display 尺寸與縮放後截圖一致；預縮至 1280×720；文字先於圖片
大致正確但偏離目標	目標極小；源圖 4K+ 壓縮過度；強制非原生比例	開 `enable_zoom`；降低 DPI 或裁剪區域；保持寬高比
完全點錯元素	指令歧義；視覺相似元素；單步過於複雜	增加位置上下文；拆分爲小步驟；補充頁面佈局描述
整體準確率差	截圖超上限；4K+ 高分辨率源；分辨率過低	預縮放；Opus 4.7 減少壓縮；嘗試 1280×720 基線

特殊場景：某些下拉菜單可能調用系統級 UI，瀏覽器視口無法捕獲——模型看似失敗，實則是看不見菜單。此時應讓模型改用 JavaScript 執行、鍵盤導航或直接 DOM 操作，非點擊。

快速參考代碼

指南提供可直接使用的 Python 代碼模板，涵蓋：

compute_max_api_fit()：基於原生寬高比計算最優 API 適配分辨率
prepare_screenshot()：縮放截圖並轉爲 base64
scale_coordinates()：將 API 返回座標還原爲屏幕真實座標

以及完整的 API 調用示例：從截圖捕獲、預縮放、消息構造（文字先於圖片）、工具配置到座標還原執行的完整流程。

總結

指南的核心工程邏輯可歸納爲：預縮放截圖消除座標錯位 → 文字先於截圖優化理解 → 按場景選型（Sonnet 執行/Opus 推理）→ 小目標開 zoom 或鍵盤替代 → medium/high 思考力度最優 → 三層防禦保安全 → 三層漏斗管上下文 → 錄代替寫降成本 → 顧問模式省 token。”預縮放截圖”是投入產出比最高的單點優化，”教學模式”代表了從 Prompt Engineering 向 Demonstration Learning 演進的新範式。