Claude Opus 4.7 – Anthropic 推出的最新旗艦大模型

AI工具13小時前發佈新公告 AI管理員
0 0

Claude Opus 4.7是什麼

Claude Opus 4.7 是 Anthropic 推出的最新旗艦大模型,爲 Claude Opus 4.6 的直接升級版。模型在高級軟件工程任務上表現突出,SWE-bench Pro 得分提升至 64.3%,視覺分辨率支持提升至 2,576 像素(約 3.75 兆像素),具備自我驗證與長程自主執行能力。模型現已全面上線 Claude 全系產品、API 及 Amazon Bedrock 等主流雲平台。

Claude Opus 4.7 – Anthropic 推出的最新旗艦大模型

Claude Opus 4.7的主要功能

  • 高難度編程:在 SWE-bench Pro 測試中得分 64.3%,可自主處理複雜長時軟件開發任務並自我驗證結果。
  • 超高分辨率視覺:支持長邊 2,576 像素(約 375 萬像素)的圖像輸入,是前代模型的 3 倍以上。
  • 自主糾錯機制:在彙報最終結果前主動檢查邏輯錯誤,內部修正後再輸出,減少人工介入。
  • 長程任務執行:可連貫運行數小時的多步驟複雜工作流,保持穩定性和一致性。
  • 多模態理解:精準解讀密集截圖、複雜技術圖表、化學結構及像素級視覺細節。
  • 智能工具調用:支持 MCP-Atlas 等擴展工具鏈,工具調用錯誤率降低約 1/3。
  • 文件系統記憶:跨多會話長任務中記住關鍵筆記,減少重複上下文輸入。
  • 新增 effort 檔位:新增 xhigh 檔位(位於 highmax 之間),Claude Code 默認採用此檔位。
  • Task Budgets:支持爲長任務設置 token 預算,由模型自主分配資源。
  • Ultrareview 命令:Claude Code 新增獨立審查會話,深度檢查代碼改動與潛在問題。

如何使用Claude Opus 4.7

  • 平台訪問
    • Claude 網頁/App:直接在模型選擇器切換至 Opus 4.7 即可使用。
    • API 調用:模型 ID 爲 claude-opus-4-7,通過 Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 或 Microsoft Foundry 調用。
    • Claude Code:已默認將 effort 檔位提升至 xhigh,輸入 /ultrareview 可啓動深度代碼審查。
  • API 關鍵參數設置
    • effort 檔位:通過 effort 參數控制響應規模,選項爲 low / medium / high / xhigh / max。編程與 agentic 場景建議使用 highxhigh 起步。
    • task budgets(公測):設置長任務 token 預算,讓模型自主分配資源,與 effort 參數配合使用更精細。
    • thinking 參數:已棄用 thinking: {type: "enabled", budget_tokens: N},改爲使用 thinking: {type: "adaptive"} 配合 effort 參數。
  • 高分辨率視覺:直接上傳長邊不超過 2,576 像素的原圖,無需自行壓縮,模型自動處理高分辨率輸入。
  • Claude Code 特有指令
    • 輸入 /ultrareview 啓動獨立審查會話,對代碼改動進行深度檢查(Pro 和 Max 用戶每月限免 3 次)。
    • Auto mode 已下放至 Max 用戶,可在 --dangerously-skip-permissions 與默認模式間提供中間檔安全選項。

Claude Opus 4.7的關鍵信息和使用要求

  • 模型定位:Opus 4.6 的直接升級版,Anthropic 最新旗艦模型,現已全面上線 Claude 全系產品、API、Amazon Bedrock、Google Cloud Vertex AI 及 Microsoft Foundry。
  • 核心升級:高難度軟件工程任務能力顯著提升(SWE-bench Pro 達 64.3%),視覺分辨率支持長邊 2,576 像素(約 375 萬像素,爲前代 3 倍以上),具備自我驗證與長程自主執行能力。
  • 定價策略:維持 Opus 4.6 價格,輸入 $5/百萬 token,輸出 $25/百萬 token,模型 ID 爲 claude-opus-4-7
  • 新增檔位:在 highmax 之間新增 xhigh effort 檔位,Claude Code 默認已切換至此檔位。
  • Tokenizer 變更:新 tokenizer 下相同文本的 token 數約爲舊版的 1.0–1.35 倍,需預留更高 token 預算。

Claude Opus 4.7的核心優勢

  • 高難度編程突破:在 SWE-bench Pro 測試中得分 64.3%,較 4.6 提升 11 個百分點,可自主處理最複雜的軟件工程任務。
  • 自我驗證機制:在彙報結果前主動檢查邏輯錯誤並內部修正,顯著降低人工介入頻率,提升長任務可靠性。
  • 視覺感知躍升:支持 2,576 像素長邊(約 375 萬像素)的高分辨率圖像,視覺感知基準從 54.5% 躍升至 98.5%。
  • 長程任務穩定性:可連貫運行數小時的多步驟複雜工作流,不會因中途難題而放棄,保持執行一致性。
  • 嚴格指令遵循:對指令的字面執行精度大幅提升,減少模糊解讀,確保按用戶意圖精確完成。
  • 工具調用效率:工具調用錯誤率降低約三分之一,token 使用效率在多步 agentic 場景中顯著優化。

Claude Opus 4.7的項目地址

  • 項目官網:https://www.anthropic.com/news/claude-opus-4-7

Claude Opus 4.7的同類競品對比

評測維度 Claude Opus 4.7 GPT-5.4 Gemini 3.1 Pro
Agentic coding (SWE-bench Pro) 64.3% 57.7% 54.2%
Agentic coding (SWE-bench Verified) 87.6% 80.6%
Agentic terminal coding (Terminal-Bench 2.0) 69.4% 75.1% 68.5%
Multidisciplinary reasoning (Humanity’s Last Exam w/ tools) 54.7% 58.7% 51.4%
Agentic search (BrowseComp) 79.3% 89.3% 85.9%
Scaled tool use (MCP-Atlas) 77.3% 68.1% 73.9%
Agentic computer use (OSWorld-Verified) 78.0% 75.0%
Agentic financial analysis (Finance Agent v1.1) 64.4% 61.5% 59.7%
Graduate-level reasoning (GPQA Diamond) 94.2% 94.4% 94.3%
Visual reasoning (CharXiv w/ tools) 91.0%
Multilingual Q&A (MMLU) 91.5% 92.6%

Claude Opus 4.7的應用場景

  • 高難度軟件開發:支持處理複雜的軟件工程任務,如大規模代碼重構、複雜算法實現,可自主運行數小時並在彙報前自我驗證結果,GitHub 實測任務解決率提升 13%。
  • 高分辨率視覺分析:模型能解讀密集 UI 截圖、技術圖表、化學結構及像素級視覺細節,適用於計算機視覺代理、自動化滲透測試和生命科學專利工作流。
  • 長程自主工作流:自動執行跨多會話的複雜多步驟任務,如深度數據分析、研究報告生成,能夠在長時間運行中保持一致性和連貫性,減少人工介入。
  • 金融與商業分析:模型能進行嚴謹的財務建模、投資分析和專業演示文稿生成,在 Finance Agent v1.1 基準測試中得分 64.4%,可產出嚴謹的分析模型和高質量商業交付物。
© 版權聲明

相關文章

暫無評論

暫無評論...