Claude Opus 4.8 – Anthropic 推出的旗艦級大語言模型

AI工具14小時前發佈新公告 AI管理員
0 0

Claude Opus 4.8是什麼

Claude Opus 4.8 是 Anthropic 推出的旗艦級大語言模型,在 Opus 4.7 基礎上提升判斷力、誠實性和長時獨立工作能力,在編程、智能體推理、多學科推理等基準測試中全面領先 GPT-5.5 和 Gemini 3.1 Pro,API 價格維持不變,極速模式成本降至三分之一。

Claude Opus 4.8 – Anthropic 推出的旗艦級大語言模型

Claude Opus 4.8的主要功能

  • 智能體編程:在 SWE-Bench Pro 上達到 69.2%,支持端到端軟件工程任務自主完成。
  • 終端編碼:Terminal-Bench 2.1 得分 74.6%,具備強大的命令行工具使用與腳本編寫能力。
  • 多學科推理:Humanity’s Last Exam 無工具 49.8%、帶工具 57.9%,超越所有主流競品。
  • 智能體計算機使用:OSWorld-Verified 得分 83.4%,可自主操作圖形界面完成複雜任務。
  • 知識工作:GDPval-AA 得分 1890,在文檔分析、深度研究等實際工作場景中表現最優。
  • 智能體金融分析:Finance Agent v2 得分 53.9%,支持複雜財務報表推理與高精度引用。
  • 動態工作流:在 Claude Code 中可自主規劃並並行啓動數百個子智能體處理超大規模任務。
  • 投入度控制:用戶可手動調節模型的思考深度與資源消耗等級(低/高/額外/最大)。
  • 極速模式:運行速度提升至常規模式的 2.5 倍,API 成本僅爲前代極速模式的三分之一。

Claude Opus 4.8的技術原理

  • 誠實性對齊訓練:通過專門訓練降低模型做出無依據斷言的概率,主動標註自身不確定性。
  • 安全性評估:發佈前進行詳盡的對齊評估,未對齊行爲發生率與 Mythos Preview 持平。
  • 子智能體並行架構:動態工作流採用主智能體調度 + 數百個子智能體並行執行的分佈式架構。
  • 長時運行支持:支持數日級別的持續任務執行,中斷後可恢復,適用於大規模代碼遷移。
  • 系統條目 API:Messages API 支持在對話數組中接收系統條目,實現運行時指令動態更新。
  • 多模態融合:具備直接推理 PDF、圖表等非結構化內容的多模態理解與推理能力。

如何使用Claude Opus 4.8

  • API 接入:通過 Anthropic API 調用,輸入 Token 每百萬 5 美元,輸出 Token 每百萬 25 美元。
  • 啓動動態工作流:在 Claude Code 環境中輸入「workflow」關鍵詞即可啓動大規模並行任務。
  • 調節投入度:在 claude.ai 和 Claude Code 的模型選擇器旁切換低/高/額外/最大投入度等級。
  • 切換極速模式:在 API 或客戶端中選擇 Fast Mode,以 2.5 倍速度運行且成本更低。
  • 企業版權限:動態工作流目前面向企業版、團隊版及 Max 版用戶開放。
  • 第三方平台使用:Cursor 等 IDE 已第一時間上線 Opus 4.8,可直接在開發環境中切換。

Claude Opus 4.8的核心優勢

  • 基準全面領先:在 6 項核心基準測試中 5 項超越 GPT-5.5 和 Gemini 3.1 Pro。
  • 誠實性顯著提升:對代碼缺陷未加提示的概率降至前代約四分之一,大幅減少幻覺風險。
  • 長時任務可靠性:支持數日級連續運行,可處理數十萬行代碼的大規模跨語言遷移項目。
  • 成本可控:常規模式價格不變,極速模式成本降至三分之一,Token 消耗效率提升約 25%。
  • 安全對齊最優:未對齊行爲發生率顯著低於 Opus 4.7,達到 Anthropic 目前最佳安全水平。
  • 靈活投入度:用戶可根據任務難度自由調節模型思考深度,在質量與速度間取得最佳平衡。

Claude Opus 4.8的項目地址

  • 項目官網:https://www.anthropic.com/news/claude-opus-4-8

Claude Opus 4.8的同類競品對比

維度 Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro
智能體編程 (SWE-Bench Pro) 69.2% 58.6% 54.2%
終端編碼 (Terminal-Bench 2.1) 74.6% 78.2% 70.3%
多學科推理 (Humanity’s Last Exam, 帶工具) 57.9% 52.2% 51.4%
智能體計算機使用 (OSWorld) 83.4% 78.7% 76.2%
知識工作 (GDPval-AA) 1890 1769 1314
智能體金融分析 (Finance Agent v2) 53.9% 51.8% 43.0%
輸入價格 (每百萬 Token) $5 待確認 待確認
輸出價格 (每百萬 Token) $25 待確認 待確認
極速模式成本 前代 1/3
動態工作流
投入度控制

Claude Opus 4.8的應用場景

  • 大規模代碼遷移:用動態工作流完成數十萬行代碼的跨語言移植,如 Bun 從 Zig 到 Rust 的遷移。
  • 企業級軟件開發:作爲 Cursor 等 IDE 的後端模型,輔助完成端到端的軟件工程任務。
  • 複雜金融分析:處理密集財報、法律文件,提供高精度引用和推理的金融文檔工作流。
  • 深度學術研究:在 Humanity’s Last Exam 級別的多學科推理任務中提供高質量分析。
  • 法律專業服務:在 CoCounsel Legal 等法律 Agent 平台中處理高風險的實質性法律工作。
  • 數據與知識工作:在 Databricks Genie 等 AI Agent 中直接推理 PDF、圖表等非結構化內容。
© 版權聲明

相關文章

暫無評論

暫無評論...