Claude Opus 4.8 – Anthropic 推出的旗艦級大語言模型

AI工具14小時前發佈新公告 AI管理員

0 0 0

Claude Opus 4.8是什麼

Claude Opus 4.8 是 Anthropic 推出的旗艦級大語言模型，在 Opus 4.7 基礎上提升判斷力、誠實性和長時獨立工作能力，在編程、智能體推理、多學科推理等基準測試中全面領先 GPT-5.5 和 Gemini 3.1 Pro，API 價格維持不變，極速模式成本降至三分之一。

Claude Opus 4.8 – Anthropic 推出的旗艦級大語言模型

Claude Opus 4.8的主要功能

智能體編程：在 SWE-Bench Pro 上達到 69.2%，支持端到端軟件工程任務自主完成。
終端編碼：Terminal-Bench 2.1 得分 74.6%，具備強大的命令行工具使用與腳本編寫能力。
多學科推理：Humanity’s Last Exam 無工具 49.8%、帶工具 57.9%，超越所有主流競品。
智能體計算機使用：OSWorld-Verified 得分 83.4%，可自主操作圖形界面完成複雜任務。
知識工作：GDPval-AA 得分 1890，在文檔分析、深度研究等實際工作場景中表現最優。
智能體金融分析：Finance Agent v2 得分 53.9%，支持複雜財務報表推理與高精度引用。
動態工作流：在 Claude Code 中可自主規劃並並行啓動數百個子智能體處理超大規模任務。
投入度控制：用戶可手動調節模型的思考深度與資源消耗等級（低/高/額外/最大）。
極速模式：運行速度提升至常規模式的 2.5 倍，API 成本僅爲前代極速模式的三分之一。

Claude Opus 4.8的技術原理

誠實性對齊訓練：通過專門訓練降低模型做出無依據斷言的概率，主動標註自身不確定性。
安全性評估：發佈前進行詳盡的對齊評估，未對齊行爲發生率與 Mythos Preview 持平。
子智能體並行架構：動態工作流採用主智能體調度 + 數百個子智能體並行執行的分佈式架構。
長時運行支持：支持數日級別的持續任務執行，中斷後可恢復，適用於大規模代碼遷移。
系統條目 API：Messages API 支持在對話數組中接收系統條目，實現運行時指令動態更新。
多模態融合：具備直接推理 PDF、圖表等非結構化內容的多模態理解與推理能力。

如何使用Claude Opus 4.8

API 接入：通過 Anthropic API 調用，輸入 Token 每百萬 5 美元，輸出 Token 每百萬 25 美元。
啓動動態工作流：在 Claude Code 環境中輸入「workflow」關鍵詞即可啓動大規模並行任務。
調節投入度：在 claude.ai 和 Claude Code 的模型選擇器旁切換低/高/額外/最大投入度等級。
切換極速模式：在 API 或客戶端中選擇 Fast Mode，以 2.5 倍速度運行且成本更低。
企業版權限：動態工作流目前面向企業版、團隊版及 Max 版用戶開放。
第三方平台使用：Cursor 等 IDE 已第一時間上線 Opus 4.8，可直接在開發環境中切換。

Claude Opus 4.8的核心優勢

基準全面領先：在 6 項核心基準測試中 5 項超越 GPT-5.5 和 Gemini 3.1 Pro。
誠實性顯著提升：對代碼缺陷未加提示的概率降至前代約四分之一，大幅減少幻覺風險。
長時任務可靠性：支持數日級連續運行，可處理數十萬行代碼的大規模跨語言遷移項目。
成本可控：常規模式價格不變，極速模式成本降至三分之一，Token 消耗效率提升約 25%。
安全對齊最優：未對齊行爲發生率顯著低於 Opus 4.7，達到 Anthropic 目前最佳安全水平。
靈活投入度：用戶可根據任務難度自由調節模型思考深度，在質量與速度間取得最佳平衡。

Claude Opus 4.8的項目地址

項目官網：https://www.anthropic.com/news/claude-opus-4-8

Claude Opus 4.8的同類競品對比

維度	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
智能體編程 (SWE-Bench Pro)	69.2%	58.6%	54.2%
終端編碼 (Terminal-Bench 2.1)	74.6%	78.2%	70.3%
多學科推理 (Humanity’s Last Exam, 帶工具)	57.9%	52.2%	51.4%
智能體計算機使用 (OSWorld)	83.4%	78.7%	76.2%
知識工作 (GDPval-AA)	1890	1769	1314
智能體金融分析 (Finance Agent v2)	53.9%	51.8%	43.0%
輸入價格 (每百萬 Token)	$5	待確認	待確認
輸出價格 (每百萬 Token)	$25	待確認	待確認
極速模式成本	前代 1/3	–	–
動態工作流	✅	❌	❌
投入度控制	✅	❌	❌

Claude Opus 4.8的應用場景

大規模代碼遷移：用動態工作流完成數十萬行代碼的跨語言移植，如 Bun 從 Zig 到 Rust 的遷移。
企業級軟件開發：作爲 Cursor 等 IDE 的後端模型，輔助完成端到端的軟件工程任務。
複雜金融分析：處理密集財報、法律文件，提供高精度引用和推理的金融文檔工作流。
深度學術研究：在 Humanity’s Last Exam 級別的多學科推理任務中提供高質量分析。
法律專業服務：在 CoCounsel Legal 等法律 Agent 平台中處理高風險的實質性法律工作。
數據與知識工作：在 Databricks Genie 等 AI Agent 中直接推理 PDF、圖表等非結構化內容。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

吐司TusiArt – AI繪畫模型社區和在線生圖平台

earnbyshare2016

75 0

漢語新解 – 生成創意性文本的prompt，新時代的AI漢語老師

earnbyshare2016

42 0

Genmo – AI生成視頻、圖片和動畫的平台

earnbyshare2016

113 0

Lark CLI – 飛書開源的命令行工具，讓Agent直接操作飛書

earnbyshare2016

2 0

Beacons – 專爲創作者設計的AI營銷工具

earnbyshare2016

76 0

Gemma 4 – 谷歌開源的多模態大模型系列

earnbyshare2016

0 0

暫無評論

暫無評論...