Qwen3.6-Max-Preview – 阿里通義推出的下一代旗艦模型

AI工具2天前發佈新公告 AI管理員
0 0

Qwen3.6-Max-Preview是什麼

Qwen3.6-Max-Preview 是阿里通義千問團隊推出的下一代旗艦大模型早期預覽版。相比 Qwen3.6-Plus,模型在智能體編程、世界知識和指令遵循三大維度實現顯著提升,在 SWE-bench Pro、Terminal-Bench 2.0、SciCode 等六項編程基準測試中取得最高分。用戶可通過 Qwen Studio 在線體驗,或通過阿里雲百鍊 API 調用。

Qwen3.6-Max-Preview – 阿里通義推出的下一代旗艦模型

Qwen3.6-Max-Preview的主要功能

  • 智能體編程:在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench 等六項編程基準中取得最高分,支持代碼生成、終端操作與長程代碼任務。
  • 世界知識增強:研究生級別知識問答(SuperGPQA)與中文知識(QwenChineseBench)能力顯著提升。
  • 指令遵循優化:真實場景工具調用格式遵循(ToolcallFormatIFBench)表現更優。
  • 思維鏈保留:支持 preserve_thinking 功能,可在多輪對話中保留前序思維內容,適配複雜智能體任務。
  • 協議兼容:API 兼容 OpenAI(chat completions/responses)與 Anthropic 接口規範,便於無縫接入現有工作流。

如何使用Qwen3.6-Max-Preview

  • 在線體驗:訪問 Qwen Studio,選擇 Qwen3.6-Max-Preview 模型可開始交互對話。
  • API 調用
    • 訪問阿里雲百鍊官網,獲取 API Key。
    • 調用時模型名稱填寫 qwen3.6-max-preview
    • 支持 OpenAI 標準協議(chat completions / responses)及 Anthropic API 接口,可直接替換現有工作流中的模型名稱接入。

Qwen3.6-Max-Preview的關鍵信息和使用要求

  • 產品定位:阿里通義千問下一代旗艦大模型的早期預覽版,繼 Qwen3.6-Plus 後的升級版本。
  • 核心提升:智能體編程能力顯著增強,世界知識與指令遵循表現更優。
  • 性能表現:在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode 六項編程基準中取得最高分。
  • 狀態說明:目前仍爲預覽版,模型正在積極迭代中,後續版本將持續優化。

Qwen3.6-Max-Preview的核心優勢

  • 智能體編程領先:在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench 等六項編程基準中取得最高分,代碼生成與終端操作能力大幅超越前代。
  • 世界知識增強:研究生級知識問答(SuperGPQA)與中文知識(QwenChineseBench)表現顯著提升,知識可靠性更優。
  • 指令遵循更精準:真實場景工具調用格式遵循(ToolcallFormatIFBench)能力更強,複雜任務執行更穩定。
  • 競品表現突出:多項基準超越 Claude 4.5 Opus、GLM 5.1 等主流前沿模型。
  • 生態兼容性強:API 兼容 OpenAI 與 Anthropic 協議,支持 preserve_thinking 功能,可無縫接入現有智能體工作流。

Qwen3.6-Max-Preview的同類競品對比

對比維度 Qwen3.6-Max-Preview Claude 4.5 Opus GLM 5.1
SWE-bench Pro(工程代碼) 57.3 🥇 50.9 58.4
Terminal-Bench 2.0(終端編程) 65.4 🥇 59.3 63.5
SkillsBench(智能體技能) 55.6 🥇 45.3 53.1
SciCode(科研代碼) 47.0 49.5 🥇
NL2Repo(長程代碼) 42.9 43.2 🥇 42.7
QwenWebBench(前端開發) 1532 1558 🥇
SuperGPQA(研究生知識) 73.9 🥇 70.6
QwenChineseBench(中文知識) 84.0 🥇 69.0
ToolcallFormatIFBench(指令遵循) 86.1 🥇 84.2 60.1
GDPval-AA(真實世界任務) 51.0 🥇 48.0 52.0

Qwen3.6-Max-Preview的應用場景

  • 軟件開發:支持代碼生成、調試、終端操作與倉庫級長程編程任務,適配全棧開發流程。
  • 科研計算:輔助研究型代碼編寫與數據分析,提升科研自動化效率。
  • 前端構建:生成網頁設計、Web 應用、遊戲、SVG、數據可視化、動畫及 3D 內容。
  • 智能體自動化:模型能執行真實世界複雜任務,通過工具調用串聯多步驟工作流。
  • 知識問答:模型提供研究生級別專業知識解答與中文領域深度知識服務。
© 版權聲明

相關文章

暫無評論

暫無評論...