MAI-Thinking-1 – 微軟推出的首款自研高級推理模型

0 0 0

MAI-Thinking-1是什麼

MAI-Thinking-1 是微軟推出的首款自研高級推理模型。模型採用 35B 活躍參數 / 約 1T 總參數的稀疏 MoE 架構，完全基於乾淨、商業授權數據從頭訓練，未使用任何第三方模型蒸餾。在 SWE-Bench Pro、AIME 2025/2026 等關鍵基準上達到業界頂尖水平，與 Claude Opus 4.6 持平，在盲測中優於 Sonnet 4.6。

MAI-Thinking-1的主要功能

高級數學與科學推理：在 AIME 2025 上達到 97.0%，AIME 2026 上達到 94.5%，具備極強的 STEM 推理能力。
智能軟件工程：在 SWE-Bench Pro 上獲得 52.8%，在 LiveCodeBench v6 上獲得 87.7%，支持多步驟代碼閱讀、編輯、測試與錯誤恢復。
超長上下文處理：支持最高 256K 的上下文窗口，可處理長文檔與大規模代碼庫。
工具調用與 Agent 能力：可調用外部工具與環境交互，執行復雜的多步驟任務。
安全與有用性平衡：在 RL 訓練中同時優化 helpfulness 和 safety，減少有害輸出。

MAI-Thinking-1的技術原理

稀疏 MoE 架構：MAI-Thinking-1 採用 78 層 Decoder-only Transformer，交替使用 8/512 專家激活的稀疏 MoE 層與密集 FFN 層，配合 5:1 局部/全局注意力機制，在保持 35B 活躍參數的同時實現接近 1T 總參數的性能，顯著降低推理時的 KV Cache 與計算開銷。
數據與預訓練：模型基於 30T tokens 的乾淨、商業授權數據從頭預訓練，嚴格排除 AI 生成內容與開源訓練集，並對常見基準進行去污染處理；中期訓練額外強化 STEM、數學與代碼能力，最終支持 256K 超長上下文。
強化學習”爬坡”：微軟提出”Hill-Climbing Machine”理念，通過自研 RL 框架從零開始學習推理鏈，不依賴先驗 CoT 蒸餾，分別針對 STEM 推理、Agentic 編碼和 Helpfulness & Safety 三個領域進行數千步的持續對數線性提升。
評估體系：內部建立近 40 個 NLL 基準覆蓋代碼、STEM、數學、通用知識和多語言五大類，優先採用負對數似然非多選題評估，避免格式偏差；同時構建私有基準防止數據污染，確保評估結果真實反映模型能力。

如何使用MAI-Thinking-1

MAI-Thinking-1 的具體使用方式和接入渠道尚未公佈。

MAI-Thinking-1的核心優勢

完全自研無蒸餾：不繼承第三方模型的設計偏見，具備更強的可操控性和適應能力。
中等規模，頂尖性能：35B 活躍參數即可對標 Claude Opus 4.6 等更大模型，推理成本更低，部署更靈活。
數據純淨可追溯：排除 AI 生成內容，確保模型行爲可解釋、可改進。
全棧自主可控：從微軟自研加速器到訓練框架、RL 環境均爲內部構建，可端到端優化。
持續進化能力：爬坡機器架構支持吸收更優數據、更強獎勵和更多算力，實現能力的持續提升。

MAI-Thinking-1的項目地址

項目官網：https://microsoft.ai/news/introducing-mai-thinking-1/
技術論文：https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf

MAI-Thinking-1的同類競品對比

維度	MAI-Thinking-1	Claude Opus 4.6	DeepSeek-R1
架構	35B 活躍 / 1T 總參數 MoE	未公開（大密集模型）	37B 活躍 / 671B 總參數 MoE
訓練方式	從頭訓練，無蒸餾	未公開	基於 DeepSeek-V3 蒸餾
SWE-Bench Pro	52.8%	~52.8%（持平）	約 49-50%
AIME 2025	97.0%	未明確	約 79.8%
上下文長度	256K	200K	128K
數據策略	純淨商業數據，無 AI 生成內容	未明確	開源+合成數據
全棧自主	是（微軟自研硬件到框架）	否（Anthropic）	部分（依賴 NVIDIA 生態）