Mellum2 – JetBrains 開源的混合專家模型

0 0 0

Mellum2是什麼

Mellum2 是 JetBrains 開源的面向軟件工程系統的新機器學習模型。模型每 token 僅激活 2.5B 參數，專爲軟件工程 AI 工作流優化，支持代碼生成、智能路由、子 Agent 調用及私有化部署。憑藉低延遲、高吞吐和低成本特性，Mellum2 在 LiveCodeBench 等代碼評測中表現領先，是構建企業級 AI 編程助手和自動化工作流的高性能選擇。

Mellum2的主要功能

智能代碼生成：基於代碼和自然語言數據訓練，支持代碼補全、函數生成與重構建議。
雙模式推理：提供 Thinking（深度思考）與 Non-thinking（快速響應）兩種模式，按需切換。
工作流路由與摘要：充當 AI 工作流的智能路由器，負責任務分發、文檔摘要與中間推理。
工具調用與 Agent 協作：支持子 Agent 調用和工具鏈集成，可嵌入複雜自動化流程。
本地私有部署：可在企業內網或本地設備獨立運行，無需依賴外部 API。

Mellum2的技術原理

MoE 稀疏架構：採用 64 專家、每 token 激活 8 個專家的 Mixture-of-Experts 設計，總參數量 12B，實際激活僅 2.5B，使推理成本接近 2.5B 密集模型。結合 Grouped-Query Attention 與滑動窗口注意力，顯著壓縮顯存佔用並加速解碼。引入多 Token 預測頭（Multi-Token Prediction），作爲輔助預訓練目標提升性能，充當投機解碼的內置 Draft 模型，進一步降低延遲。
三階段課程預訓練：在約 10.6 萬億 Token 上進行訓練，數據配比從通用網頁數據逐步過渡到精選代碼與數學內容，形成漸進式課程。用 Muon 優化器配合 FP8 混合精度，採用 Warmup-Hold-Decay（線性衰減至零）學習率調度，在訓練效率與模型穩定性之間取得平衡。
長上下文擴展：預訓練基礎模型通過 Layer-Selective YaRN 將上下文窗口擴展至 128K，僅對關鍵層進行位置編碼插值，避免全層微調帶來的性能損失。

Mellum2的核心優勢

MoE 高效架構：12B 總參數僅激活 2.5B，顯著降低推理成本，實現高吞吐、低延遲
垂直領域專精：放棄多模態，專注代碼與自然語言，在軟件工程場景下更精準、更輕量
生產級性能：在 LiveCodeBench v6 代碼評測中 Thinking 模式得分 69.9，領先同級別開源模型
完全開源可商用：Apache 2.0 協議，可自由實驗、微調及大規模商用部署
企業隱私友好：支持完全本地化運行，滿足代碼安全與數據合規要求

Mellum2的同類競品對比

對比維度	Mellum2	Qwen3.5-9B	SeedCoder-8B
模型架構	12B MoE（64 專家，8 激活，2.5B 活躍參數）	9B 密集模型（Dense）	8B 密集模型（Dense）
開源協議	Apache 2.0（完全可商用）	開源（可商用）	未明確/部分受限
模態支持	僅文本 + 代碼（垂直專精）	文本、代碼、圖像、視頻（多模態通用）	僅代碼（單領域）
每 Token 計算量	≈2.5B 參數（極低）	9B 參數（全量激活）	8B 參數（全量激活）
LiveCodeBench v6	69.9（Thinking）	68.3（Thinking）	28.1（Non-thinking）
BFCL V4 工具調用	45.6（Thinking）	42.7（Thinking）	N/A（不支持）
AIME 數學推理	58.4（Thinking）	73.4（Thinking）	0（不支持）
上下文長度	128K（YaRN 擴展）	128K+	通常 4K-8K
推理模式	雙模式：Thinking + Non-thinking	雙模式：Thinking + Non-thinking	僅 Non-thinking