Mellum2是什麼
Mellum2 是 JetBrains 開源的面向軟件工程系統的新機器學習模型。模型每 token 僅激活 2.5B 參數,專爲軟件工程 AI 工作流優化,支持代碼生成、智能路由、子 Agent 調用及私有化部署。憑藉低延遲、高吞吐和低成本特性,Mellum2 在 LiveCodeBench 等代碼評測中表現領先,是構建企業級 AI 編程助手和自動化工作流的高性能選擇。

Mellum2的主要功能
-
智能代碼生成:基於代碼和自然語言數據訓練,支持代碼補全、函數生成與重構建議。
-
雙模式推理:提供 Thinking(深度思考)與 Non-thinking(快速響應)兩種模式,按需切換。
-
工作流路由與摘要:充當 AI 工作流的智能路由器,負責任務分發、文檔摘要與中間推理。
-
工具調用與 Agent 協作:支持子 Agent 調用和工具鏈集成,可嵌入複雜自動化流程。
-
本地私有部署:可在企業內網或本地設備獨立運行,無需依賴外部 API。
Mellum2的技術原理
- MoE 稀疏架構:採用 64 專家、每 token 激活 8 個專家的 Mixture-of-Experts 設計,總參數量 12B,實際激活僅 2.5B,使推理成本接近 2.5B 密集模型。結合 Grouped-Query Attention 與 滑動窗口注意力,顯著壓縮顯存佔用並加速解碼。引入多 Token 預測頭(Multi-Token Prediction),作爲輔助預訓練目標提升性能,充當投機解碼的內置 Draft 模型,進一步降低延遲。
- 三階段課程預訓練:在約 10.6 萬億 Token 上進行訓練,數據配比從通用網頁數據逐步過渡到精選代碼與數學內容,形成漸進式課程。用 Muon 優化器 配合 FP8 混合精度,採用 Warmup-Hold-Decay(線性衰減至零)學習率調度,在訓練效率與模型穩定性之間取得平衡。
- 長上下文擴展:預訓練基礎模型通過 Layer-Selective YaRN 將上下文窗口擴展至 128K,僅對關鍵層進行位置編碼插值,避免全層微調帶來的性能損失。
Mellum2的核心優勢
-
MoE 高效架構:12B 總參數僅激活 2.5B,顯著降低推理成本,實現高吞吐、低延遲
-
垂直領域專精:放棄多模態,專注代碼與自然語言,在軟件工程場景下更精準、更輕量
-
生產級性能:在 LiveCodeBench v6 代碼評測中 Thinking 模式得分 69.9,領先同級別開源模型
-
完全開源可商用:Apache 2.0 協議,可自由實驗、微調及大規模商用部署
-
企業隱私友好:支持完全本地化運行,滿足代碼安全與數據合規要求
Mellum2的同類競品對比
| 對比維度 | Mellum2 | Qwen3.5-9B | SeedCoder-8B |
|---|---|---|---|
| 模型架構 | 12B MoE(64 專家,8 激活,2.5B 活躍參數) | 9B 密集模型(Dense) | 8B 密集模型(Dense) |
| 開源協議 | Apache 2.0(完全可商用) | 開源(可商用) | 未明確/部分受限 |
| 模態支持 | 僅文本 + 代碼(垂直專精) | 文本、代碼、圖像、視頻(多模態通用) | 僅代碼(單領域) |
| 每 Token 計算量 | ≈2.5B 參數(極低) | 9B 參數(全量激活) | 8B 參數(全量激活) |
| LiveCodeBench v6 | 69.9(Thinking) | 68.3(Thinking) | 28.1(Non-thinking) |
| BFCL V4 工具調用 | 45.6(Thinking) | 42.7(Thinking) | N/A(不支持) |
| AIME 數學推理 | 58.4(Thinking) | 73.4(Thinking) | 0(不支持) |
| 上下文長度 | 128K(YaRN 擴展) | 128K+ | 通常 4K-8K |
| 推理模式 | 雙模式:Thinking + Non-thinking | 雙模式:Thinking + Non-thinking | 僅 Non-thinking |
Mellum2的應用場景
-
智能代碼補全與生成:在 IDE 中提供實時代碼補全、函數生成、代碼重構與編輯建議,替代傳統自動補全工具。
-
調試與錯誤診斷:輔助開發者定位 Bug、分析堆棧信息、生成修復方案,降低調試時間成本。
-
多步推理與複雜任務分解:在 Agent 工作流中承擔中間推理節點,將複雜需求拆解爲可執行的子任務序列。
-
工具調用與函數編排:通過 Function Calling 連接外部 API、數據庫或開發工具,實現自動化構建、測試與部署流程。
-
對話式編程助手:用自然語言交互方式解答技術問題、解釋代碼邏輯、推薦最佳實踐,充當 24/7 技術顧問。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...