LongCat-2.0 – 美團開源的新一代萬億參數語言模型

AI工具11小時前發佈新公告 AI管理員
0 0

LongCat-2.0是什麼

LongCat-2.0 是美團開源的大規模 MoE 語言模型,擁有 1.6 萬億總參數,每 token 激活約 480 億,基於 AI ASIC 超算集羣完成訓練與部署。模型支持 1M 超長上下文,引入 LongCat Sparse Attention 稀疏注意力與 N-gram Embedding 架構,在代碼生成、Agent 任務執行和複雜推理等場景表現強勁,與 Claude Code、OpenClaw、Hermes 等主流工具深度集成。

LongCat-2.0 – 美團開源的新一代萬億參數語言模型

LongCat-2.0的主要功能

  • 超長上下文理解:原生支持 1M token 上下文窗口,可一次性讀取完整代碼庫、長文檔進行精準定位與深度理解,避免傳統模型的”中間遺忘”問題。
  • 代碼生成與重構:基於 Agentic Coding 能力,支持倉庫級代碼分析、跨文件邏輯梳理、架構遷移與功能重構,編譯一次通過。
  • 自主 Agent 執行:深度集成 Claude Code、OpenClaw、Hermes 等主流 harness,可自主完成多步驟任務規劃、工具調用、API 交互與錯誤自糾錯。
  • 多語言代碼支持:具備跨語言代碼理解與生成能力,支持中英等多語言編程場景的代碼遷移與審查。
  • 智能搜索與檢索:內置搜索與瀏覽能力,支持複雜信息檢索、多跳推理與跨網頁內容整合,滿足研究型任務需求。
  • 自然語言數據查詢:業務人員可直接用自然語言查詢數據庫,模型自動完成意圖解析、SQL 生成、執行與結果洞察輸出。

LongCat-2.0 – 美團開源的新一代萬億參數語言模型

微信關注回覆“開源”,加入AI開源項目交流羣

LongCat-2.0的技術原理

  • MoE 稀疏架構:採用總參數 1.6 萬億、每 token 激活約 480 億的混合專家架構,通過稀疏激活實現參數規模與計算效率的平衡。
  • LongCat Sparse Attention (LSA):引入流式感知索引(SI)、跨層索引(CLI)和分層索引(HI)三大組件,將長上下文注意力計算從平方級降至線性級,解決百萬 token 上下文處理瓶頸。
  • N-gram Embedding:配置 5-gram 嵌入模塊,通過 token 組合擴展嵌入空間約 100 倍,捕獲更豐富的局部上下文並提升表徵能力。
  • 零計算專家 + ScMoE:根據 token 複雜度動態分配計算資源,簡單 token 路由至零專家避免無效計算,複雜 token 自動獲得更多專家資源。
  • MOPD 多專家融合後訓練:將 Agent Experts、Reasoning Experts、Interaction Experts 三類專家組通過 Multi-Teacher On-Policy Distill 架構融合,門控網絡根據任務類型動態調度最優專家組合。
  • 6D 並行訓練:在標準 TP/CP/EP/DP/PP 基礎上新增 EMBP,結合 Superpod 物理集羣架構實現超大規模高效訓練。

如何使用LongCat-2.0

  • 在線體驗:訪問 LongCat 官網直接對話試用模型能力。
  • API 接入:登錄 https://longcat.chat/platform/product 獲取 API Key,集成到自有應用或 Agent 框架。
  • 工具集成:直接接入 Claude Code、OpenClaw、Hermes 等主流 AI 開發工具鏈作爲底層模型驅動。

LongCat-2.0的核心優勢

  • 國產算力全鏈路:業界首個在五萬卡國產集羣上完成萬億參數模型全流程訓練與推理的模型,驗證非 NVIDIA 平台可行性。
  • 百萬級上下文:1M 原生上下文窗口,配合 LSA 稀疏注意力,實現長文本精準定位與理解,告別”中間遺忘”。
  • Agentic Coding 專用:圍繞代碼理解、生成與執行深度優化,在 SWE-bench、Terminal-Bench 等評測中超越 Gemini 3.1 Pro 和 GPT-5.5。
  • 動態計算分配:零計算專家 + ScMoE 實現 token 級動態激活(33B~56B),簡單 token 不耗算力,複雜任務自動獲得更多資源。
  • 三專家融合:MOPD 架構融合 Agent、Reasoning、Interaction 專家組,門控網絡動態調度,兼顧執行、推理與交互體驗。
  • 全球開發者認可:預覽版通過 OpenRouter 開放調用,月調用量躋身全球前三,在 Hermes、Claude Code、OpenClaw 分列第一、第二、第三。

LongCat-2.0的項目地址

  • 項目官網:https://longcat.chat/blog/longcat-2.0/
  • GitHub倉庫:https://github.com/meituan-longcat/LongCat-2.0
  • HuggingFace模型庫:https://huggingface.co/meituan-longcat/LongCat-2.0

LongCat-2.0的同類競品對比

對比維度 LongCat-2.0 DeepSeek-V3
發佈方 美團 DeepSeek
總參數 1.6 萬億 (MoE) 6710 億 (MoE)
激活參數 ~480 億 / token ~370 億 / token
上下文長度 1M (100萬) tokens 64K-128K tokens
訓練硬件 五萬卡國產算力集羣 NVIDIA GPU 集羣
注意力機制 LongCat Sparse Attention (LSA) Multi-head Latent Attention (MLA)
嵌入優化 N-gram Embedding (5-gram, 135B) 標準嵌入層
後訓練架構 MOPD 多專家融合 (Agent/Reasoning/Interaction) 標準 SFT + RL
代碼能力 (SWE-bench Pro) 59.5 ~50+

LongCat-2.0的應用場景

  • 大規模代碼遷移:讀取完整代碼庫與遷移文檔,自動映射架構並重構插件至新 SDK,保留功能並修復潛在 Bug。
  • 倉庫級代碼審查:基於 1M 上下文理解整個項目結構,進行跨文件 Bug 檢測、性能優化與架構建議。
  • AI Agent 開發:作爲底層模型驅動 Claude Code、OpenClaw 等框架,執行復雜多步驟任務與自主工具調用。
  • 長文檔分析與生成:處理百萬字級技術文檔、論文、報告,進行深度摘要、問答與內容改寫。
  • 數據查詢與洞察:業務人員用自然語言查詢數據庫,模型自動完成 SQL 生成、執行與結果解讀。
© 版權聲明

相關文章

暫無評論

暫無評論...