LongCat-Next – 美團 LongCat 推出的多模態模型

0 0 0

LongCat-Next是什麼

LongCat-Next是美團LongCat推出的多模態模型，核心創新是LoZA稀疏注意力機制。模型通過智能篩查模塊重要性，將50%低重要模塊替換爲流式稀疏注意力，形成全局與局部交錯的ZigZag結構。LongCat-Next實現1M超長上下文、解碼速度提升10倍、算力節省30%，硬件利用率翻倍。包含Flash-Exp（1M上下文實驗版）和Flash-Lite（68.5B MoE架構）兩個版本，長文本任務表現超越Qwen-3。

LongCat-Next的主要功能

超長上下文理解：支持100萬Token超長文本處理，同等硬件下可處理兩倍長度的文檔內容。
LoZA稀疏注意力：通過智能篩查模塊重要性並採用ZigZag交錯結構，實現全局與局部注意力的高效協同計算。
推理加速優化：支持128K上下文解碼速度提升10倍，256K預加載提速50%，大幅降低長文本處理時間成本。
算力成本節省：模型256K解碼階段算力消耗減少30%，讓企業以更低成本部署大模型服務。
雙版本靈活選擇：提供1M上下文的實驗版Flash-Exp和68.5B MoE架構的輕量版Flash-Lite，滿足不同場景需求。
穩定長文本性能：在MRCR長文本基準測試中表現超越Qwen-3，複雜文檔問答和代碼生成任務效果更穩定可靠。

LongCat-Next的關鍵信息和使用要求

發佈方：美團龍貓團隊（Meituan LongCat）
核心技術：LoZA（LongCat ZigZag Attention）稀疏注意力機制
上下文窗口：最高支持 1M Token（100萬）
模型架構：68.5B MoE（混合專家），單次推理激活2.9B-4.5B參數
性能提升：128K解碼快10倍、256K預加載快50%、算力省30%
硬件要求：未公開具體配置，但LoZA機制降低了對高端硬件的依賴
API服務：LongCat-Flash-Lite提供API接入，生成速度500-700 token/s

LongCat-Next的核心優勢

超長上下文處理能力：支持1M Token（100萬）超長文本理解，同等硬件下可處理兩倍長度的文檔，突破大模型長文本瓶頸。
高效稀疏注意力機制：LoZA技術通過智能篩查模塊重要性，將50%低重要模塊替換爲流式稀疏注意力，實現全局與局部信息的精準協同計算。
顯著的速度提升：模型128K上下文解碼速度提升10倍，256K預加載提速50%，大幅縮短長文本響應時間。
低算力成本部署：256K解碼階段算力消耗減少30%，讓企業以更低硬件成本部署高性能大模型服務。
穩定的性能表現：在MRCR長文本基準測試中超越Qwen-3，日常問答和代碼生成任務與原版持平，複雜場景表現更可靠。

如何使用LongCat-Next

獲取開源資源：訪問GitHub 倉庫，下載已發佈的模型權重和推理代碼進行本地部署。
硬件配置：用LoZA稀疏注意力機制，在現有硬件上實現2倍長文本處理能力，無需升級高端設備。

LongCat-Next的項目地址

項目官網：https://longcat.chat/longcat-next/intro
GitHub倉庫：https://github.com/meituan-longcat/LongCat-Next
HuggingFace模型庫：https://huggingface.co/meituan-longcat/LongCat-Next
技術論文：https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

LongCat-Next的同類競品對比

對比項	LongCat-Next	Qwen-3	GPT-4
長文本基準	MRCR測試超越Qwen-3	此前領先者	未公開MRCR數據
上下文窗口	1M Token	未明確同等長度	約128K Token
核心技術	LoZA稀疏注意力	傳統全注意力	未公開細節
推理速度	128K解碼快10倍	未公開量化數據	高算力依賴
算力成本	節省30%，硬件利用率翻倍	標準消耗	較高API成本