LongCat-Flash-Prover – 美團開源的數學定理證明模型

0 0 0

LongCat-Flash-Prover是什麼

LongCat-Flash-Prover 是美團開源的5600億參數MoE模型，專注Lean4形式化數學推理。模型通過Agentic工具集成推理（TIR），將任務分解爲自動形式化、草圖生成和定理證明三大能力。LongCat-Flash-Prover採用混合專家迭代框架和HisPO強化學習算法穩定訓練，引入防作弊機制確保推理嚴謹性。在MiniF2F-Test等基準測試中達到SOTA水平，Pass@32準確率93.9%，PutnamBench難題解決率28.9%，顯著超越現有開源模型。

LongCat-Flash-Prover的主要功能

自動形式化：支持將自然語言數學問題轉化爲經過驗證的Lean4形式化陳述。
草圖生成：基於題目和形式化陳述生成引理風格的證明框架。
定理證明：支持生成完整證明或引入輔助引理完成目標定理的證明。
工具集成推理：模型可直接調用Lean4編譯器進行實時驗證和反饋迭代。

LongCat-Flash-Prover的技術原理

混合專家迭代框架：框架支持部署多個專門優化的專家模型，分別負責自動形式化、草圖生成和證明等不同領域任務。通過讓專家模型在工具輔助下生成推理軌跡並進行迭代優化，模擬人類試錯、驗證和反思的學習過程，擴展高質量的冷啓動數據。
分層重要性採樣策略優化（HisPO）：針對MoE模型在長程任務訓練中的不穩定性，HisPO採用分層裁剪策略，通過在序列級別和token級別估計重要性採樣比率，消除訓練與推理引擎差異較大的梯度貢獻，穩定強化學習訓練過程。
防獎勵作弊機制：系統引入定理一致性檢測和合法性檢測，識別、過濾與形式化陳述語義不符、條件不匹配或包含未經驗證公理的證明，防止模型通過欺騙Lean4服務器獲取虛假獎勵。

LongCat-Flash-Prover的關鍵信息和使用要求

模型規模：採用5600億參數MoE架構，開源權重模型中參數量最大之一
核心定位：專注Lean4原生形式化推理，無需針對形式化任務修改模型架構
性能突破：MiniF2F-Test達93.9%（Pass@32），PutnamBench達28.9%，均爲開源模型SOTA
推理效率：在MiniF2F-Test上僅用72次推理可達到97.1%通過率，樣本效率極高
訓練數據：通過混合專家迭代框架合成高質量軌跡，支持自動形式化、草圖和證明三類任務
硬件環境：560B參數MoE模型需要大規模GPU集羣支持推理，建議配備充足顯存的多卡環境
軟件依賴：需安裝Lean4證明助手及相應工具鏈，模型通過Lean4服務器進行實時驗證交互
部署方式：支持Whole-Proof模式（直接生成完整證明）和Sketch-Proof模式（先草圖後補全），後者配合TIR效果更佳

LongCat-Flash-Prover的核心優勢

原生能力：將形式化推理視爲LLM原生能力，無需專門架構修改可直接調用Lean4工具鏈，實現與形式化環境的深度集成。
SOTA性能：在MathOlympiad-Bench、MiniF2F-Test、ProofNet、ProverBench、PutnamBench五大基準全面領先開源模型，部分指標逼近或超越閉源商業模型。
樣本高效：僅需72次推理可在MiniF2F-Test達到97.1%通過率，遠低於同類模型所需嘗試次數，推理成本顯著降低。
防作弊設計：通過定理一致性檢測和合法性檢測機制，確保模型輸出真實可信，避免獎勵作弊導致的虛假證明。

如何使用LongCat-Flash-Prover

環境準備：安裝Lean4證明助手及依賴工具鏈，配置模型推理所需的GPU環境，確保顯存足以支持560B參數MoE模型的加載與運行。
獲取模型：從HuggingFace倉庫下載模型權重，或直接使用GitHub提供的推理接口和示例代碼進行部署。
選擇推理模式：根據任務複雜度選擇Whole-Proof模式直接生成完整證明，或選擇Sketch-Proof模式先輸出引理框架再逐步補全。
輸入問題：將自然語言數學問題或待證定理輸入模型，模型自動調用Lean4編譯器進行實時驗證，根據反饋迭代優化證明過程。
獲取結果：模型輸出經Lean4驗證通過的形式化證明，可直接用在數學形式化驗證、定理庫構建或學術研究。

LongCat-Flash-Prover的項目地址

GitHub倉庫：https://github.com/meituan-longcat/LongCat-Flash-Prover
HuggingFace模型庫：https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
技術論文：https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

LongCat-Flash-Prover的同類競品對比

模型	規模	MathOlympiad-Bench	MiniF2F-Test	PutnamBench	核心差異
LongCat-Flash-Prover	560B MoE	35.8%	93.9%	28.9%	原生TIR工具集成，草圖+證明雙模式
DeepSeek-Prover-V2-671B	671B	13.9%	82.4%	3.3%	此前開源SOTA，無草圖生成機制
Kimina-Prover-72B	72B	13.1%	84.0%	3.9%	早期開源方案，推理效率較低