LongCat-Flash-Prover – 美團開源的數學定理證明模型

AI工具5天前發佈新公告 AI管理員
0 0

LongCat-Flash-Prover是什麼

LongCat-Flash-Prover 是美團開源的5600億參數MoE模型,專注Lean4形式化數學推理。模型通過Agentic工具集成推理(TIR),將任務分解爲自動形式化、草圖生成和定理證明三大能力。LongCat-Flash-Prover採用混合專家迭代框架和HisPO強化學習算法穩定訓練,引入防作弊機制確保推理嚴謹性。在MiniF2F-Test等基準測試中達到SOTA水平,Pass@32準確率93.9%,PutnamBench難題解決率28.9%,顯著超越現有開源模型。

LongCat-Flash-Prover – 美團開源的數學定理證明模型

LongCat-Flash-Prover的主要功能

  • 自動形式化:支持將自然語言數學問題轉化爲經過驗證的Lean4形式化陳述。
  • 草圖生成:基於題目和形式化陳述生成引理風格的證明框架。
  • 定理證明:支持生成完整證明或引入輔助引理完成目標定理的證明。
  • 工具集成推理:模型可直接調用Lean4編譯器進行實時驗證和反饋迭代。

LongCat-Flash-Prover的技術原理

  • 混合專家迭代框架:框架支持部署多個專門優化的專家模型,分別負責自動形式化、草圖生成和證明等不同領域任務。通過讓專家模型在工具輔助下生成推理軌跡並進行迭代優化,模擬人類試錯、驗證和反思的學習過程,擴展高質量的冷啓動數據。
  • 分層重要性採樣策略優化(HisPO):針對MoE模型在長程任務訓練中的不穩定性,HisPO採用分層裁剪策略,通過在序列級別和token級別估計重要性採樣比率,消除訓練與推理引擎差異較大的梯度貢獻,穩定強化學習訓練過程。
  • 防獎勵作弊機制:系統引入定理一致性檢測和合法性檢測,識別、過濾與形式化陳述語義不符、條件不匹配或包含未經驗證公理的證明,防止模型通過欺騙Lean4服務器獲取虛假獎勵。

LongCat-Flash-Prover的關鍵信息和使用要求

  • 模型規模:採用5600億參數MoE架構,開源權重模型中參數量最大之一
  • 核心定位:專注Lean4原生形式化推理,無需針對形式化任務修改模型架構
  • 性能突破:MiniF2F-Test達93.9%(Pass@32),PutnamBench達28.9%,均爲開源模型SOTA
  • 推理效率:在MiniF2F-Test上僅用72次推理可達到97.1%通過率,樣本效率極高
  • 訓練數據:通過混合專家迭代框架合成高質量軌跡,支持自動形式化、草圖和證明三類任務
  • 硬件環境:560B參數MoE模型需要大規模GPU集羣支持推理,建議配備充足顯存的多卡環境
  • 軟件依賴:需安裝Lean4證明助手及相應工具鏈,模型通過Lean4服務器進行實時驗證交互
  • 部署方式:支持Whole-Proof模式(直接生成完整證明)和Sketch-Proof模式(先草圖後補全),後者配合TIR效果更佳

LongCat-Flash-Prover的核心優勢

  • 原生能力:將形式化推理視爲LLM原生能力,無需專門架構修改可直接調用Lean4工具鏈,實現與形式化環境的深度集成。
  • SOTA性能:在MathOlympiad-Bench、MiniF2F-Test、ProofNet、ProverBench、PutnamBench五大基準全面領先開源模型,部分指標逼近或超越閉源商業模型。
  • 樣本高效:僅需72次推理可在MiniF2F-Test達到97.1%通過率,遠低於同類模型所需嘗試次數,推理成本顯著降低。
  • 防作弊設計:通過定理一致性檢測和合法性檢測機制,確保模型輸出真實可信,避免獎勵作弊導致的虛假證明。

如何使用LongCat-Flash-Prover

  • 環境準備:安裝Lean4證明助手及依賴工具鏈,配置模型推理所需的GPU環境,確保顯存足以支持560B參數MoE模型的加載與運行。
  • 獲取模型:從HuggingFace倉庫下載模型權重,或直接使用GitHub提供的推理接口和示例代碼進行部署。
  • 選擇推理模式:根據任務複雜度選擇Whole-Proof模式直接生成完整證明,或選擇Sketch-Proof模式先輸出引理框架再逐步補全。
  • 輸入問題:將自然語言數學問題或待證定理輸入模型,模型自動調用Lean4編譯器進行實時驗證,根據反饋迭代優化證明過程。
  • 獲取結果:模型輸出經Lean4驗證通過的形式化證明,可直接用在數學形式化驗證、定理庫構建或學術研究。

LongCat-Flash-Prover的項目地址

  • GitHub倉庫:https://github.com/meituan-longcat/LongCat-Flash-Prover
  • HuggingFace模型庫:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
  • 技術論文:https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

LongCat-Flash-Prover的同類競品對比

模型 規模 MathOlympiad-Bench MiniF2F-Test PutnamBench 核心差異
LongCat-Flash-Prover 560B MoE 35.8% 93.9% 28.9% 原生TIR工具集成,草圖+證明雙模式
DeepSeek-Prover-V2-671B 671B 13.9% 82.4% 3.3% 此前開源SOTA,無草圖生成機制
Kimina-Prover-72B 72B 13.1% 84.0% 3.9% 早期開源方案,推理效率較低

LongCat-Flash-Prover的應用場景

  • 學術數學研究:輔助數學家將自然語言猜想轉化爲Lean4形式化陳述並自動驗證,加速證明發現過程,特別適用代數幾何、數論等需要嚴格邏輯推導的領域。
  • 數學競賽培訓:爲IMO、Putnam等高水平數學競賽提供解題思路驗證和形式化證明生成,幫助選手理解複雜問題的嚴謹證明結構。
  • 形式化驗證工程:在軟件 correctness 證明、密碼學協議驗證、硬件設計驗證等場景中,自動生成或輔助構造形式化證明,提升關鍵系統安全性。
  • 教育輔助工具:作爲智能數學助教,爲學生提供從問題理解到完整證明的逐步引導,實時檢測推理漏洞並給出修正建議。

© 版權聲明

相關文章

暫無評論

暫無評論...