Kimina-Prover – 月之暗面聯合 Numina 推出的數學定理證明模型

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

Kimina-Prover是什麼

Kimina-Prover是月之暗面與Numina團隊合作推出的大型數學定理證明模型,模型採用大規模強化學習訓練,能以類似人類的方式進行推理,在Lean 4語言中嚴謹地證明數學定理。通過獨特的“形式化推理模式”,在推理過程中穿插非形式化推理和Lean 4代碼片段,模擬人類解決問題的策略。 Kimina-Prover在miniF2F基準測試中取得了80.7%的成績,超過此前最佳水平10.6%,創下新高。性能隨着模型規模增大和計算資源增加而顯著提升,展現出高樣本效率和良好的可擴展性。模型的1.5B和7B參數版本已開源。

Kimina-Prover – 月之暗面聯合 Numina 推出的數學定理證明模型

Kimina-Prover的主要功能

  • 基於強化學習:Kimina-Prover 是首個通過大規模強化學習訓練的大型形式化推理模型,能以類似人類的方式進行推理,在 Lean 4 語言中嚴謹地證明數學定理。
  • 高效推理模式:模型採用了一種稱爲“形式化推理模式”的結構化推理模式,通過在推理過程中穿插非形式化推理和相關的 Lean 4 代碼片段,使模型能更好地模擬人類解決問題的策略。
  • 樣本效率高:在採樣次數較少的情況下,Kimina-Prover 能取得較好的結果,隨着計算資源的增加,性能會顯著提升。
  • 模型規模與性能正相關:與以往的神經定理證明器不同,Kimina-Prover 的性能隨着模型規模的增大而顯著提高。

Kimina-Prover的技術原理

  • 自動形式化:爲了構建一個多樣化的問題集,研究人員訓練了一個模型,將自然語言問題陳述自動翻譯成 Lean 4 代碼,並以佔位符證明結束。
  • 強化學習訓練:在監督微調(SFT)階段之後,模型通過強化學習進一步增強其形式化定理證明能力。在每次迭代中,模型會從問題集中採樣一批問題,並生成多個候選解決方案,然後使用 Lean 編譯器驗證這些解決方案的正確性。

Kimina-Prover的性能表現

  • 基準測試成績:在 miniF2F 基準測試中,Kimina-Prover 取得了 80.7% 的成績,超過了此前的最佳水平(SOTA)模型 10.6%,創下新高。
  • 與通用大模型對比:在 miniF2F 基準測試及其子集(如 IMO 和 AIME)中,Kimina-Prover 顯著優於 OpenAI 的 o3 和 Gemini 2.5 Pro 等通用推理模型。

Kimina-Prover的項目地址

  • Github倉庫:https://github.com/MoonshotAI/Kimina-Prover-Preview/tree/master
  • HuggingFace模型庫:https://huggingface.co/collections/AI-MO/kimina-prover-preview
  • arXiv技術論文:https://arxiv.org/pdf/2504.11354

Kimina-Prover的應用場景

  • 科研輔助:Kimina-Prover 在數學研究領域具有巨大的應用潛力。能幫助數學家和研究人員快速驗證複雜的數學定理,提供嚴謹的證明過程。
  • 軟件測試:在軟件開發過程中,Kimina-Prover 可以用於驗證軟件的邏輯正確性。通過將軟件的算法和邏輯轉換爲數學定理的形式,模型可以驗證這些定理的正確性,確保軟件的可靠性和穩定性。
  • 算法驗證:在人工智能和機器學習領域,Kimina-Prover 可以用於驗證算法的正確性和可靠性,確保在理論上是正確的。
  • 風險評估:在金融領域,Kimina-Prover 可以用於驗證風險評估模型的數學基礎,確保這些模型的準確性和可靠性。
  • 工程設計驗證:在工程設計中,Kimina-Prover 可以用於驗證設計的數學模型和公式。在建築結構設計、機械設計等領域,模型可以驗證設計的穩定性和安全性。
© 版權聲明

相關文章

暫無評論

暫無評論...