Kimina-Prover – 月之暗面聯合 Numina 推出的數學定理證明模型

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

Kimina-Prover是什麼

Kimina-Prover是月之暗面與Numina團隊合作推出的大型數學定理證明模型，模型採用大規模強化學習訓練，能以類似人類的方式進行推理，在Lean 4語言中嚴謹地證明數學定理。通過獨特的“形式化推理模式”，在推理過程中穿插非形式化推理和Lean 4代碼片段，模擬人類解決問題的策略。 Kimina-Prover在miniF2F基準測試中取得了80.7%的成績，超過此前最佳水平10.6%，創下新高。性能隨着模型規模增大和計算資源增加而顯著提升，展現出高樣本效率和良好的可擴展性。模型的1.5B和7B參數版本已開源。

Kimina-Prover的主要功能

基於強化學習：Kimina-Prover 是首個通過大規模強化學習訓練的大型形式化推理模型，能以類似人類的方式進行推理，在 Lean 4 語言中嚴謹地證明數學定理。
高效推理模式：模型採用了一種稱爲“形式化推理模式”的結構化推理模式，通過在推理過程中穿插非形式化推理和相關的 Lean 4 代碼片段，使模型能更好地模擬人類解決問題的策略。
樣本效率高：在採樣次數較少的情況下，Kimina-Prover 能取得較好的結果，隨着計算資源的增加，性能會顯著提升。
模型規模與性能正相關：與以往的神經定理證明器不同，Kimina-Prover 的性能隨着模型規模的增大而顯著提高。

Kimina-Prover的技術原理

自動形式化：爲了構建一個多樣化的問題集，研究人員訓練了一個模型，將自然語言問題陳述自動翻譯成 Lean 4 代碼，並以佔位符證明結束。
強化學習訓練：在監督微調（SFT）階段之後，模型通過強化學習進一步增強其形式化定理證明能力。在每次迭代中，模型會從問題集中採樣一批問題，並生成多個候選解決方案，然後使用 Lean 編譯器驗證這些解決方案的正確性。

Kimina-Prover的性能表現

基準測試成績：在 miniF2F 基準測試中，Kimina-Prover 取得了 80.7% 的成績，超過了此前的最佳水平（SOTA）模型 10.6%，創下新高。
與通用大模型對比：在 miniF2F 基準測試及其子集（如 IMO 和 AIME）中，Kimina-Prover 顯著優於 OpenAI 的 o3 和 Gemini 2.5 Pro 等通用推理模型。

Kimina-Prover的項目地址

Github倉庫：https://github.com/MoonshotAI/Kimina-Prover-Preview/tree/master
HuggingFace模型庫：https://huggingface.co/collections/AI-MO/kimina-prover-preview
arXiv技術論文：https://arxiv.org/pdf/2504.11354

Kimina-Prover的應用場景

科研輔助：Kimina-Prover 在數學研究領域具有巨大的應用潛力。能幫助數學家和研究人員快速驗證複雜的數學定理，提供嚴謹的證明過程。
軟件測試：在軟件開發過程中，Kimina-Prover 可以用於驗證軟件的邏輯正確性。通過將軟件的算法和邏輯轉換爲數學定理的形式，模型可以驗證這些定理的正確性，確保軟件的可靠性和穩定性。
算法驗證：在人工智能和機器學習領域，Kimina-Prover 可以用於驗證算法的正確性和可靠性，確保在理論上是正確的。
風險評估：在金融領域，Kimina-Prover 可以用於驗證風險評估模型的數學基礎，確保這些模型的準確性和可靠性。
工程設計驗證：在工程設計中，Kimina-Prover 可以用於驗證設計的數學模型和公式。在建築結構設計、機械設計等領域，模型可以驗證設計的穩定性和安全性。

# AI工具