DeepSeek-Prover-V1.5 – 70億參數的開源數學大模型

AI工具2年前 (2024)發佈新公告 AI管理員

7 0 0

DeepSeek-Prover-V1.5是什麼

DeepSeek-Prover-V1.5是由DeepSeek團隊開發的開源數學大模型，擁有70億參數。模型通過結合強化學習（RLPAF）和蒙特卡洛樹搜索（特別是RMaxTS變體），在數學定理證明方面取得了顯著的效率和準確性提升。在高中和大學級別的數學問題上，DeepSeek-Prover-V1.5在Lean 4平台上的表現超越了其他所有開源模型，創造了新的最先進水平（SOTA）。不僅能驗證現有證明，還有潛力幫助創造新的數學知識，推動數學研究進入“大數學”時代。

DeepSeek-Prover-V1.5的主要功能

強化學習優化：模型採用基於證明助手反饋的強化學習（RLPAF），通過Lean證明器的驗證結果作爲獎勵信號，優化證明生成過程。
蒙特卡洛樹搜索：引入RMaxTS算法，一種蒙特卡洛樹搜索的變體，用於解決證明搜索中的獎勵稀疏問題，增強模型探索行爲。
證明生成能力：模型能生成高中和大學級別的數學定理證明，顯著提高了證明的成功率。
預訓練與微調：在高質量數學和代碼數據上進行預訓練，並針對Lean 4代碼補全數據集進行監督微調，提升了模型的形式化證明能力。
自然語言與形式化證明對齊：用DeepSeek-Coder V2在Lean 4代碼旁註釋自然語言思維鏈，將自然語言推理與形式化定理證明相結合。

DeepSeek-Prover-V1.5的技術原理

預訓練（Pre-training）：DeepSeek-Prover-V1.5在數學和代碼數據上進行了進一步的預訓練，專注於Lean、Isabelle和Metamath等形式化數學語言，以增強模型在形式化定理證明和數學推理方面的能力。
監督微調（Supervised Fine-tuning）：使用特定的數據增強技術，包括在Lean 4代碼旁邊添加自然語言的思維鏈註釋，以及在證明代碼中插入中間策略狀態信息，以此來提高模型對自然語言和形式化證明之間一致性的理解。
強化學習（Reinforcement Learning）：採用GRPO算法進行基於證明助手反饋的強化學習，利用Lean證明器的驗證結果作爲獎勵信號，進一步優化模型，使其與形式化驗證系統的要求更加一致。
蒙特卡洛樹搜索（Monte-Carlo Tree Search, MCTS）：引入了一種新的樹搜索方法，通過截斷和重新開始機制，將不完整的證明分解爲樹節點序列，並利用這些節點繼續證明生成過程。
內在獎勵驅動的探索（Intrinsic Rewards for Exploration）：通過RMaxTS算法，DeepSeek-Prover-V1.5使用內在獎勵來驅動探索行爲，鼓勵模型生成多樣化的證明路徑，解決證明搜索中的獎勵稀疏問題。