Qwen2.5-Math – 阿里Qwen團隊開源的數學專項模型，超越GPT-4o

AI工具2年前 (2024)發佈新公告 AI管理員

2 0 0

Qwen2.5-Math是什麼

Qwen2.5-Math是由阿里巴巴Qwen團隊推出的開源AI數學模型，是Qwen2-Math的升級版，支持中英雙語。模型通過大規模數學數據預訓練，結合CoT、PoT和TIR推理方法，提升解決數學問題的能力。Qwen2.5-Math系列包括不同規模的基礎模型和指令微調模型，其中72B-Instruct模型在MATH基準測試中表現優異，超越前代模型和GPT-4o。Qwen2.5-Math提供支持TIR的Demo，體驗數學解題能力。

Qwen2.5-Math的主要功能

雙語數學問題解決：支持中文和英文的數學問題解答，涵蓋從基礎算術到高等數學的廣泛領域。
鏈式思考（CoT）：逐步推理解決多步邏輯的問題，增強模型的數學推理能力。
工具集成推理（TIR）：基於外部工具（如Python解釋器）進行精確計算和複雜數學操作，提高計算精度。
大規模數據預訓練：在大量數學相關數據上進行預訓練，包括合成數據和真實世界數據，增強模型的數學理解。
指令微調：通過指令微調模型更好地理解和執行特定的數學解題指令。

Qwen2.5-Math的技術原理

大規模預訓練：構建高質量的數學預訓練數據集，用大量數學文本進行訓練。
鏈式思考（CoT）：通過展示問題解決的中間步驟增強模型的推理能力。
工具集成推理（TIR）：集成外部計算工具，提高模型在精確計算和算法操作方面的能力。
指令微調：在預訓練模型的基礎上，通過指令微調進一步提升模型的特定任務性能。
獎勵模型（RM）：開發專用的獎勵模型，用拒絕抽樣和強化學習來優化模型的解題過程。
迭代訓練和更新：基於獎勵模型指導數據迭代，用迭代訓練更新獎勵模型，形成正向循環。

Qwen2.5-Math的項目地址

項目官網：qwenlm.github.io/blog/qwen2.5-math
GitHub倉庫：github.com/QwenLM/Qwen2-Math
HuggingFace模型庫：https://huggingface.co/collections/Qwen/qwen25-math-66eaa240a1b7d5ee65f1da3e
arXiv技術論文：https://arxiv.org/pdf/2409.12122