VibeThinker-3B是什麼
VibeThinker-3B是新浪微博團隊開源的 30 億參數密集推理模型,基於 Qwen2.5-Coder-3B 構建,通過升級版 Spectrum-to-Signal 後訓練流程,在數學、編程等可驗證推理任務上達到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同級性能,探索小模型能力邊界並與傳統 Scaling Law 形成互補。

VibeThinker-3B的主要功能
-
高難度數學推理:在 AIME’26 達 94.3 分,HMMT’25 達 89.3 分,BruMO’25 達 93.8 分。
-
競技編程:LiveCodeBench v6 達 80.2 Pass@1,LeetCode 最新周賽/雙週賽通過率高達 96.1%。
-
STEM 推理:在 IMO-AnswerBench 達 76.4 分(+CLR 提升至 80.6),支持複雜科學問題求解。
-
指令遵循:IFBench 達 74.5 分,具備格式敏感和約束檢查能力。
-
測試時縮放(CLR):引入 Claim-Level 可靠性評估策略,可在推理階段進一步提升答案可靠性。
VibeThinker-3B的技術原理
-
基座模型:基於 Qwen2.5-Coder-3B 構建,30億參數密集架構未做改動,全部性能提升來自後訓練技術棧的極致優化。
-
Spectrum-to-Signal 範式:核心訓練流程分爲”頻譜階段”(SFT 擴展能力覆蓋)與”信號階段”(RLVR 精準優化可驗證任務)。
-
兩階段課程 SFT:第一階段廣泛覆蓋數學、編程、STEM 和對話能力,第二階段聚焦高難度長推理樣本,逐步遞進提升深度。
-
多樣性探索蒸餾:不追求單一最優解,而是保留多個有效推理路徑,增強模型在複雜問題上的泛化能力。
-
MGPO 強化學習:在 GRPO 基礎上增加額外權重,優先選擇對當前策略”既不太易也不太難”的樣本進行優化。
-
多領域順序 RL:嚴格按 Math → Code → STEM 的順序依次進行強化學習,實驗發現此順序對整體效果最優。

微信關注回覆“開源”,加入AI開源項目交流羣
如何使用VibeThinker-3B
-
下載模型:訪問 HuggingFace 或 GitHub 倉庫獲取模型權重。
-
本地部署:基於 transformers 等框架加載 3B 參數模型,支持消費級硬件運行。
-
調用推理:輸入數學、編程或 STEM 類問題,模型將輸出帶完整推理鏈(CoT)的答案。
-
啓用 CLR(可選):對數學類任務可開啓 Claim-Level 可靠性評估,進一步提升準確率。
VibeThinker-3B的核心優勢
- 極小參數,前沿性能:僅 3B 參數即可對標千億級前沿模型在可驗證推理任務上的表現。
- 課程式兩階段 SFT:從廣泛能力覆蓋到高難度長推理樣本,逐步提升推理深度。
- 多領域 RL 強化:按 Math → Code → STEM 順序依次進行強化學習,保留完整 64K 長上下文推理軌跡。
- 離線自蒸餾:篩選高質量軌跡進行統一蒸餾,優先學習學生模型尚未掌握的正確路徑。
VibeThinker-3B的項目地址
- GitHub倉庫:https://github.com/WeiboAI/VibeThinker
- HuggingFace模型庫:https://huggingface.co/WeiboAI/VibeThinker-3B
- arXiv技術論文:https://arxiv.org/pdf/2606.16140
VibeThinker-3B的同類競品對比
| 維度 | VibeThinker-3B | Claude Opus 4.5 |
|---|---|---|
| 開發方 | 新浪微博 AI 團隊 | Anthropic |
| 參數規模 | 3B(密集模型) | 未公開(推測數百B~千億級) |
| 開源程度 | 完全開源(論文+代碼+權重) | 閉源(僅 API/產品) |
| 部署方式 | 本地消費級 GPU 可運行 | 僅雲端 API |
| 定位 | 可驗證推理專用引擎 | 通用智能助手 |
VibeThinker-3B的應用場景
-
算法競賽備賽:輔助解答 AIME、HMMT、IMO 等數學競賽題目,提供多路徑推理參考。
-
編程面試訓練:刷 LeetCode、LiveCodeBench 等編程題,獲取帶詳細解釋的正確解法。
-
STEM 教育輔導:爲物理、化學、生物等理科問題提供逐步推導的解題過程。
-
邊緣端推理部署:因模型僅 3B 參數,適合手機、IoT 設備等低算力環境本地運行。
-
推理能力研究:作爲小模型推理上限的探索基準,供學術界研究 Scaling Law 的替代路徑。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...