VibeThinker-3B – 微博開源的 30 億參數密集推理模型

0 0 0

VibeThinker-3B是什麼

VibeThinker-3B是新浪微博團隊開源的 30 億參數密集推理模型，基於 Qwen2.5-Coder-3B 構建，通過升級版 Spectrum-to-Signal 後訓練流程，在數學、編程等可驗證推理任務上達到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同級性能，探索小模型能力邊界並與傳統 Scaling Law 形成互補。

VibeThinker-3B的主要功能

高難度數學推理：在 AIME’26 達 94.3 分，HMMT’25 達 89.3 分，BruMO’25 達 93.8 分。
競技編程：LiveCodeBench v6 達 80.2 Pass@1，LeetCode 最新周賽/雙週賽通過率高達 96.1%。
STEM 推理：在 IMO-AnswerBench 達 76.4 分（+CLR 提升至 80.6），支持複雜科學問題求解。
指令遵循：IFBench 達 74.5 分，具備格式敏感和約束檢查能力。
測試時縮放（CLR）：引入 Claim-Level 可靠性評估策略，可在推理階段進一步提升答案可靠性。

VibeThinker-3B的技術原理

基座模型：基於 Qwen2.5-Coder-3B 構建，30億參數密集架構未做改動，全部性能提升來自後訓練技術棧的極致優化。
Spectrum-to-Signal 範式：核心訓練流程分爲”頻譜階段”（SFT 擴展能力覆蓋）與”信號階段”（RLVR 精準優化可驗證任務）。
兩階段課程 SFT：第一階段廣泛覆蓋數學、編程、STEM 和對話能力，第二階段聚焦高難度長推理樣本，逐步遞進提升深度。
多樣性探索蒸餾：不追求單一最優解，而是保留多個有效推理路徑，增強模型在複雜問題上的泛化能力。
MGPO 強化學習：在 GRPO 基礎上增加額外權重，優先選擇對當前策略”既不太易也不太難”的樣本進行優化。
多領域順序 RL：嚴格按 Math → Code → STEM 的順序依次進行強化學習，實驗發現此順序對整體效果最優。

VibeThinker-3B – 微博開源的 30 億參數密集推理模型

微信關注回覆“開源”，加入AI開源項目交流羣

如何使用VibeThinker-3B

下載模型：訪問 HuggingFace 或 GitHub 倉庫獲取模型權重。
本地部署：基於 transformers 等框架加載 3B 參數模型，支持消費級硬件運行。
調用推理：輸入數學、編程或 STEM 類問題，模型將輸出帶完整推理鏈（CoT）的答案。
啓用 CLR（可選）：對數學類任務可開啓 Claim-Level 可靠性評估，進一步提升準確率。

VibeThinker-3B的核心優勢

極小參數，前沿性能：僅 3B 參數即可對標千億級前沿模型在可驗證推理任務上的表現。
課程式兩階段 SFT：從廣泛能力覆蓋到高難度長推理樣本，逐步提升推理深度。
多領域 RL 強化：按 Math → Code → STEM 順序依次進行強化學習，保留完整 64K 長上下文推理軌跡。
離線自蒸餾：篩選高質量軌跡進行統一蒸餾，優先學習學生模型尚未掌握的正確路徑。

VibeThinker-3B的項目地址

GitHub倉庫：https://github.com/WeiboAI/VibeThinker
HuggingFace模型庫：https://huggingface.co/WeiboAI/VibeThinker-3B
arXiv技術論文：https://arxiv.org/pdf/2606.16140

VibeThinker-3B的同類競品對比

維度	VibeThinker-3B	Claude Opus 4.5
開發方	新浪微博 AI 團隊	Anthropic
參數規模	3B（密集模型）	未公開（推測數百B~千億級）
開源程度	完全開源（論文+代碼+權重）	閉源（僅 API/產品）
部署方式	本地消費級 GPU 可運行	僅雲端 API
定位	可驗證推理專用引擎	通用智能助手