DeepSeek-V4是什麼
DeepSeek-V4是DeepSeek推出的新一代大語言模型系列預覽版,擁有百萬字超長上下文窗口,在Agent能力、世界知識與推理性能方面達到開源領域領先水平。模型包含deepseek-v4-pro 和 deepseek-v4-flash 兩個版本,分別定位高性能與經濟高效,均已開源並提供API服務,支持非思考與思考雙模式,爲長文本處理與智能體應用提供普惠化基礎設施。

DeepSeek-V4的主要功能
-
百萬上下文處理:原生支持1M Token超長文本理解與記憶,爲官方服務標配。
-
混合注意力機制:CSA與HCA架構大幅降低長上下文計算與顯存開銷。
-
Agent編碼增強:針對Claude Code、OpenClaw等主流Agent框架深度優化。
-
雙模式推理:支持非思考與思考模式,後者可通過reasoning_effort參數調節強度。
-
多領域專家融合:通過OPD蒸餾整合數學、代碼、Agent等領域專家能力。
-
經濟高效選擇:Flash版本用更低參數實現接近Pro的推理性能,API成本顯著降低。
DeepSeek-V4的技術原理
-
CSA壓縮稀疏注意力:將每m個token的KV壓縮爲1個條目,通過Lightning Indexer計算索引分數並執行Top-k稀疏選擇,結合滑動窗口與Attention Sink機制保留局部依賴。
-
HCA重度壓縮注意力:以更大壓縮比m’將KV條目合併爲單個條目,保持密集註意力而不採用稀疏選擇,進一步降低計算量。
-
mHC流形約束超連接:將殘差映射矩陣通過Sinkhorn-Knopp算法投影到雙隨機矩陣流形,約束譜範數不超過1,增強深層信號傳播穩定性。
-
Muon優化器:模型採用混合Newton-Schulz迭代對梯度矩陣進行正交化,分快速收斂與精確穩定兩個階段,支持大規模MoE高效訓練。
-
FP4量化感知訓練:對MoE專家權重和CSA索引器QK路徑進行FP4量化,用FP8擴展動態範圍實現無損反量化,降低內存與計算開銷。
DeepSeek-V4的性能體現
- 知識能力
-
世界知識領先開源:SimpleQA-Verified達57.9%,超越所有已評測開源模型20個百分點,僅稍遜於Gemini-3.1-Pro(75.6%)。
-
中文知識突出:Chinese-SimpleQA達84.4%,大幅領先K2.6(75.9%)與GLM-5.1(75.0%)。
-
教育知識接近前沿:MMLU-Pro 87.5%、GPQA Diamond 90.1%,與GPT-5.4持平,略低於Gemini-3.1-Pro。
-
- 推理與代碼能力
-
數學競賽比肩閉源:HMMT 2026 Feb達95.2%,IMOAnswerBench達89.8%,超越K2.6與GLM-5.1,接近GPT-5.4與Opus-4.6。
-
代碼競賽首次開源追平閉源:Codeforces Rating達3206,與GPT-5.4(3168)相當,當前排名人類選手第23位。
-
高難度推理突破:Apex Shortlist達90.2%,超越GPT-5.4(78.1%)與Opus-4.6(85.9%);LiveCodeBench達93.5%,領先所有對比模型。
-
- Agent能力
-
軟件工程接近頂級閉源:SWE Verified達80.6%,與Opus-4.6(80.8%)基本持平;SWE Pro 55.4%、SWE Multilingual 76.2%。
-
終端操作領先開源:Terminal Bench 2.0達67.9%,超越K2.6(66.7%)、GLM-5.1(63.5%)與Opus-4.6(65.4%)。
-
工具調用泛化優秀:MCPAtlas Public 73.6%、Toolathlon 51.8%,在包含廣泛工具和MCP服務的評測中表現突出。
-
- 長上下文能力
-
百萬上下文檢索強勁:MRCR 1M達83.5%,超越Gemini-3.1-Pro(76.3%);128K內檢索性能高度穩定,1M時仍保持較強能力。
-
真實場景長文檔理解:CorpusQA 1M達62.0%,優於Gemini-3.1-Pro(53.8%)。
-
- 效率表現
-
計算量斷崖式下降:1M上下文下,V4-Pro單Token推理FLOPs僅爲V3.2的27%,V4-Flash僅爲10%。
-
KV緩存大幅壓縮:1M上下文下,V4-Pro累計KV緩存爲V3.2的10%,V4-Flash僅爲7%。
-
路由專家FP4量化:專家權重採用FP4存儲,未來硬件上理論可再提升1/3效率。
-

如何使用DeepSeek-V4
- 網頁端/App:訪問DeepSeek官網或官方App,選擇專家模式(Pro)或快速模式(Flash)。
- API調用:修改model參數爲
deepseek-v4-pro或deepseek-v4-flash,base_url保持不變。 - 思考模式:複雜Agent場景建議啓用思考模式並設置
reasoning_effort: max。 - 本地部署:通過Hugging Face或ModelScope下載開源權重自行部署。
DeepSeek-V4的關鍵信息和使用要求
-
版本規格:Pro版1.6T參數/49B激活,Flash版284B參數/13B激活,預訓練數據分別爲33T與32T。
-
上下文長度:兩個版本均支持1M Token,舊接口
deepseek-chat與deepseek-reasoner將於2026-07-24停用。 -
API定價(每百萬Token):Pro輸入緩存命中1元/未命中12元,輸出24元;Flash輸入緩存命中0.2元/未命中1元,輸出2元。
-
算力限制:Pro版當前服務吞吐有限,預計下半年昇騰950超節點批量上市後價格將大幅下調。
DeepSeek-V4的核心優勢
-
百萬上下文普惠化:1M Token超長上下文成爲官方服務標配,突破傳統注意力機制的二次計算瓶頸,使長文本任務與測試時縮放真正可行。
-
極致長上下文效率:通過CSA壓縮稀疏注意力與HCA重度壓縮注意力的混合架構,1M上下文下V4-Pro的單Token推理FLOPs僅爲V3.2的27%,KV緩存僅10%,Flash版更是低至10%與7%。
-
開源模型性能新標杆:V4-Pro-Max在知識、推理、代碼競賽等評測中全面領先前代開源模型,Agent編碼能力內部評測優於Claude Sonnet 4.5,交付質量接近Opus 4.6非思考模式。
-
雙版本靈活覆蓋:Pro版(1.6T/49B)定位頂級性能,Flash版(284B/13B)以極小激活參數實現接近的推理能力,API價格低至Pro的1/12,普惠不同預算場景。
-
Agent能力原生增強:針對Claude Code、OpenClaw等主流Agent框架專項優化,支持跨用戶消息邊界的連貫推理保留,在SWE、Terminal Bench等Agent評測中表現優異。
DeepSeek-V4的項目地址
- HuggingFace模型庫:https://huggingface.co/collections/deepseek-ai/deepseek-v4
- 技術論文:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek-V4的同類競品對比
| 對比維度 | DeepSeek-V4-Pro | Claude Opus 4.6 | Kimi K2.6 |
|---|---|---|---|
| 模型定位 | 開源高性能MoE | 閉源頂級通用 | 開源Agent智能 |
| 開源狀態 | 完全開源 | 閉源API | 開源/開放API |
| 總參數量 | 1.6T | 未公開 | 未公開 |
| 激活參數 | 49B | 未公開 | 未公開 |
| 上下文長度 | 1M Token | 200K | 1M Token |
| 核心架構 | CSA+HCA混合注意力 | 傳統Transformer | MoE+長上下文 |
| MMLU-Pro | 87.5 | 89.1 | 87.1 |
| SimpleQA | 57.9 | 46.2 | 36.9 |
| Codeforces | 3206 | – | – |
| SWE Verified | 80.6 | 80.8 | 80.2 |
| Terminal Bench | 67.9 | 65.4 | 66.7 |
| MRCR 1M | 83.5 | 92.9 | – |
| API輸入價格 | 12元/百萬Token | 約150元/百萬Token | 約60元/百萬Token |
| 長上下文效率 | KV緩存僅爲V3.2的10% | 標準KV緩存 | 高效但細節未公開 |
DeepSeek-V4的應用場景
-
長文檔分析:支持百萬字級論文、報告、法律合同的全文理解與跨章節推理。
-
智能體編碼:在Claude Code、OpenClaw等框架中執行復雜代碼生成、重構與調試任務。
-
多輪工具調用:在Agent工作流中保留完整推理歷史,支持跨用戶消息邊界的連貫思考。
-
知識密集型問答:在世界知識評測中大幅領先開源模型,適用於教育、科研與專業諮詢。
-
白領辦公任務:模型在中文寫作、信息分析、文檔生成與編輯等場景表現優異。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...