
DeepSeek V4 系列模型預覽版上線了,最明顯的變化就是把 1M 上下文變成了 DeepSeek 所有官方服務的標配。
DeepSeek V4 系列有兩款模型:旗艦版 DeepSeek-V4-Pro 和輕量版 DeepSeek-V4-Flash。
看到 DeepSeek 公佈的最新評測數據顯示,DeepSeek-V4-Pro 的推理能力已經追平了頂級的閉源模型,世界知識僅次於 Gemini-Pro-3.1,Agentic Coding 評測表現也穩居開源模型前列。

更有意思的是,深度求索公司內部員工使用的 Agentic Coding 模型,評測反饋使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式。
巧合的是,前陣子智譜剛發佈的 GLM-5.1,也高調宣佈在代碼測評裏跑贏了 Opus 4.6。
大家都在宣稱自己能拳打 Sonnet、腳踢 Opus。但比起榜單成績,我相信大家和我一樣,更關心的肯定是:在真實的開發流程中,到底誰更好用?
於是我把 DeepSeek-V4-Pro、GLM-5.1 全部接入到 Claude Code 中,來了一場 Coding PK!
廢話不多說,直接上實測。
01. 實測對比
天氣卡片
你是 Apple Inc 的頂級 UI 設計師,以 iOS 18 的設計風格(毛玻璃效果、高斯模糊、動態漸變、細膩陰影)創建一個單個HTML文件(包含完整CSS和JavaScript)。實現橫版天氣頁面,包含4個並排的動畫天氣卡片:
-晴天(太陽光線、動態光暈)
-大風(飄動雲朵、搖曳樹木、風線)
-暴雨(下落雨滴、形成水窪、閃電)
-暴雪(下落雪花、堆積效果)
卡片需深色背景,支持按鈕切換天氣狀態,實現流暢交互和微動效。代碼必須可直接運行,美觀度優先。
用純 CSS 實現太陽光線、雲朵、閃電等等元素,非常考驗模型對關鍵幀動畫的想象力。
DeepSeek-V4-Pro 用了 6 分多鐘把 4 種天氣元素都做出來了,還加上了正常、溫和、極端 3 種模式選擇,看起來挺不錯的。
天氣卡片切換的時候不太絲滑,視覺質感還可以再優化優化。
只用了不到 4 分鐘,頁面排版和 DeepSeek-V4-Pro 相似,動效不僅形象,而且非常流暢、自然。
天氣卡片切換時,用的是高亮提醒,切換非常絲滑。
商業網站
做一個高端水晶手鍊產品展示頁。
只有一句極簡 Prompt,全靠大模型自己補充商業化網頁的設計感和排版。
GLM-5.1 依舊不到 4 分鐘就搞定了。網頁設計的很高級,大面積留白,配色也很合適,光看第一版,就感覺高級感滿滿了。頁面中的小卡片都做了懸停效果,是可以直接拿來用的水平。
DeepSeek-V4-Pro 花了 6 分鐘左右,網頁的版式非常不錯。但是水晶的渲染有點減分,首頁的水晶的圖層順序沒處理好,旋轉時前後遮擋很不自然。
全屏畫板
做一個互動式的全屏水彩畫板網頁工具,用戶選擇畫筆顏色後,可以在畫布中點擊並拖動鼠標自由作畫,畫布會產生類似水彩顏料滴入清水後緩慢擴散的效果,整體像在水面上作畫,暈染自然、柔和、舒展,有明顯的流動感。
####核心視覺要求:
– 畫跡呈現爲連續的柔和水紋。用戶拖動鼠標時,顏色先在筆觸附近形成較濃的柔和色團,然後緩慢向外暈染,擴散範圍逐漸變大,邊緣逐漸羽化,形成自然的漸隱過渡。
– 後畫上去的顏色會覆蓋且壓住之前的顏色,請使用更接近水彩混合方式,避免使用純 additive blending 導致畫面越來越亮。顏色可以輕微融合,但要保留用戶剛畫下去時的主要顏色。
– 每一筆在落下後緩慢擴散幾秒,像顏料在水中慢慢舒展。
– 網站要有輕微動畫,比如標題緩慢浮動,控制面板淡入,按鈕 hover 時有發光效果。整體交互要順滑,適合用戶無腦點開玩幾分鐘,達到解壓效果。
– 控制面板使用毛玻璃效果,懸浮在畫面上方或側邊,包含畫筆顏色切換、畫筆粗細調節、清空畫布、保存圖片按鈕。暈染強度調節影響擴散速度、擴散範圍和邊緣柔化程度。
####技術要求:
– 使用 HTML、CSS、原生 JavaScript 實現。
– 使用 canvas 繪製主要視覺效果。
– 不要依賴後端。
– 代碼放在單個 HTML 文件中即可運行。
– 適配桌面端和移動端。
– 移動端支持手指觸摸繪製。
– 畫布要根據窗口大小自動縮放。
– 保存圖片功能可以把當前 canvas 導出爲 PNG。
DeepSeek 9分31秒完成。功能方面都在,而且筆觸和暈染調節都很好用,可以清空畫布和保存圖片。DeepSeek做的暈開的效果非常自然。
暈染的檔位雖然設置了0-100,但實際調到25以上,顏色就跟奶油一樣化開了,很難在畫布上留痕了。
GLM-5.1用了大概 6 分鐘。界面配色和 DeepSeek-V4-Pro 很像。功能還是挺全的,但是畫筆的軌跡渲染的不是很連貫,畫的線條不流暢。
功能方面都實現的挺不錯的。
從我測試的這幾個偏前端的案例來看,GLM-5.1 無論在出代碼的速度,還是頁面的最終質感上,DeepSeek-V4-Pro確實略顯平庸。
02. Codex 專業點評
前面聊的更多是我個人的直觀感受,但是代碼真實的質量如何,還得靠行家。這次我特意請了一個專業外援 Codex,幫我們從需求理解、代碼結構、性能意識等等多個專業維度點評點評。
天氣卡片對比分析
視覺上我覺得 GLM-5.1 生成的卡片觀感好很多,結構清晰,動畫也流暢,但在 Codex 的內行眼裏,DeepSeek-V4-Pro 反而更勝一籌。
DeepSeek-V4-Pro 生成的天氣卡片是靠大量 canvas 和動畫堆起來的,不僅邏輯嚴密,局部動畫細節、材質表現、光影、層次,都處理的相當漂亮。

商業網站
DeepSeek-V4-Pro 生成的頁面,是典型的技術驅動,canvas 很多,動畫很多,局部很精緻,但信息結構沒有被很好地組織起來。
GLM-5.1 的頁面結構、品牌信息、CTA、視覺主圖是成體系的,在產品完成度上全面領先。很多內容是用數據結構去驅動的,DOM + CSS 搞定佈局和展示,邏輯清晰,維護成本低,也更接近真實團隊的開發方式。

全屏畫板對比分析
DeepSeek-V4-Pro 生成的頁面,更像一個可交互的小工具。功能很全,但核心視覺是短板。
GLM-5.1 把重點放在畫出來像不像。CMY 減色、顏料沉積、granulation 顆粒感這些細節一加進去,整個畫板的質感瞬間就不一樣了。

03. 一些分享
以往我們測大模型,更多是看功能能不能跑通,會不會有報錯。現在,光跑通已經不太夠了。
AI 編程進入到網頁、產品 Demo、交互工具這些更接近真實交付的場景之後,我們開始在意更多感性的東西:頁面有沒有設計感,功能用起來夠不夠絲滑,動效自不自然?
不得不承認,我們對 AI 編程的評判標準,正在肉眼可見地提高。各家大模型也在用實打實的進化,一點點抬高我們對 AI 編程的期待。
說回這次的主角 DeepSeek V4。這回放出來的雖然只是個預覽版,但表現確實可圈可點。底層的數據量更大了,上下文也飆升到 1M,加上現在還在打折期,用起來性價比極高。雖然它沒有當年 R1 橫空出世時、一鳴驚人的感覺,依舊意義深遠。
DeepSeek 團隊已經擴充到 300 人的規模,開始了新一輪的融資。目前,還已經悄悄完成了跟華爲、寒武紀等國內頭部 AI 芯片廠商的深度優化適配。咱們的國產大模型,正在往更完整的國產算力生態裏紮根。
現在,就等 DeepSeek V4 的正式版了。
原文鏈接:實測 DeepSeek V4 & GLM-5.1,Vibe Coding 誰更強?