智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

AI教程1周前發佈新公告 AI管理員
0 0

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

GLM-5.1 這麼能打?!複雜軟件工程超越 Claude Opus 4.6?!

上月底,智譜 GLM-5.1 對所有 GLM Coding plan 用戶開放。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

評論區直接變成了自來水現場,對很多程序員來說,GLM 早已是不可或缺的電子牛馬。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

吊了大家十幾天胃口,GLM-5.1 的模型參數和測評數據終於正式公佈。看完數據我只能說:智譜牛比!

GLM-5.1 首次在權威榜單 Artificial Analysis 上對齊 Opus 4.6,還在高難度的 SWE-bench Pro 基準測試裏,刷新了全球最佳成績,超越了行業標杆 Claude Opus 4.6!要知道,這個測試考的可是解決真實複雜工程的能力,含金量極高

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

同時 GLM-5.1 還包攬 Coding 綜合榜單開源第一,國產第一!全球第三。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

跑分這麼頂,社區口碑這麼好,這代 GLM-5.1 到底是不是真如傳言般擁有國產天花板的潛質?是騾子是馬,咱們一起實測看看。

 

01. GLM-5.1

 

我在 Claude Code 中實測了 3 個案例,主要測試 GLM-5.1 的長鏈路執行能力,主要測試 GLM-5.1 在真實業務場景下的長鏈路執行能力與端到端交付能力

平時找選題很費精力,我們嘗試把最近驗證過的選題思路做成一個直觀的 Web 應用。

Case 1 靈感選題器

從0開始開發一個靈感選題器的網頁應用

需求:當用戶輸入靈感選題時,全網搜索並調研抖音、小紅書上相關討論的熱度、熱門角度、常見觀點、讀者最關心的問題,以及同類內容是否已經同質化,結合熱度、競爭情況、內容差異化空間和傳播潛力,對該選題值不值得寫給出明確判斷(評分0-100)。如果該選題值得寫,隨機生成完整文章策劃方案,包含標題建議、文章切入角度、開場hook、正文結構框架、每一部分可展開的核心觀點。

這個案例涉及前後端和 AI 調用的複合需求,GLM-5.1 像個高級工程師一樣,直接把任務拆成了四個清晰的步驟:

  • 創建目錄結構;
  • 編寫 Python Flask 後端(app.py);
  • 編寫前端 HTML/CSS/JS;
  • 編寫配置文件。

在涉及創建文件夾、寫入本地文件這類操作前,GLM-5.1 會主動發起授權確認,整體可控性比較強。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

每完成一步,GLM-5.1 都會實時記錄並輸出反饋,整體的方向一直很準確。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

只用了 8 分鐘左右,整個項目就構建完成了。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

GLM-5.1 提出選題分析可以採用更準確的 AI 深度分析,默認選項是 Claude 模型;還考慮到沒有 AI 的話,可以使用算法分析。

我們讓它把配置 AI 切換成 GLM-5.1,並完成配置。

GLM-5.1 會自動幫我們調整了 .env 配置文件和接口代碼。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

我們只需要手動在 .env 文件中填入我們的 API key,就可以啓動項目啦。

前端界面非常簡潔。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

我們運行一下試試,結論非常清晰,前端頁面的排版也相當不錯。

整個過程中,除了需要我們手動填入 API key,其餘 100% 都是由 GLM-5.1 自動完成

Case 2 本地 API 管理系統

我們平時可能會嘗試、使用各個不同的模型,API 管理就成了問題。有些 API 只在生成的時候可以複製一次,我一般都是發給自己,但找起來特別麻煩,而且不好區分。

這次我用 GLM-5.1 嘗試開發一個本地運行的 API 管理系統,一站式管理好我所有的 API Key。

從 0 開發一個本地運行的 API 管理系統。要求支持新增、編輯、刪除 API 配置,保存 Base URL、API Key、模型名、請求頭等信息;支持按服務商分類管理;敏感字段需脫敏展示;支持發起調用測試並展示響應結果;記錄調用日誌、響應耗時和錯誤信息;整個系統需可在本地直接運行,並提供完整的啓動說明。把整個應用創建到 D:\KJ\【指定文件夾】

面對“本地運行、指定目錄落盤、配置管理、調用測試、日誌記錄、脫敏展示”這樣複雜的混合約束,GLM-5.1 依舊是先確定項目骨架,再選擇合適的技術路徑補充細節。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

實際生成的應用也是開箱即用,UI 的交互動效都設計的很講究。

Case 3 跨模態深度數據調研

收集過去 12 個月內全球銷量排名前 5 的汽車集團發佈的重點新車型,按發佈時間、定位、價格區間、核心賣點、目標人羣和市場策略整理成一份對比報告,最終輸出爲 Word 文檔並保存到 D:\KJ\【指定文件夾】。要求在開始前先明確銷量統計口徑、新品定義和信息來源標準,報告中需附帶信息來源,並單獨總結各家新品策略的共同點與差異點。

這個任務的複雜度極高,因爲全球前5車企的全部新品信息不可能存在於單一網頁中,這需要模型進行海量網頁的穿梭檢索、信息過濾和交叉驗證。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

GLM-5.1 會主動調用 Web Search,先查證並確認全球汽車集團銷量排名和新品車型。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

在完成複雜的數據蒐集和對比分析後,GLM-5.1 繼續調用 Python 和 python-docx,自動生成報告腳本,並將結果寫入指定路徑的 Word 文檔。

過程中遇到源碼編碼和語法報錯,GLM-5.1 還能自行檢測、定位問題並嘗試修復,直到繼續推進交付。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

在長達一個多小時、歷經數十輪網頁檢索和成千上萬字的信息吞吐後,絕大多數大模型早就宕機了,要麼陷入搜索死循環,要麼早就把最開始保存爲 Word 到指定目錄的指令拋之腦後。

但 GLM-5.1 的長文本記憶和目標感極其穩定,經過一個半小時的極限抗壓,完美展現了它從多步任務規劃到、複雜聯網檢索、邏輯綜合、代碼編寫、本地文件I/O 的全鏈路能力。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

我們甚至可以去喝杯咖啡,回來直接驗收成品。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro
智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

 

02. 如何絲滑接入 GLM-5.1

 

目前,所有的 GLM Coding Plan 用戶,都可以使用 GLM-5.1 模型了。配置方法非常簡單:

我們打開 Claude 所在的文件夾,找到 ~\.claude\setting.json 文件,把配置信息改爲:

{

“env”: {

“ANTHROPIC_BASE_URL”: “https://open.bigmodel.cn/api/anthropic”,

“ANTHROPIC_API_KEY”: “你的真實 API KEY”,

“ANTHROPIC_DEFAULT_HAIKU_MODEL”: “glm-4.5-air”,

“ANTHROPIC_DEFAULT_SONNET_MODEL”: “glm-5.1”,

“ANTHROPIC_DEFAULT_OPUS_MODEL”: “glm-5.1”

}

}

重啓 Claude,就可以看到默認模型已經變成了 GLM-5.1。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

我們還可以輸入下列指令查看當前模型信息:

/status

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

如果你一直使用的就是 GLM Coding Plan,也可以輸入指令切換到 GLM-5.1 模型:

/model

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

還沒有 Coding Plan 的友友們,最近 Coding Plan 套餐一直火爆,建議早上 10 點準點去搶。

一共有 3 個檔位的套餐,可以按需選擇:

  • Lite:入門價,適合小型輕量任務。
  • Pro:5 倍 Lite 用量額度,適合中型任務輕度開發,覆蓋多款精選 MCP 工具。
  • Max:20倍 Lite 用量額度,適合中大型任務深度開發,高峯期有資源優先保障。

智譜 GLM-5.1 開源實測:編程能力登頂 SWE-bench Pro

 

03. 一些分享

 

隨着大模型技術從百模大戰進入能力深水區,長程任務已經成爲檢驗模型智能的下一個標準。

一般的測試其實已經很難感知到國產模型跟海外模型的差距了。唯獨在官方 case 中一些具有深度、高難度的場景中,GLM-5.1 自主運行 8 小時、幾千字迭代+自審循環,纔對 GLM-5.1 跟 GLM-5 的差距有了更具體的感知。

GLM-5.1 結合 Claude Code 等工程化 Harness,展現出了跨文件工程架構和端到端項目交付的能力。

人工智能的發展路徑已經非常清晰:大模型正在從輔助編寫代碼的自動補全器,進化爲能理解需求、規劃架構並獨立完成工作的虛擬員工。

可以預見,未來,自然語言就是最強大的編程語言,而 GLM-5.1 無疑是當下能聽懂這門語言的頂尖執行者。

屬於國產大模型的生產力時代,真的來了。

原文鏈接:智譜 GLM-5.1 開源,跑分超 Claude Opus 4.6!深度實測來了

© 版權聲明

相關文章

暫無評論

暫無評論...