智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

AI教程1個月前發佈新公告 AI管理員

0 0 0

GLM-5.1 這麼能打？！複雜軟件工程超越 Claude Opus 4.6？！

上月底，智譜 GLM-5.1 對所有 GLM Coding plan 用戶開放。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

評論區直接變成了自來水現場，對很多程序員來說，GLM 早已是不可或缺的電子牛馬。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

吊了大家十幾天胃口，GLM-5.1 的模型參數和測評數據終於正式公佈。看完數據我只能說：智譜牛比！

GLM-5.1 首次在權威榜單 Artificial Analysis 上對齊 Opus 4.6，還在高難度的 SWE-bench Pro 基準測試裏，刷新了全球最佳成績，超越了行業標杆 Claude Opus 4.6！要知道，這個測試考的可是解決真實複雜工程的能力，含金量極高。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

同時 GLM-5.1 還包攬 Coding 綜合榜單開源第一，國產第一！全球第三。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

跑分這麼頂，社區口碑這麼好，這代 GLM-5.1 到底是不是真如傳言般擁有國產天花板的潛質？是騾子是馬，咱們一起實測看看。

01. GLM-5.1

我在 Claude Code 中實測了 3 個案例，主要測試 GLM-5.1 的長鏈路執行能力，主要測試 GLM-5.1 在真實業務場景下的長鏈路執行能力與端到端交付能力。

平時找選題很費精力，我們嘗試把最近驗證過的選題思路做成一個直觀的 Web 應用。

Case 1 靈感選題器

從0開始開發一個靈感選題器的網頁應用

需求：當用戶輸入靈感選題時，全網搜索並調研抖音、小紅書上相關討論的熱度、熱門角度、常見觀點、讀者最關心的問題，以及同類內容是否已經同質化，結合熱度、競爭情況、內容差異化空間和傳播潛力，對該選題值不值得寫給出明確判斷（評分0-100）。如果該選題值得寫，隨機生成完整文章策劃方案，包含標題建議、文章切入角度、開場hook、正文結構框架、每一部分可展開的核心觀點。

這個案例涉及前後端和 AI 調用的複合需求，GLM-5.1 像個高級工程師一樣，直接把任務拆成了四個清晰的步驟：

創建目錄結構；
編寫 Python Flask 後端（app.py）；
編寫前端 HTML/CSS/JS；
編寫配置文件。

在涉及創建文件夾、寫入本地文件這類操作前，GLM-5.1 會主動發起授權確認，整體可控性比較強。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

每完成一步，GLM-5.1 都會實時記錄並輸出反饋，整體的方向一直很準確。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

只用了 8 分鐘左右，整個項目就構建完成了。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

GLM-5.1 提出選題分析可以採用更準確的 AI 深度分析，默認選項是 Claude 模型；還考慮到沒有 AI 的話，可以使用算法分析。

我們讓它把配置 AI 切換成 GLM-5.1，並完成配置。

GLM-5.1 會自動幫我們調整了 .env 配置文件和接口代碼。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

我們只需要手動在 .env 文件中填入我們的 API key，就可以啓動項目啦。

前端界面非常簡潔。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

我們運行一下試試，結論非常清晰，前端頁面的排版也相當不錯。

整個過程中，除了需要我們手動填入 API key，其餘 100% 都是由 GLM-5.1 自動完成。

Case 2 本地 API 管理系統

我們平時可能會嘗試、使用各個不同的模型，API 管理就成了問題。有些 API 只在生成的時候可以複製一次，我一般都是發給自己，但找起來特別麻煩，而且不好區分。

這次我用 GLM-5.1 嘗試開發一個本地運行的 API 管理系統，一站式管理好我所有的 API Key。

從 0 開發一個本地運行的 API 管理系統。要求支持新增、編輯、刪除 API 配置，保存 Base URL、API Key、模型名、請求頭等信息；支持按服務商分類管理；敏感字段需脫敏展示；支持發起調用測試並展示響應結果；記錄調用日誌、響應耗時和錯誤信息；整個系統需可在本地直接運行，並提供完整的啓動說明。把整個應用創建到 D:\KJ\【指定文件夾】

面對“本地運行、指定目錄落盤、配置管理、調用測試、日誌記錄、脫敏展示”這樣複雜的混合約束，GLM-5.1 依舊是先確定項目骨架，再選擇合適的技術路徑補充細節。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

實際生成的應用也是開箱即用，UI 的交互動效都設計的很講究。

Case 3 跨模態深度數據調研

收集過去 12 個月內全球銷量排名前 5 的汽車集團發佈的重點新車型，按發佈時間、定位、價格區間、核心賣點、目標人羣和市場策略整理成一份對比報告，最終輸出爲 Word 文檔並保存到 D:\KJ\【指定文件夾】。要求在開始前先明確銷量統計口徑、新品定義和信息來源標準，報告中需附帶信息來源，並單獨總結各家新品策略的共同點與差異點。

這個任務的複雜度極高，因爲全球前5車企的全部新品信息不可能存在於單一網頁中，這需要模型進行海量網頁的穿梭檢索、信息過濾和交叉驗證。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

GLM-5.1 會主動調用 Web Search，先查證並確認全球汽車集團銷量排名和新品車型。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

在完成複雜的數據蒐集和對比分析後，GLM-5.1 繼續調用 Python 和 python-docx，自動生成報告腳本，並將結果寫入指定路徑的 Word 文檔。

過程中遇到源碼編碼和語法報錯，GLM-5.1 還能自行檢測、定位問題並嘗試修復，直到繼續推進交付。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

在長達一個多小時、歷經數十輪網頁檢索和成千上萬字的信息吞吐後，絕大多數大模型早就宕機了，要麼陷入搜索死循環，要麼早就把最開始保存爲 Word 到指定目錄的指令拋之腦後。

但 GLM-5.1 的長文本記憶和目標感極其穩定，經過一個半小時的極限抗壓，完美展現了它從多步任務規劃到、複雜聯網檢索、邏輯綜合、代碼編寫、本地文件I/O 的全鏈路能力。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

我們甚至可以去喝杯咖啡，回來直接驗收成品。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

02. 如何絲滑接入 GLM-5.1

目前，所有的 GLM Coding Plan 用戶，都可以使用 GLM-5.1 模型了。配置方法非常簡單：

我們打開 Claude 所在的文件夾，找到 ~\.claude\setting.json 文件，把配置信息改爲：

{

“env”: {

“ANTHROPIC_BASE_URL”: “https://open.bigmodel.cn/api/anthropic”,

“ANTHROPIC_API_KEY”: “你的真實 API KEY”,

“ANTHROPIC_DEFAULT_HAIKU_MODEL”: “glm-4.5-air”,

“ANTHROPIC_DEFAULT_SONNET_MODEL”: “glm-5.1”,

“ANTHROPIC_DEFAULT_OPUS_MODEL”: “glm-5.1”

}

}

重啓 Claude，就可以看到默認模型已經變成了 GLM-5.1。

智譜 GLM-5.1 開源實測：編程能力登頂 SWE-bench Pro

我們還可以輸入下列指令查看當前模型信息：