PawBench是什麼
PawBench 是通義實驗室推出的通用智能體評測基準,面向個人助理與 Agent 場景,將底座模型與運行框架(Harness)納入同一評測體系。PawBench v1.0 構建了 150 道真實任務、4050 個測試單元的評測集,通過 9 個模型 × 3 個 Harness 的交叉評測,能評估模型+Harness的最佳組合,幫 Harness 開發者精準定位問題並驗證優化。

PawBench的主要功能
-
聯合評測:將底座模型與運行框架(Harness)納入同一評測體系,評估 LLM × Harness 的聯合效果。
-
真實任務集:構建 150 道真實任務、4050 個測試單元,從 6 個高質量 Agent 評測集抽取並聚合。
-
五維標籤體系:每道題按應用場景、原子能力、複雜度(L1-L3)、輸入模態、運行環境進行結構化標註。
-
混合評分機制:結合自動評分器(規則斷言)與 LLM-as-judge(語義質量評估),分數範圍 0 到 1。
-
多切片榜單:支持 Overall(150 題)、Text(124 題)、Multimodal(26 題)三個維度自由切換查看。
-
全量軌跡保留:所有任務在 Docker 沙箱中運行,執行軌跡、grader 產物和環境快照完整保存。
-
深度診斷分析:支持按模型規模、模態、任務類型、技能領域等維度切片,定位 Harness 具體行爲缺陷。
PawBench的技術原理
-
交叉評測矩陣:構建 9 個模型 × 3 個 Harness × 150 道任務的三維評測空間,通過控制變量法隔離模型能力與框架能力的貢獻。
-
五維標籤體系:從應用場景、原子能力、複雜度、輸入模態、運行環境五個維度對任務進行結構化標註,支持多維度切片下鑽分析。
-
混合評分機制:結合確定性規則斷言(文件存在性、字段匹配、exit code)與 LLM-as-judge 語義評估,平衡客觀性與靈活性。
-
Docker 沙箱隔離:每個測試單元在獨立容器中運行,捕獲執行軌跡、workspace 產物及環境快照,確保結果可復現與問題可追溯。
-
產物級硬校驗:通過檢查文件是否落盤、diff 是否生成、測試是否通過等實質性指標,避免模型”虛假完工”。
如何使用PawBench
-
克隆源碼:訪問 GitHub 倉庫
agentscope-ai/PawBench克隆評測框架。 -
配置環境:寫入待測模型的 API 密鑰,並配置 Harness 運行環境。
-
選擇任務:從 150 道任務中選擇特定切片(Text/Multimodal)或全量任務啓動。
-
運行評測:在 Docker 沙箱中執行任務,系統自動保留執行軌跡與產物。
-
獲取評分:通過自動評分器與 LLM-as-judge 計算混合權重最終分數。
-
提交榜單:訪問
agentscope-ai.github.io/PawBench提交結果並查看排名。
PawBench的核心優勢
-
診斷 Harness :通過 4050 個測試單元的切片分析,精準定位框架在 Skill 加載、路徑感知、工具配置等方面的行爲缺陷。
-
真實復現性:基於 Docker 沙箱運行,執行軌跡與環境快照完整保留,失敗案例可逐層回溯覆盤。
-
零門檻開箱評測:還原開發者首次 clone 後的默認體驗,不追求”配齊所有 API Key 的理論上限”。
-
持續迴歸驗證:Harness 每次修復後可重新切片跑分,驗證優化是否真實對應到問題維度。
-
Harness 分差量化:首次證明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升級,爲小模型反超提供路徑。
PawBench的項目地址
- 項目官網:https://agentscope-ai.github.io/PawBench/
- GitHub倉庫:https://github.com/agentscope-ai/PawBench
PawBench的同類競品對比
| 對比維度 | PawBench | SWE-bench | AgentBench |
|---|---|---|---|
| 核心定位 | 評測”模型 + Harness”聯合效果 | 評測模型解決真實代碼問題的能力 | 評測模型作爲 Agent 在多環境中的通用能力 |
| Harness/框架評估 | ✅ 核心能力,明確隔離框架貢獻 | ❌ 否,僅評估模型本身 | ❌ 否,僅評估模型本身 |
| 任務來源 | 6 個 Agent 評測集聚合(150 道) | 真實 GitHub Issue/PR(2000+) | 多環境模擬任務(1000+) |
| 典型任務 | 辦公協同、軟件工程、自動化腳本、Web 搜索、Skill 調用 | 代碼 Bug 修復、功能實現、測試通過 | OS 操作、數據庫查詢、網頁瀏覽、卡牌遊戲、家務決策 |
| 評分機制 | 自動規則斷言 + LLM-as-judge 混合 | 單元測試通過/失敗(二元) | 環境規則評分(準確率/成功率) |
| 環境隔離 | Docker 沙箱 + 工作區產物校驗 | 代碼沙箱 + Git 倉庫快照 | 多環境容器(OS/DB/Web 等) |
| 任務標籤體系 | 五維標籤(場景/能力/複雜度/模態/環境) | 按編程語言/倉庫切片 | 按環境類型切片 |
| 榜單維度 | Overall / Text / Multimodal 三切片 | 按 Verified/Multimodal/Full 分榜 | 按環境(OS/DB/KG/DCG 等)分榜 |
| 失敗診斷能力 | 保留執行軌跡、產物快照、環境狀態,支持逐層回溯 | 保留代碼補丁與測試日誌 | 保留環境交互日誌 |
| 零配置評測 | 還原首次 clone 後的默認體驗 | 需配置代碼倉庫環境 | 需配置各環境容器 |
| 最佳適用 | Harness 開發者優化、模型+框架選型 | 代碼模型能力評估、編程助手研發 | 通用 Agent 能力評估、多模態決策研究 |
PawBench的應用場景
-
Harness 開發者優化:通過切片分析定位框架在 Skill 加載、路徑感知、Web 工具默認可用性等方面的具體缺陷。
-
模型選型參考:幫助用戶根據純文本 / 多模態 / Skill / Web 搜索等任務類型選擇最佳模型 + Harness 組合。
-
基準迴歸測試:Harness 迭代修復後重新跑分,驗證優化是否真實解決對應切片問題。
-
學術研究:爲通用智能體研究提供可復現的交叉評測基準,推動模型與框架協同進化。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...