PawBench – 阿里通義推出的通用智能體評測基準

AI工具1天前發佈新公告 AI管理員
0 0

PawBench是什麼

PawBench 是通義實驗室推出的通用智能體評測基準,面向個人助理與 Agent 場景,將底座模型與運行框架(Harness)納入同一評測體系。PawBench v1.0 構建了 150 道真實任務、4050 個測試單元的評測集,通過 9 個模型 × 3 個 Harness 的交叉評測,能評估模型+Harness的最佳組合,幫 Harness 開發者精準定位問題並驗證優化。

PawBench – 阿里通義推出的通用智能體評測基準

PawBench的主要功能

  • 聯合評測:將底座模型與運行框架(Harness)納入同一評測體系,評估 LLM × Harness 的聯合效果。
  • 真實任務集:構建 150 道真實任務、4050 個測試單元,從 6 個高質量 Agent 評測集抽取並聚合。
  • 五維標籤體系:每道題按應用場景、原子能力、複雜度(L1-L3)、輸入模態、運行環境進行結構化標註。
  • 混合評分機制:結合自動評分器(規則斷言)與 LLM-as-judge(語義質量評估),分數範圍 0 到 1。
  • 多切片榜單:支持 Overall(150 題)、Text(124 題)、Multimodal(26 題)三個維度自由切換查看。
  • 全量軌跡保留:所有任務在 Docker 沙箱中運行,執行軌跡、grader 產物和環境快照完整保存。
  • 深度診斷分析:支持按模型規模、模態、任務類型、技能領域等維度切片,定位 Harness 具體行爲缺陷。

PawBench的技術原理

  • 交叉評測矩陣:構建 9 個模型 × 3 個 Harness × 150 道任務的三維評測空間,通過控制變量法隔離模型能力與框架能力的貢獻。
  • 五維標籤體系:從應用場景、原子能力、複雜度、輸入模態、運行環境五個維度對任務進行結構化標註,支持多維度切片下鑽分析。
  • 混合評分機制:結合確定性規則斷言(文件存在性、字段匹配、exit code)與 LLM-as-judge 語義評估,平衡客觀性與靈活性。
  • Docker 沙箱隔離:每個測試單元在獨立容器中運行,捕獲執行軌跡、workspace 產物及環境快照,確保結果可復現與問題可追溯。
  • 產物級硬校驗:通過檢查文件是否落盤、diff 是否生成、測試是否通過等實質性指標,避免模型”虛假完工”。

如何使用PawBench

  • 克隆源碼:訪問 GitHub 倉庫 agentscope-ai/PawBench 克隆評測框架。
  • 配置環境:寫入待測模型的 API 密鑰,並配置 Harness 運行環境。
  • 選擇任務:從 150 道任務中選擇特定切片(Text/Multimodal)或全量任務啓動。
  • 運行評測:在 Docker 沙箱中執行任務,系統自動保留執行軌跡與產物。
  • 獲取評分:通過自動評分器與 LLM-as-judge 計算混合權重最終分數。
  • 提交榜單:訪問 agentscope-ai.github.io/PawBench 提交結果並查看排名。

PawBench的核心優勢

  • 診斷 Harness :通過 4050 個測試單元的切片分析,精準定位框架在 Skill 加載、路徑感知、工具配置等方面的行爲缺陷。
  • 真實復現性:基於 Docker 沙箱運行,執行軌跡與環境快照完整保留,失敗案例可逐層回溯覆盤。
  • 零門檻開箱評測:還原開發者首次 clone 後的默認體驗,不追求”配齊所有 API Key 的理論上限”。
  • 持續迴歸驗證:Harness 每次修復後可重新切片跑分,驗證優化是否真實對應到問題維度。
  • Harness 分差量化:首次證明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升級,爲小模型反超提供路徑

PawBench的項目地址

  • 項目官網:https://agentscope-ai.github.io/PawBench/
  • GitHub倉庫:https://github.com/agentscope-ai/PawBench

PawBench的同類競品對比

對比維度 PawBench SWE-bench AgentBench
核心定位 評測”模型 + Harness”聯合效果 評測模型解決真實代碼問題的能力 評測模型作爲 Agent 在多環境中的通用能力
Harness/框架評估 核心能力,明確隔離框架貢獻 ❌ 否,僅評估模型本身 ❌ 否,僅評估模型本身
任務來源 6 個 Agent 評測集聚合(150 道) 真實 GitHub Issue/PR(2000+) 多環境模擬任務(1000+)
典型任務 辦公協同、軟件工程、自動化腳本、Web 搜索、Skill 調用 代碼 Bug 修復、功能實現、測試通過 OS 操作、數據庫查詢、網頁瀏覽、卡牌遊戲、家務決策
評分機制 自動規則斷言 + LLM-as-judge 混合 單元測試通過/失敗(二元) 環境規則評分(準確率/成功率)
環境隔離 Docker 沙箱 + 工作區產物校驗 代碼沙箱 + Git 倉庫快照 多環境容器(OS/DB/Web 等)
任務標籤體系 五維標籤(場景/能力/複雜度/模態/環境) 按編程語言/倉庫切片 按環境類型切片
榜單維度 Overall / Text / Multimodal 三切片 按 Verified/Multimodal/Full 分榜 按環境(OS/DB/KG/DCG 等)分榜
失敗診斷能力 保留執行軌跡、產物快照、環境狀態,支持逐層回溯 保留代碼補丁與測試日誌 保留環境交互日誌
零配置評測 還原首次 clone 後的默認體驗 需配置代碼倉庫環境 需配置各環境容器
最佳適用 Harness 開發者優化、模型+框架選型 代碼模型能力評估、編程助手研發 通用 Agent 能力評估、多模態決策研究

PawBench的應用場景

  • Harness 開發者優化:通過切片分析定位框架在 Skill 加載、路徑感知、Web 工具默認可用性等方面的具體缺陷。
  • 模型選型參考:幫助用戶根據純文本 / 多模態 / Skill / Web 搜索等任務類型選擇最佳模型 + Harness 組合。
  • 基準迴歸測試:Harness 迭代修復後重新跑分,驗證優化是否真實解決對應切片問題。
  • 學術研究:爲通用智能體研究提供可復現的交叉評測基準,推動模型與框架協同進化。
© 版權聲明

相關文章

暫無評論

暫無評論...