PawBench – 阿里通義推出的通用智能體評測基準

AI工具1天前發佈新公告 AI管理員

0 0 0

PawBench是什麼

PawBench 是通義實驗室推出的通用智能體評測基準，面向個人助理與 Agent 場景，將底座模型與運行框架（Harness）納入同一評測體系。PawBench v1.0 構建了 150 道真實任務、4050 個測試單元的評測集，通過 9 個模型 × 3 個 Harness 的交叉評測，能評估模型+Harness的最佳組合，幫 Harness 開發者精準定位問題並驗證優化。

PawBench – 阿里通義推出的通用智能體評測基準

PawBench的主要功能

聯合評測：將底座模型與運行框架（Harness）納入同一評測體系，評估 LLM × Harness 的聯合效果。
真實任務集：構建 150 道真實任務、4050 個測試單元，從 6 個高質量 Agent 評測集抽取並聚合。
五維標籤體系：每道題按應用場景、原子能力、複雜度（L1-L3）、輸入模態、運行環境進行結構化標註。
混合評分機制：結合自動評分器（規則斷言）與 LLM-as-judge（語義質量評估），分數範圍 0 到 1。
多切片榜單：支持 Overall（150 題）、Text（124 題）、Multimodal（26 題）三個維度自由切換查看。
全量軌跡保留：所有任務在 Docker 沙箱中運行，執行軌跡、grader 產物和環境快照完整保存。
深度診斷分析：支持按模型規模、模態、任務類型、技能領域等維度切片，定位 Harness 具體行爲缺陷。

PawBench的技術原理

交叉評測矩陣：構建 9 個模型 × 3 個 Harness × 150 道任務的三維評測空間，通過控制變量法隔離模型能力與框架能力的貢獻。
五維標籤體系：從應用場景、原子能力、複雜度、輸入模態、運行環境五個維度對任務進行結構化標註，支持多維度切片下鑽分析。
混合評分機制：結合確定性規則斷言（文件存在性、字段匹配、exit code）與 LLM-as-judge 語義評估，平衡客觀性與靈活性。
Docker 沙箱隔離：每個測試單元在獨立容器中運行，捕獲執行軌跡、workspace 產物及環境快照，確保結果可復現與問題可追溯。
產物級硬校驗：通過檢查文件是否落盤、diff 是否生成、測試是否通過等實質性指標，避免模型”虛假完工”。

如何使用PawBench

克隆源碼：訪問 GitHub 倉庫 agentscope-ai/PawBench 克隆評測框架。
配置環境：寫入待測模型的 API 密鑰，並配置 Harness 運行環境。
選擇任務：從 150 道任務中選擇特定切片（Text/Multimodal）或全量任務啓動。
運行評測：在 Docker 沙箱中執行任務，系統自動保留執行軌跡與產物。
獲取評分：通過自動評分器與 LLM-as-judge 計算混合權重最終分數。
提交榜單：訪問 agentscope-ai.github.io/PawBench 提交結果並查看排名。

PawBench的核心優勢

診斷 Harness ：通過 4050 個測試單元的切片分析，精準定位框架在 Skill 加載、路徑感知、工具配置等方面的行爲缺陷。
真實復現性：基於 Docker 沙箱運行，執行軌跡與環境快照完整保留，失敗案例可逐層回溯覆盤。
零門檻開箱評測：還原開發者首次 clone 後的默認體驗，不追求”配齊所有 API Key 的理論上限”。
持續迴歸驗證：Harness 每次修復後可重新切片跑分，驗證優化是否真實對應到問題維度。
Harness 分差量化：首次證明 Harness 差距（最高 6.4 分）堪比一次重大模型版本升級，爲小模型反超提供路徑。

PawBench的項目地址

項目官網：https://agentscope-ai.github.io/PawBench/
GitHub倉庫：https://github.com/agentscope-ai/PawBench

PawBench的同類競品對比

對比維度	PawBench	SWE-bench	AgentBench
核心定位	評測”模型 + Harness”聯合效果	評測模型解決真實代碼問題的能力	評測模型作爲 Agent 在多環境中的通用能力
Harness/框架評估	✅ 核心能力，明確隔離框架貢獻	❌ 否，僅評估模型本身	❌ 否，僅評估模型本身
任務來源	6 個 Agent 評測集聚合（150 道）	真實 GitHub Issue/PR（2000+）	多環境模擬任務（1000+）
典型任務	辦公協同、軟件工程、自動化腳本、Web 搜索、Skill 調用	代碼 Bug 修復、功能實現、測試通過	OS 操作、數據庫查詢、網頁瀏覽、卡牌遊戲、家務決策
評分機制	自動規則斷言 + LLM-as-judge 混合	單元測試通過/失敗（二元）	環境規則評分（準確率/成功率）
環境隔離	Docker 沙箱 + 工作區產物校驗	代碼沙箱 + Git 倉庫快照	多環境容器（OS/DB/Web 等）
任務標籤體系	五維標籤（場景/能力/複雜度/模態/環境）	按編程語言/倉庫切片	按環境類型切片
榜單維度	Overall / Text / Multimodal 三切片	按 Verified/Multimodal/Full 分榜	按環境（OS/DB/KG/DCG 等）分榜
失敗診斷能力	保留執行軌跡、產物快照、環境狀態，支持逐層回溯	保留代碼補丁與測試日誌	保留環境交互日誌
零配置評測	還原首次 clone 後的默認體驗	需配置代碼倉庫環境	需配置各環境容器
最佳適用	Harness 開發者優化、模型+框架選型	代碼模型能力評估、編程助手研發	通用 Agent 能力評估、多模態決策研究

PawBench的應用場景

Harness 開發者優化：通過切片分析定位框架在 Skill 加載、路徑感知、Web 工具默認可用性等方面的具體缺陷。
模型選型參考：幫助用戶根據純文本 / 多模態 / Skill / Web 搜索等任務類型選擇最佳模型 + Harness 組合。
基準迴歸測試：Harness 迭代修復後重新跑分，驗證優化是否真實解決對應切片問題。
學術研究：爲通用智能體研究提供可復現的交叉評測基準，推動模型與框架協同進化。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

HouseCrafter – 東北大學和 Stability AI推出2D轉換3D室內場景的技術

earnbyshare2016

7 0

NeonLingo – 外語學習AI瀏覽器插件，瀏覽網頁時構建個人詞彙庫

earnbyshare2016

0 0

Mailchimp – 全球知名的電子郵件AI營銷自動化平台

earnbyshare2016

1 0

嘰伴 – 趣丸旗下推出的 AI 情感陪伴應用

earnbyshare2016

1 0

SCoRe – 谷歌DeepMind推出的多輪強化學習方法

earnbyshare2016

7 0

Tbox AI 瀏覽器 – 爲內容創作和知識管理設計的AI瀏覽器

earnbyshare2016

0 0

暫無評論

暫無評論...