One-Eval – 北大開源的自動化大模型評測框架

AI工具1周前發佈新公告 AI管理員

1 0 0

One-Eval是什麼

One-Eval 是北京大學 OpenDCAI 團隊開源的自動化 Agent 驅動大模型評測框架，基於 DataFlow 與 LangGraph 構建，主打 NL2Eval（自然語言轉評測）能力。用戶只需用自然語言描述評測目標，系統可自動完成基準推薦、數據下載、推理執行、指標匹配、打分及多維度報告生成，實現從需求到報告的全鏈路自動化。

One-Eval – 北大開源的自動化大模型評測框架

One-Eval的主要功能

NL2Eval 智能解析：用戶輸入自然語言需求，Agent 自動解析意圖並規劃評測路徑。
Bench Gallery 基準庫：內置 GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval 等主流評測基準的元信息管理。
端到端自動執行：自動完成數據下載、模型推理、答案評分、統計分析與報告生成。
人機協同干預：支持在關鍵節點中斷、審查、編輯與重跑，實時調整評測策略。
異構數據統一接口：通過 DataFlow 引擎標準化不同數據集的格式與列映射。

One-Eval的技術原理

Agent 圖編排架構：基於 LangGraph 構建狀態機工作流，將評測拆解爲 NL2Bench → BenchResolve → Metrics & Reporting 三大階段。
DataFlow 算子系統：底層採用 DataFlow 引擎處理數據準備與流式計算，實現異構數據集的統一接入與轉換。
Local-first + HuggingFace 雙源解析：優先加載本地預置配置，缺失時自動調用 HuggingFace 工具搜索、下載並結構化數據集元信息。
可追蹤狀態管理：每一步執行狀態持久化，支持斷點恢復、回溯重跑與失敗數據分析。

如何使用One-Eval

環境準備：通過 Conda 或 uv 創建虛擬環境並執行 pip install -e . 安裝依賴。
啓動後端：運行 uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000 啓動 FastAPI 服務。
啓動前端：進入 one-eval-web 目錄執行 npm install && npm run dev，訪問 localhost:5173。
配置參數：在 Web 界面設置 API Key、目標模型及 HuggingFace Token，保存後可開始交互式評測。
發起評測：在輸入框用自然語言描述需求，如”評測模型在數學推理任務上的表現”，Agent 自動執行並生成報告。
開發者模式：直接運行 python -m one_eval.graph.workflow_all "評測目標" 通過命令行觸發完整工作流。

One-Eval的關鍵信息和使用要求

開發團隊：北京大學 OpenDCAI 實驗室。
開源協議：完全開源，代碼託管於 GitHub 可直接獲取。
技術棧：後端基於 Python 3.11 與 FastAPI，前端採用 React + Vite，核心工作流依賴 LangGraph 進行圖編排，底層數據處理由 DataFlow 算子系統驅動。
支持模型：兼容任意提供 OpenAI 標準接口的服務商，包括 OpenRouter、硅基流動、火山引擎以及自部署的 vLLM 等。
硬件要求：本地運行僅需常規開發機配置即可，實際推理階段的計算與 Token 消耗完全取決於用戶所選用的外部模型 API。
使用門檻：使用前需配置有效的 API Key 用於模型調用，同時需要 HuggingFace Token 以下載與加載部分評測數據集。

One-Eval的核心優勢

零腳本評測：告別手動下載數據與編寫配置，自然語言可發起全鏈路評測。
可擴展架構：基於 DataFlow 算子與 LangGraph 狀態管理，私有數據集與自定義指標可輕鬆接入。
人機閉環：關鍵節點支持人工審查與干預，兼顧自動化與可控性。
多維度報告：自動生成分數統計、模型排名、失敗案例分析與可操作建議。
全鏈路追蹤：評測過程完全可追溯，每個節點的輸入輸出與狀態變更均可審計。

One-Eval的項目地址

GitHub倉庫：https://github.com/OpenDCAI/One-Eval
arXiv技術論文：https://arxiv.org/pdf/2603.09821

One-Eval的同類競品對比

對比維度	One-Eval	OpenCompass	EleutherAI LM Harness
開發團隊	北京大學 OpenDCAI 實驗室	上海人工智能實驗室	EleutherAI 社區
核心定位	Agent 驅動、NL2Eval 自動化評測	中文社區主流、配置驅動評測	海外老牌、腳本化評測工具
使用方式	自然語言描述 + Web UI 交互 + 代碼調用	YAML 配置文件 + 命令行腳本	Python 腳本 + CLI 命令行
上手門檻	低，一句話即可發起評測	中，需編寫配置文件	中，需編寫代碼與腳本
人機協同	支持，關鍵節點可中斷、審查與干預	不支持，純自動化執行	不支持，純自動化執行
前端界面	內置 React + Vite 可視化工作流	有結果展示頁面，無交互式前端	無前端界面
中文生態	原生支持 C-Eval、CMMLU 等	極強，中文基準覆蓋完善	較弱，需自行配置中文數據集
異構數據支持	DataFlow 算子系統統一接入	較完善	較完善，但配置複雜度較高
Agent/Sandbox 評測	規劃中（未來支持 SWE-bench 等）	部分支持	不支持
適用場景	快速選型、工程驗收、學術實驗	深度定製、大規模批量評測	英文基準研究、代碼級靈活定製

One-Eval的應用場景

模型選型初篩：快速對比多個候選模型在數學、推理、代碼、指令遵循等維度的表現。
私有化模型驗收：對自部署或微調後的模型進行標準化能力驗收與迴歸測試。
基準調研：通過 Bench Gallery 快速檢索與配置適合特定任務類型的評測集。
學術研究：爲論文實驗提供可復現、可追蹤的自動化評測流水線。
Agent 能力評估：評測 LLM 在工具調用、規劃與複雜任務執行中的表現（未來支持 SWE-bench 等場景）。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

15個免費的AI繪畫工具和網站，人人都是繪畫大師

earnbyshare2016

113 0

EmDash – Cloudflare開源的 AI 原生內容管理系統

earnbyshare2016

0 0

Llama 3.2 – Meta推出的中小型視覺語言模型和輕量級文本模型

earnbyshare2016

7 0

Resume Worded – AI驅動的在線簡歷優化平台

earnbyshare2016

7 0

Luzia – 主要面向西班牙、葡萄牙語的AI聊天機器人

earnbyshare2016

12 0

Giga視頻超級工廠 – AI短視頻批量製作平台，提供智能化解決方案

earnbyshare2016

54 0

暫無評論

暫無評論...