One-Eval是什麼
One-Eval 是北京大學 OpenDCAI 團隊開源的自動化 Agent 驅動大模型評測框架,基於 DataFlow 與 LangGraph 構建,主打 NL2Eval(自然語言轉評測)能力。用戶只需用自然語言描述評測目標,系統可自動完成基準推薦、數據下載、推理執行、指標匹配、打分及多維度報告生成,實現從需求到報告的全鏈路自動化。

One-Eval的主要功能
- NL2Eval 智能解析:用戶輸入自然語言需求,Agent 自動解析意圖並規劃評測路徑。
- Bench Gallery 基準庫:內置 GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval 等主流評測基準的元信息管理。
- 端到端自動執行:自動完成數據下載、模型推理、答案評分、統計分析與報告生成。
- 人機協同干預:支持在關鍵節點中斷、審查、編輯與重跑,實時調整評測策略。
- 異構數據統一接口:通過 DataFlow 引擎標準化不同數據集的格式與列映射。
One-Eval的技術原理
- Agent 圖編排架構:基於 LangGraph 構建狀態機工作流,將評測拆解爲 NL2Bench → BenchResolve → Metrics & Reporting 三大階段。
- DataFlow 算子系統:底層採用 DataFlow 引擎處理數據準備與流式計算,實現異構數據集的統一接入與轉換。
- Local-first + HuggingFace 雙源解析:優先加載本地預置配置,缺失時自動調用 HuggingFace 工具搜索、下載並結構化數據集元信息。
- 可追蹤狀態管理:每一步執行狀態持久化,支持斷點恢復、回溯重跑與失敗數據分析。
如何使用One-Eval
- 環境準備:通過 Conda 或 uv 創建虛擬環境並執行
pip install -e .安裝依賴。 - 啓動後端:運行
uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000啓動 FastAPI 服務。 - 啓動前端:進入
one-eval-web目錄執行npm install && npm run dev,訪問localhost:5173。 - 配置參數:在 Web 界面設置 API Key、目標模型及 HuggingFace Token,保存後可開始交互式評測。
- 發起評測:在輸入框用自然語言描述需求,如”評測模型在數學推理任務上的表現”,Agent 自動執行並生成報告。
- 開發者模式:直接運行
python -m one_eval.graph.workflow_all "評測目標"通過命令行觸發完整工作流。
One-Eval的關鍵信息和使用要求
- 開發團隊:北京大學 OpenDCAI 實驗室。
- 開源協議:完全開源,代碼託管於 GitHub 可直接獲取。
- 技術棧:後端基於 Python 3.11 與 FastAPI,前端採用 React + Vite,核心工作流依賴 LangGraph 進行圖編排,底層數據處理由 DataFlow 算子系統驅動。
- 支持模型:兼容任意提供 OpenAI 標準接口的服務商,包括 OpenRouter、硅基流動、火山引擎以及自部署的 vLLM 等。
- 硬件要求:本地運行僅需常規開發機配置即可,實際推理階段的計算與 Token 消耗完全取決於用戶所選用的外部模型 API。
- 使用門檻:使用前需配置有效的 API Key 用於模型調用,同時需要 HuggingFace Token 以下載與加載部分評測數據集。
One-Eval的核心優勢
- 零腳本評測:告別手動下載數據與編寫配置,自然語言可發起全鏈路評測。
- 可擴展架構:基於 DataFlow 算子與 LangGraph 狀態管理,私有數據集與自定義指標可輕鬆接入。
- 人機閉環:關鍵節點支持人工審查與干預,兼顧自動化與可控性。
- 多維度報告:自動生成分數統計、模型排名、失敗案例分析與可操作建議。
- 全鏈路追蹤:評測過程完全可追溯,每個節點的輸入輸出與狀態變更均可審計。
One-Eval的項目地址
- GitHub倉庫:https://github.com/OpenDCAI/One-Eval
- arXiv技術論文:https://arxiv.org/pdf/2603.09821
One-Eval的同類競品對比
| 對比維度 | One-Eval | OpenCompass | EleutherAI LM Harness |
|---|---|---|---|
| 開發團隊 | 北京大學 OpenDCAI 實驗室 | 上海人工智能實驗室 | EleutherAI 社區 |
| 核心定位 | Agent 驅動、NL2Eval 自動化評測 | 中文社區主流、配置驅動評測 | 海外老牌、腳本化評測工具 |
| 使用方式 | 自然語言描述 + Web UI 交互 + 代碼調用 | YAML 配置文件 + 命令行腳本 | Python 腳本 + CLI 命令行 |
| 上手門檻 | 低,一句話即可發起評測 | 中,需編寫配置文件 | 中,需編寫代碼與腳本 |
| 人機協同 | 支持,關鍵節點可中斷、審查與干預 | 不支持,純自動化執行 | 不支持,純自動化執行 |
| 前端界面 | 內置 React + Vite 可視化工作流 | 有結果展示頁面,無交互式前端 | 無前端界面 |
| 中文生態 | 原生支持 C-Eval、CMMLU 等 | 極強,中文基準覆蓋完善 | 較弱,需自行配置中文數據集 |
| 異構數據支持 | DataFlow 算子系統統一接入 | 較完善 | 較完善,但配置複雜度較高 |
| Agent/Sandbox 評測 | 規劃中(未來支持 SWE-bench 等) | 部分支持 | 不支持 |
| 適用場景 | 快速選型、工程驗收、學術實驗 | 深度定製、大規模批量評測 | 英文基準研究、代碼級靈活定製 |
One-Eval的應用場景
- 模型選型初篩:快速對比多個候選模型在數學、推理、代碼、指令遵循等維度的表現。
- 私有化模型驗收:對自部署或微調後的模型進行標準化能力驗收與迴歸測試。
- 基準調研:通過 Bench Gallery 快速檢索與配置適合特定任務類型的評測集。
- 學術研究:爲論文實驗提供可復現、可追蹤的自動化評測流水線。
- Agent 能力評估:評測 LLM 在工具調用、規劃與複雜任務執行中的表現(未來支持 SWE-bench 等場景)。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...