One-Eval – 北大開源的自動化大模型評測框架

AI工具1周前發佈新公告 AI管理員
1 0

One-Eval是什麼

One-Eval 是北京大學 OpenDCAI 團隊開源的自動化 Agent 驅動大模型評測框架,基於 DataFlow 與 LangGraph 構建,主打 NL2Eval(自然語言轉評測)能力。用戶只需用自然語言描述評測目標,系統可自動完成基準推薦、數據下載、推理執行、指標匹配、打分及多維度報告生成,實現從需求到報告的全鏈路自動化。

One-Eval – 北大開源的自動化大模型評測框架

One-Eval的主要功能

  • NL2Eval 智能解析:用戶輸入自然語言需求,Agent 自動解析意圖並規劃評測路徑。
  • Bench Gallery 基準庫:內置 GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval 等主流評測基準的元信息管理。
  • 端到端自動執行:自動完成數據下載、模型推理、答案評分、統計分析與報告生成。
  • 人機協同干預:支持在關鍵節點中斷、審查、編輯與重跑,實時調整評測策略。
  • 異構數據統一接口:通過 DataFlow 引擎標準化不同數據集的格式與列映射。

One-Eval的技術原理

  • Agent 圖編排架構:基於 LangGraph 構建狀態機工作流,將評測拆解爲 NL2Bench → BenchResolve → Metrics & Reporting 三大階段。
  • DataFlow 算子系統:底層採用 DataFlow 引擎處理數據準備與流式計算,實現異構數據集的統一接入與轉換。
  • Local-first + HuggingFace 雙源解析:優先加載本地預置配置,缺失時自動調用 HuggingFace 工具搜索、下載並結構化數據集元信息。
  • 可追蹤狀態管理:每一步執行狀態持久化,支持斷點恢復、回溯重跑與失敗數據分析。

如何使用One-Eval

  • 環境準備:通過 Conda 或 uv 創建虛擬環境並執行 pip install -e . 安裝依賴。
  • 啓動後端:運行 uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000 啓動 FastAPI 服務。
  • 啓動前端:進入 one-eval-web 目錄執行 npm install && npm run dev,訪問 localhost:5173
  • 配置參數:在 Web 界面設置 API Key、目標模型及 HuggingFace Token,保存後可開始交互式評測。
  • 發起評測:在輸入框用自然語言描述需求,如”評測模型在數學推理任務上的表現”,Agent 自動執行並生成報告。
  • 開發者模式:直接運行 python -m one_eval.graph.workflow_all "評測目標" 通過命令行觸發完整工作流。

One-Eval的關鍵信息和使用要求

  • 開發團隊:北京大學 OpenDCAI 實驗室。
  • 開源協議:完全開源,代碼託管於 GitHub 可直接獲取。
  • 技術棧:後端基於 Python 3.11 與 FastAPI,前端採用 React + Vite,核心工作流依賴 LangGraph 進行圖編排,底層數據處理由 DataFlow 算子系統驅動。
  • 支持模型:兼容任意提供 OpenAI 標準接口的服務商,包括 OpenRouter、硅基流動、火山引擎以及自部署的 vLLM 等。
  • 硬件要求:本地運行僅需常規開發機配置即可,實際推理階段的計算與 Token 消耗完全取決於用戶所選用的外部模型 API。
  • 使用門檻:使用前需配置有效的 API Key 用於模型調用,同時需要 HuggingFace Token 以下載與加載部分評測數據集。

One-Eval的核心優勢

  • 零腳本評測:告別手動下載數據與編寫配置,自然語言可發起全鏈路評測。
  • 可擴展架構:基於 DataFlow 算子與 LangGraph 狀態管理,私有數據集與自定義指標可輕鬆接入。
  • 人機閉環:關鍵節點支持人工審查與干預,兼顧自動化與可控性。
  • 多維度報告:自動生成分數統計、模型排名、失敗案例分析與可操作建議。
  • 全鏈路追蹤:評測過程完全可追溯,每個節點的輸入輸出與狀態變更均可審計。

One-Eval的項目地址

  • GitHub倉庫:https://github.com/OpenDCAI/One-Eval
  • arXiv技術論文:https://arxiv.org/pdf/2603.09821

One-Eval的同類競品對比

對比維度 One-Eval OpenCompass EleutherAI LM Harness
開發團隊 北京大學 OpenDCAI 實驗室 上海人工智能實驗室 EleutherAI 社區
核心定位 Agent 驅動、NL2Eval 自動化評測 中文社區主流、配置驅動評測 海外老牌、腳本化評測工具
使用方式 自然語言描述 + Web UI 交互 + 代碼調用 YAML 配置文件 + 命令行腳本 Python 腳本 + CLI 命令行
上手門檻 低,一句話即可發起評測 中,需編寫配置文件 中,需編寫代碼與腳本
人機協同 支持,關鍵節點可中斷、審查與干預 不支持,純自動化執行 不支持,純自動化執行
前端界面 內置 React + Vite 可視化工作流 有結果展示頁面,無交互式前端 無前端界面
中文生態 原生支持 C-Eval、CMMLU 等 極強,中文基準覆蓋完善 較弱,需自行配置中文數據集
異構數據支持 DataFlow 算子系統統一接入 較完善 較完善,但配置複雜度較高
Agent/Sandbox 評測 規劃中(未來支持 SWE-bench 等) 部分支持 不支持
適用場景 快速選型、工程驗收、學術實驗 深度定製、大規模批量評測 英文基準研究、代碼級靈活定製

One-Eval的應用場景

  • 模型選型初篩:快速對比多個候選模型在數學、推理、代碼、指令遵循等維度的表現。
  • 私有化模型驗收:對自部署或微調後的模型進行標準化能力驗收與迴歸測試。
  • 基準調研:通過 Bench Gallery 快速檢索與配置適合特定任務類型的評測集。
  • 學術研究:爲論文實驗提供可復現、可追蹤的自動化評測流水線。
  • Agent 能力評估:評測 LLM 在工具調用、規劃與複雜任務執行中的表現(未來支持 SWE-bench 等場景)。
© 版權聲明

相關文章

暫無評論

暫無評論...