FlagEval | 最好用的AI工具

FlagEval（天秤）由智源研究院將聯合多個高校團隊打造，是一種採用“能力—任務—指標”三維評測框架的大模型評測平台，旨在提供全面、細緻的評測結果。該平台已提供了 30 多種能力、5 種任務和 4 大類指標，共 600 多個維度的全面評測，任務維度包括 22 個主客觀評測數據集和 84433 道題目。