AI模型評測

FlagEval

FlagEval(天秤)由智源研究...

標籤:

FlagEval(天秤)由智源研究院將聯合多個高校團隊打造,是一種採用“能力—任務—指標”三維評測框架的大模型評測平台,旨在提供全面、細緻的評測結果。該平台已提供了 30 多種能力、5 種任務和 4 大類指標,共 600 多個維度的全面評測,任務維度包括 22 個主客觀評測數據集和 84433 道題目。

數據統計

相關導航

暫無評論

暫無評論...