C-Eval是一個適用於大語言模...
C-Eval是一個適用於大語言模型的多層次多學科中文評估套件,由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出,包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別,用以評測大模型中文理解能力。
MMBench是一個多模態基準測試...
MagicArena是什麼 MagicArena...
SuperCLUE 是一個中文通用大...
FlagEval(天秤)由智源研究...
HELM全稱Holistic Evaluation...
AGI-Eval是什麼 AGI-Eval是上...