PubMedQA是一個生物醫學研究...
PubMedQA是一個生物醫學研究問答數據集,包含了1K專家標註,61.2K 個未標註和 211.3K 個人工生成的QA實例,該排行榜目前已收錄18個模型的醫學測試得分。
CMMLU是一個綜合性的中文評估...
HELM全稱Holistic Evaluation...
FlagEval(天秤)由智源研究...
AI Ping是什麼 AI Ping是專注...
OpenCompass是由上海人工智能...
AGI-Eval是什麼 AGI-Eval是上...