PubMedQA是一個生物醫學研究...
PubMedQA是一個生物醫學研究問答數據集,包含了1K專家標註,61.2K 個未標註和 211.3K 個人工生成的QA實例,該排行榜目前已收錄18個模型的醫學測試得分。
MMBench是一個多模態基準測試...
C-Eval是一個適用於大語言模...
LLMEval是由復旦大學NLP實驗...
SuperCLUE 是一個中文通用大...
OpenCompass是由上海人工智能...
H2O EvalGPT 是 H2O.ai 用於...