H2O EvalGPT 是 H2O.ai 用於...
HELM全稱Holistic Evaluation...
MMBench是一個多模態基準測試...
LLMEval是由復旦大學NLP實驗...
PubMedQA是一個生物醫學研究...
CMMLU是一個綜合性的中文評估...
Open LLM Leaderboard 是最大...
SuperCLUE 是一個中文通用大...
C-Eval是一個適用於大語言模...
MMLU 全稱 Massive Multitask...
Chatbot Arena是一個大型語言...
FlagEval(天秤)由智源研究...
OpenCompass是由上海人工智能...