AI模型評測 | 最好用的AI工具

AI模型評測

MagicArena是什麼 MagicArena...

AI Ping是什麼 AI Ping是專注...

AGI-Eval是什麼 AGI-Eval是上...

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用於...

HELM全稱Holistic Evaluation...

MMBench是一個多模態基準測試...

LLMEval是由復旦大學NLP實驗...

PubMedQA是一個生物醫學研究...

CMMLU是一個綜合性的中文評估...

Open LLM Leaderboard

Open LLM Leaderboard 是最大...

SuperCLUE 是一個中文通用大...

C-Eval是一個適用於大語言模...

MMLU 全稱 Massive Multitask...

Chatbot Arena

Chatbot Arena是一個大型語言...

FlagEval（天秤）由智源研究...

OpenCompass

OpenCompass是由上海人工智能...