PubMedQA

PubMedQA

PubMedQA是一個生物醫學研究...

標籤：AI模型評測

打開網站手機打開

PubMedQA是一個生物醫學研究問答數據集，包含了1K專家標註，61.2K 個未標註和 211.3K 個人工生成的QA實例，該排行榜目前已收錄18個模型的醫學測試得分。

數據統計

相關導航

MMBench是一個多模態基準測試...

HELM全稱Holistic Evaluation...

OpenCompass

OpenCompass是由上海人工智能...

Open LLM Leaderboard

Open LLM Leaderboard 是最大...

Chatbot Arena

Chatbot Arena是一個大型語言...

FlagEval（天秤）由智源研究...

暫無評論

暫無評論...