Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 是最大...

標籤：AI模型評測

打開網站手機打開

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單，基於 Eleuther AI Language Model Evaluation Harness（Eleuther AI語言模型評估框架）封裝。

由於社區在發佈了大量的大型語言模型（LLM）和聊天機器人之後，往往伴隨着對其性能的誇大宣傳，很難過濾出開源社區取得的真正進展以及目前的最先進模型。因此，Hugging Face 使用 Eleuther AI語言模型評估框架對模型進行四個關鍵基準測試評估。這是一個統一的框架，用於在大量不同的評估任務上測試生成式語言模型。

Open LLM Leaderboard 的評估基準

AI2 推理挑戰（25-shot）：一組小學科學問題
HellaSwag（10-shot）：一個測試常識推理的任務，對人類來說很容易（大約95%），但對SOTA模型來說具有挑戰性。
MMLU（5-shot）- 用於測量文本模型的多任務準確性。測試涵蓋57個任務，包括基本數學、美國曆史、計算機科學、法律等等。
TruthfulQA（0-shot）- 用於測量模型複製在在線常見虛假信息中的傾向性。

數據統計

相關導航

AGI-Eval是什麼 AGI-Eval是上...

CMMLU是一個綜合性的中文評估...

MMLU 全稱 Massive Multitask...

LLMEval是由復旦大學NLP實驗...

HELM全稱Holistic Evaluation...

PubMedQA是一個生物醫學研究...

暫無評論

暫無評論...