HELM | 最好用的AI工具

HELM全稱Holistic Evaluation of Language Models（語言模型整體評估）是由斯坦福大學推出的大模型評測體系，該評測方法主要包括場景、適配、指標三個模塊，每次評測的運行都需要指定一個場景，一個適配模型的提示，以及一個或多個指標。它評測主要覆蓋的是英語，有7個指標，包括準確率、不確定性/校準、魯棒性、公平性、偏差、毒性、推斷效率；任務包括問答、信息檢索、摘要、文本分類等。