CMMLU | 最好用的AI工具

CMMLU是一個綜合性的中文評估基準，專門用於評估語言模型在中文語境下的知識和推理能力，涵蓋了從基礎學科到高級專業水平的67個主題。它包括：需要計算和推理的自然科學，需要知識的人文科學和社會科學，以及需要生活常識的中國駕駛規則等。此外，CMMLU中的許多任務具有中國特定的答案，可能在其他地區或語言中並不普遍適用。因此是一個完全中國化的中文測試基準。