MMBench

MMBench是一個多模態基準測試，由上海人工智能實驗室、南洋理工大學、香港中文大學、新加坡國立大學和浙江大學的研究人員推出。該體系開發了一個綜合評估流程，從感知到認知能力逐級細分評估，覆蓋20項細粒度能力，從互聯網與權威基準數據集採集約3000道單項選擇題。打破常規一問一答基於規則匹配提取選項進行評測，循環打亂選項驗證輸出結果的一致性，基於ChatGPT精準匹配模型回覆至選項。

MMBench的特點和優勢

基於感知與推理，將評估維度逐級細分。約 3000 道單項選擇題，覆蓋目標檢測、文字識別、動作識別、圖像
理解、關係推理等 20 個細粒度評估維度
更具魯棒性的評估方式。相同單選問題循環選項提問，模型輸出全部指向同一答案認定爲通過，相比傳統1次性通過評估 top-1 準確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對評測結果的影響，保證了結果的可復現性。
更可靠的模型輸出提取方法。基於 ChatGPT 匹配模型輸出與選項，即使模型未按照指令輸出也可準確匹配至最合理選項

數據統計

暫無評論

暫無評論...

MMBench的特點和優勢

數據統計

相關導航

暫無評論