General365 – 美團 LongCat 團隊開源的通用推理評測基準

AI工具12小時前發佈新公告 AI管理員
0 0

General365是什麼

General365 是美團 LongCat 團隊開源的通用推理評測基準,包含 365 道原創種子題及 1095 個擴展變體,覆蓋八大推理挑戰維度。基準將知識範圍嚴格限定在 K-12 水平,解耦大模型的推理能力與專業知識依賴,真實評估模型在日常場景下的通用邏輯推理水平。實測顯示,26 款主流大模型中僅 Gemini 3 Pro 達到 62.8% 的準確率,絕大多數模型未過 60% 及格線。

General365 – 美團 LongCat 團隊開源的通用推理評測基準

General365的主要功能

  • 高多樣性評測:365 道人工原創種子題 + 1095 個變體,覆蓋複雜約束、分支枚舉、時空推理、遞歸回溯、語義干擾、隱式信息、最優策略、概率不確定性八大維度。
  • 推理與知識解耦:將背景知識限定在 K-12 範圍內,純粹衡量邏輯推理能力而非知識檢索。
  • 混合評分系統:結合規則評分與模型評分(GPT-4.1),人工驗證評分準確率達 99.6%。
  • 公開子集與隱藏測試集:已公開 180 道種子題及變體(共 720 題),剩餘題目作爲隱藏測試集防止數據污染。
  • 多模型橫向評測:支持對 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 等 26+ 款模型的推理能力進行標準化評估。

General365的技術原理

  • 八大維度拆解通用推理:將通用推理拆解爲 8 個核心挑戰類型,每道題至少對應其一,近 70% 題目具備兩個以上類別標籤。
  • 避免模板化與死記硬背:通過 t-SNE 語義分佈驗證和 Gemini 3 Pro 推理路徑相似度評分,確保題目邏輯獨立性,防止模型靠”背模板”得分。
  • 難度過濾與人工審覈:全部題目經過難度過濾、多樣性擴充、模型擴題與人工審覈,形成 1460 道高質量題目。
  • 混合評分框架:數值題用 math-verify 工具解析驗證;選擇題和文本題使用 GPT-4.1 進行模型評分。

General365的核心優勢

  • 聚焦真實推理能力:區別於 AIME、IMO 等學科競賽評測,General365 專注日常通用邏輯,暴露大模型”高分低能”的短板。
  • 高區分度:SOTA 模型也僅勉強及格,避免現有基準(如 BBH、BBEH)性能飽和、無法區分模型的問題。
  • 經得起檢驗的多樣性:語義分佈均勻分散,邏輯獨立性遠高於 BBH 和 BBEH。
  • 開源可復現:GitHub 倉庫提供完整評測代碼,支持社區快速接入和復現。

General365的項目地址

  • 項目官網:https://general365.github.io/
  • GitHub倉庫:https://github.com/meituan-longcat/General365
  • HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/General365_Public
  • arXiv技術論文:https://arxiv.org/pdf/2604.11778

General365的同類競品對比

維度 General365 BBH (Big-Bench Hard) BBEH (Big-Bench Extra Hard)
評測重點 通用推理(K-12 知識) 綜合任務推理 高難度綜合任務
題目數量 365 種子 + 1095 變體 23 項任務 多項任務擴展
多樣性 極高(語義分佈均勻,邏輯獨立性強) 較低(存在明顯聚集現象) 較低(模板化嚴重)
難度區分度 高(SOTA 僅 62.8%) 低(性能已飽和) 中等
評分方式 混合評分(規則+模型,準確率 99.6%) 規則評分爲主 規則評分爲主
數據公開策略 半公開(180 題公開 + 隱藏測試集) 全公開 全公開

General365的應用場景

  • 大模型研發評測:幫助模型開發者識別推理能力短板,針對性優化複雜約束、語義干擾、最優策略等薄弱維度。
  • 模型選型參考:爲企業用戶選擇推理能力更強的商用或開源模型提供客觀數據支撐。
  • 學術研究:爲通用推理領域提供標準化評測工具,推動 LLM 從”學科專家”向”通用推理者”進化。
  • 推理效率分析:支持分析模型準確率與輸出 token 數的關係,評估推理效率。
© 版權聲明

相關文章

暫無評論

暫無評論...