General365是什麼
General365 是美團 LongCat 團隊開源的通用推理評測基準,包含 365 道原創種子題及 1095 個擴展變體,覆蓋八大推理挑戰維度。基準將知識範圍嚴格限定在 K-12 水平,解耦大模型的推理能力與專業知識依賴,真實評估模型在日常場景下的通用邏輯推理水平。實測顯示,26 款主流大模型中僅 Gemini 3 Pro 達到 62.8% 的準確率,絕大多數模型未過 60% 及格線。

General365的主要功能
-
高多樣性評測:365 道人工原創種子題 + 1095 個變體,覆蓋複雜約束、分支枚舉、時空推理、遞歸回溯、語義干擾、隱式信息、最優策略、概率不確定性八大維度。
-
推理與知識解耦:將背景知識限定在 K-12 範圍內,純粹衡量邏輯推理能力而非知識檢索。
-
混合評分系統:結合規則評分與模型評分(GPT-4.1),人工驗證評分準確率達 99.6%。
-
公開子集與隱藏測試集:已公開 180 道種子題及變體(共 720 題),剩餘題目作爲隱藏測試集防止數據污染。
-
多模型橫向評測:支持對 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 等 26+ 款模型的推理能力進行標準化評估。
General365的技術原理
-
八大維度拆解通用推理:將通用推理拆解爲 8 個核心挑戰類型,每道題至少對應其一,近 70% 題目具備兩個以上類別標籤。
-
避免模板化與死記硬背:通過 t-SNE 語義分佈驗證和 Gemini 3 Pro 推理路徑相似度評分,確保題目邏輯獨立性,防止模型靠”背模板”得分。
-
難度過濾與人工審覈:全部題目經過難度過濾、多樣性擴充、模型擴題與人工審覈,形成 1460 道高質量題目。
-
混合評分框架:數值題用 math-verify 工具解析驗證;選擇題和文本題使用 GPT-4.1 進行模型評分。
General365的核心優勢
-
聚焦真實推理能力:區別於 AIME、IMO 等學科競賽評測,General365 專注日常通用邏輯,暴露大模型”高分低能”的短板。
-
高區分度:SOTA 模型也僅勉強及格,避免現有基準(如 BBH、BBEH)性能飽和、無法區分模型的問題。
-
經得起檢驗的多樣性:語義分佈均勻分散,邏輯獨立性遠高於 BBH 和 BBEH。
-
開源可復現:GitHub 倉庫提供完整評測代碼,支持社區快速接入和復現。
General365的項目地址
- 項目官網:https://general365.github.io/
- GitHub倉庫:https://github.com/meituan-longcat/General365
- HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/General365_Public
- arXiv技術論文:https://arxiv.org/pdf/2604.11778
General365的同類競品對比
| 維度 | General365 | BBH (Big-Bench Hard) | BBEH (Big-Bench Extra Hard) |
|---|---|---|---|
| 評測重點 | 通用推理(K-12 知識) | 綜合任務推理 | 高難度綜合任務 |
| 題目數量 | 365 種子 + 1095 變體 | 23 項任務 | 多項任務擴展 |
| 多樣性 | 極高(語義分佈均勻,邏輯獨立性強) | 較低(存在明顯聚集現象) | 較低(模板化嚴重) |
| 難度區分度 | 高(SOTA 僅 62.8%) | 低(性能已飽和) | 中等 |
| 評分方式 | 混合評分(規則+模型,準確率 99.6%) | 規則評分爲主 | 規則評分爲主 |
| 數據公開策略 | 半公開(180 題公開 + 隱藏測試集) | 全公開 | 全公開 |
General365的應用場景
-
大模型研發評測:幫助模型開發者識別推理能力短板,針對性優化複雜約束、語義干擾、最優策略等薄弱維度。
-
模型選型參考:爲企業用戶選擇推理能力更強的商用或開源模型提供客觀數據支撐。
-
學術研究:爲通用推理領域提供標準化評測工具,推動 LLM 從”學科專家”向”通用推理者”進化。
-
推理效率分析:支持分析模型準確率與輸出 token 數的關係,評估推理效率。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...