General365 – 美團 LongCat 團隊開源的通用推理評測基準

AI工具12小時前發佈新公告 AI管理員

0 0 0

General365是什麼

General365 是美團 LongCat 團隊開源的通用推理評測基準，包含 365 道原創種子題及 1095 個擴展變體，覆蓋八大推理挑戰維度。基準將知識範圍嚴格限定在 K-12 水平，解耦大模型的推理能力與專業知識依賴，真實評估模型在日常場景下的通用邏輯推理水平。實測顯示，26 款主流大模型中僅 Gemini 3 Pro 達到 62.8% 的準確率，絕大多數模型未過 60% 及格線。

General365 – 美團 LongCat 團隊開源的通用推理評測基準

General365的主要功能

高多樣性評測：365 道人工原創種子題 + 1095 個變體，覆蓋複雜約束、分支枚舉、時空推理、遞歸回溯、語義干擾、隱式信息、最優策略、概率不確定性八大維度。
推理與知識解耦：將背景知識限定在 K-12 範圍內，純粹衡量邏輯推理能力而非知識檢索。
混合評分系統：結合規則評分與模型評分（GPT-4.1），人工驗證評分準確率達 99.6%。
公開子集與隱藏測試集：已公開 180 道種子題及變體（共 720 題），剩餘題目作爲隱藏測試集防止數據污染。
多模型橫向評測：支持對 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 等 26+ 款模型的推理能力進行標準化評估。

General365的技術原理

八大維度拆解通用推理：將通用推理拆解爲 8 個核心挑戰類型，每道題至少對應其一，近 70% 題目具備兩個以上類別標籤。
避免模板化與死記硬背：通過 t-SNE 語義分佈驗證和 Gemini 3 Pro 推理路徑相似度評分，確保題目邏輯獨立性，防止模型靠”背模板”得分。
難度過濾與人工審覈：全部題目經過難度過濾、多樣性擴充、模型擴題與人工審覈，形成 1460 道高質量題目。
混合評分框架：數值題用 math-verify 工具解析驗證；選擇題和文本題使用 GPT-4.1 進行模型評分。

General365的核心優勢

聚焦真實推理能力：區別於 AIME、IMO 等學科競賽評測，General365 專注日常通用邏輯，暴露大模型”高分低能”的短板。
高區分度：SOTA 模型也僅勉強及格，避免現有基準（如 BBH、BBEH）性能飽和、無法區分模型的問題。
經得起檢驗的多樣性：語義分佈均勻分散，邏輯獨立性遠高於 BBH 和 BBEH。
開源可復現：GitHub 倉庫提供完整評測代碼，支持社區快速接入和復現。

General365的項目地址

項目官網：https://general365.github.io/
GitHub倉庫：https://github.com/meituan-longcat/General365
HuggingFace模型庫：https://huggingface.co/datasets/meituan-longcat/General365_Public
arXiv技術論文：https://arxiv.org/pdf/2604.11778

General365的同類競品對比

維度	General365	BBH (Big-Bench Hard)	BBEH (Big-Bench Extra Hard)
評測重點	通用推理（K-12 知識）	綜合任務推理	高難度綜合任務
題目數量	365 種子 + 1095 變體	23 項任務	多項任務擴展
多樣性	極高（語義分佈均勻，邏輯獨立性強）	較低（存在明顯聚集現象）	較低（模板化嚴重）
難度區分度	高（SOTA 僅 62.8%）	低（性能已飽和）	中等
評分方式	混合評分（規則+模型，準確率 99.6%）	規則評分爲主	規則評分爲主
數據公開策略	半公開（180 題公開 + 隱藏測試集）	全公開	全公開

General365的應用場景

大模型研發評測：幫助模型開發者識別推理能力短板，針對性優化複雜約束、語義干擾、最優策略等薄弱維度。
模型選型參考：爲企業用戶選擇推理能力更強的商用或開源模型提供客觀數據支撐。
學術研究：爲通用推理領域提供標準化評測工具，推動 LLM 從”學科專家”向”通用推理者”進化。
推理效率分析：支持分析模型準確率與輸出 token 數的關係，評估推理效率。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

markmap – 解析Markdown生成可視化思維導圖的工具

earnbyshare2016

32 0

LifeSim – 復旦與上海創智學院推出的長程用戶生活模擬框架

earnbyshare2016

2 0

yaara.ai – AI寫作輔助工具，支持25+種語言多風格寫作

earnbyshare2016

11 0

AutoShorts – 開源的AI視頻創作和自動發佈平台

earnbyshare2016

90 0

Qwen2.5-Coder – 阿里Qwen團隊推出的編程語言模型，支持92種編程語言

earnbyshare2016

3 0

浦語靈筆 – 開源的多模態大模型，性能媲美GPT-4V

earnbyshare2016

17 0

暫無評論

暫無評論...