2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

美团 LongCat 开源 General 365:树立推理评测新标尺

发布日期:2026-05-14 20:05:23 浏览次数: 1762
作者:美团技术团队

微信搜一搜,关注“美团技术团队”

推荐语

大模型能解奥数题,却分不清该走路还是开车去洗车店?美团 LongCat 团队发布 General 365,首次揭示大模型通用推理的真实水平。

核心内容:
1. 当前大模型评测的“常识”死穴与通用推理瓶颈
2. General 365基准的设计目标与五大核心特征
3. 基准涵盖的八大推理挑战维度与题目质量保障

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大模型在AIME、IMO等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。

这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。

基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。

这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。


过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。

General 365的设计目标由此明确:将背景知识限定在K-12水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:

  • 高多样性:365道原创种子题目及1095个扩展变体,全面覆盖八大挑战类型,避免重复特征与死记硬背;

  • 高挑战性SOTA模型在此基准上也仅能勉强及格;

  • 聚焦推理知识范围严格限定在K-12,纯粹衡量逻辑推理,而非知识检索;

  • 严格人工质检:全量题目均经过人工审核,覆盖题目设计、推理轨迹与最终答案;

  • 精准评分:采用混合规则与模型的打分方法,人工抽样验证,评分准确率达99.6%。

要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

  • 复杂约束:多条件交织下的全局一致性维护;

  • 分支与枚举:空间的系统性遍历与边界覆盖;

  • 时空推理:空间关系与时间序列的动态推演;

  • 递归与回溯:假设—验证—推翻的迭代纠错;

  • 语义干扰:跨越认知陷阱,严格遵循题设规则;

  • 隐式信息:从碎片线索推断底层逻辑结构;

  • 最优策略:路径方案中的效用权衡与规划;

  • 概率与不确定性:不完全信息下的概率推断。

图1:八个类别的题目数量分布

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

图2:多标签题目的数量分布

如图2所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。

题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:

  • 语义分布:如下图所示,t-SNE 可视化中 General 365 的题目嵌入的分布均匀分散,而 BBH 和 BBEH 均出现明显的聚集现象,暴露了其潜在的逻辑冗余。

图3:三个基准的t-SNE语义分布对比

  • 逻辑独立性:下图所示,由 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分(0-5分),General 365 平均仅得 2.16 分,远低于 BBH 和 BBEH。这意味着在 General 365 中,模型无法再靠“背模板”蒙混过关。

图4:三个基准的推理路径相似度评分分布


手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。


图5:26款模型准确率排行

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

表1:各模型在八个类别上的准确率明细

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

图6:不同模型系列在八个类别上的雷达图

如图6的雷达图所示,不同系列的模型在“隐式信息”等任务上展现出了明显的能力分化。

图7:准确率与平均输出token长度的关系

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图7所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

图8:三个基准性能对比

General 365的难度究竟提升了多少?如图8横向对比所示,各大模型在General 365上的准确率较BBH/BBEH都普遍出现了大幅下降的情况。其中GPT-5-Thinking在BBH上准确率为92.0%,在General 365上仅为58.6%。更重要的是,如图9所示,模型在General 365上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

图9:三个基准上准确率与输出长度的关系


General 365将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。

项目已全面开源,并会持续维护和更新,欢迎体验与探讨:




🚀 开源链接

  • Paper:

    https://arxiv.org/abs/2604.11778
  • GitHub:

    https://github.com/meituan-longcat/General365
  • HuggingFace:

    https://huggingface.co/datasets/meituan-longcat/
    General365_Public
  • ProjectPage:
    https://general365.github.io



    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询

    扫码登录
    登录即表示您同意《53AI网站服务协议》
    服务协议

    欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

    在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

    一、 定义

    本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

    会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

    知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

    二、 账号注册与登录

    登录方式:本网站支持以下登录方式,您可根据实际情况选择:

    微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

    手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

    账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

    实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

    未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

    三、 服务内容与规范

    知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

    服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

    禁止行为:您在使用服务时不得实施以下行为:

    利用技术手段批量爬取、下载、转存知识库内容;

    将知识库内容用于商业目的或未经授权地向第三方传播;

    干扰本网站正常运行或侵犯其他用户合法权益;

    发布违法违规信息或从事违反公序良俗的活动。

    四、 知识产权声明

    权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

    有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

    侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

    五、 个人信息保护

    我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

    您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

    您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

    六、 免责声明

    内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

    不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

    第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

    七、 违约责任

    如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

    如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

    八、 法律适用与争议解决

    本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

    因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

    九、 其他

    本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

    本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

    我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


    已查阅