2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

发布日期:2025-10-20 17:11:19 浏览次数: 2480
作者:龙猫LongCat

微信搜一搜,关注“龙猫LongCat”

推荐语

美团LongCat团队推出VitaBench,首个基于外卖、餐饮、旅游三大真实场景的智能体评测基准,揭示当前领先模型成功率仅30%的现状。

核心内容:
1. VitaBench构建66个工具的交互环境,模拟复杂生活场景任务
2. 首次从推理、工具使用、用户交互三大维度量化智能体表现
3. 开源项目助力解决现有基准与真实场景应用间的四大差距

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

今天,美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。

VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。

我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。我们发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。


随着大语言模型在复杂推理与工具调用能力上的快速进步,基于LLM的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:

  • 工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求;

  • 信息密度不足:大多数相关基准仅关注单一类型信息,未能反映真实应用场景中多源信息(时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等)的综合处理需求;

  • 模型探索性受限:现有基准为了模拟真实生活场景,通常会将领域知识组装成冗长的 Policy 文档要求模型遵循,但是这种做法会限制模型在复杂环境中探索解空间的自主性。同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;

  • 交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度;

通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织——

  • 推理复杂性:需整合多源信息、自主推理规划任务完成路径;
  • 工具复杂性:需在高度互联的工具图中理解领域特征,精确调用目标工具;
  • 交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现,团队构建了VitaBench,一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。

VitaBench 的评测榜单未来将长期维护更新,欢迎持续关注:

项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/abs/2509.26490
代码仓库:https://github.com/meituan-longcat/vitabench
数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard

通过将Agent在环境中与User、Tool交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench进一步将智能体任务复杂度拆解到各个方面进行量化并提升:

推理复杂度(𝒞_reason)

量化智能体需要在部分可观测环境中整合信息量,具体通过以下指标衡量:

  • 观测空间大小:环境整体信息量,信息越多,任务越难;
  • 部分可观测度:智能体需要通过交互才能观测到的信息占整体信息的比例,比例越大,任务越难;
  • 推理点数量:任务中需要处理的显性与隐性推理点数量,推理点越多,任务越难。

基于此,VitaBench构建了大规模真实环境数据库,其中单个任务可涉及5-20个服务提供商、最多超过100个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。

工具复杂度(𝒞_tool)

如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,那么工具复杂度可以通过以下指标衡量:

  • 图大小与密度:反映解决领域问题需要涉及的工具数量与工具间依赖紧密程度,数值越高,模型掌握工具集的难度越大;
  • 工具调用链路长度与子图覆盖率:解决任务需要完成的工具调用链路越长,所形成的子图占整张图的比例越大,任务的需求覆盖面就越广,任务就越难。

基于此,VitaBench从三个场景中提炼出66个真实工具并构建有向图,将领域规则编码到图结构中。其中工具通过Python函数实现,确保工具调用结果的稳定性和一致性。

交互复杂度(𝒞_interact)

反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:

  • 用户画像系统:基于真实平台数据脱敏构建的多样化用户画像,包含人口属性、饮食偏好、消费历史等信息;
  • 行为属性建模:涵盖情绪表达(急躁、焦虑、冷漠等)、交互模式(细节导向、依赖型、逻辑型等)维度;
  • 动态状态演化:用户状态、意图可能在交互过程中持续变化,要求智能体实时调整对话策略。

基于此,VitaBench为每个任务都配备了一个独特的用户角色,并通过UserSimulator扮演,逐步向Agent提出需求。

VitaBench通过两阶段流程构建:
阶段一:框架设计

  • 工具定义:从三个领域中抽象核心功能,定义66个简化但功能完整的API工具;
  • 依赖构建:基于工具间的依赖关系构建有向图,将领域规则编码到图结构中;
  • 用户模拟:实现基于语言模型的用户模拟器,支持模糊化需求生成与个性化响应。

阶段二:任务创建

  • 用户画像:基于真实平台数据合成差异化用户特征;
  • 任务指令:融合多个真实用户请求,改写得到复合目标任务;
  • 环境数据:结合真实数据合成扩展,再由人工核验以确保任务可完成;
  • 评估标准:为每个任务制定独立且细粒度的评测标准。
    VitaBench将各领域的规则统一编码到工具图结构中,避免了冗余的领域策略文档(Domain Policy Document)。智能体无需依赖预设规则,而是通过工具描述自行推理领域逻辑。这种设计使VitaBench能够灵活支持各种场景与工具集的自由组合。团队基于三个领域共构建了400项评测任务,其中包括:
  • 单场景任务(300项):聚焦于单一领域的复杂需求;
  • 跨场景任务(100项):考察智能体在多场景间的切换执行与信息整合能力。

每个任务均由多名专业标注人员和领域专家进行多次校验与复核,既确保任务具备足够的复杂度,又保证其可以顺利完成。数据统计结果如下表所示:

针对长轨迹评估的复杂性,VitaBench团队还提出了基于Rubric的滑动窗口评估器。

传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为,无法对Agent完成任务的过程进行有效监督。VitaBench借鉴最新研究,将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。

评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个Rubric的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。

这种细粒度的设计不仅显著提升了评估的可解释性,也为未来的强化学习工作提供了更密集、更可靠的反馈信号。

团队在VitaBench上评测了包括GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash等在内的20余款主流大模型。

实验设置

  • 实现基于FunctionCall的智能体架构,所有模型使用官方工具调用格式;
  • 用户模拟器基于GPT-4.1实现,评估器基于Claude-3.7-Sonnet实现;
  • 每个任务运行4次,温度均设置为0.0以促进稳定输出,计算Avg@4、Pass@4、Pass^4指标;
  • 排行榜分为推理和非推理模型两类,对于支持在两种模式之间切换的混合思考模型,团队在两类中分别评估其开启思考和关闭思考的配置。

实验结果表明:

跨场景任务带来极大挑战:即使是测试中表现最佳的o3(high)模型,跨场景Avg@4成功率也仅为30.0%,远低于单场景任务的48.3%,表明当前模型在跨域工具协调与意图整合方面存在根本性短板。

  • 多次尝试(探索)可以提升性能,但同样稳定性堪忧:尽管Pass@4(至少一次成功)可达60%,但Pass^4(四次全成功)接近0%,说明模型行为高度不稳定,难以满足生产环境可靠性要求。

  • “思考型”模型显著优于“非思考型”:启用链式推理(thinking)的模型普遍提升5–8个百分点,且交互轮次更少,说明深度规划对复杂任务至关重要。

复杂性消融实验

团队进一步通过消融实验,验证了VitaBench所提出的三大复杂性维度的有效性:

  • 推理复杂性:任务所需推理点数量与成功率呈强负相关。在线旅行与跨场景任务平均包含9.7–10.3个推理点,搜索空间相比其他两个领域高出一个量级,成功率也更低。

  • 工具复杂性:工具图的节点与边数量越多,任务越难。跨场景任务涉及66个工具、512条依赖边,是所有任务中最复杂的,成功率也最低。

  • 交互复杂性:在「直接告诉Agent完整指令(无用户交互)」条件下,模型成功率显著提升;而引入真实用户模拟器(包含完整人物特征和行为属性)后,性能下降15–25个百分点,尤其对弱模型影响更大。

用户模拟器与评估器可靠性验证

为确保评测结果可信,团队对两个核心组件进行了严格验证:

  • 用户模拟器:在信息保真度(9.48/10)与人格一致性(9.34/10)两项指标上均表现优异,能准确模拟不同用户行为和偏好,且不违背任务要求。

  • 滑动窗口评估器:与人工标注相比,Cohen’s κ达0.828,显著优于无Rubric或无滑动窗口的基线方法。

典型失败案例分析

在对模型错误案例的系统分析中,团队归纳出代表性三大错误类别:推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)。

分析发现,当前模型普遍存在以下具有代表性的失误模式:

  • 模型在涉及时空推理与常识推理的任务中常常忽略细节,反映出其在多维信息整合上的局限。
  • 即便具备正确的工具与条件,模型仍常因对自身能力、工具能力的不确定而提前放弃任务。
  • 当工具调用失败或用户需求模糊时,模型往往重复无效操作,而非主动调整策略进行修复。

这些问题表明,当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间,为后续研究提供了明确方向。

VitaBench 不仅是一个评测基准,更是一套关于「Agentic Task Complexity」的理论框架。它首次系统量化了推理、工具与交互三大维度对智能体性能的影响,并揭示了当前模型在真实生活场景中的能力边界。

我们的目标不仅仅是测量现有模型的智能,更是开启「AI 下半场」,实现通往实用智能体的最后一公里。正如其名 “Vita”(拉丁语 “生命, 生活”)所寓意的:智能的终极考场,不在实验室,而在生活本身

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅