美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

发布日期：2025-10-20 17:11:19 浏览次数： 2480

作者：龙猫LongCat

微信搜一搜，关注“龙猫LongCat”

今天，美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。

VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体，构建了包含 66 个工具的交互式评测环境，并进行了跨场景的综合任务设计。例如，在旅游规划任务中，要求智能体通过思考、调用工具和用户交互，完整执行从买好票到订好餐厅的终端状态。

我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解，以可控地构建复杂问题。我们发现，即便是当前领先的推理模型，在主榜（复杂跨场景任务）中的成功率也仅有 30%，揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源，旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

随着大语言模型在复杂推理与工具调用能力上的快速进步，基于LLM的智能体在真实生活场景中的应用日益广泛。然而，现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距，主要体现在以下几个方面：

工具生态简单化：早期的工具调用基准主要评估单次 API 调用的准确率（如：函数选择、参数填充），忽视了真实工具间的复杂依赖关系与组合调用需求；
信息密度不足：大多数相关基准仅关注单一类型信息，未能反映真实应用场景中多源信息（时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等）的综合处理需求；
模型探索性受限：现有基准为了模拟真实生活场景，通常会将领域知识组装成冗长的 Policy 文档要求模型遵循，但是这种做法会限制模型在复杂环境中探索解空间的自主性。同时，这种模式下，除了进行深度思考、有效环境交互的能力外，模型的长文本指令遵循能力也对执行结果有很大影响；
交互动态性缺失：用户作为环境的重要组成部分，大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度；

通过对美团生活服务场景的深入分析，LongCat 团队指出：真实世界的任务复杂性，源于三大维度的交织——

推理复杂性：需整合多源信息、自主推理规划任务完成路径；
工具复杂性：需在高度互联的工具图中理解领域特征，精确调用目标工具；
交互复杂性：需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现，团队构建了VitaBench，一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。

VitaBench 的评测榜单未来将长期维护更新，欢迎持续关注：

项目主页：https://vitabench.github.io
论文链接：https://arxiv.org/abs/2509.26490
代码仓库：https://github.com/meituan-longcat/vitabench
数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench
排行榜：https://vitabench.github.io/#Leaderboard

通过将Agent在环境中与User、Tool交互建模为部分可观测马尔可夫决策过程（POMDP），VitaBench进一步将智能体任务复杂度拆解到各个方面进行量化并提升：

推理复杂度（𝒞_reason）

量化智能体需要在部分可观测环境中整合信息量，具体通过以下指标衡量：

观测空间大小：环境整体信息量，信息越多，任务越难；
部分可观测度：智能体需要通过交互才能观测到的信息占整体信息的比例，比例越大，任务越难；
推理点数量：任务中需要处理的显性与隐性推理点数量，推理点越多，任务越难。

基于此，VitaBench构建了大规模真实环境数据库，其中单个任务可涉及5-20个服务提供商、最多超过100个候选产品，每个任务聚合多个真实用户需求，形成复杂的搜索与推理空间。

工具复杂度（𝒞_tool）

如果将现实中的工具集建模为图，图中顶点代表工具，边代表工具间的依赖关系，那么工具复杂度可以通过以下指标衡量：

图大小与密度：反映解决领域问题需要涉及的工具数量与工具间依赖紧密程度，数值越高，模型掌握工具集的难度越大；
工具调用链路长度与子图覆盖率：解决任务需要完成的工具调用链路越长，所形成的子图占整张图的比例越大，任务的需求覆盖面就越广，任务就越难。

基于此，VitaBench从三个场景中提炼出66个真实工具并构建有向图，将领域规则编码到图结构中。其中工具通过Python函数实现，确保工具调用结果的稳定性和一致性。

交互复杂度（𝒞_interact）

反映智能体在用户的动态多轮对话中的掌控能力，通过以下机制实现：

用户画像系统：基于真实平台数据脱敏构建的多样化用户画像，包含人口属性、饮食偏好、消费历史等信息；
行为属性建模：涵盖情绪表达（急躁、焦虑、冷漠等）、交互模式（细节导向、依赖型、逻辑型等）维度；
动态状态演化：用户状态、意图可能在交互过程中持续变化，要求智能体实时调整对话策略。

基于此，VitaBench为每个任务都配备了一个独特的用户角色，并通过UserSimulator扮演，逐步向Agent提出需求。

VitaBench通过两阶段流程构建：
阶段一：框架设计

工具定义：从三个领域中抽象核心功能，定义66个简化但功能完整的API工具；
依赖构建：基于工具间的依赖关系构建有向图，将领域规则编码到图结构中；
用户模拟：实现基于语言模型的用户模拟器，支持模糊化需求生成与个性化响应。

阶段二：任务创建

用户画像：基于真实平台数据合成差异化用户特征；
任务指令：融合多个真实用户请求，改写得到复合目标任务；
环境数据：结合真实数据合成扩展，再由人工核验以确保任务可完成；
评估标准：为每个任务制定独立且细粒度的评测标准。
VitaBench将各领域的规则统一编码到工具图结构中，避免了冗余的领域策略文档（Domain Policy Document）。智能体无需依赖预设规则，而是通过工具描述自行推理领域逻辑。这种设计使VitaBench能够灵活支持各种场景与工具集的自由组合。团队基于三个领域共构建了400项评测任务，其中包括：
单场景任务（300项）：聚焦于单一领域的复杂需求；
跨场景任务（100项）：考察智能体在多场景间的切换执行与信息整合能力。