Apple 的 AI 代理评估框架

发布日期：2024-08-26 07:54:21 浏览次数： 2883

作者：barry的异想世界

微信搜一搜，关注“barry的异想世界”

苹果最近推出了 ToolSandbox，这是一个用于有状态、对话式、交互式评估 LLM 工具使用能力的框架。这一消息紧随苹果发布关于 Ferrit-UI 的研究，该研究旨在增强移动 UI 理解。最引人注目的是评估框架的定义以及它所衡量的 Agent AI 或 Agentic 应用的具体方面。

介绍

好的，苹果推出了一个名为 ToolSandbox 的框架，该框架被描述为用于 LLM 工具使用能力的有状态、对话式、交互式评估基准框架。

这紧随苹果发布一项研究，展示了 Ferrit-UI 用于基础移动用户界面理解的成果。

然而，对我个人而言，这项研究中最有趣的部分是评估框架的定义方式以及测量的 Agent AI 或 Agentic 应用程序的元素。

我们展示了开源模型和专有模型之间存在显著的性能差距，ToolSandbox 中定义的复杂任务，如状态依赖性、规范化和信息不足，即使对于最强大的 SOTA LLM 来说也是具有挑战性的，为工具使用 LLM 能力提供了全新的见解。~ 苹果

我们正处于这一转折点，推出了被称为 自主代理、AI 代理、Agent AI、代理、Agentic 应用程序 等的概念。

许多人在问，自主代理到底是什么？虽然许多人认为自主这个词在某种程度上是反乌托邦的。

好消息是，苹果发布的 ToolSandbox 框架不仅作为评估代理的工作原型，还作为代理应具备能力以及它们如何扩展到它们所生活的世界的优秀参考框架。这个世界通常是目前的手机操作系统、网页浏览器或桌面。

代理环境

下图展示了苹果所看到的评估轨迹，其中消息总线代表了完整的历史。苹果将用户、代理和执行环境视为对话的一部分。这种方法将代理视为这些参与方之间的中介。

我发现世界状态的概念非常有趣，其中某些环境或环境设置需要被访问以启用某些操作。

这个世界状态暗示了苹果在Ferrit-UI和其他研究（如WebVoyager）方面所做的研究。在这个世界中，代理需要进行交互。这个世界目前由表面或屏幕构成，需要在浏览器窗口、手机操作系统等之间进行导航。

里程碑是需要执行的关键点，以实现或满足用户意图。如果无法执行，这些也可以被视为潜在的失败点。

在上图的示例中，用户的意图是发送一条消息，而蜂窝服务已关闭。

代理首先应该理解用户的意图，并提示用户提供必要的参数。在借助search_contacts工具收集所有参数后，代理尝试发送消息，发现需要在失败时启用蜂窝服务，并进行了重试。

为了评估这个轨迹，我们在每个回合中找到所有里程碑与消息总线和世界状态的最佳匹配，同时保持拓扑顺序。

这是一个很好的例子，说明为了使代理真正自主，它需要控制其环境。

关键要素

尽管向更简化的问题表述的范式转变，但面向任务的对话的状态性、对话性和互动性仍然存在，并对工具使用的LLMs的系统性和准确性评估构成了重大挑战。

有状态

苹果公司将状态视为不仅仅是对话的轮次或对话状态，还包括代理所处环境的状态。

这包括有状态工具之间的隐式状态依赖关系，使代理能够根据其世界或常识知识（这些知识是用户查询中隐含的）跟踪和改变世界状态。

代理自主性

我在这项研究中发现的另一个有趣的概念是 知识边界，它告知用户模拟器应该知道什么和不应该知道什么，提供对预期结果的部分访问，从而对抗幻觉。这类似于领域内和领域外的问题。

里程碑 和雷区定义了在轨迹中必须或不必须发生的关键事件，使我们能够通过丰富的中间和最终执行信号来评估任何轨迹。

复杂性

对于对话用户界面，定义了两种场景……

单一/多个工具调用

一种情况是存在单一的对话或用户回合，同时在后台有多个工具调用程序。

因此，用户发出一个单一的请求，从 NLU 对话状态管理的角度来看并不复杂，但在后台需要大量处理。

单用户 / 多用户对话

在其他场景中，可能只有一个工具调用事件或里程碑，但需要多个对话轮次来确定用户意图、在必要时消歧义、收集用户的相关和必要信息等。

考虑上面的图像，这是一个部分匹配里程碑的GPT-4o轨迹示例。

在这个例子中，GPT-4o花费了大部分时间来解决状态依赖问题，未能在允许的最大轮次内完成任务。

尽管最终的里程碑导致了失败，但中间里程碑有助于更好地了解失败原因。

最后

Apple 的 ToolSandBox 是一个有状态的、对话式的、互动的评估基准工具，用于评估 large language models (LLMs) 的工具使用能力。

这更进一步接近于模型编排的环境，并使用模型来处理它们最适合的特定任务和应用。

它突出了开源模型和专有模型之间的显著性能差异，特别是在涉及以下场景时：

状态依赖性，
规范化，以及
信息不足。

该框架揭示了即使对于最先进的 (SOTA) 模型也存在挑战，为 LLM 工具使用能力提供了新的见解。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

别让 AI 写的文档误导用户：从单次 Prompt 到高可信文档工程化实践

2026-06-30

网传 Karpathy 的 CLAUDE.md 曝光，10条铁律管住Claude Code！

2026-06-29

AI Coding 的底层框架：一切优化都是在对抗熵增

2026-06-29

给模型写方法论：拆解一个跨法域隐私审计Skill

2026-06-28

别再手工调 prompt 了，让 Agent 自己改自己的"操作系统"

2026-06-26

OpenAI工程师首次公开！教大家榨干 Codex

2026-06-22

用AI拆解WBS：我把3天的活缩到了10分钟出框架+2小时调

2026-06-22

Claude Code之父删了IDE！干掉提示词，只写循环

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT Image 2 提示词图库开源站点来了

2026-04-21

不再触发Claude使用限制，大幅降低Token的10个有效习惯！

2026-04-07

我逆向了 329 条 GPT-Image2 提示词模板，全部开源！

2026-04-25

Karpathy 的 CLAUDE.md，到底解决了什么问题

2026-04-14

Codex 从入门到精通

2026-05-02

50个 Claude Code 日常使用技巧与最佳实践

2026-04-20

Claude Design的提示词被扒出来了，我在里面发现了Anthropic最真实的设计哲学

2026-04-19

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Codex「自我蒸馏」提示词进化版！官方团队给出更强方案，一键打包你的专属工作流

2026-05-25

Opus 4.7 落地了，聊聊我摸出来的使用技巧

2026-04-18

大家都在问

怎么写一份 Claude 真正能看懂的 DESIGN.md 文件？

2026-06-17

Search Agent 要如何构造复杂有效的Query？

2026-05-23

写给产品经理的"AI工程"指南：提示词工程、上下文工程、Harness 工程到底是啥？

2026-05-16

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

Prompt caching 技术是如何实现 1 折的推理成本优化的？

2026-02-12

几句话就能复刻一个付费Skill，Skills商店还能卖什么？

2026-02-12

从 Prompt 到 Skills：如何把业务流程切开，塞进AI的“技能槽”里？

2026-02-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

Apple 的 AI 代理评估框架

介绍

更多关于 ToolSandbox

代理环境

关键要素

有状态

代理自主性

复杂性

单一/多个工具调用

单用户 / 多用户对话

最后