连载 | AI-Agent正本清源&机会展望（下）

发布日期：2024-08-20 05:35:56 浏览次数： 3258

作者：Cyber Odyssey

微信搜一搜，关注“Cyber Odyssey”

三、Agent的讨论框架及现状分析

3.1 Agent的讨论框架

聊到Agent的时候非常容易混淆，那么我们将现有Agent做一个梳理分类，帮助大家在发起讨论的时候定位到框架中，节约不必要的对齐

Agent平台： 主要以AI工作流搭建为主的低/无代码平台，创作者可以通过上传知识库、编辑工作流、引用其他api、涉及prompt等方式建立AI应用，代表平台有OpenAI的gpts、字节coze（扣子）等；
垂类Agent： 这是比较容易有歧义的方向，很多私有化部署项目、单点应用也被称为Agent，其实和AI原生应用无本质差异，可以说AI原生应用都是中间态的Agent，代表产品有GitHub copilot（AI coding）、duolingo（AI 教育）、midjourney（AI 做图）等；
通用Agent： 是大家憧憬的AGI类Agent，能够有自主性地规划、行动、反思，交付最终任务结果，当前更多关注技术路线的探索以及大模型通用能力的提升，头部模型代表者有OpenAI、Meta（开源的Llama系列）、Anthropic(Claude系列）、Google（Gemini系列）等，技术路线的代表有Auto-Agent等。

3.2 Agent现状分析

我们需要的Agent到底是什么?

能够复制我们的能力，完成需要的任务，卸载人类工作量、注意力占用，释放更多的精力到创新、探索、享受人生（就像GPU卸载了CPU负载那样），that’s like具备可塑性的秘书or员工。

现在的Agent为什么不行？（当下痛点问题）

以所谓SOTA—OpenAI为例，逻辑层过于简单：模型能力+联网信息，直接产出，且中间过程黑箱化、不可控制、难监督优化，报告结构、思考维度、深入层度难达到产出要求。

数据接口限制+API能力有限，这是伪Agent

目前GPTs、各类三方插件主要以api的方式接入GPT平台，但（1）受制于接入方数据和能力的开放程度（2）三方能力阉割严重（因为无法真正交互），比如哪怕调用了Canva插件，还是无法一站式反馈任务成品。

目前的操作系统已经经历了近30年的衍化，所以软件都遵循近乎同样的使用语言（for用户体验），应该更好地利用。

综上，OpenAI是copilot/领航员，但不是车手/autopilot，光有大模型（决策系统）是不够的，需要拿到更多“行动”的权限，去实现链路上的闭环，真正代理或者部分代理人类的工作。

AI学习人类使用工具的逻辑、动作，并复现相关的能力，而不是成为能力本身。

Agent是一个会开车的AI，而不是用AI直接做一个可实现点到点的工具，可直接去复现人类近20年的OS使用习惯，大幅提升落地效果和效率。

3.3 Agent发展展望

面对现状的问题，我们先看下SOTA（OpenAI）的动作

OpenAI将AI划分为5个等级，自称其AI模型正处于L1，但很快就会达到L2（推理者）。而根据其前研究员预测，五级AGI最快将在27年实现；而L5，就是实现AGI的最后一步，至此，AI将可以执行整个人类组织的工作。

OpenAI CTO曾透露，OpenAI接下来将致力于研究在特定任务上博士级别的智能，也许就在一年或一年半之后实现。

去年11月，头部AI团队DeepMind团队也发表了一篇论文「Position: Levels of AGI for Operationalizing Progress on the Path to AGI」中，详细定义了AGI的不同级别。

OpenAI的具体探索动作：

2023年收购RPA类Induced AI，探索AI+RPA的技术路线，尝试解决大模型在“行动”上的不足
Induced AI 让企业可以用简单的自然语言描述工作流程，系统会实时把这些指令转化为执行各种重复后台任务的伪代码。该平台基于 Chromium 启动浏览器实例，利用其技术读取屏幕内容，像人类一样控制浏览器完成各个工作流程的各个环节；
Induced AI 联合创始人兼 CEO Aryan Sharma 展示说，即使网站没有 API，浏览器实例也可以与其交互，Induced AI 能处理包括双重认证在内的复杂逻辑驱动流程；Sharma 表示，该系统采用双向交互，允许在需要时人工干预某些环节，同时自动管理其他步骤；
与现有模型不同，尝试编写此类指令的人可能会花费数小时来完成标记所有 HTML 元素等任务。而 Induced AI 无需手动标记，它可以从英文指令中提取必要信息，并根据需要动态调整，Induced 能够自动化一些非确定性的工作流程，这些流程需要实时的推理或判断，例如对新邮件入站的背景验证流程，包括寻找和分析他们的社交媒体和网络内容，或者一个需要在线数据库和内部系统交叉引用以确保合规的内部审计流程。

神秘模型“strawberry”相关消息频发，据称将推进至Level2阶段

「草莓项目」初次曝光，还是在上个月。路透独家报道称，OpenAI正全力研究草莓（Strawberry）新项目，据称就是传言已久的Q*；
Q项目最初也是由路透，在去年底首次曝光；当时，OpenAI内部人士表示，Q可能是公司在AGI方面的一个突破，也就是说，一定程度上实现了在最具经济价值任务上，超越了人类；
当被问及Strawberry更多细节时，OpenAI发言人表示：OpenAI希望AI模型可以像人类一样看待和理解世界；这些系统的推理能力，会随着时间的推移而得到改善；这一新项目，也被内部赋予了高度的期望。研究人员们希望，AI不仅仅能够生成针对查询的结果，还可以提前计划，自主可靠地查阅互联网，执行OpenAI所言的「深度研究」的任务。

自GPT-4面世以来，已经过去了17个月，大约一年半的时间。虽然今年，OpenAI也发布了新模型GPT-4o，以及GPT-4o mini，它们皆是原生多模态基础模型。但来自竞家Anthropic、Meta等公司的竞争也愈加激烈。他们发布的模型在某些任务中，能够与GPT-4o抗衡，甚至略胜一筹。

苹果在Agent方向的探索：Apple Intelligence以及apple intents

今天苹果WWDC2024开发者盛会的One More Thing就是Apple Intelligence！它了解用户的各种日常习惯、关系和日常通讯内容，以提供高度个性化的服务。

Apple Intelligence系统架构通过Orchestration技术（Siri底层的新名字）来决定哪些任务本地哪些交给云端。

而关于此次Siri重生背后的技术，Jim Fan大佬也提前做了分析：Ferret-UI；它是一个多模态视觉-语言模型，能够理解iOS移动屏幕上的图标、控件和文本，并推理它们之间的空间关系和功能含义，你可以问Ferret-UI的示例问题包括：

为这张屏幕截图提供一个摘要；
对于交互元素[bbox]，请提供一个最能描述其功能的短语；
预测UI元素[bbox]是否可以点击。

有了强大的屏幕理解能力，向模型添加动作输出并使其成为一个完整的设备上助手并不难。这篇论文甚至讨论了数据集和iOS UI基准构建的细节。

Ferret-UI能够在移动UI屏幕上执行引用任务（例如，部件分类、图标识别、光学字符识别（OCR））和定位任务（例如，查找部件、查找图标、查找文本、部件列表）。

如何让这个agent替代执行这些动作？如何执行这些动作？实际上，苹果专门介绍了他们的intents，详细地介绍了这个过程，比如Siri可以为建议应用程序的action，帮助人们发现应用的某些功能，实现特定的操作。

在一个APP内部或跨APP之间执行一些action，苹果举了一个例子，都知道在iPhone上有快捷指令功能，换言之，就是shortcuts；自从iPhone 13或14开始，用户就能够构建自己的快捷指令。

在通过 Siri 触发 Shortcuts 时，系统可以允许用户在一定程度上和自定义视图交互，以便确认用户意图、向用户展示结果或者要求用户提供更多输入信息等，如下图所示。

国内大厂在技术方向的探索，如阿里的mobile-Agent，新的Agent打破了APP的界限，能够跨应用完成任务，有机会成为真正的通用型Agent。

Mobile-Agent 于今年年初发布，凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内，它已经在Github获得了2,000个Star。

该系统采用纯视觉方案，通过视觉感知工具和操作工具完成智能体在手机上的操作，无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大，Mobile-Agent实现了即插即用，无需进行额外的训练和探索。

在手机操作任务中，智能体通常需要通过多步骤来满足任务需求。每步操作时，必须跟踪当前任务的进展，即了解先前完成的要求，从而推断出依据用户指令进行的下一步操作；而操作历史记录，每一步包含的具体操作和对应的屏幕状态，都会被保存下来。

在一些任务中，智能体需要查看天气并撰写穿衣指南。生成指南时，智能体需要依赖历史屏幕中的天气信息。因应这一需求，Mobile-Agent-v2设计了记忆单元，由决策智能体负责更新与任务相关的信息。此外，由于决策智能体无法直接观察操作后的屏幕信息，系统还引入了反思智能体，用于监测并评估决策智能体操作前后的屏幕状态变化，确保操作的正确性。