AI Agent大爆发：谁能成为你的首选“超级助手”？

发布日期：2025-05-28 06:54:06 浏览次数： 2604

作者：码上开车TT

微信搜一搜，关注“码上开车TT”

2025年被普遍视为Agent的元年，在今年可以看到各种各样的Agent如雨后春笋般冒了出来，全面刷新了人们对AI助理和自动化生产力工具的认知。回顾去年至今，有几款极具代表性的Agent产品。

1. OpenAI在今年一月份发布了第一款Agent产品Operator

Operator是一款能够自主操作浏览器完成任务的AI智能代理，在浏览器中Operator agent可以像人类一样通过输入、点击和滚动等方式与网页交互，无需依赖定制API集成。它可以实现在Instacart上自动化在线订餐、购物。

2. 紧接着二月份，OpenAI发布Deep Rearch

Deep Research是专为金融、科学、政策、工程等领域的深度研究设计的AI Agent，提供全面、精准的研究支持，旨在解决高强度知识工作的需求。OpenAI 号称 5-30分钟，能出一份专家级别的调研报

3. 3月份，一款名为Manus的Agent产品在社交媒体上引发热议

Manus专注于复杂任务的自动化拆解和高效执行。它结合了大语言模型与多类型智能代理，支持完整的“任务规划—分配—执行—结果汇总”流程。用户只需一句自然语言指令，Manus会自动细化任务、调用浏览器、搜索、编程等多种智能Agent完成所有子任务，并输出结构化结果报告。它的内测邀请码一码难求，甚至被炒至数万元。

那什么是Agent？一个最简单清晰的定义：

基于大语言模型，能够根据实时环境反馈，主动使用各种工具自主完成任务的智能产品。

大语言模型（LLM）本质上在语义理解和文本生成方面展现出强大的能力，但它自身却存在诸多局限。例如，LLM只能对文本输入做出响应，却“无法行动”——也就是说，它不能自主地去执行操作或与外部环境交互。这使得用户在与LLM协作时，往往只能获得静态的文本输出，而无法直接推动任务的自动化或闭环处理。

Agent 的出现，则为 LLM 增加了一层“脚手架”——相当于赋予了其自主行动的能力。通过和各类工具、API 或环境整合，Agent 能够将LLM 的理解和决策能力延展到实际操作的层面，实现“感知–思考–行动”的闭环。换句话说，Agent 不但能基于自然语言与用户沟通，还可以自动执行后续步骤，极大提高了人机协作的效率和智能化水平。

我举几个简单的例子：

1. 代码生成领域，典型如Cursor、Winserf

LLM可以根据用户输入的prompt自动生成代码，但是它无法运行、调试代码，用户必须手动将代码粘贴到IDE环境，运行后再将报错信息给到LLM，LLM修改后再重新继续上面的流程，整个过程非常的繁琐，如此反复操作，过程冗长、繁琐。而像Cursor、Windsurf 等辅助编程的 Agent，则很好地解决了这些痛点。它们不仅能自动生成、执行和调试代码，碰到问题还会自主迭代修正，实现了全流程自动化，让开发者只需要关注核心需求，显著提高开发效率。

2. PPT生成领域，典型如Gamma

LLM本身是可以生成PPT，但是如果要生成一个符合我们要求的PPT还是非常难的，首先LLM输出的内容主要是需要的长文本，非法按照内容进行结构化，并映射到幻灯片，并且无法生成图表，模板也比较单一，在对PPT修改的也需要反复追加prompt。

Gamma是一个基于LLM的内容创作与可视化工具，Gamma 允许用户只需用一句话或者简单的文本描述，就能一键生成结构化的演示文稿、报告、网页等内容。他在chatgpt基础上集成了数据可视化工具，能够根据文本生成图表，并且自研了智能排版的引擎，自动进行内容分块、分组、页面划分和美观排列，背后可能调用 Web 前端UI布局引擎或自研的排版算法，对内容“智能设计”。并且内置大量模板、配色和风格主题，用户选用即可一键切换，涉及模板检索和渲染逻辑。

从上面两个例子，我们可以看出来，目前市场主流的agent的基本是GPT基座+自动场景工作流+界面/交互优化，可以理解为在GPT基础上套壳（套壳指的是在 GPT 模型的基础上，通过定制化的 prompt 以及固定的代码流程和工具来实现某功能）。

3. 再来看一下Manus

Manus的核心流程大概分为以下几个步骤：

任务规划：使用Claude 3.7等高级LLM接收用户问题并规划出详细的ToDo List。例如，用户输入“帮我分析并总结最近AI领域的热点趋势”，系统会自动细分为“收集最新AI相关新闻、检索相关论文、归纳主要观点、撰写趋势报告”等子任务。

任务分发：之后， Manus 会通过更轻量级的大模型，智能判断每个子任务应由哪一个专业代理（agent）来处理。比如，数据收集任务可以分配给浏览器操作代理，代码分析任务交给编程代理，信息检索任务分配给搜索API代理，实现任务的自动化与最优分配。

执行代理：各个子任务由对应的智能代理自动执行。Manus 当前主要依赖三类核心代理：

浏览器操作代理（可模拟人工网页浏览和操作，类似 Operator）
搜索API调用代理（快速检索并调用网络信息）
编写代码的代理（自动生成、调试、运行代码，处理相关的技术任务）

结果汇总：当子任务完成后，任务汇总生成器（估计用的也是Claude）读取ToDo List和各子任务结果，整合为最终输出，并生成不同格式的文档。

看到这里，我们心里应该有一个疑问，向manus、gamma这类Agent的护城河到底在哪里？是不是被大模型厂商一升级或者更多竞品一上线就很容易被取代？

类 Agent 的核心护城河并不是单纯的底层模型和通用技术，真正决定其竞争力的是“产品体验”和“用户心智”。这些优秀的 Agent 产品能够在短时间内积累用户，最关键的原因其实是它们围绕实际需求构建出了高效、顺畅、创新的体验流程，用智能化手段解决了 LLM（大语言模型）本身难以搞定的“最后一公里”难题。例如，Manus 实现了复杂任务的自动化拆解和多Agent协作，Gamma 则极大降低了内容结构化与可视化转换的门槛。