AI Agent：四大核心能力详解与技术演进

发布日期：2025-05-11 10:14:14 浏览次数： 3381

作者：腾讯云开发者

微信搜一搜，关注“腾讯云开发者”

1 智能体相关动态

2 智能体（Agent）的概念

3 智能体的核心能力

4 智能体现状与未来

在人工智能领域的宏大版图中，智能体（Agent）正以迅猛之势，逐渐攀升至舞台的聚光灯下。当前技术收敛趋势表明，2025年将成为智能体突破「环境感知-自主决策-价值对齐」能力三角的关键里程碑——这不仅是底层技术栈的颠覆性迭代（多模态感知网络、神经符号推理架构、具身智能系统的深度融合），更预示着人机协作范式将进入「认知共生」的新纪元。科技巨头、开源社区与产业资本的竞逐布局（据Gartner预测，2025年全球智能体开发框架投入将突破270亿美元），折射出这场技术变革对全球数字生态的重构势能。当下，2025年被广泛视作智能体发展进程中具有里程碑意义的关键一年，其发展态势备受各界瞩目。

关注腾讯云开发者，一手技术干货提前解锁?

01

智能体相关动态

近期，在AI江湖中，号称全球首个通用Agent的Manus如一颗耀眼流星划过，先是以惊人之势迅速走红，吸引无数目光聚焦。作为首个宣称实现通用目标推理能力的智能体框架，Manus初期凭借跨领域任务规划能力（据其白皮书显示在HuggingFace测试集达到87.3%的零样本迁移成功率）引发行业震动。然而伴随代码开源（GitHub仓库star数单周破15k），社区迅速发现其鲁棒性缺陷——在动态环境下的长期目标分解中存在16.2%的逻辑断层（MIT Tech Review第三方测评），暴露出符号推理与神经网络协同架构的工程化瓶颈。

与此同时，去年Anthropic低调发布的MCP，在今年如同被唤醒的沉睡巨人，开始崭露头角，逐渐受到业内广泛关注。更为引人注目的是，OpenAI果断出手，发布了人人皆可自建小型Manus的Agent API，这一举措犹如投入平静湖面的巨石，激起层层涟漪，为智能体的普及与应用开辟了全新的可能。

Manus代表的端到端学习派 vs. MCP倡导的模块化符号派 vs. OpenAI的LLM基座派，这场博弈将深刻影响未来十年人机协作的底层逻辑。

02

智能体（Agent）的概念

Agent一词，直译过来为“代理”，在AI的专业语境中，常被译为“智能体”。回顾传统聊天机器人，其主要优势在于对文字的理解与处理，能够熟练回答各类问题，完成诸如修改邮件、轻松聊天等相对简单的任务。

然而，一旦面临复杂程度较高、需要多步骤协同执行且涉及与外界交互的任务时，传统聊天机器人便显得力不从心，难以有效应对。而智能体的核心使命，便是赋予AI自主完成任务的强大能力。这意味着当AI接收任务指令后，不仅要深度思考并规划出执行路径，更要切实将计划付诸实践，确保任务得以顺利推进。

从专业定义来看，AI Agent是一种具备感知环境变化、独立自主做出决策，并能够主动执行相应行动的先进人工智能系统。

03

智能体的核心能力

Agent 的技术本质是构建能够自主完成复杂任务的人工智能实体，其核心在于打通“认知-决策-执行”闭环。这一过程依赖于四大核心能力。

环境感知与多模态理解：通过视觉、听觉、触觉等多模态输入，实现对物理与数字环境的动态解析（如GPT-4O对图像语气、视频时序的识别）；
自主规划与动态推理：基于思维链（CoT）、树状思考（ToT）等框架，实现任务拆解、路径优化与风险预判（如Otter模型端到端规划能力）；
工具调用与跨域操作：通过API接口、MCP协议、浏览器操控等技术，连接数字工具与物理设备（如Manus的网页自动化）；
记忆增强与知识进化：结合RAG检索与向量数据库，构建短期情境记忆与长期知识库（如MemGPT的分层记忆管理）。

3.1 感知能力：从单一模态到多模态融合

1、文本时代局限

最初，单纯的大语言模型主要依赖海量文本数据进行训练，其基础感知途径仅仅局限于接收用户输入的文本信息。为了突破这一局限，研究人员引入OCR工具，尝试将图片、PDF等格式文件转化为文本后输入给大模型。但这种方式存在明显弊端，在转换过程中会丢失大量关键信息，如图片中的丰富色彩、独特布局，以及声音里的语气语调等重要元素。

DeepSeek R1：仍专注于文本模型，体现技术路线分化。

2、多模态突破

直至2023年，GPT4推出vision版本，宛如一把钥匙，开启了多模态模型的大门，使得模型能够直接理解图片中的各类信息。随后在去年，GPT发布4O版本，更是实现重大突破，能够将图片、声音等多模态数据一并纳入训练范畴，从而精准理解和识别声音中的语气语调以及图片中的细微细节。甚至，部分能够识别视频时序的多模态模型也应运而生。

多模态感知使Agent能“看”世界、“听”声音，为复杂任务提供基础数据支持。

技术意义：多模态感知使Agent能“看”世界、“听”声音，为复杂任务提供基础数据支持。

3.2 规划能力：从线性推理到自主决策

1、早期困境

早期的大模型在回答问题时，常常表现得过于草率，缺乏深度思考与推理过程，一旦遭遇稍具复杂程度的推理问题，便极易出错。

2、规划方法演进

紧接着，Tree of Thoughts（ToT）方法也被提出，促使大模型能够预先构思多种不同思路，并从中筛选出最优方案。然而，由于早期大模型在规划能力方面缺乏系统性学习与训练，这些方法效果有限。于是，多个模型各司其职、协同合作完成任务的多智能体工作流诞生了。类似一站式，元器都是基于这一工作模式。但这种模式存在固有缺陷，其中间步骤完全依赖人为设定，一旦面对新任务，便需要重新设计流程。

3、自主规划突破

为实现大模型真正意义上的自主规划能力，OpenAI发布的O系列模型，以及国产DeepSeek R1 等推理型大模型，成功让大模型掌握在回答问题前自主推理的技能。

今年2月，OpenAI又推出Deep Research，其背后依托端到端训练后的O3模型，能够自主决定何时进行信息搜索、何时整理现有信息、何时展开深度搜索以及何时进行分析总结，整个过程摆脱了对预先设计工作流或人为指定步骤的依赖，实现了高度自主。

技术意义：规划能力是Agent从“执行者”升级为“决策者”的核心标志。

3.3 行动能力：从API调用到环境交互

1、API调用阶段

大模型与外界沟通的最初方式，主要依赖API调用。在这一过程中，研究者通过监督微调手段，让模型学会在需要调用工具时生成特定的API调用文本。这些文本经特定过滤机制筛选后，由外界系统识别并调用相应的功能函数，待函数运算完成，将结果反馈给大模型。

2 视觉交互创新

但API调用并非万能，现实世界中存在大量没有API接口的事物。为打破这一僵局，去年Anthropic发布Computer Use，致力于训练大模型从视觉层面看懂电脑屏幕并实现对电脑的操作。尽管该尝试目前成功率较低，尚处于初阶实验阶段，但为后续研究指明了方向。

随后，开源社区顺势推出Browser Use，借助传统网页自动化工具，巧妙地间接实现了模型对浏览器的控制，这一技术正是Manus操作网页的核心技术来源。

3、标准化协议

此后，Anthropic进一步创新，推出MCP（Model Context Protocol）模型上下文协议，通过统一接口规格，极大地方便了模型对各类工具的调用。与此同时，OpenAI也不甘示弱，发布了Agent SDK和新的Response API，并内置一系列实用工具，从行业标准和基建层面为模型更好地使用工具、完成复杂任务提供了坚实保障。

3.4 记忆能力：从短期缓存到长期知识库

1、短期记忆优化

在早期，大模型的上下文长度极为有限，短期记忆力表现不佳，与用户交流时，稍长的对话就会导致其遗忘之前的信息。为改善这一状况，业内掀起了提升上下文长度的热潮，以增强其短期记忆能力。

2、长期记忆增强

同时，RAG检索增强生成方案被引入，该方案将大模型需要长期记忆的知识预先存储至外部向量数据库，当需要时，模型可快速从中检索相关内容。这一举措不仅有效弥补了大模型长期记忆的短板，还显著减少了其在回答问题时出现的幻觉问题。

此外，智能体在执行任务过程中产生的各类信息同样需要妥善保存。为此，通过对任务执行过程中的关键信息进行总结、存储，并适时回顾，逐步构建起记忆模块。

3、前沿探索

与人类复杂精妙的记忆系统相比，当前智能体的记忆能力仍存在较大差距。为缩小这一差距，研究人员持续探索新方法，如DeepSeek开发的NSA（Native Sparse Attention）稀疏注意力机制，旨在进一步优化模型的记忆能力。

技术意义：记忆能力是Agent实现个性化服务与持续学习的基础。

04

智能体现状与未来

在当前的智能体市场中，已经涌现出一批颇具实力的优秀产品。其中，编程Agent堪称最为成熟且实用的代表之一。它能够精准理解用户需求，自主编写、修改代码，熟练创建文件并成功部署网页，展现出强大的专业能力。

这里也给我司的代码助手 CodeBuddy打个广告，近期腾讯云代码助手 CodeBuddy 也发布了软件开发智能体 Craft，一句话生成可交付项目，实测数据显示，使用Craft开发智能体的用户，每日AI代码文件采纳率已达90%。

安装指引：https://copilot.tencent.com

紧随其后的是调查Agent，像Deep Research都在各自领域发挥着重要作用。此外，能操控手机的AutoGLM等智能体也在特定场景中展现出独特价值。同时，在医疗、数据分析、风险评估等专业性较强的特定行业领域，智能体同样找到了广阔的应用空间，为行业发展注入新的活力。

智能体作为人类智慧延伸至未知领域的全新形态，承载着无限可能。在这一历史进程中，我们应秉持智慧、勇气与谦卑的态度，积极拥抱充满变数与机遇的未来，携手共创人类与智能体和谐共生的美好明天。

-End-

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业