微信扫码
添加专属顾问
我要投稿
Agentic AI正引领AI从内容生成迈向任务执行的新纪元,深入解析其技术演进与垂直领域应用潜力。 核心内容: 1. AI能力的三次关键演进历程 2. Agentic AI的核心定义与市场驱动力 3. 构建Agentic AI的技术要素与落地框架
人工智能的发展正进入一个新的阶段。Gartner在其对2025年顶级科技趋势的分析中,将代理式AI(Agentic AI)置于首位,并预测到2028年,日常工作决策中或将有15%由其自主完成[^11]。
这一趋势背后,反映了AI能力构建的重点,正从"生成内容"向"执行任务"迁移。本文旨在以技术演进的视角,对该范式转移进行梳理与分析。文章将回溯深度学习与生成式AI的发展,并论证当前的技术路径,正从依赖大规模预训练的单一模式,演进为以强化学习(RL)后训练为关键、面向特定领域构建"智慧体"(Agent)的新阶段。
此种转变是AI能力构建逻辑变化的体现。基础大模型的预训练,因其对算力、数据和资本的高度依赖,在可预见的未来或仍将由少数大型科技公司主承。然而,Agentic AI的出现并非旨在分割现有市场,而是通过提供高度定制化的任务解决能力,为通用模型难以有效覆盖的专业领域开拓了新的价值空间。随着高质量公开文本数据的趋于饱和与算力成本的相对变化,基础模型的通用能力增长可能面临边际效益递减。一个以领域微调和迭代式离线强化学习为特点的、更加开放和多元的技术生态或在形成之中。
本文将首先厘清一个基本概念:本文所讨论的Agentic AI,并非当前流行的、依赖提示词工程进行外部编排的AI Agent,而是一种将规划与执行能力内化为模型参数的"智慧体"。它的出现不仅是一个技术转折点,也可能对软件产业形态带来深远影响。
自2006年Geoffrey Hinton等人为深度学习奠定基础以来,人工智能的能力发展经历了三个主要阶段。
第一阶段:预测AI (Predictive AI)
第二阶段:生成AI (Generative AI)
第三阶段:代理AI (Agentic AI)
在此演进路径上,一个自然的延伸是物理AI (Physical AI) 。英伟达CEO黄仁勋在GTC大会上将其列为Agentic AI之后的阶段[^12]。此观点亦得到学界印证,谷歌DeepMind的机器人科学家Alex Irpan在其博文《现实的悲剧正在向你袭来》中指出[^7],物理世界的复杂性、不可加速与不可复制性,构成了比数字智能体艰巨得多的挑战。因此,将物理AI置于Agentic AI之后,符合技术演进的逻辑。
当前或正处在从第二阶段"生成"向第三阶段"代理"过渡的关键时期。
理解当前的转折点,需要梳理从传统大语言模型到Agentic AI的技术发展脉络。
从GPT模型与规模法则(Scaling Law)的发现开始,AI技术的关注点从算法创新向工程实现发生部分转移。其构建过程融合了三种关键技术:
此阶段的产物是一个反应式(Reactive)系统:它响应用户输入,生成一个静态的、一次性的高质量输出。其智能是被动的,缺乏主动规划、试错和适应环境的能力。
由于基础模型自身不具备与外部世界交互或执行多步任务的能力,业界早期转向了在应用层进行能力"补偿"的工程化路径。在不改变模型权重的前提下,两种主流方案应运而生:
在此历史阶段,系统的主要规划与决策逻辑位于模型之外,以固化的代码或流程形式存在。这种"模型即引擎"的模式虽在当时有效,但其能力上限和灵活性受限于外部编排系统的设计,为后续将能力内化至模型自身的范式变革埋下了伏笔。
反应式模型的内在局限性与外部增强方案在可扩展性上的挑战,共同将技术演进推向了下一阶段:通过专门的后训练(Post-training)直接增强模型的能力,而非仅仅在应用层"套壳"。此探索的重点,是将模型的优化目标从"最大化下一词预测概率"转向"最大化任务成功率"。强化学习(RL)成为了实现这一目标的关键技术。
早期的探索是奖励引导的搜索(Reward-Guided Search)。基于一个预先训练好的奖励模型(Reward Model, RM),模型在生成答案时不再是单路径输出,而是可以进行显式的树状或束状搜索,探索多条推理路径,并选择奖励模型评分最高的一条。赋予了模型初步的"反思"和"择优"能力,但其搜索过程是在推理时(Inference-time)进行,并未改变模型自身的参数。
一项关键突破来自于OpenAI o1 和 DeepSeek r1 为代表的 搜索增强学习(Search-Augmented Learning)[^6]。其逻辑类似于AlphaGo的自我对弈:搜索过程所找到的更优答案轨迹,可以反过来作为高质量的训练数据,通过离线强化学习算法(Offline RL)来微调模型本身。这就形成了一个数据飞轮:搜索发现更优解,学习内化更优策略。
此阶段的贡献,是确立了奖励机制(Reward)在模型能力迭代中的位置,并推动了其精细化:
至此,通过引入来自环境和过程的精确奖励信号,模型开始具备主动学习更优策略的能力,为实现能力内化提供了技术前提。
这是当前正在发生的阶段。Agentic AI的目标,是将第二阶段的外部增强能力,通过第三阶段的后训练范式,最终内化(Internalize)为模型原生的能力。
Agentic AI的出现,也重新定义了智慧体的特征,它在传统的目标导向、反应性和执行能力之上,增加了关键的学习能力:通过经验不断改进自身的性能和策略。
这个转变的技术意义在于:AI的执行能力从AI Agent的外部工作流所"套壳"和"编排",转变为模型自身内化的、可自主学习和迭代的行为策略。模型学习的目标,也从"预测下一个词(Token)",转变成了"预测下一个能导向最终成功的行动(Action)"。
判断一个系统是否是Agent,其自主性水平是一个关键考量。下图从"信息获取"和"任务执行"两个维度,对不同类型的系统进行了划分。工具不具备自主性,需要人类的直接指令;而Agent则表现为一种服务,能自主规划与执行,以达成用户设定的目标。
注:本文定义的AI Agent特指当前主流的、基于"Prompt工程+外部编排引擎"的软件系统,而非广义上的"自主智能体"。为避免混淆,本文将广义的"自主智能体"统称为Agent或智慧体。
一个具备执行能力的AI系统不一定是Agent。以代码助手Cursor为例,它提供了不同自主性水平的功能:
此例说明,Agent的特征是围绕目标进行自主决策与多步执行的能力,而非单一的指令响应能力。
其次,有必要对作为"软件产品"的AI Agent与作为"模型能力"的Agentic AI进行区分。
一个典型的AI Agent(外部编排系统)的工作流程如下,其规划逻辑位于模型之外,由外部代码驱动模型进行多轮交互来模拟思考过程。
而Agentic AI则将规划与执行能力内化为模型自身的参数,其行为是一次连贯的、由内在策略驱动的生成过程。
下表从四个维度对两者进行对比:
AI Agent (外部编排系统) | Agentic AI (能力内化模型) | |
---|---|---|
能力来源 | ||
运行模式 | 多轮会话驱动 | 单次生成驱动 |
智能位置 | 模型之外 | 模型之内 |
开发焦点 |
可以认为,AI Agent是人设计的、由AI执行的工作流;而Agentic AI追求的是由AI自主学习、生成并执行的工作流。
Agentic AI的价值,并非仅是提升任务效率,而是解决了传统AI或AI Agent难以应对的、新的复杂度问题。当以下几种能力成为系统瓶颈时,其必要性便可能显现。
能力一:动态环境下的规划与推理能力这并非指按部就班的流程执行,而是在信息不完整、规则不明确的环境中进行动态决策的能力。
能力二:知识的动态整合与应用能力这是根据具体问题,实时地、跨领域地整合信息并形成逻辑闭环的能力。
能力三:面向复杂环境的持续学习与适应能力这是系统在部署后,根据环境反馈持续优化自身行为模式的能力,尤其是在大规模、多样化的场景中。
近期,学术界与产业界对多智能体系统(Multi-Agent Systems)的讨论增多,例如Google的A2A协议[^9]和康奈尔大学的相关综述[^4],这使得部分观点认为"多智能体协作"是Agentic AI的标志。然而,这里需要辨析"组织形式"与"个体能力"的区别。
在单个智慧体的能力(即"单体智能")尚未成熟之前,过度强调多智能体协作,如同在基础构件质量未达标时讨论构建复杂系统。因此,当前阶段的任务之一,是构建能够独立完成复杂任务的、强大的专家型智慧体。
更进一步看,单体智能的边界也决定了协作的必要性。追求一个无所不能的"全知AI"在经济和技术上或许并不可行。一个更现实的路径可能是,由多个"高度内化的专家型智慧体",通过标准化的协作协议(如A2A)形成一个分布式系统。因此,强化单体智能与探索多智能体协作并非对立,而是同一系统发展的两个阶段:前者是基础,后者是结构。
Agentic AI范式的出现,并非孤立的技术突进,而是由数据、技术、产品和市场四个层面的因素共同驱动的结果。
4月,强化学习奠基人Richard Sutton和AlphaGo之父David Silver合著的论文《欢迎来到经验时代》[^10]中,从"经验学习"的角度阐述了这一转变的意义。他指出,在互联网文本数据趋于饱和后,驱动AI能力持续提升的引擎将是强化学习(在与环境的交互中学习)。基于LLM的Agentic AI,是实现这一愿景较为清晰的路径之一。
训练AI所需的资源,正从"通用文本数据"转向"与特定环境交互的经验数据"。
这种转变重新定义了战略价值。拥有一个能产生高质量交互数据的"环境"(无论是一个高保真仿真平台,还是一个拥有海量真实用户的业务场景),其价值可能不亚于拥有更多的GPU。
以交互经验数据为核心的新范式之所以在当下成为可能,得益于一系列关键技术的成熟:
从产品角度看,当前主流的AI Agent方案存在扩展性、可靠性与维护成本等方面的固有挑战,可能难以满足复杂业务场景的要求。随着训练流程的成熟和交互数据的积累,直接使用Agentic AI的效费比或将超越维护复杂的外部AI Agent系统。因此,将Agent能力"内化"是产品形态演进的一个可能方向。
在此演进路径中,现有的AI Agent系统扮演着重要的过渡角色。其在运行过程中产生的海量"任务拆解-工具调用-结果反馈"日志(包括成功、失败与修正的完整轨迹),恰好是训练下一代Agentic AI理想的、蕴含人类领域知识的高质量经验数据之一。这使得第一代系统的投入具备了双重价值:即时的业务自动化价值,以及长远的数据资产价值。
基础大模型的预训练,因其对算力、数据和资本的高度依赖,在可预见的未来或仍将由少数巨头主导。然而,Agentic AI并非旨在分割现有市场,而是通过提供高度专业化的解决方案,开辟了通用模型厂商难以全面覆盖的增量市场。未来的竞争焦点,可能正从"谁能训练最大的基础模型",转向"谁能为特定领域建立最高效、最可靠的数据-模型迭代闭环"。这为深耕垂直领域的、掌握高质量专有数据的参与者提供了结构性机遇。
Agentic AI带来的影响可能是系统性的,它或将从基础的交互单元扩散至整个产业生态。我们可以从交互重构、生态演化和结构变迁三个层次来审视其潜在影响。
软件的再定义:从"使用工具"到"委托服务"
过去,软件是人类"使用"的工具,用户通过操作界面上的按钮和菜单来执行一项操作。未来,Agentic AI或可被视为人类"委托"的服务,用户通过交付目标来完成一项任务。从"采购一张机票"到"规划一次商务旅行",AI将可能自主完成所有必要的子任务,交互的重点从"过程控制"转向了"目标管理"。
协作的再定义:从"指挥-执行"到"伙伴-辅助"
随之而来的是人机关系的演化。随着AI自主性的提升,人与AI的关系可能从"指挥-执行"的工具模式,转变为"目标设定-方案生成"的伙伴模式。人类的价值将更多地体现在提出正确的问题、定义清晰的目标、进行创造性的构想以及对最终结果进行价值判断,而将繁琐的过程执行交由AI完成。
系统设计的粒度:高内聚、低耦合的"智能微服务"
这个生态系统的构建原则,可类比于软件工程中"高内聚、低耦合"思想的体现。高内聚要求一个Agentic AI应内化其目标所需的所有紧密关联的功能和知识;低耦合则要求不同Agentic AI之间通过定义良好的接口进行通信。最终,这可能会催生一种分层的智能体网络(Agentic Mesh):底层是专注于具体应用的"执行层Agent",高层则是负责协调和调度多个底层Agent的"操作系统层Agent"。
生态位的分化:通用型 vs. 垂直型
跨行业AI代理 (Horizontal AI Agent) :提供跨行业的通用能力,代表性公司包括:
这类横向AI代理的特点是具备通用性和可移植性,能够快速适配不同行业的相似需求。
垂类AI代理 (Vertical AI Agent) :针对某个具体行业或垂直市场提供高度专业化的智能体,代表性公司包括:
这类垂直AI代理的优势在于领域专业性和合规性,它们往往需要处理高度敏感的数据,并遵循行业特定的法规要求。
当作为个体的"智能体"能力日渐成熟时,其组织形态也在同步演进,一个复杂的、分布式的智能系统可能正在浮现。
智能体生态系统:在通用人工智能(AGI)实现之前,一个由高度专业化的专家智慧体组成的时代或将先行到来。未来可能是一个由无数高度专业化的Agentic AI组成的庞大生态系统。它们各自精于特定领域(如法律、医疗、金融、设计),并通过标准化的接口相互协作,共同解决复杂的跨领域问题。这类似于微服务架构在软件工程领域的成功,只不过这里的"服务"单位,是拥有自主智能的Agent。
在传统的模型厂商和应用商之间,一个由需求驱动的"模型微调与部署服务商"中间层可能正在兴起。其价值在于提供高附加值的垂直领域解决方案,而非仅是通用工具。
存在空间:中间商的生存空间,源于"复杂性"与"标准化"之间的张力。一方面,微调部署涉及数据清洗、算法选择、云端优化等复杂技术栈,中小企业应用商可能缺乏相关专业知识(Expertise),这创造了市场需求。另一方面,模型厂商(如Azure AI、Google Vertex AI)正不断将标准化工具垂直整合进其平台,这又在挤压中间层的生存空间。因此,中间商的定位更多是高附加值的垂类解决方案专家,而非通用工具提供商。
价值定位与技术壁垒:其业务可能是利基(Niche)且分层的:
其技术壁垒在于高效的分布式训练能力、深度的行业知识(领域知识与实践经验) 以及强大的数据隐私与安全技术。
驱动与制约因素:这场博弈的变量包括:
Agentic AI的构建涉及显著的资源投入,因此,场景选择成为一个关键的战略决策。其目的是识别那些通用模型无法有效解决、而专用Agent能够创造显著价值的应用场景。一个场景是否适合投入资源进行后训练,或可通过以下三个维度进行评估:
高优先级场景具备以下特征:
典型适用场景包括:金融量化交易、辅助软件工程(代码生成与调试)、药物分子发现、工业自动化控制等。
应规避的场景:对于复杂度低、无明确客观评价标准、或价值密度低的任务(如通用内容摘要),短期使用标准的基础大模型或简单的外部编排(AI Agent)可能是更具成本效益的选择。
构建一个有效的Agentic AI系统是一项系统工程。其成功与否,取决于对四个技术要素的系统性设计与权衡。
环境(Environment)是智能体感知、决策和学习的载体。环境工程的目标,是以计算高效的方式为智能体提供一个反映真实世界复杂性、同时又可供其有效学习的交互对象。其设计涵盖表示、仿真和评估三个层面。
环境表示 (Representation):重点在于对状态空间进行有效抽象,在保留任务相关语义的同时过滤无关信息。Web环境的表示演进是一个典型范例:从完整的HTML DOM树,到以WebArena为代表的、基于可访问性树 (Accessibility Tree) 的语义节点抽象,再到Google DeepMind的WAX环境所采用的多模态融合表示(简化DOM + 截图 + 元数据)。这一趋势指向在保留必要信息的前提下,最大限度降低模型处理复杂度的方向。
环境仿真 (Simulation):由于真实世界交互成本高、风险大、速度慢,仿真成为训练不可或缺的一环。一个务实的工程选择是分层仿真策略,在仿真度与成本效率之间进行取舍:
环境评估 (Evaluation):为规避智能体利用奖励函数漏洞的"奖励劫持"(Reward Hacking)行为,可能需要建立一个多层评估框架:
多模态的作用:值得强调的是,视觉等非文本模态信息的融入,对于Agentic AI并非锦上添花,而可能是突破的关键。尤其是在与GUI或物理世界交互时,多模态输入(如屏幕截图、摄像头画面)是实现对环境状态完整理解、以及将抽象动作"接地"(Grounding)到具体UI元素或物理对象上的前提。它解决了纯文本表示的歧义性问题,是构建鲁棒智能体的重要一环。
动作空间(Action Space)定义了智能体的能力边界,其设计的目的是提升动作的泛化能力与鲁棒性。其演进趋势表现为从环境耦合的低层级指令,向环境解耦的高层级抽象意图迁移。
(x, y)
坐标。这类动作与环境的UI布局、实现细节高度耦合,鲁棒性较差。点击<ACTOR>
,并利用注意力机制在视觉输入中定位<ACTOR>
对应的"购物车图标"。这在一定程度上实现了与坐标的解耦。奖励函数(Reward Function)是塑造智能体行为的机制。其设计的挑战在于稀疏奖励(Sparse Reward)和目标错位(Objective Mismatch)。前者指在长序列任务中,只有最终结果才有奖励信号,导致学习困难;后者指设计的奖励无法真正代表期望的目标,可能导致"奖励劫持"。
为应对这些挑战,奖励工程可以采用组合式策略:
最后,任何奖励函数设计的有效性,都须在多层评估框架下得到持续验证和迭代。
高质量的交互轨迹(Trajectory)是训练Agentic AI的"燃料"。数据策略的重点在于如何以可控的成本,构建一个多样化、高质量的**数据资产组合 (Data Portfolio)**,并解决其"冷启动"难题。
数据来源:
数据质量管理:获取数据只是第一步,后续的数据筛选与管理同样重要。由于离线强化学习对数据质量高度敏感,有必要建立一套机制来识别和筛选出包含"成功"或"有价值的失败"的轨迹。简单地堆积海量低质量交互日志,反而可能损害模型性能。对失败案例进行归因分析,更能指导后续的训练和数据收集。
我们或正处在一个从"AI作为工具"到"AI作为服务"的范式转移中。这一转变的要点,是通过以强化学习为基础的后训练,将规划与执行能力内化为模型自身的参数。这个过程不仅可能重塑软件的形态与人机协作的模式,也为掌握高质量交互数据的领域参与者,在通用模型之外开辟了新的价值空间。未来,构建高效、可靠的数据与模型迭代闭环,或将成为定义下一代智能系统的关键工作。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-03
惊险!腾讯ima搜出来的资料差点出事……
2025-09-03
RAG构建知识库还在忍受慢和重?试试Rust原生ChromaDB,轻量、高速、易用!
2025-09-03
腾讯混元也可在微信评论区,@马斯克的XAI产品经理笑了
2025-09-03
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
2025-09-03
AI流量入口被抢疯了!友商靠GEO让品牌进入AI推荐TOP3了,你的认知却还停留在把它当AISEO?
2025-09-03
揭秘「零故障」运维:Prophet 时序预测与 AI 模型如何联手驯服服务器风险?
2025-09-03
RAGFlow:让大模型真正读懂公司所有文档的开源 RAG 引擎
2025-09-03
生成式AI超越确定性:企业结构化数据在不确定性管理中的新范式
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-09-03
2025-09-03
2025-09-02
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27