微信扫码
添加专属顾问
深度agent解析
< 第四篇 >
Creating a new species of intelligence is the greatest mission of our generation
( 引言)
这篇文章是“深度agent解析”系列的第四篇。我们来讨论AI的一种特殊的学习能力。AI的学习包括了知识层面的学习,包括了公有知识,用户相关的信息的学习(对话长期记忆);还有一种学习我们称之为技能的学习,或说反应模式的学习,包括了思维反应模式、表达反应模式、行为反应模式。本文我们来讨论agent如何实现自主的“技能学习能力”。
#01
··反应模式二态性&4个类人的技能学习能力··
反应模式二态性是4个类人的技能学习能力的根源
反应模式可以理解为是实现行为、思维、表达目标的策略,或简单理解为一种技能。如果说情绪系统决定了最上层的目标决策,反应模式系统就决定了这些目标是如何被分解的。
对于人而言,反应模式是二态的,兼具了认知态和执行态。反应模式二态性是4个类人的技能学习能力的根源(这里的学习我们不指对知识的学习,而是对行为、思维、表达策略的学习)。
这四个学习能力是这样的:
自然语言学习。我们用自然语言告诉一个AI如何完成一项工作,最初形成的信息是认知态的,如果同时又是执行态的,AI就能通过自然语言教授学会如何完成一项工作。
观察抽象举一反三。AI观察人是如何完成某目标,最初生成的是具体层的反应信息。然后通过多个具体层的反应信息样本,就能抽象生成抽象层的反应模式信息。当自己要执行这个工作时,又会通过抽象层的反应模式信息演绎生成了自己如何完成工作的反应信息。以上三类信息的形成转化都是在认知态完成的。最终生成自身如何反应的信息如果又是执行态的。那么从整体上看AI就能够实现类似人的:观察、抽象、举一反三。
从计划到执行。计划的生成,容易理解是认知的工作,计划信息是认知态的,但如果计划信息能转为执行(又是执行态的),那么AI就能够像人一样通过认知生成计划,然后转为执行。
通过实践反思优化反应模式。AI能把自身的反应和反应的效果作为认知的客体,能够在认知层对之前反应的得失进行反思,从而优化。比如AI以一种强硬的方式说服一个强硬的人,获得了失败的反馈;此时AI联想到柔能克刚,从而就形成了以温和的方式说服强硬的人的新策略。这就是一个实践、反思、优化反应模式的过程。而上面整个过程是在认知中完成的,生成的优化后的反应模式是认知态的,如果它又是执行态的,就意味这AI能通过实践、反思优化改变自身的反应模式。
在MTSagent中,思维工程的反应模式对应策略记忆。我们可以让GPT在每次根据目标生成执行时,从策略记忆中联想策略,然后根据联想到的策略记忆生成具体策略。因为策略记忆是认知态的,而这个过程能够让策略记忆转为执行。所以这个结构具备“反应模式二态性”。
#02
·· Agent中的策略提示—技能学习能力的源··
在我们为agent封装的每个GPT执行中都可以有策略提示,第一步每个执行的策略是由GPT内置的常理,根据背景信息和目标生成的。然后我们把策略生成也视为一个执行,其背景提示包括了联想到的策略记忆,这样最终生成的策略,就受到了策略记忆中相关策略的约束。这个过程就体现出了策略记忆的可以转为执行,也就是具有执行态。而策略记忆本身是自然语言表征的,表达了如何完成一个目标,是认知态的。所以策略记忆具有反应模式的二态性。
对于四个类人的学习能力,对应了策略记忆的4个来源。
其一,自然语言教授。只需要在感知流中建立“策略祈使”的分流,然后建立一个策略规整的api,它能摄取感知流中识别到的策略祈使,规整后进行存储。相关的策略会在表达生成、思维求解、其他任务api中被联想,影响MTSagent的表达、思维和其他任务执行。比如我们可以告诉agent,“别人攻击你时要反击,攻击一个人可以想想他的自卑点”。这些教授表达能影响agent的表达反应。
其二,学习他人的样本。比如我们给agent对话样本。封装GPTapi询问几个问题:某对话者在对话中试图达到什么目的?他是否达到这个目的?如果达到目的,总结在什么情形下他用了什么策略?第三个问题就能输出策略信息,然后前面描述的策略规整api会摄取感知流的这个信息,规整化后存为合法的策略。这个来源能让Agent通过学习对话样本形成策略,进行模仿。比如学习了销售的对话样本就能运用样本中的销售对话策略,去扮演一个销售者;学习一个人安慰他人的对话样本就能模仿这个人的安慰策略安慰他人。
其三,计划到执行。求解如何实现一个目标,我们称之为“目标求解”(是问题求解的子类),所以会被“求解者”捕获。最终生成的答案会写入感知流,是一类策略信息。此时把感知流中的此类信息分离出来,经过规整化后存储到策略记忆。就能创造让agent提前思考策略,然后进行实践。这里策略的思考分为两种类型:一种目标是具体的,比如让Agent说服某个投资人。“求解者”会提一些背景信息问题,比如这个人有什么特点?这个公司是怎样的?然后生成具体的策略记忆,影响AI后续和这个投资人的对话。另外一种目标是抽象的,比如如何说服一个风险厌恶者?如何说服投资者?这些目标求解可以生成抽象的策略记忆,会作为相关背景知识影响具体的策略生成,从而影响AI后续和具体投资人的对话。
其四,实践反思优化。Agent在每次切换对话目标时,建立一个程序把这个目标下的对话记录截取出来,建立GPTapi询问几个问题:我是否达到目的,如果没有达到目的,是因为什么原因?根据没有达到目的原因总结优化的策略。生成的策略通用“规整api”,形成策略记忆。这个策略记忆的来源能够创造比如这样的效果:AI在说服某类人总是失败后,利用认知修改优化了策略,并在若干次尝试后形成稳定的说服此类人的策略。
#03
··策略-执行的驱动··
首先策略大致可以分为两类,一种描述了什么时候激活一个目标(或执行),“比如别人攻击你你要反击”,一种描述了目标如何实现“比如攻击一个人可以想想他的自卑点”。激活的执行大致也有两类,第一种我们称为宏观执行,旗下还有具体的分解策略;另一种执行不会再继续分解,我们称为基础执行。策略驱动由3个GPTapi组成。
第一个GPTapi,负责判断触发激活一个策略语句。这个api根据特定任务频道最近工作记忆,和这个频道下活跃的策略语句,让GPT判断哪个策略语句条件或触发满足需要被激活。激活的策略语句给到第二个GPTapi。
第二个GPTapi,负责进行条件判断。这个api需要识别尝试激活的策略语句中的条件,进行判断,在条件通过时分离出执行表述,给到第三个GPTapi;如果有必要条件无法判断,这个api需要分离出必要条件的自然语言表述和执行的表述。会有程序挂起执行,并记录执行的必要条件,这些必要条件会被作为求解问题抛回感知流,会被求解者捕获,需要更多资源和时间去判断,如果在未来完成求解,就会根据“执行-必要激活条件”的记录,重新激活执行。
第三个GPTapi负责激活执行。这个api需要分辨执行的类型,并进行相应的激活操作,如果执行是一个对话目标,比如“语言攻击对话者”,发给对话目标管理模块。该模块在表达目标竞争被选择时,检索该目标下策略,把策略也写入对话生成的提示(策略比如想想对话者的自卑点);如果执行是一个思维求解目标,则把问题发到感知流(比如想想对话者的自卑点),求解后的答案会改变工作记忆和长期记忆从而发挥该思维求解的作用;如果执行是在搭建类型的任务中,比如在写作任务中“根据评论生成标题下内容的修改策略”,则需要分离出变量信息的搜索语句(在这个例子中就是“标题下的内容”),根据搜索语句搜索长期记忆中相关信息,写入背景提示,并把整个执行作为需求提示。
讨论至此我们来比较一下单体大模型中的策略提示和MTSagent的策略。对于单体大模型扮演一个角色,我们可以在提示写入策略,这种策略我们叫做“永久的策略提示”。在这种情况下如果策略很多,比如超过数百条,大模型就大概率无法在合适时机选择正确的策略。在MTSagent中我们储备数千条策略,策略驱动在需要使用策略时激活对应的策略,写入表达、或思维。这种模式可以描述为“动态策略提示”。
#04
··认知和策略的联动··
前面的讨论中策略作为一种特殊的信息被处理,转为执行。但自然语言表征的策略本身也是一种知识,描述了什么情况应该做什么,实现特定目标应该怎么做的知识。作为知识就可以被求解,这是求解的一个子类,我们称为“目标求解”,也就是如何实现一个目标。
对于一个具体目标,可能是多个目标的子类,比如说服某个具体自我中心的女人,可能是“说服女人”“说服一个自我中心的人”等的子类。“按照定义在母类目标的反应模式可以被子类所继承”。在进行目标求解时,需要联想到母类目标相关的策略,作为工作记忆,让GPT求解具体策略。
目标求解作为求解的子类,当原始问题具有很高动机时,求解对工作记忆搜索的深度会提高,分解的广度会提升,而且失败的求解也会被重复唤醒,好奇者也会更多次数提出相关问题。按照不严格认知原理,求解动机正比于消耗的资源,也正比于求解的效果。
假设个体对母类目标的策略有提前的思考。那么在子类目标求解时,工作记忆就能联想到母类的策略。相比于子类目标求解时没有这些准备,求解大概率没有前面的更优。同样如果具体任务提前求解过,那么在真正执行是就不需要求解思考,有直接的策略记忆可以使用。
在实操中我们会测试认知如何贡献于更好的执行。比如我们让AI说服一个风险厌恶的具体投资者,理论上有前置思考生成策略,应该优于直接进入执行;而在母类层有思考准备,比如思考过如何说服投资人、说服风险厌恶者,然后思考如何说服这个具体投资人,在求解动机同等水准的情况下,有母类层的思考又会优于没有的情形。
#05
·· 策略的分类··
对话策略。可以分为描述合适激活一个对话目标的策略,以及目标如何反应的策略。前者比如“对方攻击你,你要理解反击”,后者比如“攻击对方,可以攻击他的自卑点”。执行中可以包含思维执行。最常见的思维执行为检索执行。“比如攻击对方,可以攻击他的自卑点”其中,“他的自卑点”就是一个检索执行。攻击目标形成时,这个检索思维执行也会被触发,并把检索到自卑点写入表达执行的工作记忆中。
思维策略。思维策略中最常见的执行就是检索执行。所有执行都有背景信息检索提示。思维执行中的联想策略比如“思考如何说服一个人,可以想想这个人想要什么”其中,“这个人想要什么”就是一个联想策略。如果求解满足“如何说服一个人”那么累积工作记忆的检索就会出现检索“这个人想要什么”,把对应的信息写入工作记忆。
搭建任务中的策略。大致可以分为两类,一类描述什么情况做什么,一类描述怎么做。以写作为例子。前者比如“标题下字数超过2000就拆分子标题”;后者比如“介绍哺乳动物要重点介绍一下其繁殖过程”。
事实上,在agent中,我们有一句总结叫做“所有GPT执行皆可被策略”。这是一个很有趣的原则,沿着这个方向我们能找到很多agent的深度玩法,让agent的每一步运作可以被干预,可以被自身反思,可以被自主优化。
▼
-END-
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。