微信扫码
添加专属顾问
"Reshape your workflow with AI." 在Agentic Workflow的这件事情上,我先完成了自己的工作流重塑。
近期在「特工宇宙」分享了一场关于Agentic Workflow主题的内容,现在同步分享给大家一些关于个人在使用AI Agent Workflow上的思考、AI-Native应用「Pailido|AI拍立得」创建的初衷和实现流程,在个人工作流重塑上分享了一些体悟。
本次分享大纲整体围绕着AI Agent和Agentic Workflow从“认识、定义、应用、偏见、实践以及延伸”进行展开,正式拉开「仰望星空,脚踏实地」的序幕。
在今年的 4 月初,吴恩达老师在美国红杉做了一场演讲,介绍了 4 种主要的 Agentic Workflow 设计模式。
Reflection(反思):让 Agent 审视和修正自己生成的输出。
Tool Use(工具):LLM 生成代码、调用 API 等工具进行操作。
Planning(规划):让 Agent 分解复杂任务并按计划执行。
Multiagent Collaboration(多智能体协同):多个 Agent 扮演不同角色合作完成任务。
Reflection
反思在根本上其实是一个博弈的过程:如果你让大模型写一段代码,它会立刻给你反馈。这时你可以将它输出的代码片段再输入回去,让大模型仔细检查代码的准确性和结构规范性,并给出评论。然后,你可以将这些反馈结果再次输入给大模型,它可能会输出一个比第一版更好的代码,如果有两个 Agent:一个负责 Coding,另一个负责 Code Review,效果会更佳。
Tool Use
如果大家使用 Kimi Chat 来查询某个问题,你会发现它会在互联网上检索相关内容,并基于检索结果进行总结分析,最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子,同时你也会看到PPT中介绍了非常多的不同领域类型的工具,它其实是为大模型在获取、处理、呈现信息上做额外的补充。
Planning
Agent 通过自行规划任务执行的工作流路径,面向于简单的或者一些线性流程的运行。比如下图中:Agent 会先识别男孩的姿势,并可能找到一个姿势提取模型来识别姿势,在接下来要找到一个姿势图像模型来合成一个新的女孩图像,然后再使用图像理解文本的模型,并在最后使用语音合成输出,完成这个流程任务。
Multiagent Collaboration
吴恩达通过开源项目 ChatDev 进行举例,你可以让一个大语言模型扮演不同的角色,比如让一个 Agent 扮演公司 CEO、产品经理、设计师、代码工程师或测试人员,这些 Agent 会相互协作,根据需求共同开发一个应用或者复杂程序。
AI Agent 基本框架
OpenAI 的研究主管 Lilian Weng 曾经写过一篇博客叫做《 LLM Powered Autonomous Agents 》,其中就很好的介绍了 Agent 的设计框架,她提出了“Agent = LLM + 规划 + 记忆 +工具使用”的基础架构,其中大模型 LLM 扮演了 Agent 的“大脑”。
Planning(规划)
主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。
Memory(记忆)
分为短期记忆和长期记忆。其中短期记忆是指的将所有的上下文学习看成是利用模型的短期记忆来学习;而长期记忆是提供了长期存储和召回信息的能力,它们通常通过利用外部的向量存储和快速检索来存储和召回信息。
Tools(工具)
通过学会调用外部不同类型API来获取模型(通常在预训练后很难修改)中缺少的额外信息,代码执行能力,访问专有信息源等(例如获取此时此刻的天气、联网网搜索等)
Action(动作)
根据上述大模型结合问句(Query)、上下文的规划(Context)、各类工具,最终大模型才能决策出最终需要执行的动作是什么。
Agentic Workflow 解决什么问题?我认为是可以从从提升效率、提高质量、节省时间的角度上进行思考。好比一台“印钞机”,按照指定好的流程重复着机械性的活动,但是它在源源不断的产生价值。
Productivity (效率) = 产生价值的速率
Agentic Workflow 通过将一个复杂的任务分解成较小的步骤,在整个过程中中融入了更多人类参与到流程中的规划与定义。它减少了对 Prompt Engineering 和模型推理能力的依赖,提高了 LLM 应用面向复杂任务的性能,更丰富、更精确。
下面是Coze(扣子)平台上的工作流编排器的示例,这个话其实是一个抽卡游戏的流程,你可以看到在整个工作流中间会有很多节点前后之间有节点以及连线,然后每个节点之间它是通过不同的定义,比如说图片处理工具,或者说是通过多模态模型进行图片理解工具等等其他各种各样的工具组合而成。
单Agent模式下,在这里可以看到一些例如“技能”、“知识”、“记忆”、“对话体验”等等点,其实在我们上面这个多个Agent和workflow编辑器里面里面也有这类工具。它是将一整套工作流组合起来,每个工具在每一个节点里面,它执行了一个任务。大家感兴趣的话可以去体验一下,可以在自己工作流中整个使用。
Agentic Workflow 的“套娃”设计
下面也会带着大家重新看一下工作流其实一直都有出现,目前的工作流编辑器是将Agent的处理流程可视化和可控化了。
LangGPT 提示词框架工作流设计
与传统的 Prompt 从输入直接到输出的映射方式相比,LangGPT 提示词框架应用了CoT(Chain of Thought)完成了从输入到思维链再到输出的映射,即<input——>reasoning chain——>output>。
最后你会发现浓缩成一句话可以解决模型在规划过程中的路径拆解,CoT的思维:“Let's think step by step.”(让我们一步一步思考)
RPA 的工作流设计
RPA其实很早就已经出现,就是做工作流编排领域。流程机器人(RPA)软件的目标是使符合某些适用性标准的基于桌面的业务流程和工作流程实现自动化,一般来说这些操作在很大程度上是重复的,数量比较多的,并且可以通过严格的规则和结果来定义,现在越来越多的RPA软件带上了LLM。
ComfyUI 的工作流设计
近期出现的ComfyUI 是将开源绘画模型 Stable Diffusion 进行工作流化操作模式,用户需要在流程编辑器中配置出每一个的pipeline,并通过不同节点和连线来完成模型的操作和图片内容生成,提高了流程的可复用性,降低了时间成本,同时它的 DSL 配置文件还支持导出导入。
Dify.AI 可被复制的工作流设计
在 Dify.AI 中,我很兴奋的看到它的工作流设计语言跟 ComfyUI 会有一些相似之处,都是定义了一套标注化的DSL语言,并且非常方便的可以使用导入导出的功能进行工作流的复用。
模仿式工作流是最快的学习方法
Large Action Model 采用称为“通过演示进行模仿”的技术。检查人们在单击按钮或输入数据时如何与界面互动,然后准确地模仿这些操作,他们收集知识并从用户提供的示例中学习,使他们更能适应进一步的变化并能够处理不同的任务。
但是,有没有想过一个问题:Agentic Workflow看起来十分美好,但是使用的用户究竟有多少呢?我看了很多Agent商店,通过工作流创建的应用目前来看还是比较少的(可能是出现周期、工作流使用的上手难度等等一系列因素导致),此外Agentic Workflow似乎在复杂流程上的开发又并不是那么稳定可靠。
Idea Time:通过自然语言创建工作流
复杂的工作流搭建怎么会如此麻烦...这似乎跟我我理想中的Agentic Workflow并不太一样!有没有一种更加方便高效的方式,让我能够在短时间内创作一个符合我预期的Agentic Workflow原型?有了,通过自然语言来构建DSL并还原工作流。
我在之前就比较喜欢使用自然语言描述,然后使用Mermaid语法进行创建流程图表,其实DSL也是可以遵循一套约定俗成的规范进行创作。
我认为可以通过口喷需求的方式,在0-1的时候辅助我快速生成一个看上去还不错的工作流程,然后我再修修改改,这会降低用户上手的门槛。
一个小思考题,Agentic Workflow该给谁用?
之前在讨论Agentic Workflow的可用性观点,有人给我说了这么一句话:“研发看不上,产品看不懂,小白不知所云。”
目前我觉得Agentic Workflow拿来做MVP的产品测试是非常好的一个途径,能够在短时间内通过低代码或者零代码的方式进行创作一个小而美的应用。
我的AI-Native应用就是这么玩的。
Pailido|AI 拍立得
这是一款文案快速生成的 AI-Naitive 产品,各个场景由 AI Agent 驱动,仅需选中场景后点击拍摄即可快速生成对应文案。它的服务端可以是使用类似Dify.AI、Coze这种在线编辑好一个Agent应用,然后再通过API的方式进行集成,你仅仅需要关心你的前端、用户输入、你的输出反馈就可以了,打磨好一款小而美的产品。
使用多模态模型,理解图片特征和输出场景期待,搞定小红书文案、外卖点评写作、闲鱼商品发布文案...真的太快了!
所以有个问题要问问诸位了:
Reshape your workflow with AI ?
or
Reshape your AI workflow ?
AI 与人的协同关系
生成式 AI 的人机协同分为 3 种产品设计模式:Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理),在这 3 种模式下,人与 AI 的协作流程也是有所差异。
Embedding 模式:人类完成大多数工作。
Copilot 模式:人类和AI协同工作。
Agents 模式:AI完成大多数工作。
Agentic Workflow驱动角色工作流变革
使用Multiagent Collaboration的方法,让不同角色的 Agent 按照根据任务要求自主规划选择工具、流程进行协作完成一件任务。
我作为一个产品经理角色,我的诉求很简单,需要完成某一个产品功能设计,这个时候通过Agents拆解成多个独立的任务,然后遵循不同的工作流,最后给我生成一份在大体上符合我期望的输出结果,我再修修改改就能够达到可用的阶段了。
所以,我从原子能力层重新思考,面对这个快速变化的时代,我该如何去重塑我自己的工作流,以不变应万变呢?
“输入”、“处理”、“输出”、“反馈”构建了我最底层的信息处理逻辑,我把它比作四个齿轮,齿轮之间通过不同的衔接工具逐步推动运转,从需求作为输入、结果作为输出,围绕着信息加速,不断驱动我向前。
重塑获取信息的方式
搜索引擎作为互联网基础设施,同时也是互联网的入口,对于用户而言,从解决问题出发,搜索引擎和基于大模型的聊天机器人的目标从根本上是一致的。自 2022 年底 ChatGPT 发布,其通过问答形式被认为将对传统搜索引擎带来颠覆。
近期出现的各类AI搜索引擎,类似perplexity.ai、metaso、360搜索、ThinkAny等等,都是在不断颠覆传统的搜索引擎。
辅助高效的处理信息
阅读完一份 10 万字的 PDF 研究报告需要多久?这份报告主要讲了什么内容?有没有我要关注的点?
信息表达更简便
放在以往很难想象,如果要实现下面这俩张图,可能会设计一系列的思考、草稿、理清逻辑等等流程。
现在用自然语言描述一句话就给你生成了这样美观可用的图片,极大的降低了不同角色的创作门槛和周期,是真的简便。
那么新型的产品设计方式也就出现了,在我原来的工作流中,我作为一名产品经理,我会开始使用AI去重新构建我的工作流:使用 AI 进行搞定用户画像、使用 AI 进行竞品调研、使用 AI 设计产品测试用例、使用 AI 绘制产品功能流程图...真的太多了。
虽然我也推荐了一些我自己的工作流上使用的产品,但是我比较建议的是:每个人都是独特的个体,应该先摸清楚自己的日常工作流是怎么样的,然后通过每一个工作节点线索,去找到适合你自己使用的工具。
就好比,我现在初出茅庐,手上握着+1攻击力的武器,+1的防御装备,这不影响我去打怪升级这个事情,假如你找到了一件合适自己的武器,它可能是+1000攻击力,你换上就好了,是能够快速的在你原来的这套工作流里进行战力升级。
关于Agent的未来,我只想说:曾被认为的异想天开的想法,都可能会是 AI Agent 的未来。AI Agent我们其实可以理解为一个技术浪潮中不断前进的新名词,而技术迭代会不断向前。
我很惊讶的发现:曾经五年前躺在我手机备忘录里的一些在当时不可能实现的想法,在如今时代也逐一被验证。
所以,还有什么不能想的呢?
脚踏实地,仰望星空。
Agent的未来是一个浩渺的宇宙,行业的Know-how是每一个人在短期内不可被替代的固有知识资产,你可能会说我可以通过一系列的方法论去获取到很多行业信息,但是非常多的行业潜规则,就像冰山一样,你可能只看到了表面的一些内容,冰山下的不可被观测的,也是这个时代个人的竞争力。
毫无疑问,LLM会有更低的成本、推理处理速度更快、支持多模态全面接入、会有更多AI-Native应用开始诞生...
我肯定是,AGI的时代会离我们越来越近了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-18
2026-05-26
2026-06-04
2026-06-09
2026-04-16
2026-04-25
2026-04-14
2026-05-21
2026-04-09
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。