Agentic Workflow：AI重塑了我的工作流

发布日期：2024-05-15 13:07:32 浏览次数： 7021

作者：抄就完了

微信搜一搜，关注“抄就完了”

"Reshape your workflow with AI."
在Agentic Workflow的这件事情上，我先完成了自己的工作流重塑。

近期在「特工宇宙」分享了一场关于Agentic Workflow主题的内容，现在同步分享给大家一些关于个人在使用AI Agent Workflow上的思考、AI-Native应用「Pailido｜AI拍立得」创建的初衷和实现流程，在个人工作流重塑上分享了一些体悟。

本次分享大纲整体围绕着AI Agent和Agentic Workflow从“认识、定义、应用、偏见、实践以及延伸”进行展开，正式拉开「仰望星空，脚踏实地」的序幕。

在今年的 4 月初，吴恩达老师在美国红杉做了一场演讲，介绍了 4 种主要的 Agentic Workflow 设计模式。

Reflection（反思）：让 Agent 审视和修正自己生成的输出。

Tool Use（工具）：LLM 生成代码、调用 API 等工具进行操作。

Planning（规划）：让 Agent 分解复杂任务并按计划执行。

Multiagent Collaboration（多智能体协同）：多个 Agent 扮演不同角色合作完成任务。

Reflection

反思在根本上其实是一个博弈的过程：如果你让大模型写一段代码，它会立刻给你反馈。这时你可以将它输出的代码片段再输入回去，让大模型仔细检查代码的准确性和结构规范性，并给出评论。然后，你可以将这些反馈结果再次输入给大模型，它可能会输出一个比第一版更好的代码，如果有两个 Agent：一个负责 Coding，另一个负责 Code Review，效果会更佳。

Tool Use

如果大家使用 Kimi Chat 来查询某个问题，你会发现它会在互联网上检索相关内容，并基于检索结果进行总结分析，最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子，同时你也会看到PPT中介绍了非常多的不同领域类型的工具，它其实是为大模型在获取、处理、呈现信息上做额外的补充。

Planning

Agent 通过自行规划任务执行的工作流路径，面向于简单的或者一些线性流程的运行。比如下图中：Agent 会先识别男孩的姿势，并可能找到一个姿势提取模型来识别姿势，在接下来要找到一个姿势图像模型来合成一个新的女孩图像，然后再使用图像理解文本的模型，并在最后使用语音合成输出，完成这个流程任务。

Multiagent Collaboration

吴恩达通过开源项目 ChatDev 进行举例，你可以让一个大语言模型扮演不同的角色，比如让一个 Agent 扮演公司 CEO、产品经理、设计师、代码工程师或测试人员，这些 Agent 会相互协作，根据需求共同开发一个应用或者复杂程序。

AI Agent 基本框架

OpenAI 的研究主管 Lilian Weng 曾经写过一篇博客叫做《 LLM Powered Autonomous Agents 》，其中就很好的介绍了 Agent 的设计框架，她提出了“Agent = LLM + 规划 + 记忆 +工具使用”的基础架构，其中大模型 LLM 扮演了 Agent 的“大脑”。

Planning（规划）

主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思，从错误中学习并改进未来的步骤，从而提高最终结果的质量。

Memory（记忆）

分为短期记忆和长期记忆。其中短期记忆是指的将所有的上下文学习看成是利用模型的短期记忆来学习；而长期记忆是提供了长期存储和召回信息的能力，它们通常通过利用外部的向量存储和快速检索来存储和召回信息。

Tools（工具）

通过学会调用外部不同类型API来获取模型（通常在预训练后很难修改）中缺少的额外信息，代码执行能力，访问专有信息源等（例如获取此时此刻的天气、联网网搜索等）

Action（动作）

根据上述大模型结合问句（Query）、上下文的规划（Context）、各类工具，最终大模型才能决策出最终需要执行的动作是什么。

Agentic Workflow 解决什么问题？我认为是可以从从提升效率、提高质量、节省时间的角度上进行思考。好比一台“印钞机”，按照指定好的流程重复着机械性的活动，但是它在源源不断的产生价值。

Productivity （效率） = 产生价值的速率

Agentic Workflow 通过将一个复杂的任务分解成较小的步骤，在整个过程中中融入了更多人类参与到流程中的规划与定义。它减少了对 Prompt Engineering 和模型推理能力的依赖，提高了 LLM 应用面向复杂任务的性能，更丰富、更精确。

下面是Coze（扣子）平台上的工作流编排器的示例，这个话其实是一个抽卡游戏的流程，你可以看到在整个工作流中间会有很多节点前后之间有节点以及连线，然后每个节点之间它是通过不同的定义，比如说图片处理工具，或者说是通过多模态模型进行图片理解工具等等其他各种各样的工具组合而成。

单Agent模式下，在这里可以看到一些例如“技能”、“知识”、“记忆”、“对话体验”等等点，其实在我们上面这个多个Agent和workflow编辑器里面里面也有这类工具。它是将一整套工作流组合起来，每个工具在每一个节点里面，它执行了一个任务。大家感兴趣的话可以去体验一下，可以在自己工作流中整个使用。

Agentic Workflow 的“套娃”设计

体验过不同 Agent 流程编排开发平台的同学会发现，workflow 会成为一个组件被调用，同时 workflow 中又能够嵌套新的workflow，实际上不管是基础节点、插件工具、LLM、逻辑条件处理等，都实际上是一个以输入、输出的组装的模块，不同的组件之间通过连接构成一个更大的模块。

即便看上去Agentic workflow解决了很多问题，但是实际上来说：大模型根源的“不太聪明”，是加上workflow也解决不了的。因为工作流它解决的并不是意图理解准确率的问题，而是在流程上的被干预后的可控性，吴恩达老师也在红杉的演讲上提到提升大模型本身质量依旧十分重要。

下面也会带着大家重新看一下工作流其实一直都有出现，目前的工作流编辑器是将Agent的处理流程可视化和可控化了。

LangGPT 提示词框架工作流设计

与传统的 Prompt 从输入直接到输出的映射方式相比，LangGPT 提示词框架应用了CoT（Chain of Thought）完成了从输入到思维链再到输出的映射，即<input——>reasoning chain——>output>。

最后你会发现浓缩成一句话可以解决模型在规划过程中的路径拆解，CoT的思维：“Let's think step by step.”（让我们一步一步思考）

RPA 的工作流设计

RPA其实很早就已经出现，就是做工作流编排领域。流程机器人（RPA）软件的目标是使符合某些适用性标准的基于桌面的业务流程和工作流程实现自动化，一般来说这些操作在很大程度上是重复的，数量比较多的，并且可以通过严格的规则和结果来定义，现在越来越多的RPA软件带上了LLM。

ComfyUI 的工作流设计

近期出现的ComfyUI 是将开源绘画模型 Stable Diffusion 进行工作流化操作模式，用户需要在流程编辑器中配置出每一个的pipeline，并通过不同节点和连线来完成模型的操作和图片内容生成，提高了流程的可复用性，降低了时间成本，同时它的 DSL 配置文件还支持导出导入。

Dify.AI 可被复制的工作流设计

在 Dify.AI 中，我很兴奋的看到它的工作流设计语言跟 ComfyUI 会有一些相似之处，都是定义了一套标注化的DSL语言，并且非常方便的可以使用导入导出的功能进行工作流的复用。

模仿式工作流是最快的学习方法

Large Action Model 采用称为“通过演示进行模仿”的技术。检查人们在单击按钮或输入数据时如何与界面互动，然后准确地模仿这些操作，他们收集知识并从用户提供的示例中学习，使他们更能适应进一步的变化并能够处理不同的任务。

但是，有没有想过一个问题：Agentic Workflow看起来十分美好，但是使用的用户究竟有多少呢？我看了很多Agent商店，通过工作流创建的应用目前来看还是比较少的（可能是出现周期、工作流使用的上手难度等等一系列因素导致），此外Agentic Workflow似乎在复杂流程上的开发又并不是那么稳定可靠。

Idea Time：通过自然语言创建工作流

复杂的工作流搭建怎么会如此麻烦...这似乎跟我我理想中的Agentic Workflow并不太一样！有没有一种更加方便高效的方式，让我能够在短时间内创作一个符合我预期的Agentic Workflow原型？有了，通过自然语言来构建DSL并还原工作流。

我在之前就比较喜欢使用自然语言描述，然后使用Mermaid语法进行创建流程图表，其实DSL也是可以遵循一套约定俗成的规范进行创作。

我认为可以通过口喷需求的方式，在0-1的时候辅助我快速生成一个看上去还不错的工作流程，然后我再修修改改，这会降低用户上手的门槛。

一个小思考题，Agentic Workflow该给谁用？

之前在讨论Agentic Workflow的可用性观点，有人给我说了这么一句话：“研发看不上，产品看不懂，小白不知所云。”

目前我觉得Agentic Workflow拿来做MVP的产品测试是非常好的一个途径，能够在短时间内通过低代码或者零代码的方式进行创作一个小而美的应用。

我的AI-Native应用就是这么玩的。

Pailido｜AI 拍立得

这是一款文案快速生成的 AI-Naitive 产品，各个场景由 AI Agent 驱动，仅需选中场景后点击拍摄即可快速生成对应文案。它的服务端可以是使用类似Dify.AI、Coze这种在线编辑好一个Agent应用，然后再通过API的方式进行集成，你仅仅需要关心你的前端、用户输入、你的输出反馈就可以了，打磨好一款小而美的产品。

使用多模态模型，理解图片特征和输出场景期待，搞定小红书文案、外卖点评写作、闲鱼商品发布文案...真的太快了！