别再乱堆框架了，最成功公司的AI智能体竟如此简单，99%人都想复杂了

发布日期：2024-12-23 08:36:15 浏览次数： 3316

作者：AI Insights

微信搜一搜，关注“AI Insights”

昨天，Anthropic（发布了Claude 3.5的公司）公布了其智能体系统的最佳实践，堪称目前最强，非常值得一读！这份来自行业顶尖AI公司的洞见，相信会给你带来非常多的启发。

LLM智能体落地实战：避开99%的坑，只需这3个简单法则

你有没有觉得，现在AI智能体（Agent）的概念火得一塌糊涂，但真正用起来却感觉无从下手？过去一年，我们和各行各业的几十个团队一起研究大型语言模型智能体的落地，发现一个特点：真正成功的案例，用的不是什么复杂框架或高深库，而是简单、可组合的模式！

今天，我就把我们从客户那里学到的，以及自己踩坑总结的经验分享给你，教你如何打造真正高效的智能体。

什么是智能体？

“智能体”的定义五花八门。有的客户认为，智能体是完全自主的系统，可以长时间独立运行，利用各种工具完成复杂任务。有的则认为，智能体是按照预定义流程执行的系统。在Anthropic，我们把这些都归为智能体系统，但我们更注重区分工作流和智能体这两种架构：

工作流：LLM和工具通过预定义的代码路径进行编排。
智能体：LLM动态地指导自己的流程和工具使用，自主决定如何完成任务。

接下来，我们深入探讨这两种智能体系统。在附录1（“智能体的实践”）中，我们还会分享客户在两个领域使用这些系统取得的成功案例。

何时用，何时不用智能体？

用LLM开发应用，越简单越好！只有在必要时才增加复杂度。这意味着，你可能根本不需要智能体系统。智能体系统通常以延迟和成本为代价，换取更好的任务表现。所以，你需要权衡利弊。

如果确实需要更复杂的方法，那么：

工作流：适合处理定义明确的任务，提供可预测性和一致性。
智能体：更适合需要灵活性和模型驱动决策的场景。

但别忘了，很多时候，仅仅通过检索和上下文示例优化单次LLM调用就足够了。

框架，是蜜糖还是砒霜？

现在有很多框架可以简化智能体系统的实现，比如：

LangChain的LangGraph；
亚马逊Bedrock的AI Agent框架；
拖拽式GUI LLM工作流构建器Rivet；
另一个GUI工具Vellum，用于构建和测试复杂的工作流。

这些框架确实能让你快速上手，简化了调用LLM、定义和解析工具、链接调用等底层任务。但它们也可能引入额外的抽象层，让你难以理解底层提示和响应，给调试带来麻烦。更重要的是，它们可能会诱使你增加不必要的复杂性。

我的建议是：先直接使用LLM API！很多模式只需几行代码就能实现。如果你非要用框架，请务必理解底层代码。对底层机制的错误假设，是客户常犯的错误。

想看一些示例实现？请参考我们的cookbook。

从积木到智能体：核心模式大揭秘

接下来，我们来探索在生产环境中常见的智能体系统模式。从最基础的增强型LLM开始，逐步增加复杂度，最终到达自主智能体。

基石：增强型LLM

智能体系统的基本构件是增强型LLM，它具备检索、工具和记忆等能力。我们现在的模型可以主动使用这些能力，生成搜索查询、选择合适的工具、决定保留哪些信息。

我们建议你关注两个关键点：

定制化：根据你的具体用例定制这些能力。
易用性：为LLM提供简单、文档完善的接口。

实现这些增强的方法有很多，其中一种是通过我们最近发布的模型上下文协议，它允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的后续部分，我们将假设每次LLM调用都可以访问这些增强功能。

工作流：提示链

提示链将任务分解为一系列步骤，每个LLM调用处理上一步的输出。你可以在任何中间步骤添加编程检查（如下图中的“gate”），以确保流程正常进行。

何时使用：当任务可以轻松地分解为固定的子任务时，提示链是理想选择。它的主要目标是通过简化每次LLM调用的任务，以延迟换取更高的准确性。

示例：

生成营销文案，然后将其翻译成其他语言。
编写文档大纲，检查大纲是否符合特定标准，然后根据大纲编写文档。

工作流：路由

路由对输入进行分类，并将其导向专门的后续任务。这种工作流可以实现关注点分离，并构建更专业的提示。如果没有路由，针对一种输入的优化可能会损害其他输入的性能。

何时使用：当复杂任务包含可以更好单独处理的不同类别，并且可以通过LLM或更传统的分类模型/算法准确处理分类时，路由效果很好。

示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）导向不同的下游流程、提示和工具。
将简单/常见的问题导向较小的模型（如Claude 3.5 Haiku），将困难/不常见的问题导向功能更强大的模型（如Claude 3.5 Sonnet），以优化成本和速度。

工作流：并行化

LLM有时可以同时处理一项任务，并通过编程方式聚合其输出。并行化工作流有两种主要形式：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行同一任务以获得不同的输出。

何时使用：当可以并行化子任务以提高速度，或者需要多个角度或尝试以获得更高的置信度结果时，并行化是有效的。对于包含多个考虑因素的复杂任务，通常当每个考虑因素由单独的LLM调用处理时，LLM的性能会更好，从而可以专注于每个特定方面。

示例：

分段：

实现安全防护，其中一个模型实例处理用户查询，而另一个模型实例筛选不当内容或请求。这往往比让同一个LLM调用同时处理安全防护和核心响应效果更好。
自动化评估以评估LLM性能，其中每个LLM调用评估模型在给定提示下性能的不同方面。

投票：

审查一段代码是否存在漏洞，其中多个不同的提示审查代码，并在发现问题时标记代码。
评估一段内容是否不当，其中多个提示评估不同的方面或需要不同的投票阈值，以平衡误报和漏报。

工作流：协调器-工作者

在协调器-工作者工作流中，中央LLM动态地分解任务，将其委派给工作者LLM，并综合其结果。

何时使用：这种工作流非常适合无法预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量以及每个文件中更改的性质可能取决于任务）。虽然在拓扑结构上相似，但与并行化的主要区别在于其灵活性——子任务不是预定义的，而是由协调器根据特定输入确定的。

示例：

每次都对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务。

工作流：评估器-优化器

在评估器-优化器工作流中，一个LLM调用生成响应，而另一个LLM调用在循环中提供评估和反馈。

何时使用：当有明确的评估标准，并且迭代改进可以提供可衡量的价值时，此工作流特别有效。两个适用性指标是：首先，当人类表达反馈时，LLM的响应可以得到显著改进；其次，LLM可以提供此类反馈。这类似于人类作家在撰写润色文档时经历的迭代写作过程。

示例：

文学翻译，其中翻译LLM可能最初无法捕捉到细微之处，但评估器LLM可以提供有用的批评。
需要多轮搜索和分析以收集全面信息的复杂搜索任务，其中评估器决定是否需要进一步搜索。

智能体

随着LLM在理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复等关键能力方面的成熟，智能体正在生产中涌现。智能体的工作从人类用户的命令或互动讨论开始。一旦任务明确，智能体就会独立规划和操作，并可能返回给人类以获取更多信息或判断。在执行过程中，智能体必须在每个步骤中从环境中获得“真实信息”（例如工具调用结果或代码执行），以评估其进度。智能体可以在检查点或遇到障碍时暂停以获得人类反馈。任务通常在完成时终止，但也通常包括停止条件（例如最大迭代次数）以保持控制。

智能体可以处理复杂的任务，但它们的实现通常很简单。它们通常只是在循环中基于环境反馈使用工具的LLM。因此，清晰且周全地设计工具集及其文档至关重要。我们在附录2（“提示工程你的工具”）中扩展了工具开发的最佳实践。

何时使用：智能体可用于无法预测所需步骤数量的开放式问题，并且无法硬编码固定路径。LLM可能会运行多次，你必须对其决策有一定程度的信任。智能体的自主性使其非常适合在受信任的环境中扩展任务。

智能体的自主性意味着更高的成本以及复合错误的潜在风险。我们建议在沙盒环境中进行广泛的测试，并采取适当的安全措施。

示例：

以下示例来自我们自己的实现：

解决SWE-bench任务的编码智能体，其中涉及基于任务描述对多个文件进行编辑；
我们的“计算机使用”参考实现，其中Claude使用计算机完成任务。

组合和定制这些模式

这些构建模块不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样，成功的关键在于衡量性能并迭代实现。再次强调：只有当它能显著改善结果时，你才应该考虑增加复杂性。

在LLM领域取得成功，不在于构建最复杂的系统，而在于构建适合你需求的系统。从简单的提示开始，通过全面的评估对其进行优化，并且仅在更简单的解决方案不足时才添加多步骤智能体系统。

在实施智能体时，我们尝试遵循三个核心原则：

保持智能体设计的简单性。
通过明确显示智能体的规划步骤来优先考虑透明度。
通过全面的工具文档和测试精心设计你的智能体-计算机接口 (ACI)。

框架可以帮助你快速入门，但当你转向生产时，请不要犹豫减少抽象层并使用基本组件进行构建。通过遵循这些原则，你可以创建不仅强大而且可靠、可维护并受到用户信任的智能体。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业