谷歌《Agents》白皮书：剖析智能体的核心框架与未来发展（附下载）

发布日期：2025-11-08 10:57:23 浏览次数： 3064

作者：究模智

微信搜一搜，关注“究模智”

生成式AI模型在理解和生成人类语言方面取得了惊人突破，然而，一个核心的局限在于，这些模型本质上是封闭的，它们的知识停止在训练数据截止的那一刻，无法感知实时变化的世界，也无法主动执行任何操作。

人类在解决复杂问题时，并不仅仅依赖大脑中存储的知识，我们会查阅资料、电脑等工具补充已有知识。Agent（智能体）的概念正是将这种工具使用的能力赋予AI模型，它通过将模型的推理能力、逻辑判断与外部工具相连接，创造出一个能够自主规划、执行并调整行动以达成目标的系统。

谷歌作为AI市场的核心玩家，发布了一篇由Julia Wiesinger、Patrick Marlow 和 Vladimir Vuskovic联合撰写的智能体白皮书。本文将系统解读该白皮书，拆解智能体的核心组件、工作原理及工具生态，揭示其如何成为连接AI与现实世界的关键桥梁。（文末附下载）

一、核心定义

智能体的本质

从最基础的定义来看，AI智能体是一种自主的、以目标为导向的应用，它通过观察环境、调用可用工具，自主执行操作以实现预设目标。其核心特性包括：

自主性：无需人类持续干预，仅需明确目标即可独立行动；
主动推理：即使在目标模糊或信息不全的情况下，也能通过内部推理，规划出实现目标的步骤序列。
与环境互动：智能体的核心价值在于其与外部世界（数据库、API、互联网）交互的能力。

需注意的是，本文聚焦于生成式AI模型可构建的智能体类型，这类智能体以语言模型为核心，通过工具扩展能力，而非广义上的AI智能体（如机器人智能体）。

智能体的三大核心组件

智能体的行为由认知架构驱动，而架构的核心由模型、工具和编排层三大组件构成，三者协同实现信息处理、决策、行动的闭环。

智能体通用架构

模型（Model）是智能体的大脑，作为决策中枢，负责推理、规划及工具选择，具备理解指令和逻辑推理的能力。它通常由一个或多个大语言模型构成，并采用不同的推理框架，如 ReAct、思维链（CoT）或思维树 (ToT)等，来帮助模型深入理解问题并提供合理的解决方案。

工具（Tools）是智能体的手脚，是连接外部世界的接口，帮助智能体克服仅靠语言模型无法直接处理外部系统或数据的限制。目前常见的工具类型包括：

扩展（Extensions）：标准化地连接API与智能体，让智能体无缝执行操作。
函数（Functions）：由模型输出函数与参数，实际API调用由客户端执行，为开发者提供更精细的控制。
数据存储（Data Stores）：以提供数据库的形式，存储并提供智能体访问动态更新的信息。

编排层（Orchestration Layer）是智能体的指挥系统，管控“信息摄入→内部推理→行动执行”的循环，直至目标达成或停止。指挥层的复杂性不一，可以是简单的逻辑计算，也可以是高度复杂的规划与推理。它负责维护记忆、状态、推理与规划，并通过提示工程（Prompt Engineering）框架来引导推理与行动。

智能体vs传统生成式模型

传统生成式模型（如单一语言模型）与智能体的核心差异，主要体现在能力边界与交互方式上，具体对比如下：

二、智能体的工作原理

智能体的运作就像一个忙碌的大厨：

目标：做出美味菜肴。
信息收集：厨师接收订单，检查厨房食材。
内部推理：基于现有食材和订单要求，构思可行的菜谱。
执行行动：开始切菜、烹饪、调味。
观察与调整：品尝味道，根据反馈调整火候等。

智能体的编排层正是实现了这一复杂、动态的循环。在此过程中，推理框架为模型的思考提供了结构化的思维模板。

三大主流推理框架

AI智能体常用三种推理框架，分别适用于不同场景：

ReAct（推理-行动框架）：通过“思考→行动→观察”的循环，将推理与工具调用直接绑定。这种步步为营的方式极大地减少了模型的幻觉，提高了行动的可信度和准确性，在复杂任务中性能优于传统基线模型。

在编排层中使用 ReAct 推理

思维链（Chain-of-Thought, CoT）：通过引导模型将复杂问题分解为一系列中间推理步骤，来提升其逻辑推理的准确性。
思维树（Tree-of-Thoughts, ToT）：适用于需要探索和战略前瞻的任务。它允许模型在思考时像走迷宫一样探索多条可能的“思路路径”，并对这些路径进行评估，选择最优解。ToT突破了CoT的线性推理局限，支持多路径探索与回溯，提升复杂问题解决能力。

智能体连接外部的三大核心工具

传统生成式模型的最大局限是无法与外部世界交互，而工具正是突破这一局限的关键。目前谷歌生成式AI模型支持三大类工具，三者可独立或组合使用，满足不同场景需求。

1. 扩展：无缝的API连接器

扩展的核心价值是简化智能体与API的交互，通过向智能体提供API的描述、使用示例和所需参数，提供在运行时就能动态判断是否需要以及如何调用该扩展。

智能体-扩展-API 示意图

核心优势包括：

简化集成：开发者无需为每个API编写定制化的调用逻辑。
动态选择：智能体可以根据用户查询的语义，从多个已配置的扩展中智能选择最合适的一个。
支持复杂规划：非常适合需要多步API调用（多跳推理）的任务，因为前一个API的返回结果可以直接影响下一个行动的选择。

2. 函数调用：客户端可控的精确工具

函数调用在概念上与扩展类似，但其执行模式有根本不同。在函数调用执行模式中，智能体不直接调用API，仅生成一个结构化的函数调用请求（包括函数名和参数），由客户端（如前端、中间件）执行API调用。这种设计让开发者获得更精细的控制权。而扩展与外部 API 的交互（如参数校验、API 调用、结果返回）均由智能体自主完成，无需客户端额外干预。