一文说清楚什么是AI Agent(智能体)

发布日期：2024-11-26 14:46:03 浏览次数： 4048

作者：AI取经路

微信搜一搜，关注“AI取经路”

在人工智能的浪潮中，AI Agent作为新一代的技术革命，正逐渐走进我们的视野。AI Agent不仅仅是工具，更是连接复杂任务的关键纽带，它们能够理解自然语言、生成响应以及执行具体行动。

什么是AI Agent？

AI Agent，即人工智能代理，一般直接叫做智能体。它是一种能够感知环境、做出决策并采取行动的系统。这些系统能够执行被动的任务，也能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。

例如，一个自动驾驶Agent:

可以感知周围的交通情况、道路状况等信息，这就是感知环境

根据感知的信息制订下一步的行动计划。例如，决定是否加速、减速、转弯等，这就是做出决策

根据决策控制汽车的加速器、刹车、方向盘等，这就是采取行动

AI 聊天机器人和 AI Agent的区别

AI 聊天机器人主要用于对话和回答问题，通常以问答聊天机器人的形式提供即时信息或基本互动，常见于客服助手和社交平台等应用中。它的工作范围主要限于预定的对话模式，主要是反应式地回应用户需求。
AI 代理的功能更广泛，具备执行多步骤任务的能力，且在环境感知与决策上更为主动。AI 代理不仅能处理语言输入，还能根据实时数据变化自主决策，应用范围包括自动驾驶、推荐系统等更为复杂的场景。

具有推理能力

在大语言模型（LLMs）问世前，旧的Agent 的能力更多体现在特定规则的执行上，难以无缝与人交互。但 LLMs 的出现彻底改变了这一点。

LLMs 的强大推理能力让 AI Agent 的表现跨越式提升。以往的智能系统更偏向于“工具性”，而如今，基于 LLMs 的 Agent 已经向“决策性”转型。

通过将大模型作为主要组件来扩展感知和行动空间，并通过策略如多模态感知和工具使用来制订具体的行动计划。
通过反馈学习和执行新的动作，借助庞大的参数以及大规模的语料库进行预训练，从而得到世界知识(World Knowledge)。
通过思维链(Chain of Thought,CoT)、ReAct(Reasoning and Acting)和问题分解(Problem Decomposition)等逻辑框架，使得Agent展现出非常强大的推理和规划能力。
通过与环境的互动，从反馈中学习并执行新的动作，获得交互能力。
通过结合记忆的知识和上下文来执行任务。此外，还可以通过检索增强生成(RAG)和外部记忆系统(Memory Bank)整合来形成外部记忆

RAG详情见：本地知识库，通过RAG来解决信息的精准生成

具有感知能力

语言交互是 Agent与人类或其他 Agent沟通的基础。

通过语言交互，Agent能够理解指令、提出问题、表达观点和情感、进行复杂的对话。

能够处理和解释来自不同感官的信息，如视觉、听觉、触觉等(当然同时也能够种格式输出信息，如文本、图片、音频，甚至视频)。

例如，一个集成多模态模型的 Agent 可以通过观察一张图片，理解图片中的情感和社会动态，或者听到的声音理解语气和情绪。另外，多模态能力的一个重要方面是整合能力。AI能够将来自不同感官的信息整合成一个统一的理解，

如：一个可以理解口头指令并通过视觉识别表情的智能家居助理能更精确地理解用户的需求

具有行动能力

语言输出是 Agent 进行有效沟通的基础手段。通过这种方式，Agent能够将思考转化为语言，与人类用户或其他 Agent交互。这不仅仅涉及信息的单向传递，更关键的是Agent能够通过语言输出参与更复杂的社会交流，例如谈判、冲突解决或者教学活动等。

Agent可以通过软件接口与各种系统交互。Agent可以调用外部 API(应用程序接口)来执行各种任务，如获取数据、发送指令或处理信息。例如，天气预报,Agent可能会调用天气服务的API来获取最新的天气信息。

而物理层面的交互通常涉及机器人或其他硬件设备。这些设备被编程来响应Agent的指令，执行具体的物理操作。机器人或自动化设备可以执行物理任务，如移动物体、组装零件等，可以使用传感器获取环境数据(如温度、位置、图像等)，并根据这些数据做出相应的物理响应。Agent也可以远程控制无人机、探测车等设备，执行探索、监控或其他任务。

在物理层面，Agent的能力扩展到与现实世界的直接交互，这要求其具备更高级的硬件控制能力和对物理环境的理解。