微信扫码
添加专属顾问
我要投稿
一直以来,人们都在追求能够达到或超越人类水平的人工智能,AI Agent目前被视为能够实现这一目标的有前途的载体。Agent是能够感知环境、做出决策并采取行动的智能体。本文会对基于LLM的Agent做一个全面概述,包括为什么LLM适合作为Agent的基础,以及包含三个主要组成部分:大脑(brain)、感知(perception)和行动(action)的框架,并可以根据不同的应用进行定制。。
知识获取能力:通过在大规模文本数据上的预训练,能够获得丰富的知识,包括语言知识、常识知识以及特定领域的专业知识。
指令理解:LLM展现出了对自然语言指令的理解能力,这使得它们能够遵循用户的指令并据此做出决策。
泛化能力:LLM在预训练过程中学习到了广泛的语言模式,这使得它们能够在没有明确编程的情况下处理各种任务。
推理和规划:LLM能够进行一定程度的逻辑推理和规划,这对于Agent在复杂环境中做出决策至关重要。
交互能力:LLM能够与用户进行自然的多轮对话,这有助于Agent更好地理解用户的需求和上下文。
自我改进:LLM具有一定的自我改进能力,它们可以通过反馈学习来优化自己的行为和决策。
可扩展性:LLM可以通过微调来适应特定的任务或领域,这为Agent的定制化提供了可能。
多模态处理:尽管LLM主要处理文本数据,但它们也可以与其他类型的输入(如视觉、听觉)结合,以支持更丰富的感知能力。
...
基于LLM的Agent的大脑模块,是Agent的核心组成部分,负责存储知识、记忆,并执行信息处理、决策制定、推理和规划等关键任务。研究是也是非常非常的多,但是他可以细分为以下5大模块:
大脑模块的设计灵感来自于人类大脑,它不仅是信息处理的中心,也是决策和创造性思维的源泉。在LLM基础的Agent中,大脑模块通过模仿这些人类智能的方面,使得Agent能够展示出智能行为,并能够适应和处理各种任务和环境。
文本输入:
视觉输入:
听觉输入:
其他输入:
文本输出:
工具使用:
具体行动:
文章标题:The Rise and Potential of Large Language Model Based Agents: A Survey
项目地址:https://github.com/WooooDyy/LLM-Agent-Paper-List53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-16
腾讯造了个“贾维斯”:替我签到改配置,还会打盹上厕所,一手实测来了
2026-05-16
从零构建AI Agent:没有魔法,只有循环
2026-05-15
成为ClaudeCode顶尖1%用户的完整指南
2026-05-15
在手机上用Codex写一下午代码,说实话,有点上头。
2026-05-15
腾讯混元推出轻量翻译大模型,无需联网,手机直接运行!
2026-05-15
谷歌Android重大更新!底层植入Gemini,苹果已掉队
2026-05-15
Codex更新远程控制,你也终于可以在手机上随时随地Vibe Coding了。
2026-05-15
2026年了,我强烈推荐你用一用Codex,功能太全面了!附使用指南
2026-04-15
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-02-20
2026-04-24
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18