【AIGC FREE】Agent能“思考”吗？

发布日期：2024-06-30 11:22:16 浏览次数： 2736

作者：数字AI方进

微信搜一搜，关注“数字AI方进”

一直不太想写Agent相关的内容，因为有些问题始终没有想得太明白，比如今天的标题，当然这本质上是LLM的问题，不过谁让Agent最近这么火呢？匹夫无罪，那啥……前有RAG，如今就是Agent了。

下面这张图相信很多人都看过：

简单来说，就是各种T来T去的，然后就突然T出了一条链路，然后就解题了……当然，跟量子力学一样，谁也没办法实证，同样谁也没法说它没用，而且确实有些“实例”似乎也“证明”了它的“用处”（当前最强大的LLM——gpt-4o——在 AlpacaEval 2.0 基准得分57.5%，当前SOTA的Agent——MoA——也只有65.1%）。

于是乎，又反过来出现了一大波各式各样的“解释”（我更愿意称之为“猜想”），这些又大都跟Daniel Kahneman 的人类思维模型（即所谓的系统 1 和系统2）有关。

系统1——简单来说就是直觉，快速、无意识且直观；
系统2——就是思考，缓慢的、有意识的、深思熟虑的。

有些“专家”认为LLM是系统1，而Agent已经是系统2了。“专家”们是比较乐观的，当然他们的意见也不完全统一，大部分还是认为“step-by-step”的各种XoT仍然还是系统1，只有MoA（Mixture-of-Agents）才有些系统2的端倪。

MoA何许人也？可以当成大号的MoE（请参看【AIGC FREE】原理杂谈（4）—— MoE），不过这里连接的不是“专家”，而是一层一层的“小LLM”（如下图）

重要的是，这些层是密集的，这意味着下一层中的代理 (LLMs) 会收到上一层的所有建议答案。因此，这些 LLMs 仍然必须回答最初的问题，但可以使用前一层代理的响应来获得更深层次的上下文来回答。

在这种情况下，代理可以决定丢弃前几代并创建新的一代，或者简单地细化前一层中的模型响应以提高质量。

最后，另一个称为聚合器的LLM代理会整合先前代理提供的所有累积信息并构建用户收到的响应。

尽管使用了很多“小LLM”，看起来会消耗大量的token，但实际上这种方式却比使用gpt-4o这种大模型更节省，毕竟“小LLM”确实远小于（<<)大模型的参数规模。

成本低又性能好，这简直就是“救世主”啊，可怎么就是有种“达文西”掏出一大把东东说“每个都能独当一面”的滑稽感呢。

说实在的，我并不太认同系统1/2这些概念，Agent（或LLM）真的能“思考”吗？我觉得至少当前的LLM和Agent跟人类的思维系统没有可比性，说起来我倒是有点赞同Francois Chollet的“LLMs won’t lead to AGI”(https://www.youtube.com/watch?v=UakqL6Pj9xo)的观点了。

以我自己的经验来看，LLM乃至Agent，要想真正落地有两种途径：

1. 大力发展LLM本身，模型自身强了，什么都好说，总在外围捣鼓不是个办法；当然这得靠算力支撑，小玩家几乎没得想，除非硬件层面上有巨大突破。

2. 另一个就有点“挂羊头”了，但不失为一条路，就是充分利用已有的应用和服务（如果本来就是软件商或者做平台的），构建workflow，挤点大模型的功能进去，轻量级的，比如意图识别（就是切词）、小作文写写，最多再搞个NL2SQL，不能再深入了。另外，用function calling（workflow一般也有自己的逻辑，用不用function calling其实也不重要，也就跟LLM硬凑点关系）把原有的那些应用和服务调起来，只要跑的顺畅，也够你吹上几天了。

3. 代码生成，这个倒是真可以，就是可能哪天干着干着就lose了，不建议，不建议啊。

一入Agent深似海，从此 成路人