观2024智源大会Agent分论坛有感

发布日期：2024-06-19 12:17:47 浏览次数： 3217

作者：孔某人的低维认知

微信搜一搜，关注“孔某人的低维认知”

TLDR

大概有人想看LLM+RL的Agent报告，但实际上是LLM Agent的报告+RL的报告+RL的人对于目前LLM Agent研究的吐槽。
Agent分会场的观感是我到目前看过的所有分会场里最差的，（我目前看过的其他有：全体大会、大语言模型、大模型产业技术、意识与通用人工智能。）民科味也是这里最浓的，其他分会场会省略的一些不重要细节在本会场也会占用很多时间来谈，观感上有点像是本科毕业设计答辩的加长版。
该分会场的推荐分级是：没必要观看，闲的没事想看也不拦着。
本文没有任何干货，纯吐槽。

智源官方视频回放地址：

https://event.baai.ac.cn/live/788

B站有人已经切好的版本：

https://www.bilibili.com/video/BV1JZ421M7RD/

论坛末尾，一个搞RL的讲者对于目前LLM Agent研究现状的吐槽：

https://www.bilibili.com/video/BV1JZ421M7RD/

吐槽正篇

1、总体感觉

我目前完整的看了5个分论坛和一个线上报告，包括：全体大会、大语言模型、大模型产业技术、意识与通用人工智能、Agent。这里面，Agent分会场是观感最差的。

大部分工作的深度和工作量说高可以高说低可以低，你说这是清华本科生的毕业设计我也会信。这就导致相对于别的分论坛观感来说，Agent分论坛的逼格相对低了很多，民科味道很重，说拉低了智源大会的总体质量也不为过。意识与通用人工智能那边虽然讲的也不深，但人家是有料的，只是碍于时间因素不好展开太多，大家也就是听个科普就行了。

Agent分会场这边就感觉反过来，感觉又不深入、又不高端，但还喜欢絮絮叨叨讲细节讲很久，还是一些在我来看完全不重要的细节。每个报告人含答疑时间给1h太长了，就这个内容量感觉别人分会场给30min就差不多了。

会有观众觉得通过智源这个窗口应该能看到一些最前沿的LLM+RL的可自我提升的Agent的方案，但实际上整场报告里，要么是纯LLM Agent的报告，要么是纯RL控制机器人的报告，完全没有中间交叉的部分。更搞笑的是，末尾的RL报告人还站在他的角度上吐槽了一下目前LLM Agent研究的“低劣”。这个片段见：

https://www.bilibili.com/video/BV1JZ421M7RD/

前三个讲LLM Agent的报告人，只有一个有教职（助理教授），剩下一个是博后、一个是在读博士……我就无语了。是有教职的人没有做这个方向的呢，还是他们不想来呢，还是他们也没东西可讲呢？

最后一个是做RL的人，报告大部分都是在讲纯RL控制机器人，后面有一点是LLM作为语义理解模块用于RL Agent，最后是对LLM Agent研究的吐槽。会让人怀疑他是来干啥的？

2、观后反思

连智源大会都只能邀请到如此水平的内容，说明大家真的不要期待能结合RL的能力强Agent 能在短期落地了，学界都没有啊！

而且就整个会场这个民科味，感觉有追求的人也别说自己做的事可以算Agent了，“你才做Agent，你们全家都做Agent”。当然这个话说的有点过分，这个报告放在其他地方至少也算中等以上了，但放在智源这个大平台上一衬托就让人无语了。

3、报告1 的吐槽

第一个报告是ChatDev的作者，考虑到ChatDev的影响力比较大，以及跟会场主持人刘知远的关系，也算正常。（其他关系且说，ChatDev作者列表里就有刘知远，参见 https://arxiv.org/abs/2307.07924）但不顺带做点给面壁的PR么？其他会场都大大方方的在给公司做PR啊。

ChatDev推出这么久了，现在也没有说“能自己开个公司，全靠ChatDev低成本写代码，大幅压低2B软件服务报价”。当然AutoGPT和BabyAGI也不行，作为学术原型，不能落地才是常态。现在就别再吹ChatDev了吧，把它当成靶子，说正在努力研究更好的方案说不定会更让人有好感。

Co-Learning这个有点新意，但其实想法在应用层的人里早都想过了。我仍然不看好落地，还是学术占坑demo。

从开始提Multi Agent的scaling law的时候，就让我开始感觉民科味道变得显著了。而且更可笑的是拿出的是S曲线，大部分领域不都是S曲线么，这无论理论价值还是使用价值能蹭scaling law么？拿S曲线去拟合，数值稳定性和预测准确率好么？