微信扫码
添加专属顾问
大概有人想看LLM+RL的Agent报告,但实际上是LLM Agent的报告+RL的报告+RL的人对于目前LLM Agent研究的吐槽。
Agent分会场的观感是我到目前看过的所有分会场里最差的,(我目前看过的其他有:全体大会、大语言模型、大模型产业技术、意识与通用人工智能。)民科味也是这里最浓的,其他分会场会省略的一些不重要细节在本会场也会占用很多时间来谈,观感上有点像是本科毕业设计答辩的加长版。
该分会场的推荐分级是:没必要观看,闲的没事想看也不拦着。
本文没有任何干货,纯吐槽。
智源官方视频回放地址:
https://event.baai.ac.cn/live/788
B站有人已经切好的版本:
https://www.bilibili.com/video/BV1JZ421M7RD/
论坛末尾,一个搞RL的讲者对于目前LLM Agent研究现状的吐槽:
https://www.bilibili.com/video/BV1JZ421M7RD/
我目前完整的看了5个分论坛和一个线上报告,包括:全体大会、大语言模型、大模型产业技术、意识与通用人工智能、Agent。这里面,Agent分会场是观感最差的。
大部分工作的深度和工作量说高可以高说低可以低,你说这是清华本科生的毕业设计我也会信。这就导致相对于别的分论坛观感来说,Agent分论坛的逼格相对低了很多,民科味道很重,说拉低了智源大会的总体质量也不为过。意识与通用人工智能那边虽然讲的也不深,但人家是有料的,只是碍于时间因素不好展开太多,大家也就是听个科普就行了。
Agent分会场这边就感觉反过来,感觉又不深入、又不高端,但还喜欢絮絮叨叨讲细节讲很久,还是一些在我来看完全不重要的细节。每个报告人含答疑时间给1h太长了,就这个内容量感觉别人分会场给30min就差不多了。
会有观众觉得通过智源这个窗口应该能看到一些最前沿的LLM+RL的可自我提升的Agent的方案,但实际上整场报告里,要么是纯LLM Agent的报告,要么是纯RL控制机器人的报告,完全没有中间交叉的部分。更搞笑的是,末尾的RL报告人还站在他的角度上吐槽了一下目前LLM Agent研究的“低劣”。这个片段见:
https://www.bilibili.com/video/BV1JZ421M7RD/
前三个讲LLM Agent的报告人,只有一个有教职(助理教授),剩下一个是博后、一个是在读博士……我就无语了。是有教职的人没有做这个方向的呢,还是他们不想来呢,还是他们也没东西可讲呢?
最后一个是做RL的人,报告大部分都是在讲纯RL控制机器人,后面有一点是LLM作为语义理解模块用于RL Agent,最后是对LLM Agent研究的吐槽。会让人怀疑他是来干啥的?
连智源大会都只能邀请到如此水平的内容,说明大家真的不要期待 能结合RL的能力强Agent 能在短期落地了,学界都没有啊!
而且就整个会场这个民科味,感觉有追求的人也别说自己做的事可以算Agent了,“你才做Agent,你们全家都做Agent”。当然这个话说的有点过分,这个报告放在其他地方至少也算中等以上了,但放在智源这个大平台上一衬托就让人无语了。
第一个报告是ChatDev的作者,考虑到ChatDev的影响力比较大,以及跟会场主持人刘知远的关系,也算正常。(其他关系且说,ChatDev作者列表里就有刘知远,参见 https://arxiv.org/abs/2307.07924)但不顺带做点给面壁的PR么?其他会场都大大方方的在给公司做PR啊。
ChatDev推出这么久了,现在也没有说“能自己开个公司,全靠ChatDev低成本写代码,大幅压低2B软件服务报价”。当然AutoGPT和BabyAGI也不行,作为学术原型,不能落地才是常态。现在就别再吹ChatDev了吧,把它当成靶子,说正在努力研究更好的方案说不定会更让人有好感。
Co-Learning这个有点新意,但其实想法在应用层的人里早都想过了。我仍然不看好落地,还是学术占坑demo。
从开始提Multi Agent的scaling law的时候,就让我开始感觉民科味道变得显著了。而且更可笑的是拿出的是S曲线,大部分领域不都是S曲线么,这无论理论价值还是使用价值能蹭scaling law么?拿S曲线去拟合,数值稳定性和预测准确率好么?
如果说报告1还是在学界王婆卖瓜的常见模式,报告2就开始放飞自我了,因为它讲的是 LLM Agent OS。
但然后后面一大块价值就跑去说Agent OS可以去像“现在操作系统一样去管进程的调度”一样去管Agent的调度,等等,满眼的工程feature,而且大多是对标传统OS。这事真的需要一个新Agent OS来做么?传统OS做不好么?
整个思路也不能说是毫无创新,但主体跑去完全对标传统OS,让我觉得基本抹杀了细节上的价值。很符合去年一些投资人视角的思路,大概是挺适合搞经费的。从实际角度这个东西我是不会去考虑的。
报告3是CAMEL的作者,在读博士。CAMEL的主要学术价值在于提的早,但现在已经完成了它的历史使命。
报告整体感觉跟ChatDev那个是类似的,前面还塞了一大块历史回顾来凑时间,也同样提了Multi Agent的scaling law。对了,报告主题还叫 Finding the scaling law of agents
要不是CAMEL这种有点名气的项目的作者,我都以为自己打开了某个《XXXX论文预讲会》的视频,甚至报告的内容可能还不如论文预讲会的观感。
报告4 是个做传统RL的人。内容倒是没啥可吐槽的,无论是内容还是PPT内容量都能回归正常的质量。
但会让人第一反应:为啥这主题会出现在这个论坛上?然后才会意识到,原来Agent其实本来是从RL借过来的词,RL才是更正统的,虽然我们现在已经不关心了。(机器人公司:你说啥?)
那么正经做RL的人能给出一个LLM和RL的有机结合方案么?不能,也就仍然只能把LLM作为语义理解组件加入到机器人Agent中。(机器人公司:这就够了吧)大家期望的靠RL来优化LLM Agent仍然是没有的,死心吧。
颇为搞笑的是,这个报告的末尾,主讲人也吐槽了一下目前LLM Agent研究的烂现状。虽然我很认同,但这段感觉就是来砸场子的,特别是碰巧还放在了整个分会场的末尾。
我个人很不喜欢用Agent这个词,因为它的概念已经完全混淆了,而且【在沟通中使用Agent这个词】跟【这个人对LLM应用认知的专业度】已经成负相关。
但从写文章,特别是拟标题的角度,我又不得不用,要不然大家更get不到我的意思。例如我去年年中使用“基于LLM的程序”这样的词,然后发现大家不知道我在说什么。
所以在与我沟通时请不要说Agent,请直接谈你要讨论的具体问题或者领域,“你才做AI Agent,你们全家都做AI Agent”。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-27
人人都在抢邮件和私信,却忘了那个打开率最高的老渠道——还没人用AI做好
2026-06-25
Codex最强替代!我用这款全场景Agent搞定整套营销方案
2026-06-24
装修、服装、家具,正在用 AI 把生意讲清楚
2026-06-16
万字长文|AI 正在重塑营销范式:未来市场部,不是提效,而是重构组织方式(上篇)
2026-06-08
AI营销,开始翻车了
2026-06-01
用 WorkBuddy 做标书,真正省下来的不是时间
2026-05-26
一次 AI 赋能销售项目的失败复盘:为什么蒸馏了销冠经验,还是成不了销冠
2026-05-25
直播回顾 | 如何找到第一个值得用 AI 改造的业务场景
2026-04-20
2026-04-27
2026-04-07
2026-05-11
2026-05-07
2026-06-01
2026-05-26
2026-06-08
2026-05-25
2026-06-16
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。