免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

独家实录|唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上,大家聊了啥?

发布日期:2026-01-10 20:23:13 浏览次数: 1713
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

中国AI全明星阵容深度对话,揭秘AGI前沿思考与行业趋势。

核心内容:
1. 智谱唐杰分享"让机器像人一样思考"的研究理念与公司发展历程
2. Kimi杨植麟、Qwen林俊旸等顶尖专家带来的最新技术报告
3. 张钹院士压轴发言,圆桌讨论AGI未来发展路径

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

中国 AI  全明星

今天下午,AGI-Next 闭门峰会,汇集了中国 AI 行业全明星阵容

三场报告,分别来自智谱唐杰Kimi 杨植麟Qwen 林俊旸

开源四大天王,三缺一
DeepSeek 由于众所周知的原因,无法出席

一场圆桌,参与者包括:杨强唐杰林俊旸姚顺雨(远程连入)

最终的收尾,来自德高望重的张钹院士

活动日程

AGI-Next 活动,由唐杰老师召集,独一档的号召力

我在现场,给大家带来了这份独家实录,共计4万余字

 



 

让机器像人一样思考

演讲人:唐杰(智谱首席科学家、清华大学教授)

今天这个活动更多的是个学术活动,所以我们没有前面太多的环节,咱们直接进入报告环节。

我自己这次要求大家、要求我们的团队没有主持人,不需要主持人。未来都是AI时代了,用AI主持,现在AI还没有做到,我先自我主持。第二个报告Kimi直接上来就行了,俊旸也直接上来,接下来是Panel,我开始我的报告。

我的报告题目,一方面是汇报我们这个基础实验室现在做的一些工作,另外一方面再给大家探讨一些想法和对未来的一些看法。我的题目是「让机器像人一样思考」,为什么这么说?其实我这个题目,当年我第一次提出来的时候,张钹院士是反对我的,说你不能老说让机器像人一样思考。但是我加了一个引号,所以现在可能允许我加引号说了。


智谱的起源与精神

我们从2019年开始在思考,我们能不能做到让机器像人一样真正在有可能的一点点的思考。所以2019年我们从清华成果转化,当时在学校的大力支持下,我们成立了智谱这么一家公司,我现在在智谱做首席科学家。我们也开源了很多,大家可以看到这里有开源的很多项目,左边还有很多关于大模型API调用的一些东西。

我在清华大概有20年,我2006年毕业,到今年正好20年。其实我一直在做的事情,我总结了一下也就两个事:第一,当年做了AMiner系统;第二,现在在做的大模型。

我一直有一个观点,我自己受影响也比较大,我把它叫做像咖啡一样的精神来做事情。其实那个事情跟今天在座的一位嘉宾非常相关,就是杨强教授。我记得我刚毕业的时候去港科大,去过的人都知道港科大就是一栋楼,会议室在里面、教室在里面、实验室也在里面、咖啡厅也在里面,吃饭的、打篮球的,都在这一栋楼里面。当时我们老能碰到,有一次在咖啡厅碰到以后,我就说这两天咖啡喝的非常多,是不是要戒一戒,要不然对身体不好。杨老师第一句话是说「对,应该戒一戒」,然后他说也不对,如果我们做研究能像你喝咖啡上瘾,是不是我们研究就做的非常好了?

当时喝咖啡上瘾这个事情一下子对我触动非常大,而且从2008年影响我到现在,也就是做事情可能就是要专注,一直做下去。这一次正好有幸碰到AGI这个事情,正好是需要长期投入、长期做的一件事,它不是短平快,今天我做了,明天就能开花结果,后天就结束了,它非常长期,恰恰值得来投入。

我们实验室2019年的时候在图神经网络、知识图谱方面,其实我们在国际上做的还行,但当时我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型,所有的人开始启动了大模型相关的研究。到今天做了一点点事情。


大模型智能水平的演进

大家也知道全球化,其实这张图是在2025年2月份,在整个大模型发展史上,我们把它叫智能水平,这个智能水平已经大大提高了。

从早期的2020年,其实我们看到一些很简单的像MMU和QA的一些问题,当时已经很不错了,到今天基本可以做到非常满分的程度。慢慢地,从最早期一些简单的问题,到了2021、2022年开始做一些数学题、一些需要推理——也就是加减乘除才能做对的问题,这时候我们可以看到模型通过后训练,慢慢地,现在也把这些问题补齐了,而且能力也大大提高。

再到2023、2024年,大家看到模型的发展从原来的只是一些知识记忆,到简单的数学推理,到更复杂的,甚至可以做一些研究生的问题,甚至开始回答一些我们真实世界的问题。比如说SWE Bench里面,其实已经做了很多真实世界的编程问题。这时候我们可以看到模型的能力,智能水平越来越复杂,就像人成长一样——一开始我们在小学里面多看书,慢慢地做数学题,慢慢到了初高中,我们回答一些研究生的复杂推理问题。再到毕业之后,我们开始完成工作上的一些问题,更难的一些问题。

到今年大家可以看到,HLE(人类终极测试)这个任务里面特别难,如果大家去看HLE里面,甚至有些问题连谷歌也找不到,比如说世界上某一个鸟的某一个耻骨的某一个什么,连谷歌也找不到这个页面,所以需要这个模型泛化出来。这时候该怎么做?现在也没有答案,但大家可以看到,它的能力在2025年快速得到提升。


从Scaling到泛化

另外一方面,我们可以看到这个模型,什么叫从Scaling到泛化?我们人一直都希望机器有泛化能力,我教它一点点,它就能举一反三,其实就和人一样。我们在教一个小孩子的时候,我们总希望教小孩子三个问题,他就会第四个、会第十个,甚至连原来没教过的也会,这时候我们怎么来做?

直到今天,我们的目标是希望通过Scaling让它有更强的泛化能力,但是直到今天它的泛化能力还有待大大的提高,我们在不同的层面在提高它。

最早期的时候我们用Transformer训一个模型,把所有的知识记忆下来。我们训的数据越多,我们训的算力越多,它的长时知识的记忆能力越强,也就是说它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。于是你要问一个问题,中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

第二层是把这个模型进行对齐和推理,让这个模型有更复杂的推理能力以及理解我们的意图。我们需要持续的Scaling SFT,甚至强化学习。通过人类大量的数据反馈,我们在Scaling反馈数据,让这个模型可以变的更聪明、变的更准确。

今年是RLVR(可验证奖励强化学习)爆发年。今年我们通过可验证的强化学习,原来为什么这个事情很难做呢?因为原来我们通过人类反馈,我们只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。但如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。

这里面难题的难题,大家一听就知道,说可验证是什么意思?比如说可验证,数学也许可以验证、编程可能可以验证,但更广泛的,比如我们说做了一个网页,这个网页好不好看,这时候可能就不大好验证了,它需要人来判断。于是,我们现在可验证的RLVR面临的问题是什么?原来可验证的场景也许逐渐地不够用了,我们能不能到一些半自动可以验证,甚至不可验证的一些场景里面,让这个模型变的更加通用,这是我们面临的一个挑战。

未来机器慢慢地开始在物理世界做一些真实的任务,这些真实的任务,我们怎么来构建智能体的环境?这是面临的更多的一些挑战。大家可以看到这几年AI在沿着这几个方面,不仅仅是简单的Transformer,其实整个AI已经变成了一个大的系统、一个智能化的系统。


从Chat到做事:新范式的开启

从原来更多的是数理化的一些推理,从简单的小学、初中、高中到更复杂的GPQA理化生的复杂问题,到更难的甚至是一些奥赛金牌的问题,到今年大家可以看到HLE非常高难度的智能评测基准,现在在开始进行快速的提升。

另外一方面在真实的环境下,像今天很多人都在说代码能力特别强,而且能完成很多真实的代码。但事实上在2021年代码模型也存在,当时还跟俊旸、Kimi植麟有很多合作,当时也做出了很多这种模型。其实当时的Coding模型也可以编程,但当时的编程能力远远不如现在,甚至当时编十个程序也许对一个,但现在可能编一个程序,很多时候能自然的跑通,而且是一个非常复杂的任务,到今天我们现在已经开始用代码来帮助高级的工程师完成更复杂的一些任务。

大家可能会问,是不是智能越来越强,我们直接把模型不停地训就行了?其实也不是。大家知道2025年初发生了什么,2025年初DeepSeek出来,很多时候叫横空出世,我觉得这个词用的挺好的,真是叫横空出世。可能对我们研究界、对产业界,甚至对很多人都是,因为大家原来在这个学术界、产业界都没有料到DeepSeek会突然出来,而且确实性能很强,而且一下子让很多人感到很震撼。

后来我们在2025年初的时候当时在想一个问题,也许在DeepSeek这种范式下,把这种Chat时代基本上差不多算是解决了,也就是说我们做的再好,也许在Chat的问题上可能做到最后跟DeepSeek差不多,或许我们在上面再个性化一点,变成有情感的Chat,或者再复杂一点。但是总的来讲,这个范式可能基本上到这快到头了,剩下更多的反而是工程和技术上的问题。

当时我们面临这么一个选择,我们怎么让这个AI下一步朝向哪个方向发展?我们当时的想法也许新的范式是让每个人能够用AI做一件事情,这可能是下一个范式,原来是Chat,现在是真的做事了,所以新的范式开启了。


技术路线的选择:Thinking + Agentic + Coding

还面临的选择,因为这个范式开启,有很多种开启方法。大家还记得年初的时候,我记得有两个问题:一个是简单的编程,做Coding、做Agent;第二是我们可以用AI来帮我们做研究,类似于DeepResearch,甚至写一个复杂的研究报告。这两条思路可能还不大一样,这也是一个选择的结果。一方面是做Thinking,我们加上一些Coding的场景;另外一方面可能要跟环境交互,让这个模型变的更加交互、更加生动,怎么来做?

后来我们选了左边这条路,我们让它有Thinking能力。但是我们也没有放弃右边,我们大概在7月28号做了一件事情,相对来讲还比较成功的,把Coding、Agentic、Reasoning能力整合在一起了。整合在一起可能也没那么容易,原来一般来讲大家做模型的时候,Coding相对来讲可能单独拿出去做,Coding变成Coding,推理变成推理,甚至有时候会数学变成数学,但这种做法往往会损失掉其他的能力。所以我们当时是把这三个能力基本上合在一起,让三个能力都相对比较平衡,在7月28号我们发布了4.5版本,这个版本在当时用12个Benchmark,我们在智能体、推理、代码上,基本上跑出来还算比较不错的一个结果。所有的模型,我们在国内,包括今天千问和Kimi,其实都是你追我赶,有时候这个在前面,有时候那个在前面,在当时那一天,我们排在前面。


真实环境下的挑战与突破

但是很快我们就把这个4.5开放出来让大家用,大家拿去编程吧,我们现在这个能力还挺不错的。既然我们选择了Coding和Agent,它就能做很多编程任务,我们就让它来编这种非常复杂的一些场景。结果发现用户跟我们反馈说,比如说我们要编一个植物大战僵尸,这个模型编不出来。

因为真实的环境下往往非常复杂,这个游戏是用一个Prompt自动生成的,包括整个游戏就可以玩,用户可以点击怎么来得分,选择什么样的植物以及怎么来打僵尸,僵尸从右边走过来,包括界面、包括后台的逻辑,全部是用这个程序自动一句话写出来的。这时候4.5在这个场景下做不出来,出了很多Bug,怎么回事?

后来我们发现在真实的编程环境下,它里面有很多问题,比如说在上面这种编辑环境下有很多问题需要解决,这时候恰恰利用到RLVR可验证的强化学习环境。于是我们在这里面搜集到大量的编程环境,通过编程环境作为强化,再加上一些SFT数据,使得这一块可以两方交互,把这个模型的效果提高。另外一方面,我们在Web方面也做了一些工作,把Web的一些能力也利用Web环境,加上一些反馈,加上环境可验证。总的来讲是通过可验证来探索,于是我们当时在SWE Bench上得到了很不错的分,包括最近我们也得到了很不错的分。

但这个模型的跑分是跑分,进入主模型又是一个非常大的挑战。很多人都有一个Benchmark,说我这个Benchmark分很高,但是真正这个能力进入主模型的还面临更多的一些挑战,而且在真实的体感中,用户体感还不一定效果好。

另外一个挑战,既然有这么多大量的RL任务,怎么把它全部统一训练在一起?因为不同的任务的长度都不一样,时间长度也不一样。所以我们当时开发了一个全异步的训练强化学习框架,怎样使得它异步的开始跑起来,这是我们在今年开源的另外一个框架里面的一个工作。这也使得Agent和Coding能力得到了很多的提升,最终的结果,我们最近发布的4.7,相比原来的4.6和4.5在Agent和Coding方面大大提升。

在体感方面更重要,为什么?因为你真的把Coding模型开放出去以后,用户用的跟你的跑分还不完全一样。今天可能是他自己的程序,我这个程序可能在我这个数据上做一个排序算法,效果好不好,体感好不好,他用的是这个结果,用的不是分值有多高。所以在真实的跑分下,我们也进行了详细的评测,这个评测完全是人工来做的,找了非常多编程高手来做评测。当然这里面还没有解决,还面临很多问题要解决。

最后我们把这些能力整合到一起,2025年底我们在Artificial Analysis榜单上跑出了一个还不错的分,得到了还可以的分。


Device Use:从编程到操控设备

另一方面,我们又随着进一步发展,你要把这个问题在Agent环境下真的让它大规模用起来。大家可以看作Agent最基础的能力,什么叫最基础的能力?编程嘛,计算机编完程以后,它就可以执行,相当于Agent里面的一个action或者两个action。但如果你要做的更复杂,左边是Claude发布的computer use,中间是豆包手机,右边是Manus做的异步超长的任务。

假如你要让这个机器帮你做几十步、上百步的任务,甚至你说「请帮我搜集一下今天关于清华大学在小红书上所有的讨论,讨论完以后,关于某某的全部整理出来,给我生成相关的文档」,这时候AI得在一天监控小红书。它是自动的、完全异步,你不可能把手机打开盯着它,它是异步的,它是个非常复杂的任务。这样非常复杂的任务,总而言之,可以把刚才的问题变成一个Device Use,也就是在整个设备上我们怎么来做。

这里面更大的一个挑战,有些人说是不是更多的是采数据?其实更大的问题是很多应用根本就没有数据,全部是代码,全部是冷启动,这时候该怎么办?当然我们更希望我们通过这些数据能够一下子泛化出去。

所以最早的确实是我们采了大量的数据,上千个数据,我们来进行整合,包括SFT,包括在特定领域的强化,使得它在某些领域上可以把效果做的不错。但是更多的时候你会发现原来的iPhone use都是点按钮,但是更多的时候AI交互不是人。我们原来都把AI当作一个人,说AI能不能帮我们操作手机,但是你要想一下,其实这个AI不需要操作手机,更多的是API。但是现在你又不可能把手机变成纯API的系统,没有这个按钮了,所以这时候该怎么办?

我们采用混合的方式,把API跟GUI两个混在一起,对AI比较友好的时候采用API的方式,有时候对人友好的时候,让AI模拟人来做GUI的操作方式。于是把这两个整合在一起,我们在大量的环境里面抽取到大量的数据,并进行全异步的强化学习,这样就把整个东西给整合在一起,使得这个AI有一定的泛化能力。我刚刚说有一定的泛化能力,原因是说直到今天这个泛化能力都还差的很多、都还差的很远,但是它有一定的泛化能力了。

更重要的是我们怎么克服冷启动带来的一些问题,比如如果说我们的数据不够,我们通过强化学习有可能把它带入一个陷阱。这个强化学习到最后,它整个学到以后,这个模型就像钻牛角尖一样,它就认死理,说我就要这样,效果一下就跑偏了。这时候怎么把它拉回来?于是我们把SFT在中间穿插了一步,也就使得这个模型强化一段时间,再做一些SFT,再强化一点,变成一个交替的,使得它有一定的容错能力和有一定把它拉回来的能力,变成可扩展的训练算法。在移动环境下,我们使得效果在安卓里面取得不错的提升。

另外在多任务的大模型强化学习上,我们也做了一定的工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。


AutoGLM开源

今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。大家注意我们开源的这个模型是9B模型,不是一个超级大的模型,原因是9B可以在人机交互里面动作特别快,执行速度特别快,如果特别大的话,它的执行速度就会很慢。所以我们开源了一个9B的模型,这个模型一开源,当时一下子就获得了两万多个star,而且三天就拿了一万多个star,还算不错。

这是一个例子,比如说我们下周要去长春玩,帮我们总结一下当前页面推荐的一些景点,然后到高德地图上收藏这几个景点,包括查看票价,再去12306订一张10点钟从北京去长春的高铁票,把相关信息整理好给我。这个模型在后台会执行40步,它会调用不同的APP,把不同的APP打开,然后输入相关的信息,相关查询、执行,整个操作40步执行完之后,把所有的东西全部给你。相当于这个AI做了一个类似于你的秘书的事情,整个全部执行下来。

更重要的是在所有的Device-use里面有几个榜单,包括OSWorld、Browser use、Mobile use相关的一些Bench,我们都取得了很不错的效果。其实你可以把这个模型想象成用了很多Agent数据在训,我们在9B的模型上用了很多Agent数据在训,其实它把原来的很多语言能力、推理能力可能会降低,也就是说它不再是纯通用的模型,它可能在Agent方面能力比较强,但是在其他方面可能会减弱。于是给我们带来一个新的问题,在未来这种超大规模的Agent模型上怎么来使得它不要降低,这变成一个新的问题。


2025年:GLM开源年与中国开源模型的贡献

我们2025年也是GLM的开源年,我们大概从1月份到12月份开源了很多模型,包括语言模型、智能体模型,还有我们多模态的模型,GLM-4.6、4.6V、4.5V等相关的一些模型。

而且更重要的是我们可以看到中国开源模型在2025年做的贡献,这里蓝色的是开源的模型,黑色的是闭源的模型。我们可以看到Artificial Analysis上面,蓝色的前五基本上全部是中国的模型,也就是我们中国在开源大模型上做出了很多贡献。我们可以看到相比2025年初,也就是2024年的时候,美国这边开源,包括Meta LLaMA还占了绝对的优势。随着一年的发展,中国慢慢地在前五,基本上现在变成中国的模型。右边的这个图是大模型的盲测榜单,也就是通过人工评测的结果,我把它截屏了过来。


清醒认识:差距可能还在拉大

下面一个问题,下一步我们还能继续Scaling吗?我们下一个AGI范式是什么?我们面临更多的一些挑战。

我们刚才做了一些开源,可能有些人会觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的答案是我们差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。


未来思考:参考人脑认知的学习过程

下一步我们应该怎么做?我这里有一些简单的思考。我觉得从大模型整个发展史来讲,其实就是参考人脑认知的学习过程。从大模型最早的,要把世界长时知识全部背下来,就像小孩子,从小先看书,把所有的知识先背下来,然后慢慢地学会推理,学会数学题,学会更多的演绎、抽象。

对于未来来讲,也是同理,对于人脑的认知学习来讲,未来有哪些能力,现在大模型还没有,但是人远远超过我们:

第一,2025年可能是多模态的适应年。 为什么这么讲?可能全球除了少量的几个模型,一下子吸引了很多关注,包括我们在内的很多多模态的模型都没有引起很多人的关注。更多的大家在做文本的智能提升。对于大模型来讲,怎么把多模态的信息收集起来,并且能够统一感知起来,也就是我们经常说的原生多模态模型。后来我想了想原生多模态模型和人的「感统」很相似,人的感统是我这边收集到一些视觉信息,还收集到一些声音的信息,还收集到一些触感的信息,我怎么把这些信息感统到一起,来感知一个东西。像我们人有些时候大脑会有些问题,很多时候是感统不够,感统失调会出现的问题。对于模型来讲,下一个多模态的感统能力怎么来做?

第二,模型现在的记忆能力和可持续性学习能力还不够。 人有几级记忆系统,我们有短期记忆、工作记忆、长期记忆,甚至我之前跟我们的同学、跟我们实验室的人聊天,我说好像一个人的长期记忆也并不代表知识,为什么?因为我们人类只有真的把这个知识记录下来,比如说对于我来讲,如果我的知识不能被记录在维基百科上,可能100年之后我也消亡了,我对这个世界也没有什么贡献,好像也不叫知识,好像在未来训人类大模型的时候,我的知识也没用,都变成噪音了。咱们怎么把我们整个记忆系统从单个人的三级到整个人类的第四级记录下来,整个记忆系统是我们人类未来要给大模型构建起来的。

最后,反思和自我认知。 其实现在模型已经有一定的反思能力,但未来自我认知是很难的问题,很多人在怀疑大模型有没有自我认知的能力。在座的也有很多基础模型实验室的专家,有些人是支持的,有些人是反对的,我是有一些支持的,我觉得这是有可能的,我们值得探索。


系统一与系统二

人类认知是双系统,系统一和系统二

系统一完成了95%的任务,比如说人类问一个问题,中国的首都是什么?大家的回答是系统一,因为你背下来了。或者你说你今晚晚上吃饭吗?你说吃,也是系统一,这些全部是系统一背下来了。只有更复杂的推理问题,比如说我今天晚上要请一个来自四川的朋友大吃一顿,去哪吃?这时候就变成系统二了,它就得琢磨这个四川的朋友是哪里来的,我们去哪大吃一顿,那就是系统二做的事情。系统二在我们日常中只占5%。

对于大模型来讲同样的道理,在2020年我们画了这么一个图,我们当时是说参考人类的AI系统应该长什么样子,有人类的系统一、有人类的系统二,还有一个自学习

当时为什么想了一个自学习呢?当时我是这么想的:首先系统一可以构建一个大模型,让它基于匹配就能回答,解决系统一的问题;系统二是可以加上一些知识融合,比如指令微调和思维链;第三是如果有些学过认知的,人脑在晚上睡觉的时候会无意识的自学习,如果人没有晚上睡觉不会变的更聪明。当时我们2020年的时候就说未来一定有AI的自学习机制、自学习思维链,但我们不知道怎么学习,就是先把问题抛出来。

对于系统一来讲,我们在不断地Scaling。如果我们在不停地Scaling数据,这带来了智能上界的提升。同时我们还在Scaling推理,使得机器思考的时间越长,用更多的计算和更多的搜索来找到更准确的解。第三方面是我们在Scaling自学习环境,让这个机器有更多的机会跟外界交互,拿到更多的反馈。

所以通过这三个Scaling,我们可以让机器来参考人的学习范式,得到更多的学习机会。


Transformer的挑战与新型架构

对于系统一来讲,如果已经有Transformer了,是不是意味着我们只要加数据就完了,加更大的参数就完了?原来30T不够,是不是50T?50T不够就100T,到最后再加上参数从100B到1T到3T到5T甚至更大。

但我们现在面临另外一个问题,什么问题?Transformer的计算复杂度是一个O(N²),使得我们在增大context的时候,显存的增大和推理效率能力会越来越低,这里面临很多问题。最近有一些新型模型,包括一些线性模型试图在用线性的方法,参考人脑是我用更小的脑容量能存更大的知识。甚至更本质的一个问题是有没有可能,因为原来Transformer越训越大,包括最早的时候,我们探讨的时候没有说我们非得把模型弄小,越来越大比较早。

但最近我也在反思,我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面,这是一个新的问题。

这里面面临两个问题:第一个问题,工程上有没有办法?第二个问题,方法论有没有办法?所以最近包括很多人在探讨,我们大模型可能要回归到研究上来,不能像原来单纯的Scaling。Scaling是一个很好的办法,但Scaling可能是最轻松的办法,是我们人类偷懒的一个办法,我们直接把Scaling Up上去,它就是一个偷懒的办法。但是更本质的方法,可能我们要找到新的东西。

第二个是新的Scaling范式。Scaling可能是一个非常重要的路径,但我们怎么找到一个新的范式,让这个机器可以Scaling的机会。读书是一个机会,跟人交流也是一种机会,我们要找到一种新的,让这个机器可以独立Scaling的方式。有些人会说我们加大数据,加大数据是我们人强加给它的,这个机器必须找到自己能通过、自己来定义一些奖励函数,自己来定义一些交互方法甚至训练任务来做Scaling,这是系统二来做的事情。

更重要的是我们有了刚才两个以后,还要完成更多真实场景下超长的任务,这块怎么来做?要让这个机器有像人一样PLAN规划,做一下,检查一下,再反馈一下,人是这样来工作的,机器有没有可能这么做?一个超长任务怎么完成?

举个例子,我们今年已经有一点点文章出来,年初的时候跟我们团队的小伙伴说,年底你必须给我写一篇文章,但是没实现,最后也没做出来。反正到现在,大家知道在网上已经有一些文章开始尝试,这个idea也是模型生成的,实验也是模型做的,报告也是模型做的,最后可以做一个Workshop,但事实上还没有做出来,这里给出一个真实的超长环境下的任务例子。我们希望在这个基础上来定义未来AI会长什么样子,这是我们的一些思考。


智能的五个层级

早期在这个大模型之前,大部分机器学习都是F(X)到Y的映射,我学习一个函数,使得X样本可以映射到Y。大模型来了之后,我们把这个问题变成F(X)到X的映射,可能映射的也不是严格的X,但我们是让它完全用自监督的学习来做多任务的自学习。

另外第二层,我们加上这些数据之后,让这些模型学习如何推理,如何激活底层的智能。

再往后,我们在教这个机器有自反思、自学习的能力,通过这个机器能够不断地自我批评,能够学习到哪些东西我应该做,哪些东西可以更优的来做。

到未来,我们还要教这个机器能学习到更多,比如说能学习到自我认知,让这个机器能对自己的行为,比如说AI生成了大量的内容可以自我解释,我为什么要生成这个内容,我是什么,我的目标是什么。在终极上也许有一天,AI也有意识

我们大概有这么定义五层的思考。


计算机的三个核心能力

从计算机的角度上,计算机不会定义这么复杂。在我看来计算机有三个能力:

第一,计算机的表示和计算。 把数据表示出来,它可以做计算。

第二,编程。 计算机只有编程是计算机跟外界的交互。

第三,本质上是搜索。

但是这几个能力叠加在一起:第一是有了表示和计算,可以使存储能力远超于人。第二是编程可以做出人类更复杂的一些逻辑。第三,搜索可以比人做的更快。这是计算机这三个能力叠加在一起,可能能带来所谓的「超级智能」,也许能超过人类的一些能力。


AGI-Next 30:未来30年的愿景

我突然想起2019年,这个PPT原来真的是跟阿里巴巴合作的时候,当时让我给出一页PPT,我当时给出了这一页PPT,就是AGI-Next 30,未来30年我们应该做什么。

这个图是我截屏下来的,Next AI,我们说在2019年的时候,未来30年,我们应该做让机器有推理能力、有记忆能力、有意识。我们现在差不多在这里面做了一定的推理能力,大家应该都有一点点共识。记忆能力有一部分,但意识还没有,这是我们在努力的。

未来我们也在反思,如果用参考人脑认知,未来的AI可能会有什么是我、为什么是我,以及给这个模型构建意义系统,还有单个智能体的目标,以及整个智能体群体的目标,这样我们实现对未知的探索。

有些人可能会说这个完全不可能,但是大家记住,我们人类的终极意义是我们在不断地探索未知的知识,我们越是觉得不可能的,恰恰也许就是我们未来AGI上路上要去探索的。


2026年展望

2026年对我来说更重要的是要专注和做一些比较新的东西。

第一,我们要Scaling可能还会继续做下去,但Scaling已知的是我们不断加数据、不断探索上限。还有Scaling未知,就是我们不知道的新的范式是什么。

第二,技术创新。 我们会做全新的模型架构创新,解决超长上下文,还有更高效的知识压缩问题,以及我们会实现知识记忆和持续学习,这两个方面加在一起,可能是未来实现让机器比人能力还强一点点的一个机会。

第三,多模态感统,今年是一个热点和重点。因为有了这个能力,我们才使得AI可以实现进入像机器里面的长任务、长时效任务,在我们人的工作环境里面,比如说手机里面、电脑里面,它可以完成我们的长任务。当完成我们的长任务,AI就实现了一个工种,AI变成跟我们人一样,可以帮助我们实现。只有这样,AI才能实现具身,才能进入物理世界。

我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。


以上就是我的汇报,感谢大家!

 



 

Scaling Law、模型架构与Agent智能

演讲人:杨植麟(月之暗面创始人、Kimi)

杨植麟的分享,充满了技术与公式,这里简单总结下:
通过Token EfficiencyLong Context两个维度优化,最终能实现更强的Agent智能。

他指出Transformer优于LSTM的关键不在短序列,而在长上下文场景下Loss显著更低——这正是Agent时代的核心需求。团队采用MUON二阶优化器实现2倍Token效率提升,并通过QK-Clip解决训练不稳定问题,成功在万亿参数的Kimi K2上完成稳定训练。

下一代架构Kimi Linear采用Delta Attention线性注意力机制,首次在长程任务上超越全注意力,同时速度提升6-10倍。K2已成为中国首个Agent模型,可完成两三百步工具调用,在HLE等核心评测上超越OpenAI。

杨植麟强调,接下来的模型需要更多Taste(品位),因为智能不像电力可等价交换,每个模型产生的Token本质上是不同的。他引用与Kimi的对话:继续开发AGI是因为放弃它意味着放弃人类文明上限,不能因恐惧而停滞

 



 

Towards a Generalist Agent

演讲人:林俊旸(阿里通义千问)

大家好,非常感谢唐老师的邀请,唐老师跟我说这是清华、北大联合实验室第一次办的活动。唐老师和植麟都是清华,我代表北大来一下。我很久没有回海淀区了,我是朝阳区的。

今天整体介绍一下千问2025年的进展,有些东西相对旧一些,最近几个月我们在憋着下一代的东西,我尽量讲一些我能讲的东西。

Towards a Generalist Agent这个标题我其实换了很多轮,原来叫Towards a Generalist Model,后来觉得model是比什么都大的东西,后来想想agent也许是更大的概念,像人一样你可以自主的使用工具,人和动物很大的差别是可以自主使用工具。所以就变成了Towards a Generalist Agent。

而且今天训练的范式发生了很大变化,过往我们不管做什么事情,都会有输入和输出把它标注出来,你可以认为是我们传统的标注。今天有了这个新的技术以后,我只要解决了这个推理,解决了这个评估,这个东西就可以训,干什么都可以,我就可以发挥想象力。比如说今天数据智能、模型智能都可能,这也是我一个干语言模型的人最近敢斗胆扬言我要做VLA和机器人的一个小小的原因。


开源与产品

大家如果想用上我们的模型的话,最容易体验到我们开源模型和闭源模型。我觉得很有意思,之前我们一直做开源,大家比较清楚,不赘述和吹牛了。但是网友们一直在骂我们,你们那个东西很难用,每次都得去你们的模型上面找。我们就把OpenWebUI拖下来之后就把它变成了一个聚合器,看起来就像是ChatGPT一样。本来算法的同学产品意识并没有那么强,做着做着就有这种感觉了,模型即产品,就有很好玩的东西出来,所以我们都会放到这上面。一般我们会在qwen.ai里面就可以很好的搜到,发博客对于我们来说比较简单,最近我们火的新的模型架构Qwen Next,很多同学没有办法引用,原谅一下我们。

我们做开源做的比较久,2023年8月3日开始做开源,很多人问我们为什么做开源这一件事情?很多事情都有机缘巧合的成分在这里,反正开源一路做下来之后做了很多,至少还是比较工业的事情。东西不多,基本是一些脚本大家在上面看就可以。我们的模型是比较多的,为什么相对比较多?以前有很多人不理解我们为什么做小模型,但是今天大家都明白小模型还是挺有价值

小模型最终起源于我们内部用来做实验的1.8B模型,我们做预训练,资源毕竟有限,你做实验的话不能通通用7B的实验来验,就拿1.8B的来验。当时我的师弟跟我说我们要把这个模型开源出去,我非常不理解。我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说7B很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果1.8B开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着手机厂商跑来跟我们说7B太大,1.8B太小,能不能给我们干一个3到4B的,这个容易,没有什么很难的事情。一路干下来型号类型越来越多,跟服务大家多多少少有一点关系。


Multimodal Foundation Agent:我们的追求

但是我们自己的内心追求的不仅仅是服务开发者或者服务科研人员,我们看一看能不能做一个Multimodal Foundation Agent,我特别相信这件事情。如果追溯到更远的话,刚才唐老师说我们当年还在合作的时候,当时就在大干多模态,现在想想这是一个激情岁月。2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们延续下来一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是Multimodal,当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是Foundation有更多的生产力,能不能更好的帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

理想的情况下,当年我记得我们2022年的时候,当时设计的一个系统是中间有一个大脑,我们不知道那个大脑是什么东西,但是我们知道不同的模态和任务都应该进入到这个大脑,从这个大脑输出去,这个才是真正的想象当中的AGI。今天看起来很有可能,因为我不知道大家做的研究方向有没有做统一理解生成这件事情,这件事情还挺复杂的。目前谷歌也没有做到统一理解互相生成,但是我还挺相信这些事情。如果看GPT的话,今天把很多东西统一了之后,看起来更加完美一些,当年还在争论他们到底是哪个好。


Qwen3:今年最大的进展

今年最大的进展是Qwen3,这个是吉祥物,有点像熊,但它是一只卡皮巴拉。做的时候我觉得我们同学太辛苦了,不想他们太辛苦,今天这么卷的时代佛系一点不是说不行。我们做的方向相对比较多一些,但是你可以看到每一个方向都有它自洽的逻辑在这里面。比如说我们做Text和VL、Omni,做的时间比较长,做视觉、文本、语音生成。我们做的过程当中,可能因为我们比较特殊的地方是我们背后是阿里云支持,我们有很多业务和阿里云的客户比较相关。云的业务很多客户是非常多样的,包括Embedding、Guard都会给大家提供服务。

今天围绕相对比较主线的Text、VL,包括Omni会给大家做介绍,Coder会放在Text里和大家做相应的介绍。


Text:Qwen3系列

Text今年主要是Qwen3系列,现在已经做到3.5,3做的时间比较长一些。因为上一代2.5用了非常长的时间,一个最大的特点是总体能力提升。今年比较有意思的是reasoning的能力要提升,我补充介绍一下我个人的理解,reasoning和现在的单纯的Instruct模型有一点不太一样。

第二个是我们支持的语言及方言,语言没有那么多,加上方言一共有119种。为什么会做多语言这件事情呢?其实也有些机缘巧合的事情,2023年的时候,当时我们觉得只要把中文和英文做好就可以服务好我们需要的人群,但是有一回我遇到韩国朋友,他们在做Solar模型的时候,为什么不用我们的模型做呢?他说你们的模型根本就不懂任何的韩语,我感到非常的受伤,我就去看了一下,后来发现这个事情很简单,顺手就把它做了。后来发现我们全球的用户越来越多,我记得一些巴基斯坦的朋友不断的跟我说你快点支持乌尔都语,我们真的没有大模型可以用了,这个事情我觉得确实挺好,于是我们支持了更多的语言。

我们现在还没有做完,非洲的数据确实有点难以收集,非洲的语言没有覆盖。今天我跟一些手机厂商聊了一下,非洲还有很多人使用功能机,我们今天已经进入智能机的时代,他们还在做这个事情,所以要帮助全人类的话,确实是任重道远。如果你的想法不是帮助全人类的话,我觉得不如不做,所以就继续干。

第三个是今天的长文本、长视频可能都是其中一个例子。但是我觉得这件事情很有意思,如果你真的想形成一个具有自我认知的模型,首先上下文得足够长,之前还有人讨论一个问题,你没有必要把很多垃圾放到长上下文里面,但是有了这个以后才能做到下面的理解。所以我们现在一路做到1M以上,实际上我们内部已经做到好几个M,可能还不够。今天为什么还想说这是非常非常长的事情。


Reasoning能力的提升

回到刚才的问题,我们这一代模型可能和2024年相比,很大的一个区别是reasoning的能力要提升,广义的reasoning是做问题推理,让问题得到更好的解决。虽然不得不做相关的研究,怎么让reasoning更加native一些。Qwen3的时候,我们4月份发的版本,当时有些做的不太好,数据方面没有做的太好,合并起来有一些问题。

当时,我们发现一个很有意思的现象,我们自己有超过90%的客户不再使用Thinking模型,大量使用我们QwQ系列的很重要的原因是他们的用户喜欢看机器和自己进行聊天。但是很快大家就回到Instruct,这里主要看一下黄色和蓝色的部分,蓝色是4月份版本,红色是7月份版本。除了把数据做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是这个能力加进去之后,客户很明显的反馈是模型比以前聪明了很多。只有20多分,基本上什么题可能都做不了,比如说在教育领域做一点数学题可能都干不明白,这是我们挺骄傲的模型,这个模型也不是很大,很多人在用我们系列的模型。

但是还有一个遗憾,这个模型还有很多东西没有做完,这里是一个取舍的问题。比如说Coding和Agent能力怎么把它集成进去,做起来很难。考虑到自己的技术实力和状况,包括自己一直做Coder系列,我们推出了这个模型。


Coding:从竞赛题到Software Engineer

今天的Coder和过往的不太一样。比如说去年和前年都在解单纯的竞赛题,给一道题看一看能不能把答案做出来。今天我们做什么事情呢?Software Engineer,2024年的时候大家非常惊讶,第一个AI能不能像一个程序员,今天我就维护一个项目这件事情挺难的,你把它做了就好了。

实际做的过程中,这个事情人做起来步骤挺复杂,最简单的是至少我可以打开这些文件夹,看了这些文件的名字知道我可以点开哪一个,其实是多轮交互的过程。今天做Agent一个很重要的点,为什么大家提多轮环境交互,说白了打开文件夹看一眼,这个其实也是一个跟环境交互的方式。这件事情很重要,并且非常有意思,让我们非常激动,真的能产生产力。我们想做今天的Coding的模型可以有生产力,很多代码可以写出来,这是很惊讶的。

当然这个中美是不一样的,刚刚从湾区回来,我感受到两边不太一样。这个是非常夸张的,但是今天是不是模型做的不够好,还是说Web Coding还没有做的更好,我觉得是大家认知上面有差异,我们想做的事情是殊途同归,都是想让它产生生产力。

当时我们就特别关注两个Benchmark,一个是SWE-bench,你能不能提一个PR把它解掉,70算是比较高的门槛,当然现在可以感到75以上,这是7月份的时候,当时我们做到67和69分觉得可以。Terminal-Bench也挺难,今天大家都在用这系列的产品,大家会发现这个东西确实会和你的生产力接在一起,和以前不一样,今天我们做的是贴近实际的任务。也许今天我们只是一两个Benchmark而已,有没有可能让它更加符合真实的环境和真实的生产任务是我们想做的事情。

当时刚出的时候挺火的,但是现在竞争太过激烈,Token Coder量一直干到第二名,小小吹嘘一下。


Agent Scaffolds:算法与工程的联合

最有意思的是这一套东西,以前从来没有做过,今天模型训练我有一个Scaling,就是今天Agent Scaffolds的东西,所谓的脚手架你再简单理解一点就是这个东西。它就能够在机器里面跟阿里云的ECS的这些机器在这里面一个个起来,不仅是算法的挑战,在里面干完活就把它消除掉。真真实实的存在,Infra挑战也很多,右上角的东西我自己可以感受,左上角就得需要拉其他的伙伴一起,算法和Infra今天联合的事情是真真实实存在的,今天我们要做这么难的任务,需要很多Infra的支持。

这个是当时做Coding的事情,我们更想做的是把Coding的能力是否可以集成在我们很大的模型上。比较抱歉的一件事情是最大的这个模型,大于1T的模型,我确实没有推动将其开源出来,虽然我也很想开源。但是就是这么回事,我们终于把这些能力集成进来,大家可以看到我们的SWE-bench可以做到70分,之前你没有很好的把它集成进来,其实很难做到一个比较高的分数。这也说明一个问题,做到很强的时候,你也可以集成一个很强的模型,需要进行相应的积累。

Qwen3-Max也是排在前五,Overall。当然,它体现的是人类的偏好,未来评测会不会是动态的?让它放到人类的生产环境里面,比如说就让它炒股票。最后有一个公司做炒股这件事情,虽然有很多随机性,但是开了一个好头,让大家在人类的真实世界中看AI做的好还是不好。


Visual Understanding:给模型装上眼睛

做语言模型其实还要想一个问题,它能不能有眼睛看到这个世界,举个例子。我们刚才提到想做Coding Agent提升生产力,我总得让它操控电脑,看电脑屏幕,没有眼睛就看不到,所以我们毫不犹豫的去做,这是巨大的差异,Visual Understanding就去做可以了。

但是今天很多的模型比人看东西看的更明白,比如说我又近视又散光,基本上不太好使,看不明白。但是上下左右我总归分的很清楚,但是AI很有意思,很细节的东西它看很清楚。比如说问前后左右这个问题,居然分不出来。我们很长时间评估一个案例,叫活体的方向,当时我还问我们的评测人员什么是活体,分不清楚东西在左边还是右边,我觉得蛮奇怪的,但是这是我们要解的问题。

但是不仅仅如此,我们还要做一件事情是让它的intelligence不要降低,我们没有期待它真的能够大幅度提高智商,但是至少不要变笨,因为很多时候做VL模型是变笨的。我们这一次终于让它不再变笨,大概和我们的235B的语言模型达到一个持平的状态。

这里讲一下我们这次主要的提升,简略的说一下:

第一,我们大家都在做一件事情,让它操作手机、操控电脑的能力进一步提升。

第二,是它的语言的智力,VL模型能不能当LLM来用,这样才可以追上原生多模态的模型,至少做到技术上让语言的智力能够达到持平状态。

第三,Coding这件事情很重要,但是Coding的输入也可以是图像或者是视频。比如说今天我想做一个APP,想做一个网页,我可以画出来。不一定我用文字写,因为这个很考验人类的表达能力。很多时候大家表达的不一定很清楚,你可以画一个图。

还有对视频的理解,也许是VL下一代的机会。视频是更广义的表达,图片可以理解为是单帧的视频,理解很长的视频是很有意思的一个事情。

我一直在想如果我们有了智能眼镜,每天接收更多东西的时候,能不能构建我们的记忆。这个眼镜是第一人称视角的东西,一般来说我们在网上搜罗的视频是第三人称视角,对第一人称视角理解很少,我们一般谈论的是它对这个物理世界能不能构建一些好的理解。我们做的时候,就发现真的需要知道它是不是能理解这个空间的东西。这个东西激励我们做一件事情,我们能不能去做VLA,可能得把这些数据都集合进来,有没有可能接入硬件做VLA的模型,能不能让它获得一些泛化。

另外是基础能力的提升,比如说今天大家在使用OCR的时候,有很多东西的用例,都在检测一些很褶皱的东西。但是我们的图像很多时候检测不到,纸张非常的褶皱,能不能让它看的懂都是我们自己要解的问题。另外是印章,字体非常特别,非常的小,图片分辨率低,能不能识别出来是很特别的事情。

Multimodal模型能不能做Reasoning,能不能对图片进行理解。比如说今天我们看到一个数学问题做分析,不断的一步一步去推,和图片结合起来看能不能看到图片上更小的点。举个更小的例子,一张照片有50个人它能不能数的出来呢?数不出来,但是配上Reasoning我就可以一点点的去看,一点点的去打这个点,有可能我能把这个数字给数出来。今天结合具体的应用,能做的空间其实非常多。

我们现在基本上可以达到2.5 Pro的水平,但是让我开心的是语言的智力没有那么降智了,也算是第一次解决了这个问题。


图像生成:理解之外还要会创造

更进一步我们想做什么呢?除了理解图像和视频以外,有没有可能同时生成图像和视频?我们甚至有一个更大的想象,如果我们今天在思考有没有可能把我们的基础模型实现想象这些事情。我脑海里有一些画面,这个想象对我来说是有意义的,这些事情都可以通过图像生成和视频生成进行相应的实现,这个也会和今年的世界模型联系在一起。

今年我们刚开始做生成的事情,花了几个月时间做了Qwen-Image系列,12月份刚刚更新了一个。这是我们内部人员进行盲测,排名还是可以,基本上比最好的开源模型和闭源模型,比相较还是稍微差一点点。但是我看到一些实际的图的时候,我其实比较兴奋。比如说和其他模型比较没有什么感觉,但是可以看一下8月份和12月份的版本,8月份生成的图AI感还是非常重的,但是12月份生成的已经接近离谱了,虽然没有那么美和好看,但是已经接近真人了。其实还有一张我们博客里面宿舍女生拍照,真的很像宿舍女生刚睡醒拍照,放在这里不是很好,我放了更好看一点的。还有更自然的东西,比如说灯塔,水花特别夸张,但是右面的水可以达到非常自然的状态。

另外一个是生成图像文字要很准确,能够把文字生成到图片上面来。分镜不是拼出来的,其实是12张图合起来的一张图,包括文字都是一次性生成出来。今天模型有一些威力超出了我们的想象,有时候我们自己训练模型都没有想到会变的这么强。


图像编辑:比生成更大的需求

但是除了生成以外的话,我们还要做更重要的事情。我们做了生成之后,用户告诉我们才知道编辑是更大的需求,因为大家都需要P图,让自己变的更好看。Image-edit版本也有,接下来会把edit和生成合在一起。我自己每天用这个东西,最近出去旅游的时候,我想拍出美国往事的感觉,下面有很多人,我就把很多人P掉,调整一下风格,就可以把这个东西做出来,这是每天干的事情。

我想给大家分享一个更有意思的案例,也是今天大家会问我,开源社区究竟怎么帮助我们研发这个模型,如果不是开源社区告诉我们,这辈子都想不到有这个问题。有一张图片我们想对它进行编辑,让它放下图像中右边的人,你会发现它放下来之后,两张图重叠在一起的时候你会发现糊了,它有点移动了,不在原位,偏移了。对于很多搞PS的同学来说,这个东西要非常精确,你不能随便移动,所以2511这个版本很重点的是在解这个问题。在2511这个版本,我把两张合在一起的时候,基本上人在原来的位置上,我觉得是开发者给我们很好的用例,原来可以做出真的可以帮助到他们东西。

编辑可以做很多事情,比如说我调整光线让它变成更柔和的光线。我们的用户和产品跟我们说这个光线合理不合理是很重要的,我们做算法的同学很多时候没有感受,但是有些时候大家对图的要求比想象的更高。所以,大家谈世界模型的时候,是不是真的能构建出符合物理规律或者真实世界的东西其实还是很重要的东西。

还有一些例子,比如平移一些镜头,旋转30度这些都是很常见东西。今天这个模型甚至可以和推理结合在一起,我们一直有一件事情非常想做,教小朋友家长们很痛苦,很多时候AI去教有一些题教不了,画辅助线的东西是教不了的,真的需要生成模型才能做。我真的能够把一道数学题做好,比如说画辅助线这件事情我可能要通过生成推动更好的理解。


Omni:让模型能听能说

接下来是更进一步的,如果今天看图像的问题解的差不多了,甚至自己可以把东西生成出来,有没有让它像人一样听和说呢?因为语音交互也是很重要的事情。今天大家在使用各类的APP的时候,大家发现有语音交互真的是很方便的一件事情。

Omni也是很大的方向,并且我愿意相信一些事情,今天对事件的环境音理解,人讲的话不是单纯的使用ASR就可以解决的。所以我们就做一个Talker的东西,这个模型做了很久,让它既能听又能说,能够保证它的效果是稳定的。Omni是沿着这个方向持续做的,大概的进展稍微有一点降智,但是降智的已经不多。我们这个模型可以达到2.5文本的水平,对于语音基本可以对标2.5 Pro的水平,这里面有挺多好玩的东西,时间关系没有办法和大家分享。

今天TTS可以换各种声音,包括自己定制你自己的声音,只要描述这个声音长的什么样子,就可以让AI以这个形式把东西讲出来。我觉得还有很好玩的事情,基础模型和基础Agent是不是真的可以跟人类的真实世界,也包括虚拟世界进行更好的交互。


下一步:全模态模型与新架构

下一步要做什么样的事情呢?我们做了这么多,当然希望集合在一起,全模态模型是要做的。有一个很重要的,我觉得也是殊途同归的事情,跟Kimi团队做类似的事情。我们同时做各种各样的实验的时候,最后选择了用Linear Context,当然也是以三层Linear配合它的。下一代的模型也会沿着新的架构进行相应的实现,其实我们这里想做的事情是新一代的架构能不能解决我们刚才提到的问题,能够省下很多步骤。也许还会有更多的威力在里面。下一代的模型,其实也会沿着新的架构进行相应的实现。

更进一步我们要做什么东西呢?Omni的模型不仅仅是我能够理解文本、视觉、音频,我们可能还让它生成文本、音频,今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得会是至少我个人喜欢的东西。


训练范式的变化:Multi-turn RL

第二个是今天的范式发生了一个很大的变化,今天不是像以前那样训模型,有标注的数据,有一条输入和输出训练就可以,我们今天要把更多的数据放到实验中去训练。如果大家关注xAI的宣传,RL的数据我虽然觉得他们有点浪费,但是另一方面也意味着RL有很多的想象空间。当然并不是说自己跟自己对话,我其实没有那么关心我们的模型能不能做成为最强的数学大脑,我更关心的是像日常真实的人,为这个社会做贡献。如果它能够做到这一点,我觉得还挺好。

所以Multi-turn RL with environment feedback towards long-horizon reasoning,因为很多时候做很多事情需要很长的时间,你得一步步去做。但是AI可以加速很多,比如说人类花两个月的时间做的东西,AI可以花两天的时间。虽然有很多Token在里面,但是两天确实能够节省我们很多的时间在这里面。


Agent:走向虚拟世界和物理世界

Agent其实可以走向虚拟世界和物理世界,所以有了Embodied Reasoning的这种方式。我们内部讨论了一个方式,就算你是做VLA,做Coding的模型,说白了也是把语言转化成Embodied的模型,从这个角度上来看就非常的振奋人心,于是我们就觉得大干一场,看一看能不能走向Digital Agent,GUI操作,同时能够使用API,这个就是非常完美的Digital Agent。

如果走向物理世界,是不是能够把话筒拿起来,今天能够斟茶倒水,这是我们今天很想做的事情。


非常感谢大家!

 



 

圆桌对话:中国AI的下一步

主持人:李广密
嘉宾:杨强、唐杰、林俊旸、姚顺雨


开场

李广密: 我是接下来Panel的主持人广密。我刚才在台下听有几个感受,第一是唐老师的号召力很强,清华的人才非常好,不仅是国内包括海外,清华人的比例非常高,感觉这一拨好像跟国内学校在AI这一拨拉开差距了。第二是我刚才听几个Talk的感受是不止follow、不止开源,不只是Coding,都在探索自己的产品形态。

2025年是中国开源模型大放异彩的一年,是开源四杰在全球大放异彩的一年,而且是Coding过去一年有10-20倍增长的一年,包括海外也在提Scaling到底走到哪一步了,有没有新范式出来了,接下来这个Panel是到底接下来怎么走,是特别有意思的。接下来邀请几位嘉宾:杨强教授、唐杰老师、俊旸和顺雨。

我们先从第一个比较有意思的话题聊起,硅谷几家明显做分化,可以从分化这个主题先聊起来。Spec其实是对中国模型有一个非常大的启发,硅谷的竞争那么激烈,它没有完全Follow全都做,而是专注到了企业,专注到了Coding,专注到了Agent。我也在想接下来中国的模型会分化成自己想要的哪些方向?我觉得分化这个主题蛮有意思的。顺雨上线了,顺雨开场给大家讲一讲,包括你最近在干什么。

姚顺雨: 大家好,我现在是不是一个巨大的脸在会场?不好意思,今天没法亲自来北京,但是很高兴参加这个活动。最近忙着做模型、做产品、做AI,是一个很正常的状态。回国的感觉还是挺好的,吃得好很多。


话题一:模型分化

李广密: 顺雨,你能展开聊聊你对模型分化这个主题的想法吗?硅谷也都在分化,包括说Spec做了Coding,中国很多模型做了开源,过去Coding提的也很快,包括谷歌也没有全都做,它现在把全模态这个做好,你的老东家重点做To C是横跨中美的体感,可以讲讲你的体感,接下来不管是自己也好,各家也好,分化这个点,你是怎么思考的?

姚顺雨: 我觉得有两个大的感受,一个感受是To C和To B发生了明显的分化,另外一个感受是垂直整合这条路,以及模型和应用分层这条路,也开始出现了分化

我先说第一点,我觉得很明显的是当大家想到AI就是两个,ChatGPT,另外一个Claude Code,是做To C和To B的典范。非常有意思的一点是我们今天用ChatGPT和去年相比的话,感受差别不是太大。但是相反,Coding夸张一点来讲,已经在重塑整个计算机行业做事的方式,人已经不再写代码,而是用英语和电脑去交流

我觉得很核心的一点,对于To C来说,大部分人大部分时候不需要用到这么强的智能,可能今天用ChatGPT和去年相比,写抽象代数和伽罗瓦理论的能力变强了,但是大部分人大部分时候感受不到。大部分人尤其是在中国更多像是搜索引擎的加强版,很多时候也不知道该怎么去用,把它的智能给激发出来。

但对于To B来说,很明显的一点是智能越高,代表生产力越高,值钱的也越来越多,这些东西都是相关的。

对于To B来讲,还有一个很明显的点,大部分时候很多人就愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

我觉得无论是人还是模型,在To B这个市场上发现了一个很有意思的现象,强的模型和稍微差点或者弱的模型它的分化会越来越明显。我觉得这是第一点观察。

第二点观察,垂直整合这条路和模型应用分层这条路的区别。我觉得一个比较好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus这样的应用层产品,过去大家会认为当你有垂直整合能力肯定会做的更好,但起码今天来看并不一定。首先模型层和应用层需要的能力还是挺不一样的,尤其是对于To B或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做,但是想要把这么一个特别好的模型用好,或者这样的模型有它的溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们会发现其实在To C的应用上垂直整合还是成立的,无论是ChatGPT还是豆包,模型和产品是非常强耦合去紧密迭代的。但是对于To B来说这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西应用好的模型在不同的生产力环节。

这是我的两个观察。

李广密: 因为顺雨有一个新的身份,在中国的市场下顺雨接下来想的是什么,有哪些鲜明的特点或者关键词吗?现在能给大家分享吗?

姚顺雨: 我觉得腾讯肯定还是To C基因更强的公司,我觉得我们会思考怎么样能够让今天的大模型或者说AI的发展能够给用户提供更多价值。很核心的思考是我们发现很多时候我们的环境来讲,或者更强的模型,很多时候需要的是额外的Context

我最近经常举一个例子,比如我想问我今天该去吃什么?其实你今天问ChatGPT和你去年问或者明天问都会差很多。这个事情想要变好,不是说你需要更大的模型、更强的预训练、更强的强化学习、更强的Agent环境或者更强的搜索引擎,这个问题可能需要更多额外的输入,或者我们叫Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情。其实回答这样的问题,更多的是额外的输入。比如我和老婆聊了很多天,我们可以把聊天记录转发给元宝,或者把额外的输入用好,反而会给用户带来很多额外的价值。这是我们对To C上的思考。

在To B在中国确实是很难的事情,生产力的革命,包括我们今天很多中国的公司做Coding Agent需要打很多海外市场。我们会思考怎么把自己先服务好,像创业公司做Coding这个事情和大公司做Coding这个事情,一个区别是作为大公司本身就已经有各种各样的应用场景、各种各样需要生产力变得更好的地方。如果我们的模型能够在这个地方做得更好,不仅这个模型会有自己独特的优势,不仅我们公司本身能得到很好的发展,很重要的一点是对于真实世界场景的数据捕捉会是一个很有意思的事情。比如说Claude这些创业公司,他们想要去做更多的Coding Agent的数据,需要找数据厂商去标注这个数据,他们需要利用各种各样的软件工程师去想我要去标什么样的数据。这个事情是数据公司一共就这么几家,一共招了这么多人,最终你会受限。但如果你是一个10万人的公司,可能会有一些有意思的尝试,怎么把真实世界的数据利用好,而不是仅仅依赖于标注商或者协议。

李广密: 多谢顺雨。接下来Cue一下俊旸,你怎么看接下来千问未来的生态位或者分化的考虑?之前你讲了多模态,阿里云在To B很强,接下来你也提了全模态可能更多的是To C的,这方面是怎么思考的?

林俊旸: 理论上我是不能评论公司的,但我觉得公司也不一定有那么多基因之分,一代一代的人可能就塑造了这些公司,比如说今天顺雨到腾讯之后,可能腾讯变成一个有着顺雨基因的公司。

接下来这一句,我也想注入我们自己对AGI的理解。我觉得今天To B也好,To C也好,我们在服务真实的问题,我们想的问题是怎么把人类世界变得更好。你就算做To C的产品也会分化,今天OpenAI更像一个平台了,但是To C最终要服务真实的这批用户究竟是谁。今天可能有很多AI会更偏向medical和law,今天我觉得Coding真的很厉害,我就拜访它,因为我知道他们跟客户交流非常多,这个是我们还不够好的一个点。虽然我们拥有巨大的优势,也可能中国SaaS市场跟美国确实不太一样,他们确实非常频繁地跟客户进行交流,很容易发现很大的机会。今天我跟美国的很多API厂商聊起来,他们没有想到Coding消耗量那么大,在中国真的没有那么大,至少从我这边来看,但是在美国,基本上全都是Coding,我觉得这个事情不是所有人都能Get到的。

今天做的一些相关的东西,我觉得也是他们自己在跟客户看到这个机会。我觉得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI该做的事情,顺其自然,这是我们该做的事情。

李广密: 多谢俊旸。有请杨强老师谈谈分化的问题。

杨强: 分化的问题其实我更想聊一下工业界和学术界的分化,这个可能是横跨美国和中国的。一直以来,学术界是一个观望者,工业界在领头往前疯跑,搞得很多学术界的人也在做工业界的事情,像唐杰老师。这是一个好事,就好像天体物理学刚刚开始的时候是以观测为主,伽利略的望远镜,然后才出现牛顿。所以我觉得后面一个阶段,当我们有了众多的稳定大模型,进入一个稳态的时候,我们学术界应该跟上来。

学术界跟上来要解决什么问题呢?工业界可能还没来得及解决的一些问题,这也是我一直在考虑的问题,就是说智能上界在哪里,比如说给你一定的资源,计算资源或者能源资源,你能做到多好?可以更细一点,比方说我们把这个资源怎么分配,哪些分配在训练上、哪些分配在推理上?其实我很早就在做AI,90年代初就做过一个小实验,如果我们有一定的投入在记忆上,那么这个记忆能够帮助推理多少,这个帮助会不会变成一个反向的,就是说你记的太多了,反而记的噪音会干扰你的推理,有没有一个平衡点,我觉得这些问题今天还是适用的。

我最近也在想另外一个问题,大家学计算机的都必定上计算机理论课,里面有一个重要的定理叫哥德尔不完备定理,大概意思是说一个大模型不能自证清白,必定有一些幻觉不可能消灭掉,可能你给更多的资源,它会消灭得更多。所以科学问题就来了,你多少资源能够换取多少幻觉的降低或者错误率的降低,这是有一个平衡点的,这个平衡点特别像经济学,经济学的风险和收益的一种平衡,所以我们叫这叫无免费午餐定理。像这些东西,我觉得今天就特别适合数学界、算法界和学术界和工业界一起做研究,这孕育着一个巨大的突破。

刚才唐杰老师也提到持续学习,我觉得持续学习是一个特别好的问题,它里面有个时间的概念,你在持续地不断地学的过程当中,但是你会发现,比方说你把不同的Agent给串联起来,每一个Agent都不能做到百分之百的话,你在N个以后它的能力是按指数下降的,你怎么样能够保证它不下降。人类是用一个方法做这个事,第一天是学习,第二天会在第一天噪音的基础上学习,这样你的能力就类似大模型会下降。但是人类有一个方法就是睡觉、睡眠,我建议大家看一本书叫《我们为什么睡觉》,是MIT的两个教授写的,非常好玩,它说每天晚上睡觉是在清理噪音,使得第二天你可以把准确率持续地提升,不至于是两个错误率的叠加。像这些理论的研究孕育着一种新的计算模式。我们今天可能比较关注Transformer,但是我觉得有必要做一些新的探索,这是工业界和学术界要拉齐。

李广密: 唐老师,我们从Web的感受上,智谱走了Coding非常强,榜单上非常靠前,包括长程的Agent,您对分化这个主题怎么看?

唐杰: 我倒觉得回到了最本质的问题,早期的时候还是基座模型。2023年那个时候我们第一个做出Chat的,当时第一个想法是赶紧把Chat扔在网上上线,当时国家有规定,八九月份一起上。当时我的第一感受是十来个大模型都上来了,而且每一家用户都没有那么多,当然今天分化得非常严重。

后来我经过一年的思考,我觉得其实这个已经不是真的解决问题,我的第一个预判是说它会替代搜索,我相信今天很多人在用这个模型替代搜索,到今天我相信大家很多人在开始用这个模型替代搜索,但是并没有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改进。从这个角度上,我觉得这一仗从DeepSeek出来之后,已经没有了,已经结束了。DeepSeek之后我们应该想的是下一仗是什么东西?我们团队争论了很久,下一仗肯定要让AI做一件事情,做这件事情是什么可以讨论一下。那个时候广密还到我们那跟我们交流,广密的知识特别渊博,他思考问题很深邃,和他的交流对我的启发非常大,原来我没有想到,那一次让我启发非常大。后来我们团队争论了很多晚上,争论到最后,可以叫我们的运气,另一方面我们也是把所有的精力放在了Coding上。

李广密: 我觉得大家有了自己的best,不仅大家在追求通用能力,大家都有自己的资源禀赋把自己擅长的点做。


话题二:下一个范式

李广密: 接下来第二个比较有意思的问题,今天这个时间点特别特殊,一个是预训练过去走了3年,大家都说可能今天走到了七八成的收益,强化学习也都成为共识,做到了四五十的空间,后面的数据、环境空间很大,接下来一个新的范式,唐老师也谈到了自主学习、自我学习,因为今天这个会的主题是接下来的展望Next,我觉得这是一个特别值得去聊的话题。

我们先从顺雨开始,你从领先的OpenAI待过,对于下一个范式是怎么思考的?因为OpenAI是为人类推进了前两个范式的一家公司,对第三个范式,从你的观察来讲,能给大家带来一些分享吗?

姚顺雨: 现在自主学习是一个非常热门的词,在硅谷大街小巷咖啡馆里面,大家都在谈论,形成了一个共识。根据我的观察,每个人对这个东西的定义和看法都不一样,我讲两点:

第一,这个事情不是方法论,而是数据或者任务。 当我们在谈论自主学习的时候,它到底在什么样的场景下基于什么样的奖励函数去做,你在聊天的时候变得越来越个性化是一种自主学习,在写代码的时候越来越熟悉每个公司独特的环境或者文档是一种自主学习,你去探索新的科学,在这个过程中像一个博士一样,从原来不了解有机化学是什么,到成为这个领域的专家,这也是一种自主学习。每一种自主学习的挑战或者说方法论都不太一样。

第二,我不知道这是不是非共识的,这个事情其实已经在发生了。 很明显的,ChatGPT在利用用户的数据不断弥合人聊天的风格是什么,使得能感觉到它的好,这是不是一种自我学习?

今天Claude已经写了Claude这个项目95%的代码,它在帮助它自己变得更好,这是不是一种自我学习?我们当时2022年、2023年的时候,我去硅谷宣传这个工作,我当时写了第一页是说ASI最重要的点是自主学习。今天的AI系统本质上都有两部分,首先它是一个模型,其次它有个代码库,你怎么去用这个模型,是用来做推理,还是做Agent,有相应的代码库。我们今天看Claude这个系统本质上有两部分,一部分是部署环境的一大堆相应的代码,另一部分是怎么样去使用它,有一大堆相应的代码,无论是GPU的,或者说它的前端还是环境是什么样的。我们做Switch方面大家意识不到,这些自主学习的例子可能还局限在每一个特定的场景下,没有让人感觉到非常大的威力。

这个事情已经在发生了,可能效率或者受限制的限制,有各种各样的问题。可能这个事情我个人的看法它更像是一个渐变,不是突变,这是我的看法。

李广密: 我再Follow顺雨一个问题,有一些人对自主学习比较乐观,2026年可以看到一些信号,你觉得自主学习看到信号,还有哪些实际的问题要突破?比如说Long Context也好,模型并行采样也好,你感觉接下来还有哪些关键条件具备了,这些信号才会发生?

姚顺雨: 很多人说2026年看到信号,我觉得2025年就看到信号了。Cursor他们做的每几个小时都会用最新的用户数据去进行学习,包括新的模型,也在使用这些真实环境下的数据去训练。大家觉得这个东西可能还没有特别石破天惊,是因为受限于他们没有预训练能力,他们模型效果确实还不如OpenAI,但显然这是一个信号。

最大的问题是想象力,我们很容易想象强化学习或者推理这个范式,如果实现大概是什么样,我们可以想象O1,在数学题上本来是10分,现在变成了80分,通过这个强化学习有非常强的思维链做这个事情。如果2026年或者2027年我们有一个范式的发生,我宣布了一个新的模型或者新的系统实现了自我学习,我们应该用什么样的任务,它应该是什么样的效果,你会相信它实现了?它是一个赚钱的交易系统,它可以赚很多钱,它真的解决了人类之前没法解决的科学问题还是别的。我觉得可能需要先想象到它长什么样。

李广密: 顺雨,OpenAI已经立了两次范式革新,如果2027年有新的范式出来,全球范围内的哪家公司继续立的范式创新的概率最大?如果说一家公司。

姚顺雨: 可能OpenAI的概率还是更大,因为它商业化等各种各样的变化,它创新的基因已经被削弱了,但我觉得它还是最有可能诞生新范式的地方。

李广密: 多谢顺雨。俊旸对2026年新的范式还有什么要聚焦的?

林俊旸: 如果从更实际一点来讲的话,刚才讲的这个范式在比较早期阶段,RL这个事情,实际上我们还没有做得那么充分,很多潜力没有打出来。今天我们也看到很多问题在这里面发生,我觉得全球范围内类似的问题还存在。

如果要说下一代范式的话,一个自主学习,之前跟一个朋友聊到说人类不能让AI变得更厉害,比如说你跟AI不断地交互,只会让它上下文变得越来越长,AI变得越来越笨,这是很烦人的事情。

这件事情是不是真的能够发生?这还是挺值得思考的,你能吐更多Token让你变得更强,至少O系列一定程度上实现。有没有可能,就像我真的干30个小时真的能够干出很难的任务,今天大家做超长的事情很难,有没有可能通过Coding去实现。

从这个角度来说,AI肯定需要自主进化,但究竟你是不是要更新参数,我觉得见仁见智,大家都有不同的技术手段去实现这个事情。

第二点是AI有没有可能实现更强的主动性,环境是我的输入信号,我现在的AI必须得有人类帮助它才能启动,但是有没有可能自己能自主思考,去做一些事情。这引发了一个新的问题,就是安全的问题,我非常担心安全的问题,不是担心它今天讲一些不该说的话,最担心的是它做一些不该做的事情。比如说今天主动产生一些想法,往会场里面扔一颗炸弹,我们肯定不希望不安全的事情发生。就像培养小孩一样,我们要给它注入一些正确的方向,但主动学习是一个挺重要的范式。

李广密: 俊旸提了主动性,自主学习看到信号,你感觉可能是在哪些任务上做什么样的任务会先看到?是训练模型,最强的模型可以提升自己,还是自动化的AI研究员?你有期待在哪些地方先看到吗?

林俊旸: 我觉得自动化的AI研究员甚至都不是那么需要自主学习,可能很快训AI这件事情就可以实现,我看我们同学每天干这个事情,我觉得很快就被替代掉。我觉得可能更持续的理解用户这件事情还挺重要的,比如说过往我们在做推荐系统的时候,用户这个信息是持续输入,让这个系统变得更强,它的算法变得更简单。在AI这个时代它是不是能更懂你,这些信息的输入能不能真正成为帮助我们的工具。

我觉得如果说自主学习的话,可能会是跟人的交互上就能做到。但是以什么指标进行衡量?不太好说,在推荐的时代下,你做得越好,别人可能点的越多、买的越多,但是在AI时代覆盖到人类生活的方方面面的时候,真正的衡量指标是什么,我们不太知道。我感觉今天更大的从技术上的挑战,我们今天不知道该怎么做,这可能是我们更值得研究的问题。

李广密: 俊旸说到了主动,包括个性化,你感觉如果实现记忆这个点,2026年能看到技术突破性的跨越吗?

林俊旸: 我个人观点是大量的技术所谓的突破性都是一些观测问题,都是在线性发展的,只是人类对它的感受非常强烈而已。包括像ChatGPT的出现,对于我们做大模型的人来讲都是线性的增长。现在大家都在做Memory这个事情,这个技术对还是不对呢?很多方案也没有对错之分,但做出来的效果,至少拿我们自己献丑,我们自己的Memory看起来知道我过去干了什么,但是只是记起来过去事情,每次叫一遍我的名字,其实并不显得你很聪明。你的Memory有没有可能到某一个临界点的时候,结合你的Memory,就像生活当中的人一样,过去大家讲电影,它真的很像人,理解你的Memory就是在那一下,人类的感受突然间迸发。

我觉得多多少少也需要一年时间,很多时候技术也没有发展那么快。大家比较卷,每天有新的东西,但是技术在线性的发展,我们在观测的角度处于指数上升的阶段,比如说Coding能力的一点点提升,可能就能带来很多生产价值,大家就觉得AI发展得很快,从技术的进展上来说,我们多干一点点事情。每天看我们自己做的事情觉得真的挺土的,那些Bug真的不好意思拿出来跟大家讲。如果这样做,我们已经做到这样的成绩,我觉得可能未来算法Infra结合得更好,可能更大有可为。

李广密: 有请杨强老师。

杨强: 我一直以来是做联邦学习的,联邦学习的主要思想是多个中心大家协作。我现在越来越多地看到很多有本地资源不足,但是本地的数据又有很多隐私和安全的要求,所以这样我们就可以想象现在大模型的能力越来越强,这种通用型大模型和本地特殊性的小模型或者领域专家的模型如何协作,我觉得这种协作变得越来越可能。像美国ZOOM,就是黄学东他们做的AI系统,他做了一个很大的基座,这个基座大家都可以插进来,它可以在Decentralise的状态下,能够既保护隐私,又能够和通用大模型有效的沟通、协作。

我觉得这种开源模式特别好,一个是知识的开源,一个是Code方面的开源,模型层面。

我觉得尤其是像医疗、金融这样的场景下,会越来越多看到这样的现象发生。

李广密: 有请唐老师。

唐杰: 我对今年会有非常大的范式革新有信心,我不说太细,就像我刚才讲的持续学习,还有Memory,甚至多模态,我觉得都有可能出现新的范式变革。

但我觉得一个新的趋势,我说说为什么会产生这么一个范式?我觉得原来其实工业界跑得远远快于学术界,我记得去年和前年回到清华跟很多老师聊天的时候能不能做大模型,很多老师第一是没卡,也不是没卡,是卡的数量几乎为零,工业界有1万片,学校是0片或者1片,倍数是1万次。但是到现在的时候,很多学校已经有很多卡了,而且很多老师已经开始做了很多大模型的相关研究,包括硅谷那边有很多老师都开始做模型架构、持续学习相关的研究。原来我们总觉得工业界在dominating这些,其实我觉得今天在2025年底到2026年初的时候,这一现象不大存在了,可能还有10倍的差,但它已经孵化出种子了,我觉得在学术界有这个创新的基因,有这个可能性,这是第一个。

第二,我觉得一个创新的出现一定是某个事情有大量的投入,并且它的效率变成瓶颈了。现在在整个大模型里面投入已经巨大,但是效率并不高,也就是我们继续Scaling,肯定是有收益的,原来data从2025年初,当时可能10个TB的数据,现在30个T,甚至我们可以Scaling到100个T,但是100个T,你Scaling上去以后,你的收益有多少,计算Cost有多少,变成了这么一个问题。你不创新,这就变成了可能花掉10个亿、花掉了20个亿,但是你的收益很小,就不值得了。

另外一方面对于新的智能创新,假如说我们每一次都要重训一个基座,再重训很多RL,像2024年出RL的时候,很多人会觉得我接着训,收益是有的,但是到今天的时候再接着疯狂的RL,收益也有,但没有那么大,还是收益效率的问题。可能我们未来也许可以定义,一方面既然要Scaling up,最笨的办法就是Scaling,Scaling我们会有收益,Scaling肯定会带来智能上界的提升。第二个办法是应该定义Intelligence Efficiency,就是说智能的效率,我们获得智能的效率,我们用多少投入能获得这个智能的增量。如果我们能用更少的获得它的增量,而且现在我们已经变成了一个瓶颈,假如能用更少的范式获得同样智能的提升,它就变成一个瓶颈式的事情。

所以我觉得2026年一定会有这样一个范式的发生,我们也在努力,我们希望发生在我们身上,但也不一定。

李广密: 我跟唐老师一样也非常乐观,每个领先的模型公司,每年的计算量有10倍左右,大家手上的计算资源多了,而且人才也涌入得越来越多,大家手上的卡变多,做的实验多了,有可能就是某个实验工程,某个点就出来了。


话题三:Agent战略

李广密: 刚才唐老师也聊到怎么衡量智能水平的点,第三个是聊聊Agent战略。最近我跟很多研究员聊,对2026年还有一个很大的预期,Agent今天可以在后台推理3-5个小时,做人类1-2天的工作量,大家期待2026年可以做人类正常工作1-2周的工作量,这也是一个非常大的变化,它不再只是一个Chat,而是说真的在自动化一整天甚至一周的任务流,2026年Agent可能是创造经济价值的关键一年。Agent这个问题,可以让大家展开聊一聊,顺雨刚才提的垂直整合,既有模型,又有Agent产品,包括我们看到硅谷的几个公司,从模型到Agent端到端都做了。顺雨花了很多时间做Agent的研究,你对2026年Agent,比如说Long Agent真的能干人类1-2周的工作,对Agent战略,包括从模型公司的出发点,会怎么思考这个问题?

姚顺雨: 我觉得还是像刚刚说的To B和To C不太一样,目前看起来,我觉得To B的情况现在已经达到了在不断上升的曲线,目前看起来好像没有变慢的趋势。

很有意思的一点是它基本上不做什么创新,就是觉得模型预训练变大了,老老实实的把这些东西做好,只要预训练不断地变大,后训练不断地把这些真实世界的任务给做好,会越来越聪明,它就会带来越来越大的价值。

从某种程度来说,做To B,所有的目标这件事更一致,模型的智能越高,解决的任务越多,解决的任务越多,在To B下带来的收益越大

做To C的问题是说,我们都知道DAU或者说产品的指标和模型的智能,很多时候是不相关的,甚至是相反的关系,我觉得这是能够聚焦的另一个很重要的原因,它只要真的把模型越做越好,它的收益越来越高,所有的事情都是非常好的。

目前看起来,To B或者说生产力的Agent刚刚开始,现在除了模型之外,有两个Next,环境问题或者Deployment问题。在OpenAI之前,我在一个公司实习过,这是一个To B的公司,我觉得在To B公司工作过有很多收获,最大的收获是即使今天的模型不再变好,所有的模型训练全部停止了,但是我们把这些模型部署到世界上各种各样的公司,已经能带来今天10倍或者100倍的收益,能对GDP产生5%-10%的影响,但是今天它对GDP的影响还不到1%。

另外我觉得教育非常重要,我观察现在人和人的差距非常大,更多时候不是说AI替代了人类工作,而是会使用这些工具的人在替代那些不会使用工具的人,就像当年电脑出来,如果转身学习编程跟你还在持续用计算尺,差距是巨大的。今天中国能做到的最大的有意义的事情是更好的教育,教育大家怎么更好的使用像Claude或者ChatGPT这样的产品,当然Claude可能在中国用不了,但我们可以用Kimi或者智谱这样的国产模型。

李广密: 多谢顺雨。有请俊旸分享对Agent的想法,包括千问也有一个生态,千问自己做Agent,以及扶持生态的通用Agent,你也可以展开讲一讲。

林俊旸: 这里可能涉及到产品哲学的问题,当然Manus确实很成功,套壳是不是未来,这本身也是个话题。今天到这个环节,我比较同意你的观点,叫模型即产品。我跟DeepMind的聊,他们叫Research,其实我挺喜欢这个事情的,包括我的视角看OpenAI,我觉得还有挺多这种事情,就是挺多Research,自己可以成为产品经理,把这个东西给做起来。包括今天我们自己内部的Research都可以做面向真实世界的东西。我愿意相信接下来的Agent是可以做到刚才所说的这个事情,而且跟刚才所提的主动学习都有比较强烈的关系,它能干这么长的时间,自己就得在这个过程当中进化,并且它还要决定去干什么,因为它收到的这个指令是非常通用的任务。我们现在Agent已经变成托管式的Agent,而不是我要不断给你来来回回交互的那种形式。

从这个角度来说,它对模型的要求是很高的,模型就是这个Agent本身,Agent就是这个产品本身,如果它们都是一体化的话,今天做基础模型本身,其实也就是在做产品。从这个角度来说,如果不断提升模型能力的上限,包括Scaling能做上去,确实能够做到这个事情。

我觉得还有一个点是跟环境交互有关系,我们现在交互的环境还不是很复杂,这些都还是电脑的环境。我有朋友是做AI for Science比较相关的,比如说今天你干AlphaFold这个事情,其实你最后干出来,它还没有到那一步,比如距离制药这件事情,就算用今天的AI,不一定能帮到你那么多,因为你要去做实验,你要去做这些事情才能得到反馈。有没有可能我们未来AI环境复杂到真实的人类世界的环境,指挥机器人去做实验,去加快效率?现在人类的效率非常低,我们还要雇佣很多外包在实验环境里面去做实验。如果能达到这个点,可能才是我想象当中Agent能做很长时间的活,而不是在电脑当中写个文件等。 这些东西今年很快就可以完成,接下来3-5年的时间,这个事情会更加有意思一些。这个可能又要跟具身智能结合在一起。

李广密: 我想Follow俊旸一个尖锐一点的问题,从你的角度看来,通用的Agent,这个机会是创业者的吗?还是说模型公司是时间问题,总会把通用Agent做好?

林俊旸: 不能因为我做基础模型,我就去做创业导师,我不做这个事情。我只能借成功人士的那句话,做通用Agent最有意思的事情就是长尾反而是更值得关注的事情,或者说今天AI更大的魅力是在长尾。如果是马太效应,头部的东西挺容易解决的,当年做推荐的时候我们看到那个推荐非常集中,商品都是在头部,但我们想把尾部的东西推过去,但是我当时做得非常艰难。我作为一个干多模态的人碰到推荐系统,我去干解马太效应,基本上是奔着死路去的。今天所谓的AGI就在解这个问题,你做通用Agent,能不能把长尾的问题给解决?今天我一个用户,真的寻遍各处都找不到能够帮我解这个问题的,但是在那一刻,我感受到了AI的能力,全世界任何一个角落,寻遍各处都找不到,但是你却能帮我解决,这就是AI最大的魅力

要不要做通用Agent呢?我觉得见仁见智,如果你是一套壳高手,套得可以比模型公司做得更好,我觉得可以去做;但如果你没有这个信心,这个事情可能是留给模型公司做模型即产品的,因为他们遇到问题的时候,我只要训一训模型,只要烧一烧卡,这个问题可能就解决了,所以见仁见智。

李广密: 其实解决长尾的问题,模型公司算力+数据,好像解决起来也挺快的。

林俊旸: 今天RL最有意思的地方,我们发现修问题比以前容易,以前修问题很难。我举个B端客户的情况,他们说我们自己要做SFT,你能不能告诉我这个通用数据怎么配比,每次我们都很头痛,我们觉得对方不太会做SFT,他那个数据非常垃圾,但他们可能觉得非常有用。但现在有RL以后,今天很小的一个数据点,甚至都不需要标注,只要有Query,这个东西稍微训一训,合并起来也非常容易,这可能是今天技术的魅力。

李广密: 多谢俊旸,有请杨强老师。

杨强: 我觉得Agent出现,应该有四个阶段。一个是目标的定义,是人为定义的,还是自动定义的,这是目标。第二是说规划,就是中间的Action,规划可以由人定义,也可以AI自动定义,这样自然就分为四个阶段了。我觉得我们现在在一个非常初级的阶段,目标也是人定义的,规划也是由人来做的,所以现在的这些Agent的软件系统,基本上是更高级的阶段。但是我预料未来会出现一个大模型观察人的工作,尤其是把data给使用起来。最后目标也可以是大模型来定义,规划也可以由大模型定义,所以Agent应该是由大模型内生的一个Native的系统

李广密: 有请唐杰老师。

唐杰: 我觉得有几个方面决定了Agent未来的走势:

第一,Agent本身有没有解决人类的事情,而这个事情是不是有价值,价值有多大? 比如说原来的Agent,像GPT出来也做了很多Agent,那时候你会发现那个Agent非常简单,最后发现Prompt就解决了,这时候大部分Agent慢慢就死掉了。第一个是解决Agent这个事情多有价值,以及真的能够帮到人。

第二,做这个事情咱们Cost有多大,如果Cost特别大,这个时候也是一个问题,就像刚才俊旸说的,也许调用一个API就能把这个问题解决了,但是反过来,假如调API就能解决,这个API本身有可能觉得当这件事情价值很大的时候,就会把它做进去,这是个矛盾,非常矛盾,基座和应用永远是矛盾。

最后,做应用的速度。 如果说我有个时间窗,能够拉开半年的时间窗,迅速把这个应用满足了,半年以后,要么迭代,要么怎么接,怎么能往前走也是一个方面。

大模型到现在更多的是在拼速度、拼时间,也许我们代码正确了,也许我们就会在这方面走得更远一点,但也许失败以后就半年,半年就没了。今年我们只是在Coding、在Agent这一块做了一点点,现在我们Coding的调用量都还不错,我觉得更多的也是一个方向,做Agent未来也是一个方向。

李广密: 多谢,因为过去模型公司既要追通用能力,可能它的优先级上没有花那么多精力去探索,通用能力追上来之后,我们更多的期待2026年智谱、千问有更多自己的Claude时刻和Memory时刻,我觉得这是非常值得去预期的。


话题四:中国AI的未来

李广密: 第四个问题,也是最后一个,比较有意思。这个活动这个时间点需要展望未来,我挺想问大家一个问题,在三年和五年以后,全球最领先的AI公司是中国团队的概率有多大? 我们从今天的跟随者变成未来的引领者,这个过程包括关键条件到底还有哪些需要去做好的?就是未来3-5年,我就想这个概率有多大,以及需要哪些关键条件?

顺雨经历过硅谷跟中国两个体感的,你对概率的判断和需要哪些关键条件的判断是怎么样的?

姚顺雨: 我觉得概率还挺高的,我还是挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点,一个可能是中国的光刻机到底能不能突破,如果最终算力变成了Bottleneck,我们能不能解决算力问题。目前看起来,我们有很好的电力优势,有很好的基础设施的优势。主要的瓶颈,一个是产能,包括光刻机,以及软件生态。如果这个问题解决,我觉得会是很大的帮助。

另一个问题,除了To C之外,能不能有更成熟或者更好的To B的市场,或者有没有机会在国际的商业环境竞争。今天我们看到很多做生产力或者做To B的模型或者应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化的事情,这两个是比较大的客观上的因素。

更重要的是主观上的因素,最近我在跟很多人聊天,我们的感受是在中国有非常多非常强的人才,任何一个事情只要被证明能做出来,很多人都会非常积极地尝试,并且想做得更好。

我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。如果增加一点,主观上有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者新的范式突破的事情。目前来看,一个范式一旦发生,我们可以用很少的卡、很高的效率去局部做得更好,我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

李广密: 我再Follow顺雨一个问题,你对中国Lab里面的研究文化有什么要呼吁的吗?你也感受过OpenAI也好,包括湾区DeepMind研究文化,中国的研究文化跟美国的研究文化有什么差异的地方?这个研究文化对作为一个AI Native的公司,有哪些根本性的影响?你有呼吁和建议吗?

姚顺雨: 我觉得每个地方的研究文化都很不一样,美国实验室的区别可能比中美实验室的差别还要大,在中国也一样。

我个人觉得有两点,一点是说在中国大家还是更喜欢做更安全的事情,比如说今天预训练这个事情已经被证明可以做出来了,其实这个事情也非常难做,有很多技术问题要解决,但只要这件事情一旦被证明能做出来,我们都很有信心几个月或者一段时间内就把这个问题搞清楚。但如果今天让一个人说探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。可能不只是大家更喜欢做确定性的事情、不太愿意做创新性的事情,很重要的一点是文化的积累或者整体的认知,其实是需要时间沉淀的事情。OpenAI在2022年就开始做这个事情了,国内2023年开始做,对这个东西的理解会有一些差异,或者说这个差距没有那么大,我觉得可能很多也就是时间问题。当你积累了文化或者底蕴更深的时候,潜移默化的程度可能会影响人的做事方式,但是它很微妙,很难通过榜单去体现。

中国对于刷榜或者数字看得更重一些,包括DeepSeek做得比较好的一点,他们可能没有那么关注榜单的数字,可能会更注重,第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。我觉得这还是挺有意思的,因为你看Claude模型可能在编程或者软件工程的榜单上也不是最高的,但大家都知道这个东西是最好用的。我觉得这还是需要大家能够走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。

李广密: 多谢顺雨。请俊旸说说概率和挑战。

林俊旸: 这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说美国的Compute可能整体比我们大1-2个数量级,但我看到不管是OpenAI还是什么,他们大量的Compute投入到的是下一代的Research当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的Compute,这会是一个比较大的差异在这里。这可能是历史以来就有的问题,创新是发生在有钱的人手里,还是穷人手里,穷人不是没有机会,我们觉得这些富哥真的很浪费卡,他们训了这么多东西,可能训了很多也没什么用。但今天穷的话,比如今天所谓的算法Infra联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

我觉得可能更进一步的,刚才顺雨提到光刻机的问题,未来有可能还有一个点,如果从软硬结合的角度,是不是真的有可能做出来?比如说我们下一代这个模型和芯片,有可能是一起把它给做出来的。我在2021年的时候在做大模型,因为阿里做芯片,在找我说能不能预测一下三年之后这个模型是不是Transformer,三年之后这个模型是不是多模态,为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至天棚漏水的情况下,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

李广密: 如果派一个数字呢?

林俊旸: 您是说百分之多少?

李广密: 对,三年到五年后,中国最领先的那个公司,是一家中国公司的概率。

林俊旸: 我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

李广密: 我再Follow一个问题,比如说中国的模型跟美国的模型差距,有的地方在追上来,有的地方他们的算力在拉大,你内心中Gap变大的恐惧感强吗?

林俊旸: 今天你干这一行就不能恐惧,必须得有非常强的心态,对于我们的心态来说,能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。

我觉得还是看你的初心是什么,刚才顺雨提到一个点,你的模型不一定那么强在C端里边是OK的。我可能转换成另外一个角度去思考这个问题,我们的模型为人类社会带来了什么样的价值,只要我相信我这个东西能够为人类社会带来充分的价值,能够帮助人类,就算不是最强的,我也愿意接受。

李广密: 多谢俊旸。有请杨老师,因为您经历过很多AI的周期,也看过很多中国的AI公司变成世界最强,您对这个问题的判断。

杨强: 我们可以回顾一下互联网的发展,一开始也是从美国开始,但中国很快就赶上了,而且应用像微信,是世界第一的。我想AI是一个技术,它并不是一个终端的产品,但我们中国有很多聪明才智会把这个产品发挥到极致,不管是To B还是To C,但我可能更看好To C,因为百花齐放,中国人集思广益。但To B可能会有一些限制,像付费意愿、企业文化等也在改变。

我最近也在观察商业方向跟商学院的一些同学探讨,比方说美国有一个公司叫Palantir,它的一个理念是不管AI现在发展到什么阶段,我总是能在AI里面发现一些好的东西应用在企业上,中间肯定有gap,我们要给它弥合,它有一个办法叫本体,用的是本体的方法。我观察了一下,大概的思想是我们之前做的迁移学习,就是说把一个通用的Solution能够应用到一个具体的实践当中,用一个本体来做知识的迁移,这个方法非常巧妙。当然它是通过一种工程的方法,叫前端工程师FDE来解决的。不管怎么样,我觉得像这种就非常值得我们学习,我觉得中国的企业像AI Native的公司应该发展出这样一些To B的Solution来,我相信会的。所以我觉得To C肯定是百花齐放的,To B也会很快的跟上来

李广密: 多谢杨老师。有请唐老师。

唐杰: 首先我觉得确实要承认在中美,无论是做研究,尤其是企业界的AI Lab,我觉得和美国是有差距的,这是第一个。

但我觉得在未来中国,现在慢慢变得越来越好,尤其是90后、00后这一代,远远好过之前。有一次我在一个会上说我们这一代最不幸运,上一代也在继续工作,我们也在工作,所以我们还没有出头之日,很不幸的是下一代已经出来了,世界已经交给下一代了,已经把我们这一代无缝跳过了。这是开玩笑的。

中国也许的机会:

第一,一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

第二,咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境,像刚才俊旸说的,我还在做交付,我觉得如果把这个环境建设得更好,让一群敢于冒险的聪明人有更多的时间去做这样创新的事情,比如说让俊旸有更多的时间做创新的事情,这是第二个,也许是我们政府,包括我们国家可以帮忙改善的事情。

第三,回到我们每个人自己身上,就是我们能不能坚持。 我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。我觉得环境肯定不会是最好的,永远不会想着环境是最好的,我们恰恰是幸运,我们经历环境从原来没那么好,到慢慢变得更好的一个时代,我们是经历者,也许就是财富,包括经历收获最多的人。如果我们笨笨的坚持,也许走到最后的就是我们。

感谢大家!


结语

李广密: 感谢唐老师。我们也很想呼吁,应该把更多的资源资金投入到中国的AGI行业,有更多的算力,让更多AI年轻的研究员搓卡,有可能搓个三五年,中国有三五个自己的伊利亚,这是我们未来三五年很期待的。

非常感谢大家!

 



 

AGI-Next 展望

演讲人:张钹(中国科学院院士、清华大学教授)


唐杰老师要我说几句话,我犹豫该不该说、能不能说,听了这个报告之后,我一直在思索,觉得还可以说几句话。

实际上我没有资格说这些话,首先我跟大家的年龄已经差得非常多了,刚才唐杰老师还说下一代如何替代他,我早已经被替代了。

另外,对企业来讲我是外行,但是我想起刚才杨强老师提到的哥德尔的那句话,不完全性定理。也就是说,系统内部、圈子内部的人很难发现它里头的问题和错误。我作为圈外的人,因此给我提供了条件,有可能发现你们还发现不到的问题。

我在中间休息的时候做了PPT,我不敢太早做,没听到大家是怎么做的,不敢先做。


一、我们现在正在干什么

从刚才各位介绍中,大家都在做大语言模型,实际上最初的就是做一个聊天机器人,也就是说希望机器跟人类能够说话。这个做的结果怎么样?做的结果是这样:在外部提示下,机器能够在开放领域生成多样性的、语义上连贯的、类似人类的语言。

做到这一点,这一点算不算掌握了人类的语言呢?应该说算,但是还不够彻底,也就是说我们发现它里头有很多地方跟人类语言不一样,这个怎么办?什么原因引起的?大家又问,我们今后究竟通过这个能做到什么程度?最后能不能像人类那样理解自己的工作,而且对自己的问题能够进行反思、能够有意识,哲学来讲叫做有没有自反性

我们现在从这个出发,究竟现在大语言模型用的什么原理?实际上用了分布式语义的原理,也就是把语义翻译成Firth说的这句话,用它周围共现频率最高的词,来作为这个词的语义,他是这么来定义的。

从这出发,我们就有条件把共现的词变成从共现中学习语义,我们现在就是这么做的。实际上是把原来离散空间里共现的词,变成高维空间里头稀疏的空间,把它变成稠密的向量空间的几何结构,这是一个重大的进步,使得我们语言变成可计算的。因为原来稀疏的共现空间是不能计算的,现在变成稠密的向量空间就可以计算。所以把语言处理的问题完全变成数学计算问题

可以证明,只要你用的数据量足够多,用的上下文足够长,这个空间就会出现语义关系空间。如果我们有了足够的数据,有了足够长的文本,就会使这个越接近它。大家现在拼命在这方面做工作,这个长度越长越好,数据越多越好,现在基本上趋近于语义关系了。从这个角度来看,唐杰老师也说了一定意义下完全可以做到理解、可以做到自反性,也就是对自己的思考进行思考。实际上现在大家在大语言模型中,已经发现了这个现象。

这个问题现在出在哪里?出在模型是近似的,不是人类语言的真正模型,为什么?因为我们使用的定义是用共现的词来定义语义。关于语义的定义,世界上有七八种不同哲学学派的定义,我们对语义并没有科学的定义,所以现在所用的定义都是不完备的,都是近似的。这样就告诉我们,即使你把这个模型做得非常大,你毕竟也是在这个语义定义下的语义关系。

所以现在很多人提出来,很多人发现机器人出现很多怪现象,都归结于语义有问题,这是有错误的。现在很多东西是由于模型近似引起的,我们这么定义语义本身是很不完备、很不准确的,因为科学上现在并找不到准确的定义。这就会出现五个缺失

  1. 1. 指称的缺失
  2. 2. 真值和因果的缺失
  3. 3. 语用的缺失
  4. 4. 多义和动态语境的缺失
  5. 5. 闭环行为的缺失

这五个缺失必然会影响到你用语言模型去做应用。所以现在我们要做的就是在干这件事。

刚才也有很多报告讲得非常清楚,我们通过这里头的体系结构、算法本身,是会帮助我们不断趋近这个语义关系,但是这个语义关系,是我们目前能够得到最好的,不可能再得到我们真正需要的准确的定义。所以这五个缺失必然存在。


二、我们现在需要干什么、想干什么

实际上现在大家所做的事情就是要从LLM实现在实际环境下执行复杂任务的Agent,大家现在在做这个事。你把语言模型拿去应用,现在有很多问题,想从语言模型再跨进一步,把它变成可执行复杂任务的Agent。

大家把这个目标用一个概念来套,叫做通用人工智能。其实用这个概念有很多误解,实际上我们目标是这个,但是为了说得好听,大家都说AGI,因为AGI很有吸引力。这里有一个误导,大家以为做AGI都要做通用,其实AGI确实强调通用,但是跟我们目前想做的事不是一回事,但现在大家都这么用,我们也只好这么用。所以很多用这个目标来做定义的肯定都不行,都会引起很大的误解。比如马斯克说,我们人类能够干70%以上的任务,机器都会干,而且达到或者超过人类的水平,这样的定义完全不可执行、不可检验,所以必然引起很多误解。有的人说很容易得到,有的人说根本达不到,为什么?因为这个定义非常模糊。什么叫做达到人类水平?识别率超过人类,算不算达到人类的水平?有的人说算,有的人说根本不算,如果鲁棒性从其他方面来看差得远。

所以我认为必须要定义一个可执行、可检验的定义

我认为可执行、可检验的定义,AGI就应该满足下面5个要求,达到下面5个关键的能力。其实现在大家在做的都是这5件事。刚才唐老师讲了4个层次,实际上包括我这里的几个层次,但少了一个。我这里强调这几个问题的形容词非常重要:

1. 时空一致的多模态理解与落地

大家都在做这个,关键在哪里?关键在时空一致性,这是非常大的困难。大家知道每个模态的时间是不同步的,视频是一个帧一个帧的,文本是几千年一句话,两个词很难对齐,你如果对不齐,根本做不到多模态理解。

2. 可控的在线学习与适应

过去我们做的主要是离线学习,刚才大家说RL强化学习,其实强化学习最重要的是可控性问题。刚才唐老师说到可验证,可验证放在推理可控的问题,其实强化学习最大的问题是不可控,你虽然有目标在那儿,但这个目标能不能收敛到那去,整个学习过程是不可控的。如果不解决可控的问题,其实在线学习的效果不会特别好。

3. 可验证的推理与长期执行与规划

对于推理来讲,必须要可验证。对于很多大模型里头,很多推理不可验证,很难判定它对与错。规划主要是集中在长期的规划和执行,所以这个关键的问题必须抓住一个形容词。

4. 可校准的反思与元认知

现在所有的反思都是一种感觉,并没有可回溯、可检验、可把它变成一个准确的信号,所以这也是关键问题。

5. 跨任务强泛化

大家知道大语言模型在跨领域的泛化上效果很好,但如果我们要让它去执行实际的任务,必须要实现跨任务的泛化。这里头最大的困难就是分布以外的、结构不一样的、长尾的东西的泛化,刚才都说到了。

所以我认为如果我们把这个作为我们的目标,我们就有一个可执行、可检验的定义,我认为按照这个定义,应该是可以指导我们往前做的。


三、再走一步,怎么办

整个讲起来就是组成这么一个东西,就是Agent。

实际上我们现在做的几件事都是冲着解决这5个问题的:

  • • 多模态
  • • 具身与交互落地
  • • 检索与证据落地
  • • 结构化知识对齐
  • • 工具与执行落地
  • • 对齐与约束落地

具体的,我们就做这六件事,这六件事都是冲着刚才讲的五个目标来完成的。


四、我们的目标是什么

过去人工智能只是作为工具,现在我们处于一个非常矛盾的状态,我们一方面又希望人工智能能够做更多更复杂的事情,又害怕人工智能超过我们,成为新的主体。所以大家非常焦虑,过去我们只有一个主体,人类都摆不平,因为人类这个主体是复数的,不是单数的,每个主体的要求都不一样。之后再出现人类以外的主体,我们该怎么办?我们如何跟人工智能相处?我们如何来解决这种担忧?

实际上未来的主体分成3个层次:

1. 功能-行动主体

目前我们已经达到了,而且很希望它达到,因为它可以帮助我们。

2. 规范-责任主体

这个目前还没达到,一个最大的困难:如何使机器也能够担负起责任来,这是我们希望做到的,但从目前的情况来讲有一定的难度,技术的难度比较高,但我相信大家会努力地争取做这个事。

3. 体验-意识主体

大家最怕的是这个,一旦机器有了意识以后,我们人类该怎么办?

如果我们做实际企业的人,可能不必考虑太远,我们考虑第一、第二就可以,但是这两个问题必须考虑:对齐和治理

对齐这个问题,大家谈得很多,机器一定要和人类对齐吗?这是值得讨论的问题,人类并不是都有优点的,人类中间有贪婪、欺骗,原来机器都没有,向人类对齐,人类到了最高吗?不是,我们也涉及到这个问题。

我们如何来治理?我认为最主要的治理不是治理机器,而是治理人类,也就是研究者和使用者

这里头,涉及到我们人工智能时代的企业、企业家应该担负什么责任。


五、AI时代的企业家

在大语言模型出现之前,我非常不赞成我的学生去创业,有的学生家长找我,有些学生家长跟我的观点也一样,说别去搞企业。但是大模型之后,我觉得最优秀的学生应该去搞企业,因为人工智能给企业家做了重新的定义,刚才说人工智能会定义一切,同时也定义未来的企业家。

这里头未来的企业家应该具备这六个方面的职责。

我简单说一下重新定义价值的创造。人工智能不是给大家简单的提供产品和服务,而是把知识、伦理和应用变成可复用的工具,去实现对人类的造福,所以这个东西完全改变了。而且要把人工智能作为像水和电那样通用的技术交给人类,所以企业家的要求很高。包括关于治理问题,对于企业家、对企业也必须把这个社会的责任担当起来,包括实现普惠的可持续增长。

所以人工智能时代的企业家是有很多新的使命的,这个新的使命就使得人工智能时代的企业家把企业、企业家也变成光荣的、神圣的职业之一

谢谢大家!


唐杰(主持人)结语

非常感谢张院士的点评。张院士用了20多分钟,PPT是刚才现场出去做的PPT,非常感谢,我们再次把掌声送给张院士!

张院士是我非常景仰的一位老先生,张院士今年91岁,很多人给我发消息说根本看不出张院士90多岁这么精神,还有人问我你90多岁的时候还能不能这么精神!

非常感谢几位讲者、Panel和张院士的发言。去年中国的开源做了很多事情,包括Kimi、千问和GLM都做了很多工作,包括腾讯,很多人对腾讯的印象是腾讯不开源,其实腾讯也做了很多开源。顺雨没办法来到现场,要不然也会给大家讲一讲,希望几年后大家未来团结在一起,能代表中国对外把AGI做得更好,这是咱们一起努力的一个方向。

第二是感谢在场的很多学者、很多嘉宾、包括很多领导,今天还蛮感动的,以前很多报告会,都是第一排的领导讲完就走了,把掌声送给我们的领导和院士,他们都坚持到最后,领导也在听各种报告。

最后咱们一起奔赴下一次AGI-Next,咱们瞄向未来,希望这个活动继续,实验室至少会延续5年以上。

最后再说一句感谢嘉宾的话,这个活动有很多嘉宾都是很尊贵的嘉宾,我们这次为了回归学术,把它搞得非常简单,仪式也非常简单,没有更多的渲染各位嘉宾的到来,照顾不周,敬请原谅。

感谢大家!咱们未来相见!

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询