免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Anthropic联创:还不存在真正递归自我改进的AI!曝内部调查结果:AI未必能实现开发效率爆炸式增长;Claude也能修水管,看好分布式预训练

发布日期:2026-01-11 11:57:12 浏览次数: 1561
作者:51CTO技术栈

微信搜一搜,关注“51CTO技术栈”

推荐语

AI生产力提升的真相:数据矛盾与行业颠覆正在发生。

核心内容:
1. AI工具对开发者生产力的矛盾影响:内部调查与真实数据背离
2. 代码生产"木桶效应"揭示AI未必带来开发效率爆炸增长
3. 从Transformer革命到智能体回归:预训练模型的未来押注

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

编辑 | 听雨

Anthropic联创又出来说话了!

就在刚刚,小编刷到一位知名的前对冲基金经理Michael Burry 在X上发布了一期访谈,参与者有Anthropic 联创 Jack Clark、 Dwarkesh 播客的创始人兼主持人 Dwarkesh Patel 以及软件创业者 Patrick McKenzie。

四位大佬同台都聊了点啥?小编细听下来发现,他们透露了不少反直觉的细节和数据。

比如,AI工具究竟有没有提升人们的生产力?大多数人的第一反应肯定是有,但Jack Clark表示,目前的统计数据是矛盾而稀缺的。

METR 的研究显示,在熟悉代码库的开发者中,使用 AI 工具反而使 PR 合并速度下降了约 20%;但Claude内部调查又显示,有60%的Claude使用者自报生产力提升了50%——这就是一组矛盾的数据,说明自我感知的生产力和真实生产力有可能是高度背离的。

再比如,很多AI巨头公司内部都在用AI写代码,AI能否加速整体开发速度?你肯定觉得能;但Jack Clark又指出,代码生产存在“木桶原理”——系统速度取决于最慢的环节,如果你写代码的速度快了 10 倍,但代码审查的速度只提升了 2 倍,那整体效率并不会爆炸式增长。

又比如,像PPT、Excel、数据可视化这类白领工作,肯定已经被AI接管了,而维修工、水管工这类技工职业,大家一般觉得不会被AI影响。但Michael Burry 透露,他可以通过“拍照+AI指导”的方式,自己完成很多电工和家居维修工作——所以谁说维修工就是安全的呢?

Jack Clark指出,从2017年的《Attention Is All You Need》发表以来,人们押中了Transformer+Scaling Law,由此构造出了通用智能;但现在事情正在“绕一圈回来”——人们开始构建智能体了,智能体建立在强大的预训练模型之上,比如DeepMind 的 SIMA 2和Claude Code。

所以如果Scaling Law真的撞墙了,Jack认为这会是最令人震惊的事情——因为当前的大规模基础设施建设,以及为训练未来模型而投入的巨额设施投资,都清楚地表明,大多数人是在押注相反的结果。

在不改变愿意的基础上,小编节选整理了整期访谈实录,读下来还是有不少收获,希望对各位有所帮助,enjoy!


兜兜转转又回到预训练

Patrick McKenzie:
自从《Attention Is All You Need》发表以来,人类到底构建了什么?如果你把 2025 年的现实展示给 2017 年的人,哪些事情会让他们感到震惊?又有哪些当年的预测没有成真?

Jack Clark:
回到 2017 年,大多数人都押注:通往真正通用系统的路径,是从零开始训练智能体,通过一套由易到难的任务课程,让它逐步获得通用能力。那时,几乎所有顶级实验室,比如 DeepMind 和 OpenAI 都在做类似的研究,试图在《星际争霸》《Dota 2》、AlphaGo 这样的环境中训练出超人类智能。我把这种路线称为“白板假设”(tabula rasa):从一个空白智能体出发,把它丢进环境里“烤熟”。

事后看我们都知道,这条路线并没有带来通用智能,但它确实在特定任务分布内,造出了超人类系统。

与此同时,还有另一条路径在悄然发展:对超大规模数据集进行训练,构建能够预测和生成这些分布的模型。事实证明,这条路线效果异常好,并且被两件事极大加速了。

第一,是《Attention Is All You Need》提出的 Transformer 架构,使得大规模预训练变得极其高效;
第二,是几乎同步发展的“Scaling Laws”,即:模型能力与投入的数据量和算力之间存在可预测的关系。

将 Transformer 与规模定律结合起来,一小部分人准确押中了一个判断:只要足够规模化数据和算力,就能得到通用系统。

而现在,一个颇具讽刺意味的现象是:事情正在“绕一圈回来”。人们又开始构建智能体了,但这一次,智能体是建立在强大的预训练模型之上的。DeepMind 的 SIMA 2 就是很好的例子,它是一个能在 3D 环境中探索的通用智能体,底层依托的是预训练的 Gemini 模型。Claude Code 也是如此——一个编码智能体,其能力完全来自大型预训练模型。

Patrick:
由于大语言模型是可编程的、且被广泛获取,包括一些能力较弱但相较 2017 年依然极其强大的开源模型,我们已经进入了一个阶段:今后任何 AI 能力(甚至任何有趣的东西),都不必再构建在比“现在更差的认知基底”之上。

也就是说:你今天看到的,是下限,不是上限。

这是我认为内部人士理解得最清楚、而政策制定者和公众理解得最糟糕的一点。

未来任何一个《星际争霸》的 AI,在出生那一刻就已经读过中文原版的《孙子兵法》,除非它的设计者判断这反而会让它更容易被虫族一波带走。

Jack:
是的,我们在 Anthropic 对政策制定者常说的一句话是:“这已经是它最差的时候了。”但要让他们真正理解这句话的分量,非常困难。

另一件极不直觉的事情是:能力提升的速度之快。一个现实例子是,很多人现在在 Claude Code 里用 Opus 4.5,都会说类似的话:“天啊,这比之前好太多了。”如果你上一次玩 LLM 还是在去年 11 月,那么你对当前前沿能力的判断已经严重失准了。


AI未必能实现开发效率爆炸式增长,

速度取决于最慢的环节

Michael Burry:
在我看来,2017 年的 AI 并不是 LLM。AI 意味着 AGI。那时候,人们根本不把大语言模型当作 AI。

我从小读科幻小说,它们预测了很多未来,但没有一本把“AI”想象成一个依赖搜索、像聊天机器人一样的东西。

《Attention Is All You Need》和 Transformer 的提出,本质上是 Google 的工程师用 TensorFlow 做的事。回到 2010 年代中期,神经网络、机器学习创业公司已经很常见,AI 在会议里也频繁被提及。Google 其实已经有大型语言模型,只是内部使用。

最让我惊讶的是:以 Google 在搜索、Android、芯片和软件上的统治地位,它居然没有一路领跑。

另一个意外是,我原以为 ASIC 会更早普及,小模型(SLM)也会更早被采用。Nvidia 到今天还在推理端占据主导,实在令人震惊。

而最大的惊讶是:点燃这一轮资本狂潮的,竟然是 ChatGPT。ChatGPT 的应用场景从一开始就很有限——搜索、学生作弊、写代码。现在确实有更好的编码模型了,但引爆“万亿级投入”的,居然是一个聊天机器人。

我特别认同 Dwarkesh 采访 Satya Nadella 时的一个瞬间:他承认,所有大型软件公司现在都变成了硬件公司,资本密集型公司。我甚至不确定覆盖这些公司的分析师是否真正理解“维护性资本支出”是什么。

Dwarkesh Patel:
另一个令人惊讶的地方在于:AI 的领先优势并不持久。2017 年,Google 遥遥领先;几年前,OpenAI 似乎一骑绝尘。但现在,不论是人才流动、信息扩散还是逆向工程,某种力量持续在“抹平差距”。几大实验室轮流站上领奖台。

我很好奇,所谓的“递归式超级智能”是否真的能打破这种格局,还是说我们应该预期长期激烈竞争。

Jack:
关于递归改进,所有前沿实验室都在用 AI 加速自己的开发者,但这并不“干净利落”。它有一个明显特性:系统速度取决于最慢的环节。比如你能写出 10 倍的代码,但代码审查只提升了 2 倍,那整体效率并不会爆炸式增长。

一个关键的未知数是:这个闭环是否能真正闭合。一旦闭合,才有可能出现真正复利式的研发优势。


60%的 Claude 使用者

自报生产力提升50%

Dwarkesh:
这是价值百万美元的问题。METR 的研究显示,在熟悉代码库的开发者中,使用 AI 工具反而使 PR 合并速度下降了约 20%。但另一方面,自包含编码任务的“等效人类时间跨度”已经达到数小时,并且每 4 到 7 个月翻倍。

我没有一手经验,但直觉上更接近前者——因为缺乏良好的反馈验证闭环,而且评价标准高度主观(可维护性、品味等)。

Jack:
我同意,这是一个核心问题,目前数据矛盾且稀缺。我们在 Anthropic 做过一次开发者调查,60% 使用 Claude 的人自报生产力提升了 50%。但 METR 的结果又似乎与此相反。

我们需要更好的数据,尤其是更精细的工具去测量“真实生产力”。不过,从宏观上看,编码工具前所未有的普及,很难解释为“越来越多开发者在热情地让自己变得更低效”。

Dwarkesh:
不过,METR 的研究恰恰预测了这种现象:自我感知的生产力可能与真实生产力高度背离,甚至方向相反。

Jack:
是的。我们正在认真考虑如何做更好的“仪表化”,以区分主观感受与客观现实。希望 2026 年能拿出研究成果。


AI刷爆了评测基准,

但还是会犯一些荒谬的错误

Dwarkesh:
真正令人惊讶的是:自动化“人类的工作”到底有多复杂。我们已经跨过了一个又一个曾被视为 AGI 标志的门槛——图灵测试早已不值一提;模型可以解决复杂、开放式的数学和编程问题。

如果你在 2017 年给我看 Gemini 3 或 Claude 4.5 Opus,我会确信它会让一半白领失业。但现实中,AI 对劳动力市场的影响微弱到需要显微镜才能看见。

同样令人意外的是私人资本投入的规模和速度。几年前,人们还认为 AGI 必须是“曼哈顿计划”级别的国家工程,而现在看起来,市场本身就能支撑起 GDP 百分之几的投入。

Michael:
是的。历史上,每一次技术革命对劳动的冲击都非常明显——工业革命、服务业革命都导致了义务教育的扩张。而我们目前完全没有看到类似现象。

Jack:
AI 社区里有个老规律:我们不断设计看似“真正考验智能”的任务,然后模型轻松跨越。最终你得到的是一个表面极其强大、但仍会犯一些人类觉得荒谬错误的系统。

例如,LLM 在某些认知测试上被评为“超人类”,但却无法在犯错后自我纠正。这种缺陷正在改善,但它说明 AI 的弱点往往极不直觉。


在编程领域之外,

谁来为AI付费?

Patrick:
编程显然是 AI 工业化应用的前沿阵地:Cursor 这样的公司收入暴涨,有审美的技术人员开始偏爱 Claude Code、OpenAI Codex,“vibe coding” 也成为一种文化现象。但这也造成了一种明显的不对称——因为大多数人并不是程序员。
接下来会是哪一个行业发生变化?什么样的变化,才会真正体现在财报、就业或价格中,而不仅仅是 demo?

Jack:
编程有一个非常关键的优势:它是相对“闭环”的。你用 LLM 生成或修改代码,然后可以立刻验证、部署。直到最近,一整套更完整的工具出现,LLM 才开始在编程之外的领域具备这种“闭环”能力,比如接入搜索、以及像 MCP 这样的连接协议。
举个例子,我最近在研究一些成本曲线问题,比如单位质量的入轨成本、单位瓦特的太阳能成本。以前也能用 LLM 辅助研究,但摩擦极大,需要在模型和外部工具之间反复切换。现在这些摩擦被消除了,使用频率自然迅速上升。
因此,我预计:程序员身上发生的事情,很快会在更广泛的知识工作者中重演,并以一种分散但广泛的方式,体现在科研、法律、学术界、咨询等多个领域。

Michael:
归根结底,AI 必须被某些人买单。有人为商品或服务付费,这才构成 GDP。而 GDP 的增长速度通常只有 2% 到 4%,除非某些公司拥有定价权——而这在 AI 的未来中似乎并不乐观。
经济体不是一个可以无限扩张的“魔法蛋糕”,而是受算术约束的。整个软件行业(包括各种 SaaS)规模也不过一万亿美元左右。这也是为什么我总是强调“基础设施与应用的比例”:Nvidia 卖出了 4000 亿美元的芯片,但终端 AI 产品的收入还不到 1000 亿美元。
AI 必须真正提高生产力,或者创造出不挤占现有支出的新需求,这非常困难。是否能做到,仍然存在争议。目前这轮资本开支,很大程度上建立在信念和 FOMO 之上,却几乎没有人能拿出真正算得通的数字。


如果Scaling Law撞墙,

那会极其令人震惊

Patrick:
如果你在 2026 年看到一条技术或金融领域的头条新闻,什么会让你感到震惊,并因此重新校准你对 AI 进展速度或估值的整体判断?回头看,到目前为止,最大的意外是什么?

Michael:
最可能让我彻底重新评估的一件事,是看到自主 AI 智能体在大型公司中取代数百万个工作岗位这会让我非常震惊,但它依然未必能让我看清“持久竞争优势”到底在哪里——又回到巴菲特那个自动扶梯的例子。

另一种情况是,应用层收入达到或超过 5000 亿美元,这意味着大量真正的“杀手级应用”出现了。

而在现实中,我们大概率会看到两种结果之一:要么 Nvidia 的芯片能用五到六年,于是人们对新芯片的需求下降;要么芯片两到三年就要淘汰一次,那么云厂商的盈利能力将崩塌,私人信贷也会遭受重创。

回顾到目前为止,最大的意外包括:

第一,Google 并没有一路领先
《Attention Is All You Need》的八位作者全部来自 Google。Google 拥有搜索、Gmail、Android,甚至已经有 LLM 和芯片,但它却失误了,给了资源远不如它的竞争者机会。一个科技巨头在 AI 上追赶一家创业公司,这件事本身就足够令人震撼。

第二,ChatGPT——一个聊天机器人引爆了一场数万亿美元级别的基础设施竞赛这就像是有人造了一个机器人原型,全世界的企业突然都开始为“机器人时代”疯狂投资。

第三,Nvidia 在推理时代依然保持统治地位
我原本以为 ASIC 和小模型(SLM)早就该占据主导,我们也应该早就摆脱 prompt engineering 了。也许正是对 Nvidia 的迷恋拖慢了整个行业的转型,或者 Nvidia 的反竞争行为确实产生了影响。

Dwarkesh:
对我来说,最大的意外会是以下几种情况之一:

如果到 2026 年,AI 实验室的累计收入低于 400 亿美元,或高于 1000 亿美元,那都意味着事情的发展速度与我的预期出现了显著偏差——要么慢了很多,要么快了很多。

另一个巨大意外是:持续学习被真正解决了
不是 GPT-3 那种“在上下文中看起来会学”的解决,而是像 GPT-5.2 那样,模型在理解上下文方面几乎接近人类。如果和一个模型协作,更像是在复制一个已经与你共事六个月的熟练员工,而不是“上班第一小时的劳动力”,那将是一次巨大的能力解锁。

我认为,自 2020 年以来,通往 AGI 的时间窗口已经显著收敛。
当年,你既可以给“把 GPT-3 扩大一千倍就能到 AGI”分配一定概率,也可以认为我们走错了路,可能要等到本世纪末。如果进展突然偏离原有趋势线,清晰地指向未来 5 到 20 年内出现真正可替代人类的智能体,那将是我最大的意外。

Jack:
如果“规模化撞上了墙”,那将是极其令人震惊的事情,并且会对研究范式和整个 AI 经济产生深远影响。当前的大规模基础设施建设——包括为训练未来模型而投入的巨额设施投资,清楚地表明,大多数人是在押注相反的结果。

另一件我会感到震惊的事,是分布式训练在效率上出现重大突破,并且有一群参与者真的能凑出足够的算力,训练出一个非常强大的系统。如果这发生了,那意味着不仅可以有开放权重模型,还可能出现一种“开放式模型开发”的形态——不再需要一个单一的巨型组织来训练前沿模型。

这将彻底改变 AI 的政治经济结构,并带来极其复杂的政策影响,尤其是在前沿能力扩散方面。Epoch 对分布式训练有一篇很好的分析,值得参考。


Claude也能修水管,

谁说AI不能替代维修工?

Patrick:
你最近一次在职业上真正重要的 LLM 使用经历是什么?如果需要,可以隐去细节。在那次互动中,你是如何“对待”这个 LLM 的?

Michael:
我现在用 Claude 来制作所有图表和表格。我会自己找到原始资料,但在设计和制作专业图表、可视化方面,我已经完全不花时间了。我仍然不完全信任数值本身,需要人工核查,但“创作”这一部分对我来说已经结束了。

此外,我也会特别用 Claude 来寻找资料来源,因为现在很多重要信息并不在 SEC 文件或主流报告里。

Patrick:
金融圈之外的人往往无法理解:过去几十年里,我们花了多少十亿美元,让全球最聪明、薪酬最高的一批人,去当 PowerPoint 和 Excel 专家。

这种技能在短期内仍然有价值,也许数据透视表和 VLOOKUP 的“身份象征意义”还会存在一段时间。但我在英格兰银行的那次演讲,所有图表都是用 LLM 做的。回头想想,我们曾经要求人类花数小时微调这些东西,本身就显得有点荒诞。

Dwarkesh:
现在,LLM 是我的一对一私人导师。我确实尝试过为一些学习目标雇佣真人导师,但 LLM 的延迟和响应速度带来了完全不同层级的体验。

这就像是有人愿意为 Waymo 相比 Uber 支付极高溢价一样。这让我越来越觉得,很多工作的“人类溢价”不仅不会存在,甚至可能是负的。

Michael:
顺着这个话题,很多人认为技工类职业是“AI 免疫”的。但我现在不太确定了。只要身边有 Claude,我已经能自己完成很多电工和家居维修工作。如果我是一个中产,面对一次 800 美元的水管工或电工上门费用,我可能真的会选择先用 Claude 试一试。我甚至可以拍张照片,让它一步步告诉我该怎么修。


目前为止,

还不存在真正递归自我改进的AI

Patrick:
在相对了解 AI 的人群中,对风险的看法跨度极大:从“只是让社交媒体变得更糟”,到“如果中国在这项具备军事潜力的关键技术上领先美国就麻烦了”,再到“最坏情况是人类文明的终结”。

什么最让你夜不能寐?另外,如果你能和高级政策制定者单独谈五分钟,你会建议他们把注意力和资源重新投向哪里?

Jack:
我最担心的是,人们是否真的能成功构建出“能够构建 AI 的 AI”——也就是彻底闭合 AI 研发的循环(有时称为递归式自我改进 AI)。

需要明确的是,我几乎可以肯定:在 2026 年 1 月,地球上还不存在真正的递归自我改进 AI。但我们已经看到极早期的迹象:AI 正在越来越擅长完成 AI 研究中的某些环节,比如内核开发、自动微调开源模型等。

如果这种趋势持续,最终构建出一个能“改进自身”的系统,那么 AI 的发展速度将急剧提升,并很可能超出人类的理解能力。这将带来一系列重大的政策挑战,同时也可能引发由 AI 驱动的、前所未有的经济跃迁。

如果我只有五分钟和政策制定者交流,我会直截了当地说:
“自我改进 AI 听起来像科幻,但从技术上看并非不可能,一旦发生,将是极其重大的事件。你们应该要求 AI 公司在这方面保持高度透明,并确保有你们信任的第三方机构,能独立测试这些系统是否具备这种特性。”

Michael:
Jack,我知道你能直接和政策制定者对话,希望他们真的在听。

就目前而言,AI 对人类文明的风险并没有让我太担心。聊天机器人确实可能让人变笨——医生如果过度依赖它,可能会逐渐忘记自己的专业知识。这不好,但不至于毁灭性。

至于 AGI 或 ASI 的末日级担忧,我个人并不太焦虑。我是在冷战时期长大的,世界随时可能毁灭,我们还有核爆演习。我在农场踢球时,直升机还会往我们头上喷杀虫剂。我 30 多年前就看过《终结者》,《红色黎明》当时看起来也并非不可能。我相信人类会适应。

如果让我和高级政策制定者谈五分钟,我会建议他们拿出 1 万亿美元(反正现在“万亿”就像以前的“百万”一样随便)——绕过抗议和繁琐监管,在全国铺设小型核反应堆,同时建设一张全新的、最先进的电网。

尽快完成,并用最先进的物理和网络安全手段保护,甚至可以成立一支联邦资助的“核设施防卫部队”。
这是我们跟上中国的唯一希望,也是确保长期安全、增长和偿债能力的唯一出路——不能让能源成为创新的瓶颈。

Jack:
我非常认同能源这一点。AI 要在经济中发挥实质性作用,根本依赖于底层基础设施,才能以低成本、高效率地服务企业和消费者。

这和历史上的大规模电气化、公路、下水道建设并无本质不同——都是巨额资本开支项目。我们现在迫切需要在能源领域做同样的事。

此外,大规模 AI 数据中心本身就是新型能源技术的理想“试验客户”。我尤其期待 AI 能源需求与核能技术的“融合”。更广泛地说,“经济安全就是国家安全”。确保 AI 经济所需的基础设施到位,将对工业基础和整体韧性产生深远的正向外溢效应。

参考链接:

https://earmark.fm/id/4beae92f-ed45-429e-a633-faa48407fd4f

——好文推荐——

刚刚!MiniMax敲钟上市,市值高达827亿港元!闫俊杰爆料:内部代码80%都由AI完成,公司平均年龄29岁,账上超10亿美金

刚刚!智谱唐杰发内部信:回归AGI主线,GLM5很快发布!不做传统公司,用咖啡精神做AGI!曝2026发力点:模型架构和学习范式

Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”" data-itemshowtype="0" linktype="text" data-linktype="2">路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询