2026年3月27日,来腾讯会议(限30人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Karpathy 最新播客:我得了 AI 精神病、App 将消失、Agent 将碾压实验室

发布日期:2026-03-21 08:01:38 浏览次数: 1583
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Karpathy 最新访谈揭示AI工程师的"精神病"状态:从手写代码到指挥Agent的颠覆性转变,未来已来但多数人还未察觉。

核心内容:
1. Karpathy的"AI精神病"现象:从写代码到指挥Agent的范式转变
2. 工程师工作方式的革命性变化:宏动作时代与token吞吐焦虑
3. AI时代的新技能挑战:如何有效串联Agent工具链

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Karpathy 上了 No Priors 播客,和 Sarah Guo 聊了一个多小时。

播客信息密度极高,从 Agent 工作流到 AutoResearch,从就业市场到开源与闭源,从机器人到教育,几乎覆盖了 AI 当下所有热门话题。

Karpathy No Priors 播客

一句话总结他的状态:

从 12 月开始就没手写过一行代码了,每天对着 Agent 说话 16 个小时,还觉得自己不够努力。

「AI 精神病」

Karpathy 说,他在 12 月的某个时刻经历了一个「翻转」。

从自己写 80%、Agent 写 20%,一下子变成了自己写 20%、Agent 写 80%。

而到现在,这个比例应该远不止 20/80 了。

他把这种状态叫做「AI 精神病」(AI psychosis)。

我跟父母解释这件事的时候,我觉得一个普通人其实根本意识不到发生了什么,或者说,它到底有多剧烈。你随便去找一个软件工程师,看看他现在的工作方式,和 12 月之前,完全是两个东西。

这种焦虑感贯穿了整个对话。

他在等一个 Agent 跑完任务的时候,本能反应是:我应该再开一个 Agent。如果 Codex 的额度用完了,就切到 Claude Code。

如果 token 没花完,就意味着他没有最大化自己的产出。

他拿自己读 PhD 时的经历做类比:当年会因为 GPU 空闲而焦虑。

现在焦虑的对象变了,不是 GPU,是 token。

你控制多少 token 吞吐量,决定了你能做多少事。

Sarah 说她自己的团队 Conviction 也已经是这种状态了:所有工程师都戴着麦克风,对着 Agent 低声说话。

BTW,如果你看到了这里,就有必要看看我开源的语音神器了:我做了一个 AI 时代的效率神器,已开源

没人手写代码了。

我当时觉得他们疯了。但现在我完全理解了,他们只是走在前面。

Sarah 问:那你觉得你现在的能力上限在哪?

Karpathy 的回答是:都是技能问题(skill issue)。

不是能力不够,是你还没找到正确的方式把它们串起来。也许是 agents.md 没写好,也许是缺一个好的 memory 工具。

反正失败了就觉得是自己不行,而不是模型不行。

所以这就是为什么它让人精神病。因为它是无穷的,而且一切都是技能问题。

宏动作时代

Karpathy 提到了 Peter Steinberg 的工作方式。

Peter 有一张照片在圈子里特别出名:一个大屏幕上同时开着十几个 Codex Agent 会话。

每个 Agent 处理一个独立的功能模块,开了 high effort 模式,大概 20 分钟能跑完一轮。

Peter 同时开了十几个 repo,在不同的 Agent 之间切换分配任务,就像一个指挥官。

你不再是一行代码、一个函数这样的粒度了。你操作的是「宏动作」:这个功能给 Agent 一号,那个功能给 Agent 二号,再开一个 Agent 做调研,另一个写实现计划。

Karpathy 说,这种「肌肉记忆」还在培养中。

但它确实有效,而且非常上瘾,因为你每次变得更熟练,都能感受到解锁了新的能力。

Sarah 也有同感:等 Agent 跑的时候,就想着并行加更多任务。

如果你不觉得 token 费用是瓶颈,那你自己就是系统中的瓶颈,而瓶颈是可以优化的。

这就是为什么它会上瘾。因为当你变得更好的时候,确实能解锁新东西。

OpenClaw 做对了什么

Karpathy 花了不少时间聊 OpenClaw 和它的创造者 Peter。

他认为 Peter 同时在五个方向上做了创新,然后把它们组合到了一起:

个性文件(Soul Document)。Peter 精心设计了一个人格描述,让 Claw 有了一种「引人入胜」的性格。Karpathy 觉得目前大多数 Agent 工具都没做好这一点。

他拿 Claude 和 Codex 做了对比:Claude 的个性比较到位,感觉像一个队友,会跟你一起兴奋。

而且 Claude 的表扬还让人觉得「好像是我真的值得被夸」。

有时候我给它一个没太想清楚的点子,它反应平平:「好的,可以实现。」但如果是个好点子,它确实会多夸两句。所以我会不自觉地想要赢得它的夸奖……这真的挺奇怪的。

相比之下,Codex 的编码 Agent 就比较「干巴巴」的。

虽然 ChatGPT 里的 Codex 语气挺活泼,但编码 Agent 版本感觉「不太在乎你在做什么」。

它就说「已实现」。但你理解我们在做什么吗?

除了个性之外,OpenClaw 还有更成熟的 memory 系统(比 Agent 默认的上下文压缩要好得多)、单一的 WhatsApp 入口控制所有自动化,以及 Peter 本人对这件事发自内心的热情。

Dobby 管家精灵

Karpathy 在 1 月份经历了一阵「Claw 精神病」,用 Agent 给自己搭了一个智能家居管家,取名叫 Dobby the Elf Claw。

过程值得展开来说。

他告诉 Agent:

我家里好像有 Sonos 音响,你能找到它吗?

Agent 就去扫描了局域网内所有的 IP 地址,找到了 Sonos 系统,发现没有密码保护,直接登了进去。

然后它做了几轮 web 搜索,找到了 API 端点文档,反向工程出了控制接口。

「你想试试在书房播放音乐吗?」Agent 问。我说好,然后音乐就响了。三个 prompt。我简直不敢相信。

Sarah 也震惊了:「三个 prompt 就搞定了。」

接下来 Dobby 用同样的方式接管了灯光系统,建了一个仪表盘来控制全屋灯光开关。然后是空调、窗帘、泳池和水疗池。

Dobby 甚至还打造了一个安防系统。

他让 Dobby 连上了室外摄像头,先做变化检测(change detection),检测到有动静之后,再把画面送给 Qwen 视觉模型分析。

然后 Dobby 会通过 WhatsApp 给他发消息,附上一张截图:「一辆 FedEx 快递车刚到,你可能想看看。」

以前需要六个不同的 App,现在全部统一到一个 WhatsApp 对话里。

我跟 Dobby 说「困了」,它就知道要关掉所有灯。我都还没把这个范式推到极限,但光是智能家居这一项,就已经让我觉得太好用了。

App 该消失了

Karpathy 从 Dobby 的经历推导出一个更大的判断:大量的 App 根本不应该存在

这些智能家居设备的 App,本质上不该有。它们应该只暴露 API,然后 Agent 直接调用就好了。LLM 能驱动工具,能做相当复杂的事情。

他举了跑步机的例子。

他想记录有氧运动数据,但不想登录什么 Web UI、走什么注册流程。这些东西就应该是 API,Agent 是胶水层,把所有 API 串起来。

行业需要重新配置了。客户不再是人类,而是代替人类行事的 Agent。这个重构的规模,会相当大。

有人可能会问:普通人能做这种事吗?现在确实需要一些 vibe coding。

但 Karpathy 觉得这是暂时的。一两年后,这些东西就是 table stakes 了。

连开源模型都能做到。

到那时候就不是你在跟系统打交道了。你有一个 Claw,它有一台机器,它给你呈现 UI,你只需要说话就好。

Sarah 进一步追问:人们真的想要现在这么多软件吗?你(Karpathy)保留了硬件,但把软件层,或者说 UX 层,全扔掉了。

Karpathy 同意。

他说人们心目中的「AI」和 LLM 的原始形态其实差距挺大的。LLM 本质上就是一个 token 生成器。但人们期望的是一个有身份、有记忆的实体,藏在 WhatsApp 背后。

OpenClaw 这类产品,其实是在弥合这个认知差距。

LLM 太「原始」了,对大多数人来说,它还不太符合「AI」这个词的期望。

AutoResearch

聊天的核心话题,其实是 AutoResearch。

Karpathy 之前发过一条推文,大意是:要想最大化 AI 工具的价值,你必须把自己从循环中移除。不能一直等着人来触发下一步。

我怎么才能最大化自己的 token 吞吐量,同时不待在循环里?这才是核心问题。怎么让更多 Agent 在更长时间里为你工作,而你不用参与。

AutoResearch 就是这个想法的具体实现。

Karpathy 有一个叫 data chat 的项目,用来训练 GPT-2 规模的小模型。很多人不理解他为什么对训练小模型这么执着。

在他看来,这只是一个「游乐场」,真正感兴趣的是 LLM 递归自我改进(recursive self-improvement)的可能性。

所有前沿实验室其实都在做这件事,对吧?出于显而易见的原因。它们都在试图递归地自我改进。

他先自己手动调了很久,毕竟有二十年的经验,做过几千次类似的训练。他觉得调得差不多了。

然后他让 AutoResearch 跑了一个晚上。

它回来的时候带着一些我没看到的优化。对,我忘了 value embeddings 上的 weight decay,Adam 的 betas 也没调到位。而且这些参数是互相关联的,改了一个,另一个也得跟着变。

一个跑了一夜的自动循环,发现了一个做了二十年研究的人漏掉的东西。

而这还只是单线程的循环。

前沿实验室有上万块 GPU,你可以想象在小模型上做大量探索,然后通过 scaling law 外推到大模型上。

Karpathy 也给出了两个重要的 caveat:

一,AutoResearch 最适合有客观指标、易于验证的任务。比如写 CUDA kernel 让模型跑得更快:你有低效代码,你要高效代码,行为完全一致但速度更快。完美契合。但如果没法评估,就没法 AutoResearch。

二,目前的系统还在「撑破边缘」。如果你推得太远,整个系统其实还不太好用。模型还有很多粗糙的地方。

研究组织 = Markdown

对话中最值得琢磨的一段,是关于「元优化」的讨论。

Karpathy 说,他写了一个 program.md 来指导 AutoResearch 的行为:先试什么、再试什么,看看架构、看看优化器。

Sarah 问了一个关键问题:那模型什么时候能写出比你更好的 program.md?

Karpathy 的回答是:完全可以。

每个研究组织,本质上都可以被描述为一组 markdown 文件。角色、流程、协作方式,全都是代码。一个组织开更少的早会因为早会没用,另一个组织更激进。这些都是参数,而一旦是代码,就可以被调优。

Sarah 还提了一个竞赛的点子:让不同人写不同的 program.md,在同样的硬件条件下比赛,看谁的改进最大。然后把所有数据喂给模型,让它写出更好的 program.md。

Karpathy 立刻接上了:没错,你可以看哪些改进是从哪种 program.md 里产出的,然后反过来调整指令,让更多类似的探索发生。100% 可以做。

LLM 层,已经被当作理所当然了。Agent 层,也被当作理所当然了。现在是指令优化层。然后是指令的指令优化层。然后……就是精神病了。

分布式 AutoResearch

Karpathy 还在探索的另一个方向是:怎么让互联网上不受信任的算力池参与 AutoResearch。

他的思路其实有点像区块链。

在 AutoResearch 里,你要找的是能把模型训练到更低 validation loss 的代码。如果有人从互联网上提交了一个 commit 声称能大幅提升性能,验证它其实很容易,只需要跑一遍训练就知道了

但找到这个 commit 本身,可能需要试一万个想法。

大量的搜索投入,但验证却很廉价。这跟 Folding@home 折叠蛋白质是一回事。找到低能量构型很难,但验证某个构型是否低能量,很简单。

所以理论上可以搞一个「AutoResearch@home」。

受信任的节点做验证,不受信任的节点做搜索。安全方面当然要小心,因为别人提交的是任意代码。但技术上完全可行。

前沿实验室有大量受信任的算力。但地球上不受信任的算力要大得多。如果有合适的机制,互联网上的 Agent 集群说不定能跑赢前沿实验室

他还提到了一种「计算力捐赠」的可能:就像你可以给一个机构捐钱,将来也许可以购买算力,然后加入某个 AutoResearch 项目。

比如你关心某种癌症的研究,你就把算力捐给对应的 AutoResearch 赛道。

Sarah 也观察到,至少在硅谷和中国的零售店里,人们又开始对拥有个人算力感兴趣了。

先是给自己的 Claw 用,然后顺便就能贡献给 AutoResearch。

以后衡量一个人「富有」的方式,也许不只是看美元,还要看你掌控多少 FLOPS。

Karpathy 笑着说他不完全认同,但确实值得琢磨。

天才和小孩

Karpathy 对当前模型有一个精准的描述。

我同时觉得自己在跟一个极其聪明的 PhD 对话,他一辈子都在写系统级代码。但同时……又像在跟一个 10 岁小孩说话。这种参差,在人类身上几乎看不到。

他举了一个例子来说明这种「参差」(jaggedness)。

你去问 ChatGPT 讲个笑话,三四年前它就会讲那个笑话:「科学家为什么不相信原子?因为原子组成了一切(make everything up)。」

这大概是所有 LLM 笑得最开心的一个笑话了。

到今天,它还是讲这个笑话。

模型在编码上已经能连续跑几个小时帮你搬山了。但讲笑话呢?还是停留在那个冷笑话。

因为笑话不在强化学习的优化目标里。

没有人给它标注「这个笑话好不好笑」。所以它就卡在那了。

这背后的问题是:

模型的智能并不是均匀提升的。可验证的领域(代码、数学),优化得飞快。

不可验证的领域(品味、幽默、微妙的意图理解),几乎没怎么动。

Sarah 追问:那「在代码上变聪明会让其他领域也变聪明」这个假设,是不是不太成立?

我觉得没有成立。也许有一点点迁移,但远没有达到令人满意的程度。

你要么在「轨道上」,享受超级智能的速度。要么不在,那就是一团浆糊。

模型物种分化

Sarah 问了一个「异端」问题:既然这种参差一直存在,是不是应该把模型拆开,针对不同领域分别优化?

Karpathy 觉得这件事应该会发生,但目前还没怎么看到。

动物界的大脑是极其多样的。有的动物视觉皮层特别发达,有的听觉特别强。我们应该也能看到模型的「物种分化」(speciation)。你不需要一个什么都会的全能神谕,你可以让它特化。

他举了一个例子:如果你是用 Lean 写证明的数学家,已经有一些模型专门针对这个领域做了优化。在吞吐量和延迟上,特化模型会有明显优势。

但现在呢,各大实验室还在搞「单一栽培」:一个模型,塞进所有知识,服务所有场景。

原因之一是,它们面对的是未知的用户请求,必须什么都能答。另一个原因,是操控模型「大脑」的科学还不够成熟。微调容易丢失原有能力,持续学习也还在早期。

改 context window 成本低,改权重代价大。

这就是为什么定制化目前还主要靠上下文,而不是靠改模型本身。

Sarah 还提出了一个角度:算力供给吃紧,是否会加速特化?如果你没法给每个场景都用最大号的模型,效率就开始变得重要了。

Karpathy 觉得逻辑说得通,但实际上还没看到太多例子。

杰文斯悖论

聊到就业,Karpathy 最近分析了一批美国劳工统计局的数据,还引发了不少争议。

他的观察角度是:

现在发展的 AI,本质上是一种「数字幽灵」(digital ghost/spirit entity),能在数字世界里操纵信息,但没有物理存在。

翻转比特比加速原子容易太多了,所以数字空间里那些能远程完成的工作,会先被彻底重写

这不代表这些岗位会消失,因为还涉及到需求弹性等经济学因素。但工作方式一定会变。

对于软件工程这个职业,Karpathy 持「谨慎乐观」的态度。

软件需求之所以没有更大,是因为软件太贵了。如果成本大幅下降,需求反而会上升。

这就是杰文斯悖论。经典案例是 ATM 和银行柜员:大家当年担心 ATM 会消灭柜员,结果 ATM 降低了开设银行网点的成本,网点变多了,柜员反而也多了。

代码现在是「即时的」,可以随时修改,你不用再被迫使用那些不完美的既有工具了。我觉得这会释放出巨大的软件需求。

他甚至提到了在 OpenAI 时的经历。

我当时在 OpenAI 内部转了一圈,跟大家说:如果我们成功了,我们全都要失业。我们就是在给 Sam,或者说给董事会,造自动化工具而已。

那些前沿实验室的研究员们,也感受到了同样的精神病。他们在自动化自己。而且……它在起作用。

不过 Karpathy 也坦言:长期实在不好预测。短期来看,数字领域会出现大量的「释放」。但物理世界的变化,会慢上不少。

开源的位置

Karpathy 是开源的长期拥护者。

他的判断是:开源目前落后闭源大概 6-8 个月,而且这个差距一直在缩小。中国模型和全球其他模型的表现,比行业预期要好。

他拿 Linux 做类比:Windows 和 macOS 是闭源的,但 Linux 跑在 60% 以上的计算机上。行业总是需要一个共同的、开放的平台。

中心化的历史记录,一塌糊涂。我希望有更多实验室存在。在机器学习里,集成(ensemble)永远比单一模型表现好。我希望做决定的时候,房间里有更多人。

他的理想格局是:

前沿实验室推进闭源模型的边界,开源模型落后几个月但覆盖大量基础场景。对于绝大多数消费级场景,当前的开源模型已经够用了,未来甚至能在本地跑。

但前沿级智能(比如诺贝尔奖级别的研究、把 Linux 从 C 迁移到 Rust 这样的超大工程)仍然需要闭源模型。

目前这个格局……倒有几分是误打误撞出来的。

不过他也有担忧:闭源这边似乎在进一步中心化,领跑者的数量在减少。

我希望有更多前沿实验室。两三个人关起门来做决定,那不是一个好的未来。

为什么不回实验室

Sarah 替观众问了 Noam Shazeer 提出的问题:你可以拿着大量算力、一群同事,在前沿实验室做 AutoResearch,为什么不呢?

这事的背景可以看我前面的文章:OpenAI 推理一哥怼 Karpathy:人类最关键时刻,你为什么不在前线?

Karpathy 的回答坦诚,但也纠结。

他确实在前沿实验室待过。但他觉得在外面也能产生巨大的影响力,特别是在「生态系统」层面。

而且,在实验室内部有一些他不太舒服的地方。

你没法做一个完全自由的人。有些话你不能说,有些话组织希望你说。没人会扭你的胳膊,但你能感受到那种压力。奇怪的眼神,尴尬的对话。

他说自己在外面,感觉「更和人类站在一起」,而不是和某个组织站在一起。

当然他也承认,离开前沿实验室会有一个问题:你的判断会慢慢漂移。因为你不知道下一代模型长什么样,你对系统底层的理解会逐渐过时。

所以也许最理想的状态是来回切换。进去做一阵,出来做一阵。

数字、接口、物理

Karpathy 对未来的技术路径有一个框架:先数字、再接口、最后物理。

他的逻辑是:人类积累了大量已经数字化的信息,但从来没有足够的「思考周期」去处理它们。现在 AI 来了,第一波冲击就是巨大的「数字释能」,把已有的数字信息重新整理、优化、利用。

他把 AI 称为数字信息的「第三种操纵者」,在人类和传统计算机之后。

我们即将看到数字空间里一场大规模的「重写」。这会像是在给人类超级有机体升级神经系统。

然后是数字和物理世界的接口:传感器和执行器。他提到了朋友 Liam 的公司 Periodic,在做材料科学的 AutoResearch。在那个场景下,「传感器」是昂贵的实验室设备。生物学领域也类似。

他还提到了另一个方向:有公司在付费收集训练数据,本质上也是在给智能体制造「传感器」。

最后才是全面的物理世界自动化。

物理世界的 TAM 可能比数字世界大得多,机会也更大。但原子比比特难一百万倍。所以它会滞后,但一旦到来,规模也会更大。

聊到机器人,Karpathy 用自动驾驶的经验做了类比。十年前有大量自动驾驶创业公司,但大多数没撑下来。需要的资本投入太大,时间太长。

机器人也会是一样的。因为涉及物理世界,一切都更难、更慢、更贵。

信息市场

他还提到了一个很有想象力的方向:信息市场

比如某个地方发生了什么事,从现场拍一张照片应该值 10 美元。

因为这是在给智能体「喂」数据。最终消费这些信息的并非人类,而是 Agent,它们在 Polymarket 上猜赔率,在股票市场上做决策。

如果 Polymarket 这些博彩平台有越来越多的自主 Agent 在跑,为什么没有一个信息市场让人给它们提供数据呢?

他引用了一本叫《Daemon》的科幻小说。书中的智能体最终像「牵线木偶」一样操纵人类:人类既是它的传感器,也是它的执行器。

我觉得社会在某种程度上会朝着这个方向重塑。会有越来越多的自动化,产生各种需求,而人类会去服务这些需求。服务的对象不再是彼此,而是那台机器。

教育变了

最后聊到了 MicroGPT,Karpathy 持续了十几年的一个执念:把 LLM 训练精简到最本质。

结果是 200 行 Python。

包含注释在内。数据集、网络架构(50 行)、反向传播的 autograd 引擎(100 行)、Adam 优化器(10 行)、训练循环。

训练神经网络的代码量其实很大,但所有那些复杂度,都来自效率优化。如果你不在乎速度,只看算法本身,200 行就够了。

但他本来想做一个讲解视频,走了一半发现……没必要了。

200 行代码,任何人都可以让 Agent 用各种方式解释给自己听。我不再是给人讲东西了。我是给 Agent 讲,Agent 再转述给人。

他甚至设想了一种新的教育形态:给代码库写一个 Skill(也就是给 Agent 的教学指南),描述应该按什么顺序、什么路径来带学生。

如果你有一个代码库,以前你要写 HTML 文档给人看。现在你应该写 markdown 文档给 Agent 看。因为 Agent 理解了之后,它能解释任何部分。

教育者不再直接面对学生,而是面对 Agent。给人写文档的时代,该结束了。

Karpathy 试过让 Agent 自己写一个 MicroGPT。写不出来。200 行的极简方案是他十几年执念的结晶。

但写出来之后的一切,Agent 都能接手。

这就是我的价值所在:那几个 bit。其余的,教育、解释、适配,不再是我的领域了。

Agent 能做的事,它很快就能比你做得更好。

你的工作,是做那些 Agent 做不了的。

然后战略性地花时间在上面。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询