我要投稿

5亿美元融资之后，杨植麟首次深度分享Kimi的技术重点（含演讲全文）

发布日期：2026-01-10 19:32:56 浏览次数： 2027

作者：腾讯科技

微信搜一搜，关注“腾讯科技”

1月10日，很久没有公开露面的月之暗面创始人杨植麟，在一场定向邀请的行业论坛中，详细地分享了2025年Kimi的技术路线重点，以及对未来的思考。

这次分享，有一个核心关键词，Agentic智能时代。这是通用大模型竞争的一个未来高地，它意味着模型从 “被动响应的文本生成工具”，进化为可以“主动规划、自主决策、能完成复杂任务的智能代理”，可以解锁更多的应用场景、激发更新鲜和AI-native的商业模式。

要提升Agentic智能，就必须能够完成复杂的长程任务。2025年，月之暗面的两个技术进化的主线就是提升“Token Efficiency”，以在有限的数据下冲击更高的智能上限；以及扩展“长上下文”（Long Context）能力，以满足Agentic时代越来越长程的任务对模型的记忆能力需求。

2025年略显低调的月之暗面，也刚刚被爆出新一轮的5亿美元融资，杨植麟也发布内部信给团队打气，“我们有超过100亿人民币的现金储备。”在通往AGI的征途上，粮草充足。

这位90后的创始人，在这次分享中，也提出了技术哲学意味的观点“做模型的过程，本质上是在创造一种世界观，它体现了我们对于‘一个好的AI应该是什么样、应该追求何种价值观’的理解。

在杨植麟看来，每个token都是独一无二的，所以每个模型也是独一无二的。他也会与它的Kimi对话来寻找灵感，Kimi告诉他：AGI并非一个普通的工具，而是一个能提升人类文明上限、延伸人类认知边界的关键。尽管存在风险，仍然应该选择继续开发人工智能，因为放弃开发，就意味着放弃人类文明的上限。

杨植麟在演讲的最后说：“所有的技术突破都伴随着风险，但我们不能因恐惧而停滞不前。因此，我们希望在接下来的十年、二十年里，继续把K4、K5到K100做得更好。”

以下为演讲实录：

今天非常高兴有机会能跟大家分享我们在技术上的一些探索与思考。从2019年至今，所有大模型均基于同一个第一性原理——scaling law（缩放定律）。从能源转换为智能的视角审视，拥有更好的方法或更优的芯片，便能将能源更有效、更大量地转换成更高级的智能。

核心要点可总结为：当具备更多的算力、数据和模型参数后，模型的loss（损失）便会线性下降，这构成了整个技术发展的基础。

回顾最早提出scaling law的Caplan的文章，对比了Transformer和LSTM在scaling law意义下的区别，其中包含了非常重要的洞察。图表显示，无论在何种参数量级，Transformer的loss始终低于LSTM。

这意味着，在scaling law的尺度下，使用更少的flops（计算量）或参数即可得到更好的scaling效果。这已成为一个共识，也是Transformer后来成为主流架构的核心原因，因其在scaling上表现更佳。

可以说，当前所有的模型架构迭代，都是为了寻找一条能够更接近图表左下角的曲线。一个网络架构越接近左下角，便意味着它是一个更优的架构。在当前背景下，这一点尤为重要，因为互联网的存量数据有限，而高质量数据的增长速度已赶不上模型规模扩展的速度。因此，当拥有一个更优、更靠左下角的架构时，智能上限也相应更高。

然而，真正关键的在于另一张图所揭示的、但可能被许多人忽略的洞察：Transformer为何更优？答案在于它对上下文不同位置的处理机制。以一个100K长度的上下文为例，通过计算从第一个到第十万个token各自的loss，可以绘制出一条positional loss（位置损失）曲线。

观察发现，在序列的前期，例如前100个token内，Transformer与LSTM的表现几乎完全一致，两条曲线交错重叠。这说明，在极短的上下文环境中预测后续内容，两者的效果是等价的。因此，在短上下文场景下，Transformer并非更优的架构。

Transformer的架构优势体现在长上下文场景中。实验表明，当上下文长度增加到1000个token时，代表Transformer的蓝线会显著下降到代表LSTM的红线之下，显示出卓越的性能。

这个视角揭示了架构在不同上下文长度下的优势差异，这是一个至关重要的指标。

在当前的Agentic（代理智能）时代，这个问题变得尤为突出，因为许多Agent任务要求极长的上下文来完成高度复杂的指令。因此，一个拥有更低positional loss的架构，意味着它在执行Agent任务时具备更强的技术潜力。

我们的预训练策略，乃至整个模型的设计策略，便是围绕上述两个维度展开。第一个维度是提升tokenefficiency。在以训练token数量为横坐标、测试损失为纵坐标的图上，我们的目标是尽可能将曲线向左平移。曲线越靠左，tokenefficiency越高，意味着可以用更少的token达到同等效果。

由于预训练的瓶颈在于token总量的有限性，这等效于：在耗尽所有token后，智能的上限更高，因为最终的loss更低。这是我们进行预训练时一个极为重要的指标和优化方向。

第二个维度是实现long context（长上下文）。通过观察上下文位置与testloss的关系图可以发现，延长上下文能有效降低损失。这也解释了为何当前许多复杂的Agent任务必须在超长上下文中才能完成——延长上下文必然会降低loss，而一个优秀的Architecture（架构）则能使loss下降得更多。

相比之下，如LSTM或更早的CNN、RNN等架构，在处理超过100个token后，loss曲线便趋于平缓，因此只能胜任翻译这类相对简单的任务，而无法承担从零开始编写一个完整代码仓库的编程任务。综上，将tokenefficiency与long context的优化相结合，最终便能实现更高水平的Agent智能。

在此基础上，我们有两项主要工作成果。

一是研发了一款新型二阶优化器。传统的Adam优化器作为标志性的一阶优化器已沿用近十年，而我们发现，采用二阶优化器能取得非常好的效果，具体体现为两倍的tokenefficiency提升。这意味着，达到相同的test loss，仅需一半的TOKEN。等效而言，使用相同数量的TOKEN，最终的loss会小得多，从而实现了一倍的scaling效果。

另一项重要工作是我们最新研究的KimiLinear架构。这个架构的优点在于，它的positional loss随着上下文位置的拉长，下降幅度非常显著，这意味着它在各类长上下文任务上的效果将得到极大提升。

最终，我们将这两项工作相结合，相信能在模型训练策略上达到最优的Agent效果。所有这些努力，都是为了构建更强大的Agent。为何要关注tokenefficiency？因为Agent的推理和训练本质上是一个搜索过程。

例如，要从零开始开发一个Linux操作系统，这本质上是一个搜索问题。若拥有无限的计算资源，便可以枚举所有可能性，从中找出最优解。但搜索的核心在于通过先验知识进行剪枝，以提升效率。当今的Agent，正是以模型作为强大的先验知识，从而在搜索过程中无需遍历每一种无意义或错误的token组合。一个更优的预训练基础模型，实际上缩小了搜索空间，提供了更强的先验。

当然，当前也有许多研究在探索如何减少对先验的依赖，期望未来能像AlphaZero一样，在极少甚至没有先验的情况下实现AGI（通用人工智能）。但我认为，基于先验实现AGI的路径会更早到来。

整个领域或许会先基于先验实现AGI，再去探索在先验知识逐渐减少的条件下实现ASI（超级人工智能）的方式。在此框架下，一个更强的模型等价于更强的先验。在有限的数据下，拥有更大的“脑容量”和更高的学习效率，意味着更高的智能。

因此，更强的先验能够塑造更强大的Agent。而context则是另一个维度，Agent的行为需要工作记忆，更强的环境感知能力使其能胜任长程任务。最终，Agent的智能是这两者的结合。

在2025年的技术迭代中，Kimi正是沿着这两个方向不断进行新的探索和实践。首先，在优化器方面，我们通过大量实验，发现并融入了一些关键技巧，例如加入WeightDecay机制、匹配RMS的更新尺度等。

我们观察到，相较于Adam优化器在1.0范围内的更新，若将新优化器的更新尺度与IRMS匹配，效果会更佳。通过这些重要改进，我们得到了一款真正有效、且在各方面都经得起时间考验的新优化器，它带来了两倍的tokenefficiency提升。

需要强调的是，这里的efficiency不仅关乎效率，更决定了智能的上限，因为TOKEN数量是有限的。经过多项公平比较，新优化器在所有任务上均表现出性能提升，这本质上等价于用同样的资源训练出了别人两倍token量才能达到的效果。

当然，在规模化应用此优化器的过程中，我们也遇到了一些挑战。在中等规模的实验中，优化过程出现了不稳定的情况。具体表现为，Max logit（最大logit值）呈现爆炸式增长，这是一种不健康的现象，会导致训练不收敛、loss爆炸，最终影响模型效果。为解决此问题，我们尝试了多种方法，如QK norm等，但效果不彰。最终，我们采用了一种新的QK-Clip方法，取得了非常好的效果。

其核心细节在于，在进行q和k的映射时，会乘以一个由当前QK最大值动态决定的数值，从而将logit值约束在一个特定范围内。这样做的效果是显著的：在不影响模型最终性能的前提下（两条loss曲线完全重叠，严丝合缝），模型的内部指标，即logit的取值，变得健康许多。

从图上可以看到，logit值在初期上涨到一定程度后，便被QK clip机制有效压制，随后在模型适应后甚至会自动回落。这种机制极大地稳定了训练过程，使得这款全新的优化器能够在一万亿参数级别的K1、K2模型上稳定运行，避免了训练崩溃的风险。

这张完全平稳下降的loss曲线图，是我在2025年见过的最美的景象。在整个15T TOKEN的训练过程中，没有任何尖峰（spike），模型全自动地抑制了logit的异常，平稳地收敛到一个极佳的状态。这证明了，一个优雅的方法可以导向一个优雅的结果。

在这个优秀的KimiK2基础模型之上，我们进一步做了大量的强化学习后训练，KimiK2Thinking的结果非常出色。

其中最重要的几点是：首先，我们在各种Agent能力上实现了全面提升，足以对标美国的前沿公司。其次，在最核心的Benchmark（基准测试）上，例如极其困难的HLE（humanities large exam），我们的模型准确率达到了45%，超过了OpenAI。

在核心基准上超越顶尖对手，这是一个重要的里程碑（Milestone）。

同时，我们的模型是一个完全的Agentic模型，其中是中国第一个Agentic模型。在K2thinking模型的基础上，我们又做了大量升级，使它能够完成连续两三百步的复杂工具调用，解决人类难以理解的难题。

得益于这些发展，中国的开源模型正逐渐成为新的行业标准。例如，NVIDIA在发布新产品时，已开始使用中国的开源模型进行标准测试，这体现了开源的巨大价值。

我们希望有更多中国的开源力量，让中国的模型能够逐渐成为标准的制定者。在K2之后，我们仍在继续探索下一代模型的形态。我们开源的Kimi Linear工作，便是前期的初步尝试，未来我们还会在此基础上做更多的优化和改进，以训练K3模型。

其中，最重要的改进是一种名为KimiDeltaAttention的新的线性注意力机制。线性注意力技术已存在一段时间，但始终未被最前沿的主流模型采用，其根本原因在于它在长距离任务上性能会下降。当上下文变长后，线性注意力的效果便不如原始的Transformer全注意力模型。

在一个需要长程能力的时代，这是一个致命缺陷。

Kimi Linear架构最重要的贡献，是首次让线性注意力机制在长程任务上的表现超越了全注意力模型，同时因其线性特性，效率大幅提升，在百万级上下文长度下，端到端速度可提升6到10倍。此外，它还改进了现有线性注意力表达能力不足等缺点。

因此，Kimi Linear是第一个无论在短程、长输入还是长输出任务上，效果均优于全注意力机制的线性注意力架构，这使它在实践中具有非常重要的应用价值。

其具体公式的核心在于，下一时刻的状态（ST）是在上一时刻状态（ST-1）的基础上，通过线性的key-value计算进行更新。其中，一个关键的创新是采用了fine-grained（细粒度）的对角化矩阵（αt），使得状态向量的每一个维度都能被精准控制，从而精细地调节有多少记忆从上一时刻流传到当前时刻。

这极大地增强了模型的表达能力。然而，这种增强如果实现方式粗糙，会带来效率的大幅下降。为此，我们进行了大量的工程优化。

通过对原始公式进行一系列变换，我们得到了一个在工程实现上极具优势的新形式。它比DPLR等方法更高效，减少了矩阵层操作，整体效率非常高。这说明，要得到一个好的架构，必须将底层的工程优化与模型的架构设计紧密结合。仅仅改动模型架构，而没有高效的实现，是难以取得好效果的。同时，相比于之前的许多线性注意力架构，Kimi Linear在表达能力上具有显著优势。

从效果对比图上可以清晰地看到：在性能上，无论是MMLU等短程任务，还是长程任务，Kimi Linear在同等计算量和数据下，表现均显著优于之前的线性注意力或全注意力架构。在速度上，它与之前的线性注意力一样快，但比全注意力快得多。

接下来，我们会在K2的基础上进行更多的scaling。这种scaling不仅是增加算力，更包含了大量的技术改进，而这些技术改进也会等效地转化为scaling的优势。除了架构、优化器和数据，一个至关重要的点是，未来的模型将拥有更多的taste，即品味和审美。

做模型的过程，本质上是在创造一种世界观，它体现了我们对于“一个好的AI应该是什么样、应该追求何种价值观”的理解，这正如乔布斯所言：“all comes down to taste”。

我们坚信这一点，因为智能与电力、货币等同质化（fungible）事物不同，它本质上是“非同质化”（non-fungible）的。每个模型产生的token都是独一无二的，就像一位CEO、一位设计师或一位音乐家产生的智能是完全不同的一样。

在智能这个维度，存在着广阔的“品味”空间。在Agent的世界里，由于test-time scaling的存在，这种差异性会被指数级放大，催生出更多新颖的用例。这正是我们未来的一个重要目标。

我也经常与Kimi对话。在此分享一段有意思的对话：我们正在创造AGI，它的到来或许能开启更美好的未来，让我们能一同探索宇宙；但它也可能威胁到人类，特别是当它能完成大量自动化任务，甚至与机器人结合时。在这种情况下，作为AGI的科学家，是否应该继续开发？

Kimi的答案很有启发性。它认为，AGI并非一个普通的工具，而是一个能提升人类文明上限、延伸人类认知边界的关键。今天我们面临的许多难题，如癌症、能源危机、社会问题等，或许都能通过它找到答案。它是我们探索未知世界的一把重要的钥匙。

所以，尽管存在风险，它的回答是仍然会选择继续开发。因为放弃开发，就意味着放弃人类文明的上限。我们不应害怕技术的风险，而应进一步去突破，并在此过程中控制好风险。所有的技术突破都伴随着风险，但我们不能因恐惧而停滞不前。因此，我们希望在接下来的十年、二十年里，继续把K4、K5到K100做得更好。

谢谢大家。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业