告别巨型Transformer，谷歌DeepMind全新架构横空出世！

发布日期：2025-08-12 08:30:39 浏览次数： 2217

作者：AgenticAI

微信搜一搜，关注“AgenticAI”

它实现了 2 倍的推理速度，内存使用降低一半，彻底重新思考了 AI 模型“思考”的方式。

这不仅仅是一次更新……而是一场革命。好了，科技圈请注意。偶尔会有那么一篇研究论文，不是那种渐进式的改进，而是可能带来维度跃迁的突破。谷歌 DeepMind（联手 KAIST AI 和 Mila 的研究人员）刚刚发布了一篇这样的论文，叫做Mixture-of-Recursions：学习动态递归深度以实现自适应的 Token 级计算^[1]，它有可能成为 Transformer 的终结者。我知道，这说法挺大胆。但请耐心听我讲。这真是一篇值得认真解读的有趣论文。

1. 问题所在

Transformer 不过是被美化的蛮力机器

这几年，实现更强 AI 的路线非常简单粗暴：做得更大。从 ChatGPT 到 Gemini，所有这些都基于 Transformer 架构，这就是“大即是好”的最佳体现。但这座“大厦”却建立在惊人低效的基础上。

想象一下，标准 Transformer 就像一栋 32 层的摩天大楼，每个员工——无论职位多么不同——每天都得挨个走完这 32 层。

跑去买咖啡的实习生？全跑 32 层。做出数十亿美元决策的 CEO？也全跑 32 层。

这导致两个巨大的、不可持续的问题：

惊人的计算浪费：这简直是傻瓜操作。模型处理简单词汇如“the”，“and”，“is”的计算深度和处理“认识论”（epistemology）或者“超导”（superconductivity）这种复杂词汇是一模一样的，浪费了大量能量。
KV 缓存噩梦：这才是真正的瓶颈。推理时，模型必须保存每个 token 在每层的 key-value 缓存，这个缓存呈二次方增长，占用了大量 GPU 内存。这是大模型运行代价巨大的最大原因，也是扩展上下文窗口面临的最大工程难题。

多年来，我们尝试用量化、剪枝、专用缓存等技巧来修补，但这些都是给根本设计缺陷贴的创可贴。我们一直在努力让摩天大楼更节能，但真正需要的是一张全新的蓝图。

2. 进入 MoR

“智能外包”解决方案

Mixture-of-Recursions（MoR）架构不仅仅是修补旧楼，而是拆掉它，重建一个更智能的结构。它用两个巧妙的动作直击根源问题。

动作一：递归技巧（建造完美的单层）

MoR 没有造 32 层昂贵的楼，而只建了一个高效的“递归模块”，就像一个由多才多艺专家组成的精英团队所在的单层楼。一个任务（token）进来后，会被送到这一层。如果任务复杂，需要更多处理，不会跑去别的楼层，而是被送回同一团队再加工一轮，这就是递归。这大幅减少了模型的独立参数数量，让模型更小、更节省内存。但真正的巧妙在于如何决定哪些 token 需要更多“回合”。

动作二：混合魔法（雇一个聪明的门卫）

MoR 引入了一个小巧轻便的“路由器”，就像一个智能门卫或项目经理，负责动态决定每个 token 的递归深度。像“and”这样的简单功能词，路由器说：“你只跑一遍，完事，出去吧。” 而“光合作用”（photosynthesis）这种复杂、高价值名词，路由器会说：“你重要，需要多想几遍，跑三遍。”模型因此把最宝贵的计算资源，按 token 动态分配，真正实现了按需“外包”脑力。这种自适应计算被直接内嵌在架构 DNA 中。

3. 深入细节：底层工程

对机器学习爱好者来说，细节更精彩。论文探讨了两种路由和缓存的实现方式，各有权衡：

3. 1. 两种路由风格：谁来掌控？

专家选择（Expert-Choice）：把每个递归深度当作“专家”，比如“深度 3 专家”会选取最复杂的 10% token。优点是计算量固定无惊喜，但训练时会有“看到未来”的问题，研究者通过辅助损失解决了。
Token 选择（Token-Choice）：每个 token 自己决定要几层递归，更灵活，但可能导致“负载不均”，比如所有 token 都想跑三遍，容易塞车。

实验发现，专家选择结合线性路由器和辅助损失，效果最好，说明研究团队在实际应用上下了很大功夫。