Google 发了个压缩算法，内存砍 6 倍，速度快 8 倍，精度零损失

发布日期：2026-03-26 12:30:29 浏览次数： 2701

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

Google Research 昨天发了篇博客，介绍了一个叫 TurboQuant 的压缩算法，将在下个月的 ICLR 2026 上正式发表。
一句话概括：把大模型的 KV Cache 压缩到 3 bit，内存占用降 6 倍，推理速度快 8 倍，精度损失为零。
零。
不是「接近零」，不是「可忽略」，是在所有基准测试上跑出了和未压缩版本一模一样的分数。
这，就值得好好说说了。
先说 KV Cache:::大模型在生成回答时，有个东西叫 KV Cache，也就是 Key-Value 缓存。
你可以把它理解成模型的「草稿纸」，每生成一个 token，它都要回头看看之前写了什么，而 KV Cache 就是存储这些「之前写了什么」的地方。
问题在于……这张草稿纸会越来越大。
对话越长，草稿纸越厚。
上下文窗口从 8K 到 128K 再到百万级，KV Cache 的内存占用也跟着线性膨胀。到了一定程度，GPU 的显存就不够用了，要么缩短上下文，要么加更多显卡。
这就是为什么之前对于 1M token 的上下文模型，比如说 Claude 的模型，它会在超过一定窗口之后，要收取更高价格。因为费卡啊！
所以 KV Cache 压缩，一直是业界的刚需。
老办法的尴尬:::传统的做法是向量量化，把 32 位的浮点数压成更少的位数。听起来很直接对吧？
但这里有个尴尬的地方：量化本身需要存储一些「校准常数」，这些常数得用全精度保存，每个数字额外占 1 到 2 bit。
打个比方，你好不容易把行李箱里的衣服用真空袋抽成了纸片，正准备拉上拉链，结果发现每个真空袋上还得贴一张 A4 大小的操作说明。十件衣服十张说明，箱子又鼓起来了。
压缩带来的好处，被压缩本身的开销吃掉了一部分。
TurboQuant 要解决的，就是这个问题。
极坐标的妙用:::TurboQuant 其实是两个算法的组合：PolarQuant 和 QJL。
先说 PolarQuant。
传统量化在笛卡尔坐标系下工作，也就是我们熟悉的 X、Y、Z 轴。PolarQuant 做了一件事：把向量从笛卡尔坐标系转换到极坐标系。
这是什么意思呢？
想象你在一张方格纸上标记一个点的位置。笛卡尔坐标系的做法是：向右走 3 格，向上走 4 格。极坐标的做法则是：朝 53 度方向，走 5 步。
描述同一个点，但极坐标的表示方式有个天然优势：角度的分布是可预测的、集中的。
这意味着，你不需要额外存储那些占空间的校准常数了。
方格纸换成了罗盘，清单就不需要了。
这一步，PolarQuant 负责主要的压缩工作，把数据压到很小的体积，同时保留了关键信息。
1 bit 扫尾:::但光靠 PolarQuant 还不够……压缩之后总会有残余误差。
这时候 QJL 登场了，全称 Quantized Johnson-Lindenstrauss。
QJL 的思路相当大胆：它用 Johnson-Lindenstrauss 变换来处理残余误差向量，然后把每个值压缩到……1 个 bit。
对，就是正或负，+1 或 -1，没有中间地带。
听起来粗暴得离谱对吧？但妙的地方在于，QJL 在计算 attention 分数时，用的是未压缩的高精度 query 向量和压缩后的 key 向量配合工作。高精度的那一侧「兜住了」低精度那一侧的误差。
额外内存开销：零。
PolarQuant 做主力压缩，QJL 做 1-bit 扫尾，两者合在一起就是 TurboQuant。最终实现了 3-bit 的 KV Cache 压缩，而且不需要重新训练模型，不需要微调，不需要针对特定数据集做校准。
拿来就能用。
跑分全满:::来看效果。
Google 的团队在五个长上下文基准测试上做了验证：LongBench、Needle In A Haystack（大海捞针）、ZeroSCROLLS、RULER、L-Eval，用的模型是开源的 Gemma 和 Mistral。
结果是：所有基准测试上，压缩后的模型和未压缩版本得分完全一致。
在 NVIDIA H100 GPU 上，4-bit 的 TurboQuant 在计算 attention logits 时比 32-bit 未量化的 key 快了 8 倍。
而在向量搜索任务上，TurboQuant 也打败了现有最好的方法（Product Quantization 和 RabbiQ），在 GloVe 数据集上的召回率更高，同时内存占用更少。
换句话说，压得更小，跑得更快，还找得更准。
不只是论文:::通常一篇论文发完，大家看看就过去了。但 TurboQuant 的情况，有些不一样。
论文放出来没几天，社区就已经有人用 PyTorch、MLX（Apple Silicon）和 C/CUDA（给 llama.cpp 用的）分别做出了可运行的实现，而且核心指标都得到了验证。
可以说，算法本身够简洁，不依赖复杂的训练流程，独立开发者几天就能复现。
团队阵容方面，除了 Google 的 Amir Zandieh 和 Vahab Mirrokni（Google Fellow），还有来自 KAIST 和 NYU 的研究者参与，三篇相关论文分别发在 ICLR 2026、AAAI 2025 和 AISTATS 2026。
未来影响:::TurboQuant 解决的问题，表面上看是「省显存、提速度」。但往远了想，它动的其实是 AI 部署的门槛。
现在跑大模型，动辄需要几块 H100，一年下来光算力成本就是天文数字。如果 KV Cache 能压缩 6 倍，同样的显存就能装下更长的上下文，或者服务更多的并发请求。对云端来说，这直接就是成本账。
而对本地部署来说，意义可能更大。32GB 显存的消费级显卡，原本只能勉强跑个 7B 模型的长上下文，压缩 6 倍之后，想象空间就打开了。
更远一点……手机、边缘设备、嵌入式系统，这些地方内存寸土寸金，TurboQuant 这类技术可能是 AI 真正进入这些场景的前提条件。
有人评论称：
这可能是 2026 年最重要的创新之一。
说「最重要」可能有些夸张了。
但我想，至少可以说，最性感的 AI 突破，未必来自下一个万亿参数的巨无霸模型，而可能来自这种聪明的数学技巧。
压缩、量化、高效计算，
这也许才是，让 AI 真正无处不在的关键。