2026年3月27日,来腾讯会议(限50人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Google 发了个压缩算法,内存砍 6 倍,速度快 8 倍,精度零损失

发布日期:2026-03-26 12:30:29 浏览次数: 1548
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Google最新TurboQuant算法突破性压缩大模型KV Cache,内存节省6倍、速度提升8倍且精度无损,彻底解决传统量化存储难题。

核心内容:
1. KV Cache内存占用问题与行业痛点
2. TurboQuant极坐标量化与传统方法对比
3. PolarQuant+QJL组合实现零精度损失压缩

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Google Research 昨天发了篇博客,介绍了一个叫 TurboQuant 的压缩算法,将在下个月的 ICLR 2026 上正式发表。

一句话概括:把大模型的 KV Cache 压缩到 3 bit,内存占用降 6 倍,推理速度快 8 倍,精度损失为零。

零。

不是「接近零」,不是「可忽略」,是在所有基准测试上跑出了和未压缩版本一模一样的分数。

这,就值得好好说说了。

先说 KV Cache

:::

大模型在生成回答时,有个东西叫 KV Cache,也就是 Key-Value 缓存。

你可以把它理解成模型的「草稿纸」,每生成一个 token,它都要回头看看之前写了什么,而 KV Cache 就是存储这些「之前写了什么」的地方。

问题在于……这张草稿纸会越来越大。

KV Cache 越聊越胖
KV Cache 越聊越胖

对话越长,草稿纸越厚。

上下文窗口从 8K 到 128K 再到百万级,KV Cache 的内存占用也跟着线性膨胀。到了一定程度,GPU 的显存就不够用了,要么缩短上下文,要么加更多显卡。

这就是为什么之前对于 1M token 的上下文模型,比如说 Claude 的模型,它会在超过一定窗口之后,要收取更高价格。因为费卡啊!

所以 KV Cache 压缩,一直是业界的刚需。

老办法的尴尬

:::

传统的做法是向量量化,把 32 位的浮点数压成更少的位数。听起来很直接对吧?

但这里有个尴尬的地方:量化本身需要存储一些「校准常数」,这些常数得用全精度保存,每个数字额外占 1 到 2 bit。

打个比方,你好不容易把行李箱里的衣服用真空袋抽成了纸片,正准备拉上拉链,结果发现每个真空袋上还得贴一张 A4 大小的操作说明。十件衣服十张说明,箱子又鼓起来了。

压缩的悖论
压缩的悖论

压缩带来的好处,被压缩本身的开销吃掉了一部分。

TurboQuant 要解决的,就是这个问题。

极坐标的妙用

:::

TurboQuant 其实是两个算法的组合:PolarQuant 和 QJL。

先说 PolarQuant。

PolarQuant 坐标转换示意
PolarQuant 坐标转换示意

传统量化在笛卡尔坐标系下工作,也就是我们熟悉的 X、Y、Z 轴。PolarQuant 做了一件事:把向量从笛卡尔坐标系转换到极坐标系。

这是什么意思呢?

想象你在一张方格纸上标记一个点的位置。笛卡尔坐标系的做法是:向右走 3 格,向上走 4 格。极坐标的做法则是:朝 53 度方向,走 5 步。

方格纸到罗盘的转换
方格纸到罗盘的转换

描述同一个点,但极坐标的表示方式有个天然优势:角度的分布是可预测的、集中的。

这意味着,你不需要额外存储那些占空间的校准常数了。

方格纸换成了罗盘,清单就不需要了。

这一步,PolarQuant 负责主要的压缩工作,把数据压到很小的体积,同时保留了关键信息。

1 bit 扫尾

:::

但光靠 PolarQuant 还不够……压缩之后总会有残余误差。

这时候 QJL 登场了,全称 Quantized Johnson-Lindenstrauss。

QJL 的思路相当大胆:它用 Johnson-Lindenstrauss 变换来处理残余误差向量,然后把每个值压缩到……1 个 bit。

对,就是正或负,+1 或 -1,没有中间地带。

听起来粗暴得离谱对吧?但妙的地方在于,QJL 在计算 attention 分数时,用的是未压缩的高精度 query 向量和压缩后的 key 向量配合工作。高精度的那一侧「兜住了」低精度那一侧的误差。

额外内存开销:零。

PolarQuant 做主力压缩,QJL 做 1-bit 扫尾,两者合在一起就是 TurboQuant。最终实现了 3-bit 的 KV Cache 压缩,而且不需要重新训练模型,不需要微调,不需要针对特定数据集做校准。

拿来就能用。

TurboQuant 两步压缩流程
TurboQuant 两步压缩流程

跑分全满

:::

来看效果。

Google 的团队在五个长上下文基准测试上做了验证:LongBench、Needle In A Haystack(大海捞针)、ZeroSCROLLS、RULER、L-Eval,用的模型是开源的 Gemma 和 Mistral。

结果是:所有基准测试上,压缩后的模型和未压缩版本得分完全一致。

TurboQuant 成绩单
TurboQuant 成绩单

在 NVIDIA H100 GPU 上,4-bit 的 TurboQuant 在计算 attention logits 时比 32-bit 未量化的 key 快了 8 倍

而在向量搜索任务上,TurboQuant 也打败了现有最好的方法(Product Quantization 和 RabbiQ),在 GloVe 数据集上的召回率更高,同时内存占用更少。

换句话说,压得更小,跑得更快,还找得更准。

不只是论文

:::

通常一篇论文发完,大家看看就过去了。但 TurboQuant 的情况,有些不一样。

论文放出来没几天,社区就已经有人用 PyTorch、MLX(Apple Silicon)和 C/CUDA(给 llama.cpp 用的)分别做出了可运行的实现,而且核心指标都得到了验证。

可以说,算法本身够简洁,不依赖复杂的训练流程,独立开发者几天就能复现。

团队阵容方面,除了 Google 的 Amir Zandieh 和 Vahab Mirrokni(Google Fellow),还有来自 KAIST 和 NYU 的研究者参与,三篇相关论文分别发在 ICLR 2026、AAAI 2025 和 AISTATS 2026。

未来影响

:::

TurboQuant 解决的问题,表面上看是「省显存、提速度」。但往远了想,它动的其实是 AI 部署的门槛。

现在跑大模型,动辄需要几块 H100,一年下来光算力成本就是天文数字。如果 KV Cache 能压缩 6 倍,同样的显存就能装下更长的上下文,或者服务更多的并发请求。对云端来说,这直接就是成本账。

而对本地部署来说,意义可能更大。32GB 显存的消费级显卡,原本只能勉强跑个 7B 模型的长上下文,压缩 6 倍之后,想象空间就打开了。

更远一点……手机、边缘设备、嵌入式系统,这些地方内存寸土寸金,TurboQuant 这类技术可能是 AI 真正进入这些场景的前提条件。

有人评论称:

这可能是 2026 年最重要的创新之一。

说「最重要」可能有些夸张了。

但我想,至少可以说,最性感的 AI 突破,未必来自下一个万亿参数的巨无霸模型,而可能来自这种聪明的数学技巧。

压缩、量化、高效计算,

这也许才是,让 AI 真正无处不在的关键。




相关链接:

•  Google Research 博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ 

•  TurboQuant 论文:https://arxiv.org/abs/2504.19874 

•  QJL 论文:https://arxiv.org/abs/2406.03482 

•  PolarQuant 论文:https://arxiv.org/abs/2502.02617 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询