2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

Google 发了个压缩算法,内存砍 6 倍,速度快 8 倍,精度零损失

发布日期:2026-03-26 12:30:29 浏览次数: 2701
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Google最新TurboQuant算法突破性压缩大模型KV Cache,内存节省6倍、速度提升8倍且精度无损,彻底解决传统量化存储难题。

核心内容:
1. KV Cache内存占用问题与行业痛点
2. TurboQuant极坐标量化与传统方法对比
3. PolarQuant+QJL组合实现零精度损失压缩

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Google Research 昨天发了篇博客,介绍了一个叫 TurboQuant 的压缩算法,将在下个月的 ICLR 2026 上正式发表。

一句话概括:把大模型的 KV Cache 压缩到 3 bit,内存占用降 6 倍,推理速度快 8 倍,精度损失为零。

零。

不是「接近零」,不是「可忽略」,是在所有基准测试上跑出了和未压缩版本一模一样的分数。

这,就值得好好说说了。

先说 KV Cache

:::

大模型在生成回答时,有个东西叫 KV Cache,也就是 Key-Value 缓存。

你可以把它理解成模型的「草稿纸」,每生成一个 token,它都要回头看看之前写了什么,而 KV Cache 就是存储这些「之前写了什么」的地方。

问题在于……这张草稿纸会越来越大。

KV Cache 越聊越胖

对话越长,草稿纸越厚。

上下文窗口从 8K 到 128K 再到百万级,KV Cache 的内存占用也跟着线性膨胀。到了一定程度,GPU 的显存就不够用了,要么缩短上下文,要么加更多显卡。

这就是为什么之前对于 1M token 的上下文模型,比如说 Claude 的模型,它会在超过一定窗口之后,要收取更高价格。因为费卡啊!

所以 KV Cache 压缩,一直是业界的刚需。

老办法的尴尬

:::

传统的做法是向量量化,把 32 位的浮点数压成更少的位数。听起来很直接对吧?

但这里有个尴尬的地方:量化本身需要存储一些「校准常数」,这些常数得用全精度保存,每个数字额外占 1 到 2 bit。

打个比方,你好不容易把行李箱里的衣服用真空袋抽成了纸片,正准备拉上拉链,结果发现每个真空袋上还得贴一张 A4 大小的操作说明。十件衣服十张说明,箱子又鼓起来了。

压缩的悖论

压缩带来的好处,被压缩本身的开销吃掉了一部分。

TurboQuant 要解决的,就是这个问题。

极坐标的妙用

:::

TurboQuant 其实是两个算法的组合:PolarQuant 和 QJL。

先说 PolarQuant。

PolarQuant 坐标转换示意

传统量化在笛卡尔坐标系下工作,也就是我们熟悉的 X、Y、Z 轴。PolarQuant 做了一件事:把向量从笛卡尔坐标系转换到极坐标系。

这是什么意思呢?

想象你在一张方格纸上标记一个点的位置。笛卡尔坐标系的做法是:向右走 3 格,向上走 4 格。极坐标的做法则是:朝 53 度方向,走 5 步。

方格纸到罗盘的转换

描述同一个点,但极坐标的表示方式有个天然优势:角度的分布是可预测的、集中的。

这意味着,你不需要额外存储那些占空间的校准常数了。

方格纸换成了罗盘,清单就不需要了。

这一步,PolarQuant 负责主要的压缩工作,把数据压到很小的体积,同时保留了关键信息。

1 bit 扫尾

:::

但光靠 PolarQuant 还不够……压缩之后总会有残余误差。

这时候 QJL 登场了,全称 Quantized Johnson-Lindenstrauss。

QJL 的思路相当大胆:它用 Johnson-Lindenstrauss 变换来处理残余误差向量,然后把每个值压缩到……1 个 bit。

对,就是正或负,+1 或 -1,没有中间地带。

听起来粗暴得离谱对吧?但妙的地方在于,QJL 在计算 attention 分数时,用的是未压缩的高精度 query 向量和压缩后的 key 向量配合工作。高精度的那一侧「兜住了」低精度那一侧的误差。

额外内存开销:零。

PolarQuant 做主力压缩,QJL 做 1-bit 扫尾,两者合在一起就是 TurboQuant。最终实现了 3-bit 的 KV Cache 压缩,而且不需要重新训练模型,不需要微调,不需要针对特定数据集做校准。

拿来就能用。

TurboQuant 两步压缩流程

跑分全满

:::

来看效果。

Google 的团队在五个长上下文基准测试上做了验证:LongBench、Needle In A Haystack(大海捞针)、ZeroSCROLLS、RULER、L-Eval,用的模型是开源的 Gemma 和 Mistral。

结果是:所有基准测试上,压缩后的模型和未压缩版本得分完全一致。

TurboQuant 成绩单

在 NVIDIA H100 GPU 上,4-bit 的 TurboQuant 在计算 attention logits 时比 32-bit 未量化的 key 快了 8 倍

而在向量搜索任务上,TurboQuant 也打败了现有最好的方法(Product Quantization 和 RabbiQ),在 GloVe 数据集上的召回率更高,同时内存占用更少。

换句话说,压得更小,跑得更快,还找得更准。

不只是论文

:::

通常一篇论文发完,大家看看就过去了。但 TurboQuant 的情况,有些不一样。

论文放出来没几天,社区就已经有人用 PyTorch、MLX(Apple Silicon)和 C/CUDA(给 llama.cpp 用的)分别做出了可运行的实现,而且核心指标都得到了验证。

可以说,算法本身够简洁,不依赖复杂的训练流程,独立开发者几天就能复现。

团队阵容方面,除了 Google 的 Amir Zandieh 和 Vahab Mirrokni(Google Fellow),还有来自 KAIST 和 NYU 的研究者参与,三篇相关论文分别发在 ICLR 2026、AAAI 2025 和 AISTATS 2026。

未来影响

:::

TurboQuant 解决的问题,表面上看是「省显存、提速度」。但往远了想,它动的其实是 AI 部署的门槛。

现在跑大模型,动辄需要几块 H100,一年下来光算力成本就是天文数字。如果 KV Cache 能压缩 6 倍,同样的显存就能装下更长的上下文,或者服务更多的并发请求。对云端来说,这直接就是成本账。

而对本地部署来说,意义可能更大。32GB 显存的消费级显卡,原本只能勉强跑个 7B 模型的长上下文,压缩 6 倍之后,想象空间就打开了。

更远一点……手机、边缘设备、嵌入式系统,这些地方内存寸土寸金,TurboQuant 这类技术可能是 AI 真正进入这些场景的前提条件。

有人评论称:

这可能是 2026 年最重要的创新之一。

说「最重要」可能有些夸张了。

但我想,至少可以说,最性感的 AI 突破,未必来自下一个万亿参数的巨无霸模型,而可能来自这种聪明的数学技巧。

压缩、量化、高效计算,

这也许才是,让 AI 真正无处不在的关键。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅