微信扫码
添加专属顾问
我要投稿
本篇介绍为什么 LLM 推理加速有 KV Cache 而没有 Q Cache。
简单来说,LLM 在 decoding 阶段的每次推理只会用到当前的 Q,这次用的 Q 下次不会用到,所以不用 Cache Q。
但是每次都要用到当前和过去所有的 KV,这次用到的 KV 下次马上就要再用一次,所以 Cache KV 可以加速推理。
下面说明原因:
直到这一步,K 和 Q 看上去都很对称。轮换一下 K 和 Q 对结果没有本质影响。
这是没有 Causal Mask(因果掩码)的情况。
无论有没有 Causal Mask,Q 和 K 在结果中都是不对称的。
在序列的 t 位置,Q 只有当前位置的 ??q_t 参与了计算,而 K 和 V 多个位置参与了计算,所以需要 KV Cache,而不需要 Q Cache。
在没有 Causal Mask 时,计算 t 位置的 Attention 需要未来的 KV,这在实际进行自回归推理时无法得到;加上 Causal Mask 之后,只需要 1,2,…,t 位置的 KV 就可以进行推理。
来源:https://www.zhihu.com/question/653658936/answer/3545520807
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-25
背靠通义大模型,这家阿里系公司正在重写体育场馆新的「定价公式」
2025-12-25
上下文缩减新视角-可逆vs不可逆:Manus联合创始人 Peak Ji最新分享①
2025-12-24
Open WebUI:可能是目前最好用的本地大模型 Web 界面
2025-12-24
Claude Agent Skills 深度解析:原理、工作流与最佳实践
2025-12-24
Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现
2025-12-24
MiniMax M2.1 终于上线,咱憋了一肚子话终于能说了。。。。。
2025-12-24
GLM-4.7发布后,n8n就不用学了!搭个AI Skills一键生成工作流
2025-12-24
在引入 AI Agent 之前,企业至少要先想清楚这 5 件事
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-02
2025-12-22
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09