微信扫码
添加专属顾问
我要投稿
腾讯AI Infra团队如何克服Hopper硬件限制,将大模型推理性能优化到极致?本文深度拆解五大核心技术。 核心内容: 1. 针对Hopper架构的算子优化与融合策略 2. 多级缓存与并行策略的系统性设计 3. 量化、稀疏及异步调度带来的实测性能收益
本文将从算子优化与融合、并行策略、多级缓存、MTP和异步调度优化、量化与稀疏五大维度,逐一剖析各项技术的设计思路、核心算法与实测收益,全面揭示 Hy3 preview 模型在 Hopper 卡上从算子到系统的极致性能优化实践。
随着大语言模型向千亿参数、百万级上下文加速演进,推理效率已成为模型规模化落地的决定性瓶颈。更大的模型、更长的序列、更复杂的 MoE 稀疏架构,在带来能力跃升的同时,也对算力、显存与通信提出了前所未有的挑战。
混元Hy3 preview作为腾讯新一代旗舰大模型,采用 GQA + MoE 混合架构,原生支持 256K 超长上下文,面向 Agent、Coding 等场景。然而主部署卡 NVIDIA Hopper卡 相比业界主流Blackwell系列卡存在算力极低、显存紧凑、缺乏超节点互联等劣势,这意味着必须在极其有限的硬件和长上下文场景下,将推理性能优化至极致方能满足 SLO 约束并实现成本最优。
面对这一系统性挑战,混元 AI Infra 推理团队对 Hy3 preview 推理全栈进行了深度优化。本文将从算子优化与融合、并行策略、多级缓存、MTP和异步调度优化、量化与稀疏五大维度,逐一剖析各项技术的设计思路、核心算法与实测收益,全面揭示 Hy3 preview 模型在Hopper 卡上从算子到系统的极致性能优化实践。
优化成果
针对Hopper架构和Hy3 preview模型,我们深度优化Attention、MoE、Rope、Router、Sampler和通信算子,并开源在HPC-Ops仓库。
问题
线上推理存在请求长度实时波动、batch 内长短请求混杂等特征, 传统静态 split-kv 需要在长序列吞吐和短序列开销之间做固定权衡。长序列需要更大的 split-kv 才能充分并行,短序列则只需要少量拆分,固定策略很难两头兼顾。
动态调度方案
性能收益
问题
在 MoE 路由及稀疏 Attention 等数值敏感模块中,传统的 BF16 激活 × FP32 权重 计算面临效率与精度的两难抉择:若将权重降级,会显著损耗模型精度;若将激活升频至 FP32/TF32,则需引入逐元素类型转换的额外开销,且受限于 CUDA Core 较低的算力带宽,硬件利用率极低。
方案
性能收益:N=192、K=4096 规格,在M=2~4096范围 相比FP32(cuBLAS)实现 有 2.86x ~ 3.22x 加速
重构方案
HPC-Ops 对 MoE 完整推理链路进行深度融合与执行逻辑重排,将五大核心阶段整合为一体化执行链路:
性能收益
在 QKV Projection 之后,存在连续的 Element-wise 算子链(Rope、RMSNorm、Hadamard 积、量化、KV Cache 写入)。由于各算子计算量极小且算力强度低,频繁启动 Kernel 并反复读写 HBM 导致严重的 访存带宽受限,成为 Prefill 阶段不可忽视的延迟来源。
我们通过算子深度融合,将上述 5 个算子重构为单一的微型流水线 Kernel。数据从 HBM 载入寄存器后,在片上完成全链路变换,最终仅写回一次结果,将多次 HBM 往返压减至最低。
性能收益:融合算子加速约5x
针对张量并行场景下,通信、残差计算、归一化拆分执行导致的性能损耗,联合腾讯网络平台部,创新实现通信、残差计算与归一化的全链路融合,封装为 NVLink 原生一体化操作:RMSNorm(AllReduce(x) + residual, weight)。基于 CUDA 多播与 P2P 技术,支持 BF16 及单机多卡部署,采用高效 Two-shot 策略。
性能收益
传统采样后处理链路由十余个零碎 Kernel 串联实现(重复惩罚、温度缩放、Top-K、Top-P、Softmax、随机采样等),流程碎片化严重。每个 Kernel 独立访问全局词表(vocab_size 级别),导致 HBM 加载次数线性膨胀;此外,重复惩罚阶段的掩码数据需通过 CPU-GPU 拷贝传输,引入额外同步开销。
方案
将10余个零碎 Kernel融合为2个核心CUDA Kernel,并封装为单一fused_sampler算子。针对差异化业务场景提供更加精简专用内核,针对差异化业务场景(简单温度采样 / 完整采样),算子内自动适配调度专用内核,最大化 GPU 利用率。
收益
融合前:
融合后:
相比 vLLM 与 FlashInfer 里的采样算子提升约 5.5x、2.5x
针对 prefill TPSP 并行场景,我们实现 GEMM 与 ReduceScatter 的细粒度通算融合。SM 资源被显式划分为计算 SM(执行矩阵乘)与通信 SM(执行 RS 搬运)两类角色:计算 SM 每产出一个 Tile 即落盘至本地 Buffer,并通过信号量通知通信 SM 对就绪分片立即发起 RS,实现 Tile 级计算与通信重叠。
在传统 Load Warp 与 MMA Warp 之外,特化出专职 Epilogue Warp,形成 Load → MMA → Epilogue 三级流水:
性能收益
*本能力由腾讯混元AI Infra团队与腾讯网络平台部联合优化打磨。
Hy3 preview 模型上纯 TP8 方案会引入三重代价:
方案
在保持单机 8 卡部署与模型精度不变的前提下,通过 SP 拆分 + 通算融合 + 通信量化 + 并行模式调整 四项技术组合,系统性压缩 TTFT
性能收益
问题
Hy3 preview 在单机部署时面临存算双重瓶颈:
方案
采用 Attention DP + MoE EP 的跨节点混合并行架构。通过增加专家并行度(EP Size)实现权重的多机分布式存储,以此腾出显存空间转产为 KV Cache 吞吐。同时,跨节点聚合 Batch Size 使 Grouped GEMM 进入 Compute-bound 区域,最大化 Tensor Core 利用率。
性能收益:端到端吞吐提升 15.7 ~ 44.7%
背景与动机
Agent、Coding等场景中存在大量长上下文、多轮对话和可复用公共前缀,Prefill 计算开销直接影响 TTFT 与整体吞吐。然而 Prefix Cache 如果仅依赖 GPU 显存,面临四重瓶颈:
方案
构建 GPU → CPU → KVStore 三级缓存体系,将 KV Cache 从单一显存短期缓存扩展为可分层存储、按需加载、跨请求复用的多级架构。在不增加 GPU 显存占用的前提下,显著扩大有效缓存容量,降低重复 Prefill 概率。
调度流程:请求进入时按 L1→L2→L3 顺序查询可复用前缀,命中后按需加载回 GPU 并跳过对应 Prefill;新生成的完整 Block 根据策略异步下沉至 L2/L3,供后续请求复用。
问题
传统异步调度基于"每轮稳定生成 1 个 token"的假设,在 GPU 计算时让 CPU 提前准备下一轮输入,从而掩盖 CPU 耗时。然而,多层 MTP 引入了动态接收长度——下一轮的序列长度、位置编码及 KV Cache 映射均强依赖验证结果。传统做法需在 GPU Forward 验证结束后强制同步,将结果拷回 CPU 再准备下一轮输入,导致 CPU 准备阶段只能与 MTP 层 Forward 重叠;而 MTP 层计算极快,无法充分掩盖 CPU 耗时。
方案
核心思想: 解除 CPU 对真实接收长度的同步依赖——数据准备阶段一律按最大接收长度更新状态并组装下一轮输入;在下一轮实际计算前,再以上一轮的真实验证结果修正计算所依赖的关键值。由此,CPU 可提前一轮完成准备与 Launch,无需阻塞等待 GPU 计算结果。
收益:减少decode间 5~ 10ms CPU气泡, 端到端提升 10%~20% 性能
问题
模型规模持续增长带来显存瓶颈与访存带宽压力,已成为部署落地的核心约束。直接应用 W4A8 量化和Attn FP8量化虽能大幅压缩模型体积,但权重的极低比特表示与激活中的离群值会严重放大量化误差,导致精度显著退化。
方案
在 AngelSlim 框架中构建 Hy3 preview 量化方案,通过 "GPTQ 权重重建 + 激活平滑与旋转变换 + QAT 轻量化微调" 三级联合优化,系统性消除Attn FP8 + W4A8 配置下的精度损失。
性能收益
Hy3 preview 支持最大 256K 上下文,但标准自注意力的二次方复杂度导致 Prefill 阶段延迟和显存开销随序列长度急剧增长,成为制约 TTFT 的关键瓶颈。
为此,我们提出了 Stem 稀疏注意力算法,结合 HPC-BSA(Block Sparse Attention)算子,在仅使用 25% 计算预算的条件下实现接近稠密注意力的精度,将 128K 上下文下的 Prefill 延迟降低了 3.6 倍。
核心思路:从因果注意力的信息流视角出发,重新审视"哪些 token 该保留、哪些该剪枝",配合 HPC-BSA(Block Sparse Attention)算子,在仅使用 **25%**计算预算的条件下实现接近稠密注意力的精度。
Stem整体流程图
两大关键技术
k_start 线性衰减到尾部的 k_end = μ · k_start。头部关键 token 获得更大预算以保护递归依赖链,尾部冗余 token 被激进剪枝。M(i,j) = QK^T + β · max(0, log(‖V_j‖₂)),将 Value 向量模长作为信号强度引入选择标准。具体方案已集成至AngelSlim
收益
模型精度上,在LongBench v2、CL-bench、SWA等多个数据集上去的与密集注意力相当的精度水平。对比密集注意力,在128K上模型首字耗时提升3.6倍。
在长上下文场景下,经过一系列优化后仍面临显存瓶颈,为此我们正积极推进 C4 与 W4 相关优化,在确保精度无损的前提下,进一步提升推理吞吐能力。
针对超高吐字速度的需求,我们正在探索全新的并行投机解码方案——在保证接收率的同时,以更低的计算代价产出更多的投机 Token,有望实现吐字速率的大幅跃升。
与此同时,我们也在以下关键环节持续进行深入优化:调度和并行策略、PD 高效传输、多级缓存中心、跨机通信与流量控制等
此外,我们同步推进对其他硬件平台的适配与优化。凭借更优的硬件性价比,推理成本有望进一步降低,敬请期待后续的分享与成果发布。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-26
多智能体的记忆接线:同一任务,每个角色看到的不一样
2026-06-26
Agent 从 Demo 到生产级,中间到底差什么?
2026-06-26
Loop Engineering 到底是什么?看这一篇就够了
2026-06-26
基于组件化的工程(CBE)智能体
2026-06-26
从问答案到接任务 AI正在重写工作的基本单位
2026-06-26
AI Agent 正在变成基础设施,但你的质量治理还停在"试用一下"
2026-06-25
微信在金矿上孵化了啥?
2026-06-25
Google 把 FDE 改写成 Agent Engineer 这周,中国企业正在逼出另一种 FDE
2026-04-15
2026-04-07
2026-04-07
2026-03-31
2026-04-24
2026-04-17
2026-03-31
2026-04-05
2026-04-02
2026-04-05