微信扫码
添加专属顾问
以大模型为代表的 AI 技术高速发展,目前 Scaling Law 依然生效,模型参数持续增大,序列不断增长,响应速度越来越快,但大模型商业闭环依赖推理的规模落地,如何在不断提升用户体验的基础上不断降低推理成本,以满足大模型规模落地的诉求,成为大模型推理技术研究的核心关键。为了满足大模型推理规模落地对客户体验和成本的诉求,昇腾推出高性能大模型推理软硬件解决方案,满足客户多样性开发诉求,助力大模型规模落地。
本文整理自华为昇腾计算首席架构师王建辉在 AICon 2024 北京的演讲《昇腾大模型推理最佳实践》,内容经 InfoQ 进行不改变原意的编辑。
华为昇腾计算首席架构师赵英俊将在 6 月 14-15 日即将举办的 ArchSummit 深圳上进一步分享《超大规模 AI 算力集群优化与实践》。此外,阿里巴巴研究员 / 阿里云云原生应用平台负责人丁宇(叔同)将带来《AI 编程如何颠覆生产力》的 Keynote 主题演讲,在《低代码与 AI 结合》专题上,来自腾讯、网易、蚂蚁集团等企业等技术专家也将深入探讨在低代码环境中集成智能决策、自动化流程,以及构建灵活、高效的应用系统。
目前,大会议程已全部上线,感兴趣的同学请锁定大会官网:
https://archsummit.infoq.cn/2024/shenzhen/schedule
我的演讲将分为三个部分。第一部分,我会讨论当前大模型推理的趋势和应用方向,探讨大模型推理对软件和硬件的要求,以及如何评估大模型推理系统的优势和不足。第二部分,我将详细介绍昇腾在大模型推理方向上的解决方案,包括软硬件架构和关键技术。第三部分,我会分享一些与实际应用落地相关的案例。
在人工智能领域,随着技术的不断迭代发展,对推理解决方案的要求也在不断提高。从早期的 CNN(卷积神经网络)发展到现在广泛使用的 Transformer 模型,以及最近的 DIT 架构,这些技术的进步对计算资源提出了更高的挑战。
目前,大模型(LLM)已经开始向多模态方向发展,长序列技术已经成为当前应用的主流。不同的技术具有不同的计算特性,例如 Stable Diffusion 或 DIT 架构,它们对算力的需求非常高。Transformer 模型在推理时,对内存带宽的需求也很大,尤其是在使用 KVCache 技术之后。而长序列处理则对内存容量有很高的要求。整个硬件系统需要具备强大的算力、足够的内存容量以及高速的内存带宽。同时,软件也需要能够支持这些硬件的高性能要求。目前,单机可能已经无法满足推理的需求,需要利用多机多卡的并行推理技术。此外,随着推理技术的快速发展,不同的量化技术和压缩技术的应用,对软件的灵活性也有很高的要求。
当前大模型推理应用正在加速成熟,整体来看,美国在这方面的发展速度更快一些,而国内则处于一个跟进的状态。大模型推理的应用首先在 ToC(面向消费者)领域爆发,随后迅速向 ToB(面向企业)领域发展并成熟。
大模型推理的应用通常具有一个特性,即在初期增长阶段不会太快,但一旦过了某个爆发点,其增长速度会非常快,甚至达到 100 倍或 200 倍的增长。从目前客户的情况看,大模型推理的卡已经有上万张卡在同步在线进行推理,千卡集群的推理集群已经非常多。训练和推理对集群的要求有所不同。训练集群构建的关键在于如何实现更大规模的互联,以支持万卡集群同时进行任务训练。而推理的核心追求是降低成本,以满足业务需求。
构建一个领先的推理解决方案,我们围绕业务场景总结并建立了一个评价体系,我们称之为 LACE 指标。这个体系包括推理时延和模型精度,这两个因素直接影响用户体验。此外,还包括吞吐量和并发能力,以及开发的易用性,这两个因素则影响推理的成本,包括线上成本和开发成本。围绕 LACE 开发体系,从业务规划到模型上线,整个过程会经历几个关键阶段。首先是硬件选型,选择合适的硬件对于整个解决方案的性能至关重要。接下来是训练到推理的转换和优化,这个过程涉及模型的压缩和量化,旨在提高性能并降低成本。最后是模型的上线部署,完成整个业务流程。
昇腾针对大模型推理的全流程提供了一整套完整的解决方案。这套方案从底层的硬件开始,其上是昇腾提供的自家研发的硬件使能,确保硬件性能得到充分利用。在硬件使能之上,昇腾构建了推理引擎,能够支持各种推理任务。再往上,昇腾还提供了推理服务化部署的能力,使得推理服务可以灵活地部署和扩展。通过这四层架构,昇腾能够支持从硬件选型、训推转换、模型压缩、推理执行到应用部署的五个关键维度。这五个维度涵盖了从业务规划到模型上线的整个流程,确保了解决方案的全面性和高效性。接下来,我将围绕这五个维度,详细展开当前昇腾的能力,为大家提供一个全面的讲解。
昇腾在硬件选型方面,针对不同的应用场景,提供了不同的硬件方案。昇腾根据模型参数量和时延要求,将应用场景划分为四个象限,每个象限的硬件选型和考量都有所不同。昇腾目前主要提供了两款专用硬件,一款是面向单卡推理或低成本部署的 Atlas 300I Duo,另一款是面向多卡甚至多机推理的 Atlas 800I A2。这两款硬件各有特点,能够满足不同应用场景对硬件能力的需求。
在硬件选型时,需要综合考虑时延和成本约束。如果追求极低时延,计算的 batch size 不能太大,这会提高推理成本。但如果能在时延上做一些权衡,比如将时延要求放宽到 50 毫秒或 100 毫秒,推理成本可以得到显著降低。通过调整 batch size 和提高硬件资源利用率,可以在计算成本和用户体验之间取得平衡。
Atlas 800I A2 硬件采用了 HCCS 全互联架构,具有接近 400GB 的互联带宽,能够支持 LLaMA2-70B 等大模型,实现高吞吐量。而 Atlas 300I Duo 硬件则拥有 96GB 的大内存容量,适用于时延要求不高的场景。例如,在文生图或 Stable Diffusion 等模型中,单卡可以实现 1.5 秒左右完成 50 次迭代,生成一张图片。如果通过蒸馏技术将迭代次数从 50 次降低到 20 次,生成一张图片的时间可以控制在 1 秒内。
昇腾在训练模型到推理的转换过程中提供了一整套软件架构,包括昇腾推理引擎 MindIE,它涵盖了推理运行时以及与 Mindspore 和 Pytorch 框架的对接。昇腾的硬件支持 Mindspore 训练出的模型直接进行推理,并致力于打造训练推理一体化的 AI 框架,实现底层 MindIE-RT 与多种推理部署方式的结合。对于 Pytorch 训练的模型,昇腾通过 Pytorch 插件快速实现模型从训练到昇腾推理平台的迁移和适配,仅需大约 10 行代码,性能可达 0.8-0.9 倍于纯离线推理。
昇腾还提供了 MindIE-RT,支持自动构图开发工作流,实现从框架导出图到昇腾底层执行图的快速转换。对于大语言模型,由于图开发体系的挑战和新技术的快速迭代,昇腾也支持手动构图或手动开发,以快速构建并优化性能。
昇腾提供一站式开发工具 MindStudio,支持算子、模型和应用三层开发,提供迁移分析工具、精度比对、改图、性能优化和快速部署能力。借助 MindStudio,模型在昇腾平台上的迁移和优化可以在 3-15 天内完成。
昇腾强调训练和推理的同构能力,即在推理硬件上或相同底层硬件架构的设备上进行训练,以保持精度无损。昇腾还提供 Ascend C 编程语言,支持自定义算子开发,这对于大模型推理中 Attention 算子的灵活性和性能至关重要。尽管从 CUDA 或 GPU 开发习惯适配到昇腾平台需要一个学习过程和成本,但昇腾的开发体系能够使客户快速开发出高性能的算子。例如,昇腾的客户能够将五次内存访问的操作通过超大融合算子减少到一次内存访问,显著提升大模型推理性能。
昇腾在模型压缩方面支持当前大模型推理中常用的优化算法,包括量化算法 W4A16、W8A16 以及 W8A8 等权重量化技术和量化算法。在 W8A8 量化方面,由于大模型激活值的特性,存在大量异常值需要抑制。昇腾通过异常值抑制和自适应 PTQ 量化算法,避免了在量化过程中引入微调的需求,这些算法在模型量化中变得非常重要。
昇腾在 W8A8 量化上能够将精度损失控制在 0.5% 到 1% 的范围内,这与测试数据集的抖动和变化有关。量化之后,整体业务成本可以降低约 30%。利用昇腾硬件的特性,如 Atlas 300I Duo,昇腾还支持权重随路解压缩能力,这要求对模型进行稀疏处理。经过权重稀疏处理后,模型权重的内存搬移量可以进一步压缩 30% 到 50%,从而进一步提升大模型推理的性能。
在大模型推理领域,加速技术的发展非常迅速,包括开源算法、软件、论文以及新技术的快速演进。Continuous Batching 和 Paged Attention 算法,动态调度和节省内存的技术,已成为大模型推理中的一个必备技术。除了 Continuous Batching 和 Paged Attention,并行解码技术也发展迅速,昇腾希望利用这项技术充分利用算力。
大模型推理对内存带宽的要求非常高,同时对卡间或机间的通信时延也有高要求。与训练阶段优化通信的思路不同,推理阶段的目标是最小化单次通信时延。实验表明,有时增加通信量反而能减少调度时延,从而降低整体通信时延。降低通信时延后,可以实现更大的并行域,如从 TP8 扩展到多机 TP16,这在单机临界点的应用场景中带来了显著的性能提升。
昇腾在内部模型验证中发现,在 32K 序列长度级别,通过多机对比单机,平均单卡吞吐量能提升接近 6 倍。此外,昇腾还关注多机推理方案,类似于训练集群的参数面组网,通过一层组网实现多机推理。
针对 Kernel 的融合优化,昇腾根据硬件特性进行融合算子优化,以降低内存频繁读写问题,提高内存带宽利用率,从而提升推理性能。Flash Attention 算子最初是针对 GPU 计算特性提出的,但昇腾发现它可能不是与昇腾硬件最亲和的算子。因此,昇腾根据硬件结构特性重新设计了 attention 算子,以提高执行效率。并行解码技术有多种形式,如 Lookahead 算法,它是一种自投机算法,可以在不重新训练小模型的情况下发挥作用。Lookahead 算法对序列长度和输出长度有一定限制,但在其要求的范围内,能够显著降低推理时延,提升吞吐量。
小模型加大模型的投机推理也是一种有效方法,但需要生成一个小模型,这有一定难度。昇腾在这一方向进行了测试和验证,发现在序列长度约 2K 和 batch 在 100 以内时,吞吐量能提升约 40%,推理时延也降低约 40%。
通过 reference 方式提供投机来源,也能在代码生成场景下提升约 60% 的吞吐量。这些算法对底层 attention 算子的要求非常高。昇腾正在努力实现一套能够整合不同并行解码算法的系统,同时结合并行解码特性和 Continuous Batching 和 Paged Attention 的特点,以形成一个面向产品化的完整并行解码系统。
昇腾在集群方案方面有两个主要目标。首先,昇腾希望支持万亿级别的大模型推理,即在昇腾平台上能够处理具有高达万亿参数量的模型。其次,昇腾还计划支持百万级别的序列长度,指的是直接进行硬推理的能力,而不是采用近似计算或 streaming LLM 的方式。昇腾的目标是实现直接计算,能够达到百万级序列长度的处理能力。
昇腾目前支持业界主流大模型在其平台上进行推理,包括开源模型和业界常见的模型。昇腾的性能表现相当出色,能够达到 1.5 倍或 1.8 倍于业界平均水平。例如,LLaMa3 模型发布后的第二天,昇腾就完成了其训练和推理的适配工作。如果客户需要,他们可以立即在昇腾平台上对 LLaMa3 的 8B 和 70B 版本进行训练和推理验证,包括场景化调优和上线部署。昇腾在大模型训练和推理的业界跟进和适配速度方面相对较快。
为了加快大模型训练完成后到推理部署上线的整个过程,昇腾自研了 MindIE-Service 服务化部署能力。此外,昇腾还支持与业界开源软件 vLLM 和 TGI 的对接,并提供了相应的对接方式。这表明昇腾在推理服务化部署方面具有强大的自研能力和良好的兼容性。
昇腾的软件栈能力在应用服务方面是分层开放的,这意味着昇腾能够支持不同客户和不同场景的对接需求。如果客户拥有自研的推理引擎,昇腾可以提供底层的算子和加速能力,包括底层的算子和加速库,以便于与客户的推理引擎进行对接。对于那些拥有自己服务化能力和框架的客户,昇腾在推理引擎层面提供对接支持。而对于需要一整套完整推理应用的客户,昇腾可以提供从服务化到引擎,再到底层算子的全栈解决方案,以支持客户的全面对接需求。
昇腾在应用案例与关键进展方面已经取得了显著成果。目前,昇腾与多家头部客户合作,共同打造了大模型一体机,实现了大模型在训练和推理上的一体化应用,覆盖了办公客服等场景。
在华为内部,昇腾也在会议场景和面向 10 万研发人员的代码研发辅助场景中大量应用了大模型。华为计划将内部研发的代码生成和辅助开发场景制作成 demo,并将其开源,以支持业界的发展。
在视频生成领域,昇腾通过 MindIE-SD 支持 open sora 进行开发工作。目前,昇腾能够实现仅需修改少数几行代码,就能让 open sora 模型在昇腾平台上运行。在视频生成效率方面,昇腾当前能够在大约一分钟内生成 20 秒的视频。预计到年底,昇腾希望能够在一分钟内生成 60 秒的视频,这将是一个显著的性能提升。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-07-01
AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪
2026-07-01
AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解
2026-07-01
Claude Science发布:60+科学数据库一个对话搞定
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。