微信扫码
添加专属顾问
在上一篇文章中,提到了不少有关于 AI 领域的概念,比如 MoE、提示语注入、Transformer 架构等。我将会在本文以及后续文章中逐步解释这些概念。
本文正文字数约 3300 字,阅读时间 10 分钟。
通常来说,训练 LLM 需要大量的计算资源,对于很多的组织或者研究人员来说,这是一个非常大的挑战。
而混合专家模型(Mixture of Experts) 可以让模型能够以更少的计算资源进行预训练,也就是说,在相同的计算预算下,可以显著扩大模型或数据集的规模。
那么,什么是 MoE 呢?
作为一种机器学习技术,MoE 将 AI 模型划分为多个独立的子网络,也就是名称里所说的「专家」,每个子网络专门处理输入数据的一个子集,从而共同完成一个任务。
有了 MoE 架构,即使是包含数十亿参数的大型模型,也能在预训练阶段大幅降低计算成本,并在推理时实现更快的性能。
简而言之,MoE 的高效性来自于选择性地激活执行特定任务所需的专家,而不是为每个任务都激活整个神经网络。
虽然 MoE 是在过去大约十年间发展起来的,但是其背后的核心理念来源于 1991 年的论文《自适应局部混合专家模型》。
这篇论文提出了训练一个由多个独立网络组成的 AI 系统,每个网络专门处理不同的训练案例子集的概念。
这个概念包括训练专家网络本身以及每个子任务应使用哪个专家的门控网络。
与传统模型相比,作者发现他们的实验模型训练速度明显更快,具体表现为:达到目标精度阈值所需的训练周期仅为传统模型的一半。
近年来,随着用于生成式 AI 的深度学习模型规模越来越大,计算需求也越来越高,MoE 这样的解决方案可以平衡更大模型的更高容量和更小模型的更高效率。
一些领先的 LLM,比如 Mistral 的 Mixtral 8x7B,以及根据某些报道有说 OpenAI 的 GPT-4 都采用了 MoE 架构。
以下是一张关于 MoE 的图解。
可以将这张图拆解为以下部分:
• 输入(Input):即希望 AI 处理的问题或者数据。
• 专家(Experts):这些是较小的 AI 模型,每个模型都专注于解决整体问题的特定部分,可以将它们看作是团队中的不同专业人士。
• 门控网络(Gating Network):门控网络就像是一个管理者,负责决定哪个专家最适合处理问题的哪个部分。它会分析输入并确定谁应该负责什么工作。
• 输出(Output):在各个专家都完成工作之后,AI 最终产生的最终答案或者解决方案。
下面将针对专家网络和门控网络进行更细化的讲解。
如上文中所提到的,MoE 中的专家网络其实就可以理解为一个专业团队。与其让一个 AI 模型处理所有的任务,不如让每个专家专注于特定类型的任务或数据。
在 MoE 中,这些专家就像独立的神经网络,每个专家都在不同的数据集或任务上进行了训练。
这些专家的设计是稀疏 (sparse) 的,也就是说,在任何给定时间内,只有少数几个专家是被激活的。这种设计防止了系统过载,并确保最相关的专家在处理问题。
那么,模型如何知道应该选择哪些专家呢?这就是门控网络发挥作用的地方。
再来说说门控网络。
门控网络是另一种神经网络,它能够学习如何分析输入数据,并确定哪些专家最适合处理这些数据。
基于输入特征,门控网络会为每个专家分配一个权重或重要性分数,然后决定哪些专家应被选择处理数据。其中,权重最高的专家将被选中处理数据。
门控网络有多种选择合适专家的方法,这些方法被称为路由算法。以下是一些常见的算法:
• Top-k 路由:这是最简单的方法。门控网络选择前 k 个得分最高的专家,并将输入数据发送给他们。
• 专家选择路由:在这种方法中,不是数据选择专家,而是专家决定自己最擅长处理哪些数据。这种策略旨在实现最佳的负载平衡,并允许以多样化的方式将数据映射到专家。
• 稀疏路由:这种方法只激活少数几个专家来处理每条数据,从而形成稀疏网络。相比于所有专家都活跃处理每条数据的密集路由,稀疏路由使用的计算资源更少。
在预测过程中,模型会将专家的输出结合起来,遵循与分配任务给专家时相同的过程。根据问题的复杂性和多样性,一个任务可能需要多个专家共同处理。
训练 MoE 模型涉及优化专家模型和门控机制:
每个专家在整体训练数据的不同子集上进行训练,使这些模型能够开发出专门的知识库和解决问题的能力。
同时,门控网络则学习如何有效地评估输入,以便能够将任务分配给最合适的专家。
与单一模型相比,MoE 模型具有以下几个优势:
调用特定的专家的能力是 MoE 模型的有效性和效率的关键。
由于在给定任务中只激活相关的专家,模型的每个组件通常不会同时运行。所以,计算处理和内存使用就会更加高效。
专家的广泛能力使得 MoE 模型具有高度的灵活性。通过调用具有专门能力的专家,MoE 模型可以在更广泛的任务中取得成功。
微服务架构可以提高软件的灵活性和可用性,而 MoE 结构在机器学习中可以发挥类似的作用。
如果一个专家出现故障,系统仍然可以通过结合其他专家的输出返回有用的响应。同样,模型开发者可以根据需要添加、删除或更新专家,以应对不断变化的数据和用户需求。
将复杂问题分解为更小、更易管理的任务,有助于 MoE 模型处理越来越困难或复杂的输入。
由于其模块化,MoE 模型还可以通过添加新专家或重新训练现有专家来扩展,以处理额外类型的问题。
当然,MoE 也存在如下一些缺点。
MoE 模型在训练和推理时都需要大量的基础设施资源,因为管理多个专家以及门控机制的计算成本很高。
MoE 模型的复杂性也让它在训练和维护时更具挑战性,开发者必须集成和更新多个较小的模型,并确保它们在一个整体中良好协作。
虽然专家的专门化是 MoE 系统实用性的关键,但过度专门化可能会带来负面影响。如果训练数据集不够多样化,或者专家仅在整体数据的一个狭窄子集上进行训练,专家可能会对其特定领域产生过拟合,从而降低在未见过的数据上的准确性,进而降低系统的整体性能。
过拟合是指模型在训练数据上表现很好,但在新数据上表现不佳的情况。原因是模型过度复杂,学到了训练数据中的噪声和细节,而不是数据的整体规律。过拟合会导致模型缺乏对新数据的泛化能力。
AI 的不透明性已经是一个显著问题。
AI 的不透明性指的是用户或开发者难以理解或解释 AI 模型的内部决策过程。由于许多 AI 模型,尤其是深度学习模型,结构复杂且包含大量参数,它们如何得出某个结论或预测常常不清楚。这种不透明性可能导致难以信任或验证 AI 系统的决策,尤其是在涉及高风险或敏感领域时。
MoE 架构可能会加剧这个问题,因为它增加了复杂性,而不是仅仅跟踪一个单一模型的决策过程,那些试图理解 MoE 模型决策的人还必须解读各个专家与门控机制之间的复杂互动。
为了训练专家和优化门控网络,MoE 模型需要大量的、多样化的、结构良好的训练数据。
而获取、存储和准备这些数据可能是一个挑战,尤其对于资源较少的实体,比如较小的组织和学术研究者。
MoE 通过指定多个专家,并训练一个门控网络来激活最适合处理特定输入的专家,从而处理数据。
所以,其主要优势就在于,通过强制稀疏性,而不是为每个输入标记激活整个神经网络,模型容量可以增加,同时基本上保持计算成本不变。
这项技术可以应用在各个领域。
MoE 为训练大型模型提供了一种独特的方法,能够提高效率、加快预训练速度。
在传统的稠密模型中,所有参数都会用于处理所有输入。而稀疏性使得模型可以根据输入只运行系统的特定部分,从而显著减少计算需求。
例如,微软的翻译 API Z-code 就使用了 MoE 架构,该架构在保持计算量不变的情况下,支持大规模的模型参数。
Google 的 V-MoEs,就是一种基于视觉转换器(ViT)的稀疏架构,展示了 MoE 在计算机视觉任务中的有效性。
Google V-MoEs 链接:https://research.google/blog/scaling-vision-with-sparse-mixture-of-experts/
通过将图像划分为较小的图块并将它们传递给门控/路由层,V-MoEs 可以动态选择每个图块最合适的专家,从而优化精度和效率。
MoE 可以应用于推荐系统。
Google 提出了一种基于 MMoE(多门控专家混合模型)的 YouTube 视频推荐系统。
首先将任务目标分为两个类别:用户参与度和满意度。在检索步骤获得候选视频列表后,他们的排序系统使用候选视频、用户和上下文特征来学习预测与用户行为两类对应的概率。
本文详细介绍了 MoE 这项技术的概念、组成以及其工作机制、优势等,希望对你有所帮助。
虽然 MoE 模型具有显著的优势,如提高计算效率和灵活性,但其复杂性和资源需求也是挑战。
在未来几年,MoE 可能会集中在提高效率和可解释性、优化专家之间的协作方式以及开发更好的任务分配方法上,这样才能进一步提升 MoE 的应用潜力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
Hermes 的记忆层有 8 种实现,我为什么选了最反常识的那个
2026-07-05
Codex 负责人谈 AI 时代唯一值钱的能力
2026-07-05
复旦期末考「造反」了:51名学生联手围攻Claude、DeepSeek,谁能让AI交白卷谁就是学霸
2026-07-05
Loop Engineering 会是 AI 的下个关键词吗?
2026-07-04
Cursor 如何把 AI 部署进企业内部
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-14
2026-04-24
2026-04-22
2026-05-19
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。