微信扫码
添加专属顾问
我要投稿
Qwen3 系列模型即将带来革命性的性能提升和技术创新。 核心内容: 1. Qwen3 模型的新特性和与传统 MoE 的差异 2. Qwen3MoE 与 Qwen2.5 的技术对比和优势 3. Qwen3MoE 在小参数模型中的性能表现和应用前景
huggingface/transformers 的 pr 中看到来自 Qwen3 和 Qwen3MoE 的请求。原文:https://github.com/huggingface/transformers/pull/36878
浏览代码可以看到这次的更新有:
https://huggingface.co/Qwen/Qwen3-15B-A2B (MOE model)
https://huggingface.co/Qwen/Qwen3-8B-beta
Qwen/Qwen3-0.6B-Base
看来本次针对更新的都是一些小参数的模型,比较期待有一个 30-40B 的 MoE
特性:
路由策略: 传统MoE采用全局路由,即所有专家参与计算。Qwen3Moe采用稀疏路由,仅Top-K个专家参与计算。
负载均衡: 传统MoE没有显式优化,容易出现专家坍塌。Qwen3Moe集成load_balancing_loss,以惩罚不均衡的情况。
计算复杂度: 传统MoE的计算复杂度为O(N×E),其中N为序列长度,E为专家数。Qwen3Moe的计算复杂度为O(N×K),其中K为Top-K参数。
动态适应性: 传统MoE使用固定频率的RoPE。Qwen3Moe动态调整RoPE频率,属于动态类型。
特性:
RoPE类型: Qwen-2.5仅支持静态RoPE。Qwen3Moe支持dynamic、yarn、llama3等多种类型。
稀疏层调度: Qwen-2.5未明确支持。Qwen3Moe通过mlp_only_layers和sparse_step实现灵活控制。
注意力后端: Qwen-2.5仅基础实现。Qwen3Moe集成Flash Attention 2和SDPA加速。
生成缓存管理: Qwen-2.5使用传统KV缓存。Qwen3Moe支持滑动窗口缓存(sliding_window)。
MoE实现: Qwen-2.5未使用MoE。Qwen3Moe实现稀疏MoE + 负载均衡损失。
特性:
动态 RoPE:支持多种缩放策略,适配长序列和不同硬件。
稀疏 MoE:通过 Top-K 路由和负载均衡损-失,提升模型容量与训练稳定性。
高效注意力:集成 Flash Attention 2 和 SDPA,优化生成速度。
模块化设计:继承并扩展 Llama/Mistral 组件,提升代码可维护性。
生成优化:滑动窗口缓存和动态 KV 更新,降低解码内存占用。
目前在小参数模型中,个人总体使用感觉来说,qwen 模型是首选,特别是此次将要更新的 Qwen3-15B-A2B,15B 总参数量的稀疏 MoE 模型,实际激活参数量为 2B,所以要求的硬件设备资源更低,速度可以更快
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
Claude Code——智能路由与切换工具
2026-02-03
作为投资方,我们试了试Kimi K2.5
2026-02-03
暴涨11.7k Star!复刻Manus上下文工程的开源Skills,Claude code等多个平台即插即用
2026-02-03
ollama v0.15.4 更新:OpenClaw全面上线,优化集成流程与工具解析能力大升级!
2026-02-03
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
2026-02-02
一分钟部署OpenClaw+QQ,国内最爽的一键启动!
2026-02-02
这家字节系AI初创,推出首个开源Agent Skills Builder!对话Refly.AI李锦威:大多数Agent都停留在专业用户层面,没有做到真正的普惠
2026-02-02
OCR又出宠OpenDoc,速度超MinerU6倍
2025-11-19
2026-01-27
2025-12-22
2025-12-10
2025-11-17
2026-01-12
2025-11-07
2025-12-23
2026-01-29
2026-01-06
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24