微信扫码
添加专属顾问
我要投稿
通义千问最新模型Qwen3-Next通过混合注意力与高稀疏MoE架构,在80B参数规模下仅激活3B参数,实现长上下文推理与性价比双突破。 核心内容: 1. 混合注意力架构设计:Gated DeltaNet与标准注意力的3:1黄金配比 2. 极致稀疏MoE技术:80B总参仅激活3.7%参数的实现路径 3. 训练稳定性三大创新:输出门控、归一化路由与权重约束方案
通义千问发布最新模型结构 Qwen3-Next
。它在架构上采用“Gated DeltaNet + Gated Attention”的混合注意力,并把 MoE 稀疏度拉高到只激活约 3.7% 的参数,同时做了多项训练稳定性优化,还在主干中原生引入 MTP(Multi-Token Prediction)。
基于这套设计,80B 总参数、仅激活约 3B 的 Qwen3-Next-80B-A3B 系列在长上下文推理吞吐和整体性价比上有明显优势,并在 Instruct 和 Thinking 两条产品线上,拿到接近甚至对齐 235B 旗舰的效果。
Qwen3-Next
从趋势看,两个方向很关键:
Qwen3-Next 就是围绕这两点做系统性优化:混合注意力提升长序列效率和能力,高稀疏 MoE 控制激活开销,再加上稳定性改造和 MTP,加速训练和推理同时兼顾效果。
我的理解是,单一注意力形态都有短板:
Qwen 团队最后选了混合方案:75% 的层用 Gated DeltaNet,25% 的层保留标准注意力。实验显示,这个 3:1 的比例在效率与效果上更稳。
在保留的标准注意力里,他们还做了几处增强:
换个角度思考,这套组合是在不同长度区间里让两类机制各展所长,再用门控把数值行为压稳。
Qwen3-Next 的 MoE 更“稀”:
从实际训练来看,这样的配置在效果不掉的前提下,把资源利用率拉满。
为了解决注意力池化异常、极大激活等问题,他们做了三点:
这些细节看着琐碎,但对大规模、长上下文训练是否稳定,影响很大。
Qwen3-Next 把 MTP 原生集成进主干:
简单说,就是在一个模型里同时兼顾了“快”和“好”。
他们从 Qwen3 的 36T 语料里做了 15T 均匀采样来训 Qwen3-Next。整体消耗上:
这个对想要低成本拿高性能的团队很有吸引力。
得益于混合注意力,Qwen3-Next-80B-A3B 在长上下文推理的吞吐提升很大:
如果你的任务经常需要读很长的文档或日志,这个改动的价值非常直观。
Qwen3-Next-80B-A3B-Base 激活的非嵌入参数只有同规模 dense 的十分之一上下,就在多数基准上超过了 Qwen3-32B-Base,同时显著优于 Qwen3-30B-A3B。这个性价比已经很能打了。
这基本说明混合注意力在长文本任务上站住了脚。
如果你关心复杂推理,这条线的进步值得关注。
下面的示例基于 Qwen3-Next-80B-A3B-Instruct。Thinking 版本可参考 Hugging Face 模型页: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
Transformers 主分支已支持 Qwen3-Next。建议安装主分支版本。
示例代码(对话生成):
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-Next-80B-A3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto",
)
messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=16384)
new_tokens = outputs[0][len(inputs.input_ids[0]):]
print(tokenizer.decode(new_tokens, skip_special_tokens=True))
SGLang 主分支已支持。示例命令:
# 基础
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 \
python -m sglang.launch_server \
--model-path Qwen/Qwen3-Next-80B-A3B-Instruct \
--port 30000 --tp-size 4 \
--context-length 262144 \
--mem-fraction-static 0.8
# 启用 MTP
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 \
python -m sglang.launch_server \
--model-path Qwen/Qwen3-Next-80B-A3B-Instruct \
--port 30000 --tp-size 4 \
--context-length 262144 \
--mem-fraction-static 0.8 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
小贴士:
vLLM 主分支已支持。示例命令:
# 基础
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144
# 启用 MTP
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
同样地,如果服务起不来,可以把 max-model-len 先降到 32768 观察资源占用。
Qwen3 在工具调用上表现不错。结合 Qwen-Agent,可以更轻松地挂接 MCP 工具或内置工具,降低集成成本。大致流程:
这部分的官方示例代码已经把关键参数写全,直接替换成你的服务地址就能跑。
Qwen3-Next 原生支持 262,144 token 的上下文。如果输入加输出要远超这个长度,我更推荐用 YaRN 做 RoPE 缩放:
示例配置(以 vLLM 为例):
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \vllm serve ... \ --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' \ --max-model-len 1010000
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-12
运维老王:创业第十年,我用Elevo找回内心翻腾的梦想
2025-09-12
大模型可观测1-5-10:发现、定位、恢复的三层能力建设
2025-09-12
阿里推出夸克医疗大模型:医考70%高分背后,RAG为何是“压舱石”?
2025-09-12
GPT-4o-mini 调用参数终极优化手册
2025-09-12
刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
2025-09-11
阿里云,这次杀疯了,断档第一
2025-09-11
利用抽象语法树AST提升代码问答的深度与精度(下)
2025-09-11
AI市场调查实战:如何让AI帮你搜全网特定规格的产品?
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-06-15
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07