Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了

发布日期：2025-09-29 07:49:52 浏览次数： 4478

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

在过去两年，大模型的迭代节奏越来越快，从 GPT-4 到 Claude、Gemini，再到国内的百花齐放，大家早已见怪不怪。但就在 2025 年 9 月，阿里巴巴正式发布了 Qwen3-Max ——一个超过 万亿参数（1T+） 的 Mixture-of-Experts（MoE）大模型。

与以往的“预览版”不同，这一次，阿里直接把它推向了生产级落地。不仅在 Qwen Chat 面向普通用户开放，还通过 阿里云 Model Studio API 提供开发者调用。这意味着，它已经不只是实验室里的新鲜玩具，而是真正能跑在业务里的“大模型引擎”。

今天，我们就来拆解一下：Qwen3-Max 到底带来了哪些突破？它和前一代相比，有什么质的变化？又为什么特别强调“思考模式（Thinking Mode）”？

一、规模与架构：从 360 亿 Token 到万亿参数的跨越

阿里官方明确表示，Qwen3-Max 是迄今为止最强大的 Qwen 模型，不仅在规模上跨过了 1T 参数大关，还采用了 稀疏激活的 MoE 架构。

这里我们简单解释一下：

MoE（Mixture-of-Experts） 就像一个大型团队，每个专家只在需要时被调用，避免所有人都同时上场，从而既保证模型容量，又控制计算成本。
Qwen3-Max 在训练时使用了 36 万亿（36T）Token，大约是 Qwen2.5 的两倍。数据分布覆盖 多语言、代码、STEM 学科与推理任务，明显针对企业级场景做了优化。

训练后，它还遵循了 四阶段配方：

长链路推理冷启动（CoT cold-start）；
以推理为核心的强化学习（Reasoning RL）；
“思考模式”与“非思考模式”的融合训练；
通用领域的再强化（General RL）。

这套流程不仅是规模的堆砌，更是针对推理、编程和复杂任务定制的优化方案。

二、两种模式：Instruct 与 Thinking 的分工

Qwen3-Max 最大的亮点之一，就是明确区分了 两条产品线：

Qwen3-Max-Instruct

对标传统 ChatGPT 类体验
主打 聊天、代码生成、常规推理
追求低延迟、快速响应
Qwen3-Max-Thinking

面向复杂的 “Agent” 类场景
支持 多步推理、工具调用、长链路思考
适用于代码执行、搜索检索、任务规划

一个关键细节是：思考模式必须启用 incremental_output=true 的流式输出。如果开发者忘记设置这个参数，模型就不会进入真正的“深度思考”状态。这是阿里在 API 层面给出的明确契约，也避免了调用时的混乱。

换句话说：

Instruct 模式像一个聪明的助手，反应快但不“深度纠结”；
Thinking 模式则像一个团队智囊，需要多花点时间思考，但能把问题考虑得更透彻，甚至会主动调用工具解决难题。

三、性能实测：代码、Agent、数学全面升级

那么，这个“万亿参数 + 思考模式”的组合，实际表现如何？

1. 编程（SWE-Bench Verified）

Qwen3-Max-Instruct 在 SWE-Bench Verified 上拿到了 69.6 分。

这一成绩超过了 DeepSeek V3.1（非思考模式）的基线；
略低于 Claude Opus 4（非思考模式）。

要知道，SWE-Bench 不只是写几行代码，而是要在真实的代码库环境里完成修复和提交。能在这里站稳脚跟，说明 Qwen3-Max 的代码推理和上下文理解能力，已经不输国际一线大模型。

2. 智能 Agent（Tau2-Bench）

在 Tau2-Bench ——一个专门评测 工具调用与任务规划 的基准上，Qwen3-Max 取得了 74.8 分，领先于同类对手。

这背后的意义在于：

企业在搭建 AI Agent 时，不再需要写一堆“手工策略”；
模型本身已经学会了“什么时候该调用工具、调用哪个工具”。

对于想要部署 AI 客服、自动化运维、企业知识库的团队来说，这是一大好消息。

3. 数学与推理（AIME25 等）

Qwen3-Max-Thinking 模式在 AIME25 等数学基准上，几乎达到了“接近满分”的表现。

虽然这些结果目前大多是厂商披露或社区复现，还没有完整的技术报告支撑，但至少表明：通过延长推理链路 + 工具辅助，复杂任务的可解性显著提升。

四、如何看待这些提升？

从企业应用的角度，我们可以把 Qwen3-Max 的进步总结为三点：

代码层面： SWE-Bench 的提升，意味着它不仅能写“Demo 代码”，还能真正改动大型仓库，支持生产级代码辅助。
Agent 层面： Tau2-Bench 的成绩，意味着它能更好地替代“人工脚本”，让 AI 自己学会判断和选择。
推理层面：数学任务的突破说明，长链路推理 + 工具调用的结合，是未来大模型的必经之路。

换句话说，Qwen3-Max 的价值不在于简单对话，而在于它能直接作为“企业 AI 中台”的核心引擎。

五、实用示例：如何调用 Qwen3-Max？

阿里云开放的 API 已经支持开发者调用，我们来看一个 Python 示例：

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max",
    messages=[
      {'role': 'user', 'content': 'Give me a short introduction to large language model.'}
    ]
)

print(completion.choices[0].message)

如果你要开启“思考模式”，只需要在调用时添加：

completion = client.chat.completions.create(
    model="qwen3-max-thinking",
    messages=[ ... ],
    incremental_output=True
)

注意：

qwen3-max-instruct 与 qwen3-max-thinking 是不同的模型名；
思考模式必须启用流式输出，否则无法进入长链路推理。

六、未来展望：阿里的大模型战役

Qwen3-Max 的发布，至少释放了三个信号：

国内厂商已经能量产万亿参数模型，并不再停留在“实验室阶段”；
思考模式将成为大模型的必备特性，未来更多 Agent 应用都会依赖这种长链路推理；
开放生态正在形成：从 Qwen Chat 到 Model Studio API，阿里在积极吸引开发者加入。

对于企业来说，现在正是尝试的最佳时机。无论是代码自动化、Agent 智能体，还是数学推理、知识库问答，Qwen3-Max 都提供了一个高性能的起点。

结语

过去我们说大模型像“万能的聪明助手”，而 Qwen3-Max 的思考模式，更像是一个会反复推敲、会自己动手找工具的“超级智囊”。

它的价值，不仅仅在于分数和参数，而在于能否成为企业真实场景中的可靠底座。

阿里已经迈出了第一步，接下来，就看开发者和企业如何把这台“万亿级引擎”跑起来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

LangAlpha是如何在架构上实现Harness 和 Loop Engineering

2026-06-30

Codex 权限 Profile：sandbox 不再一刀切

2026-06-30

Google 悄悄开闸：Gemini API 免费放量 1M TPM，OpenAI 和 Anthropic 开发者坐不住了

2026-06-30

我的Mac潜伏了一个月木马：AI Agent时代，真正危险的不是“手滑”

2026-06-30

AgentOps：用户快速地调教好你的Agent的关键功能。

2026-06-30

AI 应用产品评测体系完整指南

2026-06-30

AI写代码越快，程序员越危险？Codex负责人摊牌：真正难的是"删代码"

2026-06-29

17 岁高中生做了个假 AI，上线一个月获 2.8 亿次访问

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw