微信扫码
添加专属顾问
我要投稿
阿里最新发布的Qwen3-Max-Thinking模型在推理能力上实现重大突破,通过"慢思考"机制显著提升逻辑推理和工具调用能力。 核心内容: 1. Qwen3-Max-Thinking的创新技术:Test-Time Scaling和自适应工具调用 2. 在数学、编程和Agent任务上的性能突破 3. 与OpenAI API兼容的便捷部署方案
11 月写过一篇迄今为止最强的中文模型 Qwen3-Max,实测,略失望,当时觉得作为年度旗舰,Qwen3-Max 在复杂逻辑上并没有展现出碾压级的优势,甚至在某些 coding 场景下还不如 R1 惊艳。
昨天深夜阿里发布了有思考能力的 Qwen3-Max-Thinking ,上了 Test-Time Scaling(推理时扩展)和 自适应工具调用,号称要在逻辑推理和 Agent 能力上全面对标 GPT-5.2 和 Claude-Opus 4.5。
去年测试时我最常用的测试题目表现很拉垮,没有识别 4 次背影,样式很丑,不如 M2,更别提 Claude 了
Qwen3-Max-Thinking重试了这道题,表现确实牛逼太多
时间紧张,其他题目没有深入测试,倒是在各种 wx 群看到大家对其 Coding 能力有些失望,我暂时没有发言权,只能确信地说,它比 Qwen3-Max 预览版强许多。
简单来说,Qwen3-Max-Thinking 是 Qwen3-Max 的“完全体”。
大家都在卷 Post-training(后训练)的时候,阿里这次把技能点点在了 Inference-time(推理时) 上。
什么意思呢?以前的模型也是“快思考”,看到题直接答;现在的 Qwen3-Max-Thinking 学会了“慢思考”,它会:
官方称这种策略为 Experience-Cumulative Test-Time Scaling Strategy (TTS),听起来很玄乎,翻译成人话就是:为了做对一道题,它愿意花更多时间去尝试和反思,而且越试越聪明。
来看看官方给出的成绩单(Benchmark):
核心功能与特点:
直接兼容 OpenAI API,意味着你现有的 LangChain、dify、One API 等等生态工具,改个 base_url 和 model 名字就能直接用,迁移成本几乎为零。
模型 ID:qwen3-max-2026-01-23
具体的 API 配置如下(记得把 sk-xxx 换成你的 DASHSCOPE_API_KEY):
import os
from openai import OpenAI
client = OpenAI(
# 若没有配置环境变量,请直接替换为 API Key
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/api/v2/apps/protocols/compatible-mode/v1",
)
response = client.responses.create(
model="qwen3-max-2026-01-23",
input="你好,请介绍一下 Qwen3-Max-Thinking 有什么新特性?"
)
# 获取模型回复
print(response.output_text)
注意:这里使用的是 client.responses.create,这是阿里云为了支持更丰富的输出(比如搜索结果、思维链)做的一个兼容接口,当然标准的 Chat Completions 接口理论上也是支持的,但官方文档推荐用这个以获得最佳体验。
这次 Qwen3-Max-Thinking 的核心就在于 Thinking。
在官方博客中,他们提到了一个很有意思的点:Adaptive Tool-Use(自适应工具使用)。
以前我们用大模型,通过 Prompt 告诉它“你可以用搜索”、“你可以用代码解释器”。Qwen3-Max-Thinking 则把这个内化了。它在思考过程中,会自动判断当前步骤是否需要联网检索最新信息,或者是否需要写一段 Python 代码来验证数学猜想。
这种 System 2(慢思考) 的能力,正是迈向真正 AGI 的关键一步。
这就好比一个学生,以前是靠死记硬背(Pre-training)考试,现在允许他带计算器、允许他查字典,还允许他在草稿纸上反复演算(TTS),那考分能不高吗?
从纸面参数和技术路线来看,Qwen3-Max-Thinking 确实是一次针对性的“雪耻”之作。它精准地打击了之前版本在逻辑推理和复杂任务调用上的痛点。
优点:
可能的顾虑:
如果你之前对 Qwen3-Max 感到失望,不妨再给这个 Thinking 版本一次机会。毕竟,一个会反思、会用工具的 AI,才更像我们期待的那个“超级助手”。
大家可以去 chat.qwen.ai 体验一下网页版,或者通过 API 接入实测。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
刚刚,Xcode 史诗级更新:原生集成 Claude Agent SDK,苹果开发直接起飞!
2026-02-04
国产 Cowork 它来了!MCP、Skills和Expert Agents都支持,全部免费体验!
2026-02-04
混元研究博客上线姚顺雨团队最新成果:从 Context 探索语言模型的范式转变
2026-02-04
通俗讲解大模型短期记忆 vs 长期记忆
2026-02-04
谁动了我的电脑?谁应该抱怨?
2026-02-03
从 CLI 到桌面:Codex 把 coding agent 变成“任务指挥台”
2026-02-03
谷歌重大更新:国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略
2026-02-03
OpenAI 发布新的 Codex 桌面版,我现在不骂 Codex 难用了
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30