我要投稿

阿里 Qwen3 正式发布，一口气开源8款模型！这个五一注定不太平！

发布日期：2025-04-29 07:37:34 浏览次数： 2890

作者：AI智见录

微信搜一搜，关注“AI智见录”

大模型圈又要热闹了！

就在刚刚，阿里云正式发布了 Qwen（通义千问）系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型，其中最大的模型有 235B 参数。

重磅升级，对标顶级模型

Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中，已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。

Qwen3 系列包括：

2 个 MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B
6 个标准模型：从 0.6B 到 32B 不等

亮点一：双模式思考能力

Qwen3 最大的创新是支持两种思考模式：

思考模式：模型会一步步推理，适合复杂问题。比如做数学题时，模型会像人类一样先分析问题，再逐步解答。
快速模式：模型直接给出答案，适合简单问题。比如问候、闲聊这类问题，模型会立即回应。

用户可以根据需要切换这两种模式。测试数据显示，在思考模式下，模型在 AIME（美国数学邀请赛）和 GPQA（通用问答）等任务上的表现会随着思考时间的增加而提升。

亮点二：超大规模预训练

Qwen3 的训练数据比上一代翻了一倍多：

Qwen2.5：18 万亿 token
Qwen3：36 万亿 token

训练数据来源广泛：

网络文本
PDF 文档
教科书
代码库
数学题库
多语言语料

训练过程分三步：

基础训练：用 30 万亿 token 训练基础语言能力
专业训练：加入 5 万亿专业领域数据（STEM、编程等）
长文本训练：把上下文长度扩展到 32K token

亮点三：创新的后训练方法

Qwen3 采用了四阶段后训练流程：

长文本冷启动：帮助模型适应长文本输入
推理强化学习：提升模型的推理能力
思维模式融合：把快速反应和深度思考能力结合
通用强化学习：在 20 多个领域进行能力训练

对于轻量级模型（如 Qwen3-4B/8B/14B），还使用了知识蒸馏技术，把大模型的能力传授给小模型。

亮点四：性能大幅提升

小模型也有大能力！Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量，就取得了更好的效果。

就连最小的 Qwen3-4B 模型，也能达到 Qwen2.5-72B-Instruct 的水平。

亮点五：开箱即用

Qwen3 现在已经登陆各大平台：

Hugging Face
ModelScope
Kaggle

开发者可以用多种方式部署 Qwen3：

云端部署：用 SGLang 和 vLLM
本地部署：用 Ollama、LMStudio、MLX、llama.cpp 等工具

访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。

亮点六：多语言支持

Qwen3 支持 119 种语言，这让它可以服务全球用户。不管是中文、英文，还是小语种，Qwen3 都能应对自如。

大模型竞争加剧

就在 Qwen3 发布前，业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点：

1.2T 参数，78B 激活参数
比 GPT-4 便宜 97.3%
5.2PB 训练数据
视觉能力强，COCO 测试达到 92.4%
在华为 Ascend 910B 上利用率达到 82%

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-24

Nathan Lambert：GLM-5.2是开源Agent重大突破，连锁反应将渗透进更广泛的经济体

2026-06-23

百度开源 Unlimited OCR：让长文档解析一次完成

2026-06-23

我把自己的需求到交付 Skills 开源了：Analysis to Delivery

2026-06-23

腾讯开源WeKnora知识库部署实战(含踩坑排查)

2026-06-22

DiffusionGemma: 文本生成速度提升 4 倍

2026-06-22

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-20

GLM-5.2本地部署：744B参数模型如何在Mac上跑

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw