我要投稿

阿里云Qwen3重大升级，已全面超越DeepSeek与Kimi

发布日期：2025-07-30 21:34:35 浏览次数： 2033

作者：墨痕AI前沿哨

微信搜一搜，关注“墨痕AI前沿哨”

最近Qwen3悄悄更新了，更新后的版本超越了DeepSeek和刚刚发布的kimi K2，更新后的名字叫Qwen3‑235B‑A22B‑Instruct‑2507‑FP8。

看着名字有点怪怪的，但是这次的版本升级，不仅在多个权威榜单上实现超车，甚至在某些任务中已经逼近 GPT-4 的水平。

相比于上一代，Qwen3‑235B‑A22B‑Instruct‑2507‑FP8 这次有三大关键性的突破：

1. 更轻量的部署方案

过去大家跑个大模型，动辄就是百G显存起步，正常系统就不能部署。这次阿里把 FP8 精度量化方案引入到了 Qwen3 大模型中，模型文件体积从 437GB 减到 220GB 左右。

成本砍半，体验不减。只要你有一块 30GB 显存的显卡，就能跑一个当下最强的开源模型之一。

2. 上下文能力提升

长上下文处理能力一直都是kimi的强项，这次没想到Qwen3也增强了这部分的能力。目前支持 token 提升至 256K，完全能和 Kimi K2、Claude 3 相提并论。

根据官方在实际体验中，这种上下文处理能力对于代码补全、合同审查、长文摘要等任务表现非常突出。看的出来阿里不止是模仿，是在扎实的做好这部分功能。

3. 推理能力暴涨

Qwen3 在 AIME（美国高中数学邀请赛）基准测试中取得了70.3 分的高分，远远领先，GPT‑4o（26.7 分）DeepSeek‑V3（46.6 分）Claude 3 Opus（61.7 分）

不过我总感觉Qwen3 的70.3 分多少是有点水分的，因为这领先太夸张了。当然如果你知道AIME的权威的话可能就不同意我的说法了。

不仅仅是数学能力，Qwen3 在编程能力和Agent能力上也表现惊艳，在LiveCodeBench v6编程测试中，Qwen3获得51.8分，在BFCL-v3测试中，Qwen3以70.9的得分接近人类专业水平（97.3分）

从多个公开榜单来看

在 LMSYS Arena 的对比测试中，Qwen3 的指令微调版本得分已超过 DeepSeek R1 与 Kimi K2 Base，并且在 Hugging Face 与 OpenRouter 上，其调用量和社区讨论热度快速上升；

很多人低估了阿里在大模型上的战略野心。实际上，Qwen 系列不是单点突破，而是整个“通义千问”体系的一环。

这次的指令微调版本，不再像早期开源模型那样“什么都能聊，什么都不准”，而是明确面向实际任务优化了。

比如：多轮任务执行能力增强，工具调用接口更清晰，代码生成和调试能力更贴近 IDE 场景。看来是真的奔着真的可用、能部署、能赚钱的方向来的。

还有一个明显的信号，这次Qwen的升级并不是孤立的技术行为，而是与阿里系产品矩阵深度捆绑

比如钉钉已经内置了通义千问的能力，阿里云 API 也将 Qwen3 作为主力大模型提供调用，通义APP逐步构建起自己的 Copilot 能力，布局类 ChatGPT 智能体系统。

也就是说，阿里并不是在做一个模型，而是在构建一个“模型即平台”的生态系统。

在之前的文章中我也说过，AI生态系统的竞争可能是接下来AI最大的竞争方向，腾讯、字节、阿里都在朝着这个方向加速前进呢。

阿里在AI技术的进步在几个大厂里应该是最稳定的，每一次的模型发布悄咪咪的，不过度的宣传，主打的就是稳扎稳打，这反而给人留下一种干实事印象。这次Qwen进步也是尤为的关键，希望阿里在AI上前进的每一步都能给我们带来不一样的体验，现在尤其喜欢这种稳得住的态度。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-31

有人问我会不会用 AI，我直接拿出这个 Ollama + FastGPT 项目给他看

2025-10-30

开源可信MCP，AICC机密计算新升级！

2025-10-30

OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b

2025-10-29

刚刚，OpenAI 再次开源！安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5

2025-10-29

AI本地知识库+智能体系列：手把手教你本地部署 n8n，一键实现自动采集+智能处理！

2025-10-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

OpenAI终于快要上市了，也直面了这23个灵魂拷问。

2025-10-29

保姆级教程：我用Coze干掉了最烦的周报

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

重磅开源！通义万相最新模型来了

2025-08-26

阿里AI编程 IDE Qoder 正式发布，BAT 终于凑齐了！

2025-08-22

开源发布！适合中国宝宝的 LangGraph 智能体开发模板！

2025-09-06

一手实测OpenAI新开源的GPT OSS，o1和GPT-4o都要过气了。

2025-08-06

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

DeepSeek-V3.1发布，拿下全球开源第一，确实可以封神了！（附一手实测）

2025-08-22

大家都在问

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

Dify Pre-release版本来了，Dify2.0时代不远了，看看有哪些进步？

2025-09-09

Claude不让用，有哪些国产模型能迎头赶上？

2025-09-08

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB