我要投稿

Qwen3-4B：256K上下文，性能相当GPT-4.1-nano

发布日期：2025-08-15 07:51:01 浏览次数： 3996

作者：最佳人生

微信搜一搜，关注“最佳人生”

阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

这2款模型比3月前发布的 Qwen3-4B 更智能、更敏锐、且支持 256K上下文！

🔹指令：提高一般技能、多语言覆盖和长程上下文指令的遵循。

🔹思考：逻辑、数学、科学和代码的高级推理，专为专家级任务而构建。

两种模型都更加一致、功能更强大、并且更能感知环境。

hf模型：

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507

https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区下载：

https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

模型概览

Qwen3-4B 具有以下特点：

训练阶段：预训练、后训练

参数量：4B

非嵌入层参数量：3.6B

层数：36层

注意力头数量（GQA）：Q 32 个，K 8 个

上下文长度：原生支持262,144 token，即 256k

基准评估

从下图比较可得出，思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。

而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。

例子

以下例子使用了非思考模式的 Qwen3-4B 模型。

1. Prompt：Space Invaders Game Implementation

效果如下（生成的游戏画面不完整，但能射击也可以左右移动）：

2. Prompt：生成一只鹈鹕骑自行车的SVG图形

效果如下：

结语

Qwen3-4B，在小模型队伍里比较亮眼，256K的上下文，适合做翻译任务、tool call 和 RAG等。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-25

微信在金矿上孵化了啥？

2026-06-25

Google 把 FDE 改写成 Agent Engineer 这周，中国企业正在逼出另一种 FDE

2026-06-24

使用 Google AI Studio 轻松构建原生 Android 应用

2026-06-24

场景营销前端 AI Coding — AI Native 的视觉稿还原

2026-06-24

Claude Tag：你的公司正在被 AI 偷学

2026-06-24

精华：去哪儿网AI Coding研发平台实践，值得读三遍的样本

2026-06-24

做 FDE 的第一步不是写代码，而是把客户问题拆到能验收

2026-06-24

Claude学会常驻Slack，AI协作变天了

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw