通义千问Qwen2.5开源，媲美Llama3.1-405B

发布日期：2024-09-19 08:50:48 浏览次数： 7118

作者：AI工程师笔记

微信搜一搜，关注“AI工程师笔记”

通义千问Qwen2.5开源，媲美Llama3.1-405B

介绍

就在今天早些时候，阿里发布了新的语言模型 Qwen2.5，以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型，包括：

• Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
• Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
• Qwen2.5-Math: 1.5B, 7B, 以及72B。

Qwen2.5 所有模型都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。Qwen2.5 模型总体上对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。与 Qwen2 类似，Qwen2.5 语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。我们在下表中提供了有关模型的基本信息。

专业领域的编程模型 Qwen2.5-Coder 和数学模型 Qwen2.5-Math，相比其前身 CodeQwen1.5 和 Qwen2-Math 有了实质性的改进。具体来说，Qwen2.5-Coder 在包含 5.5 T tokens 编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时，Qwen2.5-Math 支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。

以下是整体的模型参数信息介绍：

模型性能

Qwen2.5-72B在多个基准测试中展示了经过指令调优的版本的综合结果，评估了模型的能力和人类偏好。从评测结果可以看到全方位领先Llama3.1-70B，甚至在部分优于Llama3.1-405B。

Qwen2.5-72B 的基础语言模型性能达到了顶级水准，同样是在与 Llama-3-405B 这样更大的模型对比时也不落下风。

Qwen2.5重新发布了140 亿参数和 320 亿参数模型，即Qwen2.5-14B 和 Qwen2.5-32B。两款指令微调模型在多样化的任务中超越了同等规模或更大规模的基线模型，例如 Phi-3.5-MoE-Instruct 和 Gemma2-27B-IT。

Qwen2.5-3B小参数模型仅凭约 30 亿参数就实现了Qwen2-7B、Llama3-8B、MiniCPM3-4B的同等性能，展示了其相对于前辈模型的高效性和能力。

Qwen2.5-Coder编程模型的性能也基本全方位领先于其他模型，如DeepSeek-Coder 33B-Instruct和CodeStral-22B。

Qwen2.5-Math相比于上个月刚刚发布的 Qwen2-Math，在更大规模的数学相关数据上进行了预训练，并且增加了对中文的支持，并通过赋予其进行 CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）的能力来加强其推理能力。Qwen2.5-Math-72B-Instruct 的整体性能超越了 Qwen2-Math-72B-Instruct 和 GPT4-o，甚至是非常小的专业模型如 Qwen2.5-Math-1.5B-Instruct 也能在与大型语言模型的竞争中取得高度竞争力的表现。

支持框架

• Finetuning: ChatLearn, Llama-Factory, Axolotl, Firefly, Swift, XTuner, Unsloth, Liger Kernel
• Quantization: AutoGPTQ, AutoAWQ, Neural Compressor
• Deployment: vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, TGI
• API Platforms: Together, Fireworks, OpenRouter
• Local Run: MLX, Llama.cpp, Ollama, LM Studio, Jan
• Agent and RAG Frameworks: Dify, LlamaIndex, CrewAI
• Evaluation: LMSys, OpenCompass, Open LLM Leaderboard
• Model Training: Arcee AI, Sailor, Dolphin, Openbuddy

昨天发布的最新版的ollama-0.3.11已支持Qwen2.5

参考

https://qwenlm.github.io/zh/blog/qwen2.5/

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

ThinkParse 1.1.0 开源发布：把文档解析，做成可扩展的企业级服务

2026-07-04

Agent 工程终于有脚手架了， Google开源一个开发agent的工具

2026-07-03

用云新范式：Qoder Cloud Agents × Alibaba Cloud Skills

2026-07-03

Ornith-1.0 发布：新一代 Agentic Coding 之王，MIT 开源

2026-07-02

Meta把内部设计系统开源了，支撑内部13000+应用，专为Agent调优

2026-07-02

别再把 AI 当搜索引擎了，这 20 个操作让它替你干活

2026-07-02

ollama v0.31.1发布：Apple Silicon上Gemma 4提速近90%，默认开启无感升级

2026-07-01

在 OpenCode 中接入本地模型：Ollama 部署与配置完全指南

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

亲测有效！Codex桌面版免费接入DeepSeek V4

2026-05-31

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

2026-04-21

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw