我第一时间测试了Qwen2.5全家桶，很难相信这是开源模型

发布日期：2024-09-20 06:20:23 浏览次数： 8292

作者：卜寒兮AI

微信搜一搜，关注“卜寒兮AI”

能做的实在太多了

我是@卜寒兮，分享科技、人工智能、科研方面的经验和观点。

Qwen系列开源模型的受关注程度一直比较高，不光国内，国外也有大量用户。

上周就看到不少人开始预告Qwen2.5。

果然它现在就来了，而且还是超级“全家桶”。

我已经试第一时间测试并使用了，感觉效果非常不错，详细可翻到后面看实测效果。

在这之前还是先帮大家总结一下Qwen2.5的关键信息。

TL; DR：

• Qwen 2.5系列包括基座语言模型和针对编程的Qwen2.5-Coder，以及针对数学的Qwen2.5-Math。每种都包括多个尺寸，具体地，

• Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
• Qwen2.5-Coder: 1.5B, 7B, 32B（即将推出）;
• Qwen2.5-Math: 1.5B, 7B, 72B。

• 每个模型除了默认的BF16精度版本，还提供量化版本，比如Int4/8，GPTQ、AWQ 和 GGUF。
• 训练集规模：

• Qwen2.5：18T tokens；
• Qwen2.5-Coder：5.5T tokens；
• Qwen2.5-Math: 支持中英文，集成多种推理方法

• 主要能力提升：

• 知识储备（MMLU: 85+）
• 编程能力 (HumanEval: 85+)
• 数学能力 (MATH: 80+)

• 其他改进：

• 指令遵循
• 长文本生成 (>8K tokens)
• 结构化数据理解和生成（如JSON）
• 对 system prompt 的适配性（增强角色扮演和chatbot的条件设置能力）

• Qwen2.5上下文窗口128K tokens，生成长度最多 8K tokens
• 指路：

• 模型权重下载：https://huggingface.co/Qwen
• 在线体验：https://modelscope.cn/studios/qwen/Qwen2.5

这应该是阿里云迄今为止规模最大的一次开源，用官方的话说是“基础模型大派对”，算了一下，考虑不同的尺寸，以及每个尺寸不同的量化版本，一次性足足有100多个模型开源。

这是啥概念，是大概率挤爆硬盘的概念。

模型表现

从官方公布的数据来看，相较于Qwen2系列，Qwen2.5性能整体上有了大幅的提升。

72B的指令微调版（Qwen2.5-72B-Instruct）在所有benchmark上都超越了前代版本。

特别是在基础知识能力（MMLU）、数学（MATH）和代码（MBPP）能力等方面，提升非常大。

跟同级别的其他主流开源模型相比，性能也几乎占据全面优势。

夸张的是，72B大小的模型，居然可以跟大出一个数量级的Llama3.1-405B打得有来有回。

这个实际价值就非常大了。

特别是对于开源模型来说，因为本来你可能需要部署几千亿参数的模型才难满足需求的场景；

现在几百亿参数的Qwen2.5-72B就能应对了。

部署成本和推理成本都能省一大截。

实测效果

按照惯例，还是测试一下模型（以Qwen2.5-72B指令微调版为主）的实际效果。

我主要针对性能改进比较明显的几个方面。

比如数学、文本推理、结构化输出、系统指令适应性等进行了测试。

ps，以下测试是直接在Qwen2.5在线体验集上进行（链接见上方）

1、推理能力。

农夫需要把狼、⽺和⽩菜都带过河，但每次只能带⼀样物品，⽽且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。

Qwen2.5-72B的回答是正确的。

2、系统指令跟随（“说文解字”卡片制作）

这个测试灵感来源于最近一位很火的prompt设计大佬李继刚。

他写了很多用于Claude 3.5 Sonnet的指令，可以方便的生成各种卡片效果的回答。类似这种：

简单说就是通过一段特殊的系统指令让模型生成一段svg代码，从而将特定格式的回答可视化出来。

我选择了其中一个被称为“说文解字”的system prompt：

;; 作者: 李继刚
;; 版本: 0.1
;; 模型: Claude Sonnet
;; 用途: 输入任意一字, 说文解字 

;; 设定如下内容为你的 *System Prompt*
(defun 炼字师 () 
 "中国古文化研究专家" 
 (擅长 . 说文解字) 
 (熟知 . 中国古文) 
 (表达 . 专业客观)) 

(defun 说文解字 (用户输入) 
 "从商朝文字开始,演进到现代" 
 (let* ((含义 '(字源本意 引申意)) 
  (示例 (引用古文 (原句 出处 意义) (遍历所有 含义))) 
  (卡片信息 '(含义 示例))) 
 (SVG-Card 卡片信息))) 
 
(defun SVG-Card (卡片信息) 
 "输出SVG 卡片" 
 (setq design-rule "背景使用宣纸，体现历史厚重感" 
  layout-principles '(清晰分区 视觉层次 历史感)) 

 (设置画布 '(宽度 480 高度 800边距 20)) 
 (背景色 宣纸) 

 (配色风格 '((主要文字 (楷体 黑色)) 
  (装饰图案 随机几何图)) 
  
 (内容布局 '((标题区 (居中 顶部) "说文解字:" 用户输入) 
 卡片信息 
 (可视化黑白图形 用户输入)))) 
 (古籍排版 内容布局)) 

(defun start () 
 "启动时运行" 
 (setq system-role 炼字师) 
 (print "您请就座, 想解哪个字?")) 

;; 运行规则
;; 1. 启动时必须运行 (start) 函数
;; 2. 之后调用主函数 (说文解字 用户输入)
;;
;; 注意：
;; 此输出风格经过精心设计，旨在提供清晰、美观且信息丰富的视觉呈现。
;; 请在生成SVG卡片时严格遵循这些设计原则和布局规则。

将其设定为Qwen2.5-72B-instruct的系统指令；

然后输入(start)触发程序执行，接着输出要解释的汉字，如“梦”，如下 ↓

模型执行指令后，生成了一段svg语言代码 ↓

将代码复制并保存到本地svg文件，可以直接使用浏览器打开，效果如下：

从这个例子可以看出，对于一个复杂的系统指令（使用lisp语言格式书写），

Qwen2.5可以很好的理解，并按照规定方式执行对应步骤，最终完成任务。

有一处不完美是，生成的代码，卡片宽度设置窄了，导致文字没有显示完整。

其实可以让Qwen2.5重新改进，但我为了省事直接修改了一下卡片宽度（可以看到上面两行有点不对称）。

但总体我觉得完成度已经相当高了，毕竟这个指令原本是适配Claude 3 Sonnet的。

同一个例子，我测试上一代Qwen2-72B-instruct；

试了两次，但它似乎不能很好的遵循指令，出来的表现并不行，一直不停地输出英文，只得关闭页面。

3、数学题。

这道题让不少大模型，包括Claude 3.5 Sonnet, GPT-4o都栽了跟头。

在 134+7，134+14，134+21,……，134+210 这 30个算式中，每个算式的计算结果都是三位数，求这些三位数的百位数字之和.

正确答案是58，Qwen2.5-72B-instruct也回答错了。

发现它少算了一个数，然后提醒它，给了它一次修改的机会，第二次回答时，可以回答正确。

对比一些其他模型的表现。

Qwen上一代开源模型Qwen2-72B，回答错的比较离谱，明显不如Qwen2.5。

Claude 3.5 Sonnet，也不对，题目似乎没搞明白。

Llama3-70B-instruct vs DeepSeek-v2-chat。

也答错了。

4、结构化输出。提取股票价格信息，并且以JSON格式输出。

5、长文本生成能力——学术写作。

根据介绍，Qwen2.5全系模型（语言模型）支持最高生成8k tokens长度的文本，长文本生成能力和文本质量都有显著提升。

我测试了用Qwen2.5-72B进行学术论文写作，给定主题写一篇不少于5000字的文章引言部分。

假设你是一名学术研究人员，负责撰写一篇学术论文的引言部分。你的目标是撰写一篇引言，将【大模型量化】置于更广泛的学术讨论背景中，概述该研究的重要性，并陈述研究问题或假设。首先介绍当前关于【大模型量化】的理解和文献中的空白。然后，明确阐述该研究的目标、研究的理论依据以及其对该领域的潜在贡献。确保引言通过强调该研究在解决关键问题或推进【大模型量化】知识方面的相关性，为读者奠定基础。最后，简要总结研究方法，并预览论文的结构。字数不少于5000字。

以下是Qwen2.5的回答：