2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

8卡H20运行DeepSeek-V3-0324性能和推理实测

发布日期:2025-04-20 06:27:57 浏览次数: 5523
作者:特沃兹道

微信搜一搜,关注“特沃兹道”

推荐语

在8卡H20服务器上,DeepSeek-V3-0324 (685B)的性能和推理能力表现如何?

核心内容:
1. 8卡H20服务器配置及DeepSeek-V3-0324部署情况
2. DeepSeek-V3-0324 (685B)与DeepSeek-R1-AWQ (671B)的性能对比
3. DeepSeek-V3-0324在数学问题上的跑分表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近在一台 8卡H20 机器上,先后部署了 DeepSeek-R1-AWQ (671B)和最新的 DeepSeek-V3-0324 (685B) ,测试了下性能和数学问题跑分。服务器由火山引擎提供。先来看一下机器配置:

8卡H20机器配置

GPU:

+---------------------------------------------------------------------------------------+| NVIDIA-SMI 535.161.08             Driver Version: 535.161.08   CUDA Version: 12.2     ||-----------------------------------------+----------------------+----------------------+| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC || Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. ||                                         |                      |               MIG M. ||=========================================+======================+======================||   0  NVIDIA H20                     On  | 00000000:65:02.0 Off |                    0 || N/A   29C    P0              71W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   1  NVIDIA H20                     On  | 00000000:65:03.0 Off |                    0 || N/A   32C    P0              72W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   2  NVIDIA H20                     On  | 00000000:67:02.0 Off |                    0 || N/A   32C    P0              74W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   3  NVIDIA H20                     On  | 00000000:67:03.0 Off |                    0 || N/A   30C    P0              73W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   4  NVIDIA H20                     On  | 00000000:69:02.0 Off |                    0 || N/A   30C    P0              74W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   5  NVIDIA H20                     On  | 00000000:69:03.0 Off |                    0 || N/A   33C    P0              74W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   6  NVIDIA H20                     On  | 00000000:6B:02.0 Off |                    0 || N/A   33C    P0              73W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   7  NVIDIA H20                     On  | 00000000:6B:03.0 Off |                    0 || N/A   29C    P0              75W / 500W |      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+

这里踩过一个坑:最初的这个驱动版本有问题,在RTX4090上是好的,在H20上跑 DeepSeek-R1-AWQ 试过各种配置及软件版本,一推理就崩溃。后来换了NVIDIA官网为H20推荐的驱动版本 Driver Version: 550.144.03 ( CUDA 12.4), 什么配置都没改就好了。

卡间互联:

 	GPU0	GPU1	GPU2	GPU3	GPU4	GPU5	GPU6	GPU7 GPU0	X	OK	OK	OK	OK	OK	OK	OK GPU1	OK	X	OK	OK	OK	OK	OK	OK GPU2	OK	OK	X	OK	OK	OK	OK	OK GPU3	OK	OK	OK	X	OK	OK	OK	OK GPU4	OK	OK	OK	OK	X	OK	OK	OK GPU5	OK	OK	OK	OK	OK	X	OK	OK GPU6	OK	OK	OK	OK	OK	OK	X	OK GPU7	OK	OK	OK	OK	OK	OK	OK	X
Legend:
  X    = Self  OK   = Status Ok  CNS  = Chipset not supported  GNS  = GPU not supported  TNS  = Topology not supported  NS   = Not supported  U    = Unknown

内存:

# free -g              total        used        free      shared  buff/cache   availableMem:           1929          29        1891           0           9        1892Swap:             0           0           0

磁盘:

vda     252:0    0  100G  0 disk ├─vda1  252:1    0  200M  0 part /boot/efi└─vda2  252:2    0 99.8G  0 part /nvme3n1 259:0    0  3.5T  0 disk nvme2n1 259:1    0  3.5T  0 disk nvme0n1 259:2    0  3.5T  0 disk nvme1n1 259:3    0  3.5T  0 disk

OS

# uname -aLinux H20 5.4.0-162-generic #179-Ubuntu SMP Mon Aug 14 08:51:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
# cat /etc/lsb-releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDISTRIB_DESCRIPTION="Ubuntu 20.04.5 LTS"

启动推理

用 vLLM v0.8.2 启动推理服务,分别先后启动如下两个模型的推理:

  • DeepSeek-R1-AWQ: https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ
  • DeepSeek-V3-0324:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

H20 性能评测

启动性能评测:

nohup python3 -u simple-bench-to-api.py --url http://localhost:7800/v1 \  --model DeepSeek-R1 \  --concurrencys 1,10,20,30,40,50 \  --prompt "Introduce the history of China" \  --max_tokens 100,1024,16384,32768,65536,131072 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-DeepSeek-R1-AWQ-8-H20.log 2>&1 &

这个命令会分别用 max_tokens 为100,1024,16384,32768,65536,131072, 来对1个并发,10个并发,。。。,50个并发,进行批量测试。每个max_tokens取值生成一个不同并发的表格。压测脚本 simple-bench-to-api.py 及详细参数含义在上一篇文章  《单卡4090上部署的DeepSeek-R1小模型的并发性能》  中有,需要的小伙伴可以自取。

压测结果:

8卡H20部署DeepSeek-R1-AWQ性能实测

----- max_tokens=100 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
4
40
80
120
160
200
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
7.8265s
8.1742s
8.3271s
8.6902s
8.7426s
9.0815s
最大延迟
7.9687s
8.2911s
8.4582s
9.0513s
9.0191s
9.4417s
最小延迟
7.7197s
8.1062s
8.1941s
8.4626s
8.4411s
8.7822s
P90延迟
7.9226s
8.2208s
8.4206s
8.9813s
8.9725s
9.2873s
P95延迟
7.9456s
8.2801s
8.4312s
9.0094s
8.9932s
9.3191s
P99延迟
7.9641s
8.2879s
8.4574s
9.0323s
9.0047s
9.4240s
平均首字延迟
7.8265s
8.1742s
8.3271s
8.6902s
8.7426s
9.0815s
总生成tokens数
400
4000
8000
12000
16000
20000
单并发最小吞吐量
12.55 tokens/s
12.06 tokens/s
11.82 tokens/s
11.05 tokens/s
11.09 tokens/s
10.59 tokens/s
单并发最大吞吐量
12.95 tokens/s
12.34 tokens/s
12.20 tokens/s
11.82 tokens/s
11.85 tokens/s
11.39 tokens/s
单并发平均吞吐量
12.78 tokens/s
12.23 tokens/s
12.01 tokens/s
11.51 tokens/s
11.44 tokens/s
11.01 tokens/s
总体吞吐量
12.75 tokens/s
121.90 tokens/s
238.84 tokens/s
343.09 tokens/s
454.13 tokens/s
545.88 tokens/s

其中有几个概念需要解释下

  • ”延迟“:从发出请求,到接收到最后一个token/字符的时间(包含了首字延迟时间)
  • “P90延迟”:分位数90的延迟,计算方法为延迟从小到大排序,前90%的最大延迟值,和下一个延迟值,基于线性插值计算的一个介于2者之间的值。
  • “首字延迟”:从发出请求,到接收到第一个返回字符的时间。
  • “单并发吞吐量”的概念,是指站在每个并发用户/通道的角度看,从首token返回后,token的生成速度。统计时间不包含首字延迟。即一个通道的吞吐量 = 该通道生成的token数/除首token延迟外的生成时间。个人觉得,这个指标加上平均首字延迟,能反映真实的用户体感。

具体指标的含义:

  • 平均延迟:所有通道的延迟平均值(包含了首字延迟时间)
  • 平均首字延迟:所有通道的首字延迟的平均值
  • 单并发最小吞吐量: 所有并发通道中,吞吐量最小的通道的吞吐量(不包括首字延迟时间)
  • 单并发最大吞吐量: 所有并发通道中,吞吐量最大的通道的吞吐量(不包括首字延迟时间)
  • 单并发平均吞吐量:所有并发通道的吞吐量的平均值(不包括首字延迟时间)
  • 总体吞吐量:在压测期间所有通道生成的tokens总数/压测开始到结束的时间
  • P90延迟: 表示有90%的请求延迟低于这个数值
  • P95延迟: 表示有95%的请求延迟低于这个数值
  • P99延迟: 表示有99%的请求延迟低于这个数值


具体可参见上一篇文章 单卡4090上部署的DeepSeek-R1小模型的并发性能


----- max_tokens=1024 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
11
20
32
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
80.4809s
64.4957s
69.2813s
60.0941s
64.3626s
74.9057s
最大延迟
80.4809s
81.5464s
84.0396s
83.1977s
85.0927s
91.6753s
最小延迟
80.4809s
27.0671s
34.2130s
28.8989s
33.0757s
36.8664s
P90延迟
80.4809s
80.1078s
83.9624s
76.2109s
82.3774s
91.6048s
P95延迟
80.4809s
80.8271s
83.9756s
80.3737s
83.5347s
91.6487s
P99延迟
80.4809s
81.4025s
84.0268s
83.1274s
85.0485s
91.6665s
平均首字延迟
80.4809s
64.4957s
69.2813s
60.0941s
64.3626s
74.9057s
总生成tokens数
1024
8700
16900
23560
30844
41068
单并发最小吞吐量
12.72 tokens/s
12.17 tokens/s
12.18 tokens/s
12.11 tokens/s
11.91 tokens/s
10.68 tokens/s
单并发最大吞吐量
12.72 tokens/s
12.46 tokens/s
12.22 tokens/s
12.42 tokens/s
12.05 tokens/s
11.19 tokens/s
单并发平均吞吐量
12.72 tokens/s
12.25 tokens/s
12.20 tokens/s
12.24 tokens/s
11.97 tokens/s
10.93 tokens/s
总体吞吐量
12.72 tokens/s
90.65 tokens/s
200.95 tokens/s
265.79 tokens/s
362.07 tokens/s
447.64 tokens/s

--- max_tokens=16384(16k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
53.7487s
62.1833s
59.5736s
66.6164s
63.7078s
72.2051s
最大延迟
53.7487s
85.7138s
80.2841s
87.5017s
89.1299s
94.0724s
最小延迟
53.7487s
36.8215s
37.6174s
52.0516s
35.3799s
60.3701s
P90延迟
53.7487s
83.6419s
75.6695s
84.9264s
81.5069s
86.5969s
P95延迟
53.7487s
84.6779s
79.7058s
86.3211s
83.7799s
88.3755s
P99延迟
53.7487s
85.5066s
80.1685s
87.3039s
87.1454s
93.0178s
平均首字延迟
53.7487s
62.1833s
59.5736s
66.6164s
63.7078s
72.2051s
总生成tokens数
692
7747
14729
24515
30655
38963
单并发最小吞吐量
12.87 tokens/s
12.42 tokens/s
12.33 tokens/s
12.23 tokens/s
11.88 tokens/s
10.59 tokens/s
单并发最大吞吐量
12.87 tokens/s
12.50 tokens/s
12.43 tokens/s
12.34 tokens/s
12.17 tokens/s
11.17 tokens/s
单并发平均吞吐量
12.87 tokens/s
12.45 tokens/s
12.36 tokens/s
12.27 tokens/s
12.01 tokens/s
10.77 tokens/s
总体吞吐量
12.86 tokens/s
90.32 tokens/s
183.34 tokens/s
279.89 tokens/s
343.62 tokens/s
413.93 tokens/s

----- max_tokens=32768(32k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
74.4107s
73.1775s
60.8819s
68.1447s
65.5262s
71.1695s
最大延迟
74.4107s
88.0205s
87.1197s
86.6508s
91.1330s
98.0503s
最小延迟
74.4107s
52.6583s
38.6691s
52.4571s
35.7134s
34.2791s
P90延迟
74.4107s
84.6266s
74.6224s
83.2444s
86.5026s
88.7393s
P95延迟
74.4107s
86.3236s
76.9170s
84.9372s
87.1154s
89.7969s
P99延迟
74.4107s
87.6811s
85.0792s
86.3908s
89.6305s
94.0741s
平均首字延迟
74.4107s
73.1775s
60.8819s
68.1447s
65.5262s
71.1695s
总生成tokens数
890
9204
15316
25457
31817
39101
单并发最小吞吐量
11.96 tokens/s
12.53 tokens/s
12.52 tokens/s
12.42 tokens/s
11.93 tokens/s
10.70 tokens/s
单并发最大吞吐量
11.96 tokens/s
12.62 tokens/s
12.68 tokens/s
12.51 tokens/s
12.28 tokens/s
11.44 tokens/s
单并发平均吞吐量
11.96 tokens/s
12.57 tokens/s
12.57 tokens/s
12.45 tokens/s
12.11 tokens/s
10.95 tokens/s
总体吞吐量
11.95 tokens/s
104.49 tokens/s
175.70 tokens/s
293.52 tokens/s
348.63 tokens/s
398.29 tokens/s

----- max_tokens=65536(64k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
41
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
44.1485s
63.6202s
62.0807s
63.1362s
64.5397s
71.4495s
最大延迟
44.1485s
83.4623s
132.1258s
86.3368s
93.9798s
96.6099s
最小延迟
44.1485s
32.3361s
37.1413s
33.7265s
24.4006s
40.7544s
P90延迟
44.1485s
78.2377s
73.5106s
81.1197s
82.5298s
88.7146s
P95延迟
44.1485s
80.8500s
77.1583s
84.0214s
83.8858s
92.7252s
P99延迟
44.1485s
82.9398s
121.1323s
86.3070s
92.4763s
96.0186s
平均首字延迟
44.1485s
63.6202s
62.0807s
63.1362s
64.5397s
71.4495s
总生成tokens数
587
8084
15619
23501
31612
38887
单并发最小吞吐量
13.30 tokens/s
12.62 tokens/s
12.52 tokens/s
12.36 tokens/s
11.76 tokens/s
10.63 tokens/s
单并发最大吞吐量
13.30 tokens/s
12.76 tokens/s
12.86 tokens/s
12.49 tokens/s
12.15 tokens/s
11.31 tokens/s
单并发平均吞吐量
13.30 tokens/s
12.70 tokens/s
12.56 tokens/s
12.40 tokens/s
11.93 tokens/s
10.85 tokens/s
总体吞吐量
13.28 tokens/s
96.78 tokens/s
118.15 tokens/s
272.05 tokens/s
336.11 tokens/s
401.98 tokens/s

----- max_tokens=131072 (128k)压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
21
30
42
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
61.9497s
68.6144s
57.8482s
66.2845s
63.5500s
70.3486s
最大延迟
61.9497s
81.8154s
80.4513s
86.5205s
98.3918s
94.1867s
最小延迟
61.9497s
50.9891s
28.8903s
35.9238s
27.5084s
31.2229s
P90延迟
61.9497s
79.8821s
68.2121s
81.7377s
80.3188s
87.7278s
P95延迟
61.9497s
80.8488s
75.1345s
82.2849s
82.2353s
90.8710s
P99延迟
61.9497s
81.6221s
79.3879s
85.2935s
93.4738s
93.3895s
平均首字延迟
61.9497s
68.6144s
57.8482s
66.2845s
63.5500s
70.3486s
总生成tokens数
817
8420
14970
24307
31916
38895
单并发最小吞吐量
13.19 tokens/s
12.23 tokens/s
12.22 tokens/s
12.00 tokens/s
11.81 tokens/s
10.65 tokens/s
单并发最大吞吐量
13.19 tokens/s
12.32 tokens/s
12.39 tokens/s
12.33 tokens/s
12.26 tokens/s
11.39 tokens/s
单并发平均吞吐量
13.19 tokens/s
12.27 tokens/s
12.32 tokens/s
12.21 tokens/s
11.94 tokens/s
11.01 tokens/s
总体吞吐量
13.18 tokens/s
102.85 tokens/s
185.89 tokens/s
280.62 tokens/s
297.08 tokens/s
412.63 tokens/s

8卡H20部署DeepSeek-V3-0324性能实测

----- max_tokens=100 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
3
30
60
90
120
150
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
13.9587s
13.9900s
14.0511s
14.0769s
14.1673s
14.2916s
最大延迟
14.7636s
14.1010s
14.1825s
14.2707s
14.5726s
14.5179s
最小延迟
13.4980s
13.8632s
13.8544s
13.8677s
13.9031s
13.9850s
P90延迟
14.5338s
14.0850s
14.1607s
14.2467s
14.4279s
14.4478s
P95延迟
14.6487s
14.0952s
14.1649s
14.2566s
14.5099s
14.4803s
P99延迟
14.7407s
14.0994s
14.1749s
14.2640s
14.5641s
14.5124s
平均首字延迟
13.9587s
13.9900s
14.0511s
14.0769s
14.1673s
14.2916s
总生成tokens数
300
3000
6000
9000
12000
15000
单并发最小吞吐量
6.77 tokens/s
7.09 tokens/s
7.05 tokens/s
7.01 tokens/s
6.86 tokens/s
6.89 tokens/s
单并发最大吞吐量
7.41 tokens/s
7.21 tokens/s
7.22 tokens/s
7.21 tokens/s
7.19 tokens/s
7.15 tokens/s
单并发平均吞吐量
7.18 tokens/s
7.15 tokens/s
7.12 tokens/s
7.10 tokens/s
7.06 tokens/s
7.00 tokens/s
总体吞吐量
7.16 tokens/s
71.40 tokens/s
142.02 tokens/s
212.27 tokens/s
280.99 tokens/s
347.65 tokens/s

----- max_tokens=1024 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
95.4234s
96.8941s
97.4570s
105.0299s
107.1363s
99.7274s
最大延迟
95.4234s
107.9135s
125.9989s
132.9541s
136.2208s
122.7872s
最小延迟
95.4234s
83.9967s
80.7756s
86.1851s
81.2474s
82.7827s
P90延迟
95.4234s
106.9436s
117.0284s
124.7368s
119.3310s
111.3582s
P95延迟
95.4234s
107.4286s
120.1523s
128.7807s
123.0959s
115.2739s
P99延迟
95.4234s
107.8165s
124.8296s
132.1840s
132.3656s
120.8836s
平均首字延迟
95.4234s
96.8941s
97.4570s
105.0299s
107.1363s
99.7274s
总生成tokens数
718
6968
14059
22408
30259
35405
单并发最小吞吐量
7.52 tokens/s
7.18 tokens/s
7.20 tokens/s
7.09 tokens/s
7.03 tokens/s
7.09 tokens/s
单并发最大吞吐量
7.52 tokens/s
7.21 tokens/s
7.23 tokens/s
7.14 tokens/s
7.11 tokens/s
7.13 tokens/s
单并发平均吞吐量
7.52 tokens/s
7.19 tokens/s
7.21 tokens/s
7.11 tokens/s
7.06 tokens/s
7.10 tokens/s
总体吞吐量
7.52 tokens/s
64.56 tokens/s
111.55 tokens/s
168.47 tokens/s
222.03 tokens/s
288.12 tokens/s

----- max_tokens=16384(16k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
94.8628s
99.1652s
98.3011s
102.2118s
99.5501s
101.8411s
最大延迟
94.8628s
117.8686s
106.8626s
114.9650s
123.4567s
126.0541s
最小延迟
94.8628s
83.2503s
85.4619s
82.4278s
83.1481s
75.9468s
P90延迟
94.8628s
109.6080s
105.4161s
111.5839s
110.3189s
112.1986s
P95延迟
94.8628s
113.7383s
105.6092s
112.9895s
111.6643s
114.0535s
P99延迟
94.8628s
117.0425s
106.6119s
114.6945s
122.8847s
123.3202s
平均首字延迟
94.8628s
99.1652s
98.3011s
102.2118s
99.5501s
101.8411s
总生成tokens数
703
7094
14089
22235
28772
36390
单并发最小吞吐量
7.41 tokens/s
7.14 tokens/s
7.15 tokens/s
7.24 tokens/s
7.21 tokens/s
7.13 tokens/s
单并发最大吞吐量
7.41 tokens/s
7.19 tokens/s
7.18 tokens/s
7.27 tokens/s
7.23 tokens/s
7.18 tokens/s
单并发平均吞吐量
7.41 tokens/s
7.15 tokens/s
7.17 tokens/s
7.25 tokens/s
7.23 tokens/s
7.15 tokens/s
总体吞吐量
7.41 tokens/s
60.17 tokens/s
131.80 tokens/s
193.31 tokens/s
232.93 tokens/s
288.61 tokens/s

----- max_tokens=32768(32k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
80.5510s
93.5289s
97.1551s
100.7830s
99.8265s
99.5300s
最大延迟
80.5510s
107.8886s
133.6073s
156.9135s
116.2559s
115.6441s
最小延迟
80.5510s
79.7242s
84.5335s
82.8031s
81.1707s
81.6779s
P90延迟
80.5510s
105.1389s
112.7804s
111.3159s
112.8292s
109.1424s
P95延迟
80.5510s
106.5138s
114.0461s
115.8762s
115.5501s
110.0651s
P99延迟
80.5510s
107.6136s
129.6950s
145.9792s
116.1772s
113.7739s
平均首字延迟
80.5510s
93.5289s
97.1551s
100.7830s
99.8265s
99.5300s
总生成tokens数
607
6822
14068
21898
28614
35499
单并发最小吞吐量
7.54 tokens/s
7.29 tokens/s
7.23 tokens/s
7.22 tokens/s
7.14 tokens/s
7.12 tokens/s
单并发最大吞吐量
7.54 tokens/s
7.30 tokens/s
7.29 tokens/s
7.30 tokens/s
7.20 tokens/s
7.15 tokens/s
单并发平均吞吐量
7.54 tokens/s
7.29 tokens/s
7.24 tokens/s
7.24 tokens/s
7.16 tokens/s
7.13 tokens/s
总体吞吐量
7.53 tokens/s
63.21 tokens/s
105.25 tokens/s
139.52 tokens/s
246.08 tokens/s
306.83 tokens/s

----- max_tokens=65536(64k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
81.7039s
90.8889s
99.1065s
99.7213s
99.2848s
99.0839s
最大延迟
81.7039s
112.5239s
113.0623s
125.9377s
130.2727s
113.6320s
最小延迟
81.7039s
78.5028s
83.0163s
81.5086s
80.9710s
85.9351s
P90延迟
81.7039s
99.3878s
108.6772s
113.1816s
111.2980s
110.5696s
P95延迟
81.7039s
105.9558s
112.0033s
118.0436s
114.1228s
112.7986s
P99延迟
81.7039s
111.2103s
112.8505s
124.2411s
124.3386s
113.4573s
平均首字延迟
81.7039s
90.8889s
99.1065s
99.7213s
99.2848s
99.0839s
总生成tokens数
593
6538
14244
21620
28389
34942
单并发最小吞吐量
7.26 tokens/s
7.17 tokens/s
7.18 tokens/s
7.21 tokens/s
7.13 tokens/s
7.04 tokens/s
单并发最大吞吐量
7.26 tokens/s
7.23 tokens/s
7.19 tokens/s
7.25 tokens/s
7.20 tokens/s
7.08 tokens/s
单并发平均吞吐量
7.26 tokens/s
7.19 tokens/s
7.19 tokens/s
7.23 tokens/s
7.15 tokens/s
7.05 tokens/s
总体吞吐量
7.26 tokens/s
58.09 tokens/s
125.95 tokens/s
171.59 tokens/s
217.80 tokens/s
307.44 tokens/s

压测期间资源峰值:

+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.4     ||-----------------------------------------+------------------------+----------------------+| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC || Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. ||                                         |                        |               MIG M. ||=========================================+========================+======================||   0  NVIDIA H20                     Off |   00000000:65:02.0 Off |                    0 || N/A   39C    P0            176W /  500W |   95096MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   1  NVIDIA H20                     Off |   00000000:65:03.0 Off |                    0 || N/A   46C    P0            184W /  500W |   95070MiB /  97871MiB |     23%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   2  NVIDIA H20                     Off |   00000000:67:02.0 Off |                    0 || N/A   45C    P0            178W /  500W |   95070MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   3  NVIDIA H20                     Off |   00000000:67:03.0 Off |                    0 || N/A   41C    P0            180W /  500W |   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   4  NVIDIA H20                     Off |   00000000:69:02.0 Off |                    0 || N/A   40C    P0            180W /  500W |   95070MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   5  NVIDIA H20                     Off |   00000000:69:03.0 Off |                    0 || N/A   45C    P0            182W /  500W |   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   6  NVIDIA H20                     Off |   00000000:6B:02.0 Off |                    0 || N/A   46C    P0            184W /  500W |   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   7  NVIDIA H20                     Off |   00000000:6B:03.0 Off |                    0 || N/A   40C    P0            182W /  500W |   95078MiB /  97871MiB |     98%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+

峰值 KV cache usage:

INFO 03-31 23:22:50 [loggers.py:80] Avg prompt throughput: 45.0 tokens/s, Avg generation throughput: 166.9 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 7.7%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:00 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 350.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 7.7%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:10 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 15.4%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:20 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 360.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 15.4%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:30 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 23.2%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:40 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 30.9%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:50 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 30.9%, Prefix cache hit rate: 0.0%INFO 03-31 23:24:00 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 360.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 38.6%, Prefix cache hit rate: 0.0%INFO 03-31 23:24:10 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 350.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 38.6%, Prefix cache hit rate: 0.0%

数学数据集跑分实测

用 GitHub - huggingface/lighteval: Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends 分别对部署在8卡H20上的 DeepSeek-R1-AWQ 和 DeepSeek-V3-0324 做了数学测试集跑分。这里我们修改了少量 lighteval 代码,让其不去自己启动模型推理,而是调用已经部署好的模型的OpenAI API接口。测试结果如下:

8卡H20部署DeepSeek-R1-AWQ跑分实测

math500评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|math_500|0|0"

评估结果:

|        Task        |Version|     Metric     |Value|   |Stderr||--------------------|------:|----------------|----:|---|-----:||all                 |       |extractive_match|0.818|±  |0.0173||lighteval:math_500:0|      1|extractive_match|0.818|±  |0.0173|

8卡H20部署DeepSeek-V3-0324跑分实测

math500评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|math_500|0|0" --max-samples 20

为了节省时间,只取了 20 道题。

评估结果:

|        Task        |Version|     Metric     |Value|   |Stderr||--------------------|------:|----------------|----:|---|-----:||all                 |       |extractive_match| 0.95|±  |  0.05||lighteval:math_500:0|      1|extractive_match| 0.95|±  |  0.05|

测试期间峰值资源消耗:

|=========================================+========================+======================||   0  NVIDIA H20                     Off |   00000000:65:02.0 Off |                    0 || N/A   36C    P0            159W /  500W |   97048MiB /  97871MiB |     96%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   1  NVIDIA H20                     Off |   00000000:65:03.0 Off |                    0 || N/A   42C    P0            167W /  500W |   97022MiB /  97871MiB |     91%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   2  NVIDIA H20                     Off |   00000000:67:02.0 Off |                    0 || N/A   40C    P0            160W /  500W |   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   3  NVIDIA H20                     Off |   00000000:67:03.0 Off |                    0 || N/A   38C    P0            161W /  500W |   97022MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   4  NVIDIA H20                     Off |   00000000:69:02.0 Off |                    0 || N/A   37C    P0            161W /  500W |   97022MiB /  97871MiB |     21%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   5  NVIDIA H20                     Off |   00000000:69:03.0 Off |                    0 || N/A   41C    P0            162W /  500W |   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   6  NVIDIA H20                     Off |   00000000:6B:02.0 Off |                    0 || N/A   42C    P0            164W /  500W |   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   7  NVIDIA H20                     Off |   00000000:6B:03.0 Off |                    0 || N/A   37C    P0            163W /  500W |   97030MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+

aime25评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|aime25|0|0" --max-samples 20

为了节省时间,只取了 20 道题。

评估结果:


|       Task       |Version|     Metric     |Value|   |Stderr||------------------|------:|----------------|----:|---|-----:||all               |       |extractive_match|  0.4|±  |0.1124||lighteval:aime25:0|      1|extractive_match|  0.4|±  |0.1124|

aime25 是比较新的,但是这个分数貌似低于之前别人公布过的评测分数。可能是评测方法的问题,也可能评测过程中上下文有截断影响结果。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅