微信扫码
添加专属顾问
我要投稿
由于众所周知的原因,某些GPU在某些地区销售是没有合法渠道&售后保障的,从奇怪的渠道购买GPU有概率买到翻新货、假货。对于计算用途的GPU,我们通常会关心峰值算力、显存带宽、通信带宽三个指标,如果拿到的货这三个指标实测值和理论值相符咱就基本能安全下车了。这里将分三篇分别说明每个指标怎么测,本文是第一篇:算力篇。
注:以下表中的“利用率”不是 nvidia-smi里看到的GPU-Util(GPU-Util这个数值除了能让你知道GPU在跑以外,什么用都没有),下表中的“利用率”是指某种精度的GEMM算子运算过程中对GPU对应精度的运算单元硬件的利用效率。
H100 PCIe vs. A100 PCIe (CUTLASS 3.5.1 GEMM算子)
注:单位均为TFLOPS(浮点)或 TOPS(整型),数值均为实际性能,而非稀疏等价性能。后缀为T的行表示使用Tensor Core。
可以看出CUTLASS目前对A100的优化比对H100 PCIe的优化好。H100 PCIe有着2倍于A100 PCIe的价格,1.4倍于A100的功耗,差不多得到了2倍的算力(以及稍微强些的内存、通信带宽),INT4性能被阉割,但增加了FP8支持。
个人认为,H100 PCIe版的能耗、性价比都有点鸡肋,与其买一两块H100 PCIe版尝尝鲜,不如花多点钱买8卡/4卡的H100 SXM整机一步到位,正所谓“买的越多,省的越多”。
4090 vs. A10(CUTLASS 3.5.1 GEMM算子)
可以看CUTLASS对4090各种精度的优化都挺好,对A10的FP32、FP64的优化有点烂。作为常用的大模型推理卡,A10和4090在显存和通信的规格上相似,价格也差不多,A10计算性能却只有4090的1/3,唯一优势就是A10功耗是4090的1/3,少交点电费。
矩阵形状:M=N=K=8192
测试使用的CUTLASS源码(https://github.com/NVIDIA/cutlass) git commit hash:
19b4c5e065e7e5bbc8082dfc7dbd792bdac850fc
4090测试时的CUTLASS编译选项
-DCUTLASS_NVCC_ARCHS="89"
A10测试时的CUTLASS编译选项
-DCUTLASS_NVCC_ARCHS="86"
A100测试时的CUTLASS编译选项
-DCUTLASS_NVCC_ARCHS="80"
H100测试时的CUTLASS编译选项
-DCUTLASS_NVCC_ARCHS="90a"
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-30
认知重建之后,步入Agentic Engineering的工程革命
2026-03-30
90分钟挖出20年Linux漏洞,Claude 5.0内测曝光:软件工程正在被重写
2026-03-30
Claude Code之父独家分享:15个最喜欢、但经常被忽略的CC功能
2026-03-30
Anthropic史上最大训练曝光,Ilya错了?CEO哀嚎:创业公司将被毁灭
2026-03-29
腾讯汤道生:AI落地不只是算法题,Harness工程能力是关键变量
2026-03-28
Harness:AI 从 “能做” 到 “稳做” 的系统层革命!
2026-03-28
Claude Code开启团战模式!你必须要用起来的Agent teams!
2026-03-28
最强Claude意外泄露!完胜Opus 4.6,代号「卡皮巴拉」,奥特曼又要睡不着了
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2026-01-07
2026-01-21
2026-03-22
2026-03-22
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18