主流GPU配置信息整理

发表于 2025-03-20 更新于 2025-04-14 阅读次数：本文字数： 689 阅读时长 ≈ 3 分钟

自从DeepSeek出圈后，智算算力需求突增，经常会被问到一些关于GPU卡算力数据问题，所以花了点时间整理以下内容，供个人速查，如有错误，欢迎指正~

NVIDIA GPU的命名约定

NVIDIA GPU型号名称中的首字母表示其GPU架构，对应关系如下

首字母	GPU架构	推出时间
V	Volta	2017
T	Turing	2018
A	Ampere	2020
H	Hopper	2022
B	Blackwell	2024

说明
在2025年英伟达GPU技术大会（GTC）大会上老黄也预告了后面几代GPU的命名，Vera Rubin（预计2026下半年）、Rubin Ultra（预计2027下半年）、Feynman

NVIDIA GPU配置信息整理

型号	V100 PCIe V100 SXM2 V100S PCIe	T4	A100 PCIe A100 SXM	H100 SXM H100 NVL	H200 SXM H200 NVL
发布时间	2017	2018	2020	2022	2023
架构	Volta	Turing	Ampere	Hopper	Hopper
Tensor Core数量	640	320
CUDA Core数量	5120	2560
最大功率	250W(PCIe) 300W(SXM2) 250W(V100S)	70W	300W(PCIe) 400W(SXM)	700W(SXM) 350-400W(NVL)	700W(SXM) 600W(NVL)
显存	32GB/16GB HBM2(PCIe&SXM2) 32GB HBM2(V100S)	16GB GDDR6	80GB HBM2e	80GB(SXM) 94GB(NVL)	141GB
显存带宽	900GB/s(PCIe&SXM2) 1134GB/s(V100S)	300GB/s	1,935GB/s(PCIe) 2,039GB/s(SXM)	3.35TB/s(SXM) 3.9TB/s(NVL)	4.8TB/s
GPU互联带宽（一对一）	PCIe Gen3 32GB/s(PCIe) NVLink 300GB/s(SXM2) PCIe Gen3 32GB/s(V100S)	PCIe Gen3 32GB/s	PCIe Gen4 64GB/s NVLink 600GB/s	PCIe Gen5 128GB/s(SXM) NVLink 900GB/s(SXM) PCIe Gen5 128GB/s(NVL) NVIDIA NVLink 600GB/s(NVL)	PCIe Gen5 128GB/s NVLink 900GB/s
GPU互联带宽（一对多）			PCIe Gen4 64GB/s NVLink 600GB/s
FP64算力			9.7 TFLOPS	34 TFLOPS(SXM) 30 TFLOPS(NVL)	34 TFLOPS(SXM) 30 TFLOPS(NVL)
TF64算力
FP32算力	14 TFLOPS/15.7 TFLOPS	8.1 TFLOPS	19.5 TFLOPS	67 TFLOPS(SXM) 60 TFLOPS(NVL)	67 TFLOPS(SXM) 60 TFLOPS(NVL)
TF32算力			156 TFLOPS \| 312 TFLOPS`*`	989 TFLOPS(SXM) 835 TFLOPS(NVL)	989 TFLOPS(SXM) 835 TFLOPS(NVL)
BF16算力			312 TFLOPS \| 624 TFLOPS`*`	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)
FP16算力		65 TFLOPS	312 TFLOPS \| 624 TFLOPS`*`	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)	1979 TFLOPS(SXM) 1671 TFLOPS(NVL)
FP8算力				3958 TFLOPS(SXM) 3341 TFLOPS(NVL)	3958 TFLOPS(SXM) 3341 TFLOPS(NVL)
INT8算力		130 TOPS	624 TOPS \| 1248 TOPS`*`	3958 TOPS(SXM) 3341 TOPS(NVL)	3958 TOPS(SXM) 3341 TOPS(NVL)
INT4算力		260 TOPS

说明
显存带宽：指GPU从显存中读取或写入数据的速度
GPU互联带宽（一对一）：指单个GPU与另一个GPU之间点对点通信的最大理论带宽。
GPU互联带宽（一对多）：指单个GPU同时与多个GPU通信时，所有连接的总带宽上限。
*：With sparsity（稀疏性是一种通过减少模型中的非零元素数量来提高计算效率和减少资源消耗的技术。）

参考文档

0%