主流GPU配置信息整理
自从DeepSeek出圈后,智算算力需求突增,经常会被问到一些关于GPU卡算力数据问题,所以花了点时间整理以下内容,供个人速查,如有错误,欢迎指正~
NVIDIA GPU的命名约定
NVIDIA GPU型号名称中的首字母表示其GPU架构,对应关系如下
首字母 | GPU架构 | 推出时间 |
---|---|---|
V | Volta | 2017 |
T | Turing | 2018 |
A | Ampere | 2020 |
H | Hopper | 2022 |
B | Blackwell | 2024 |
说明
在2025年英伟达GPU技术大会(GTC)大会上老黄也预告了后面几代GPU的命名,Vera Rubin(预计2026下半年)、Rubin Ultra(预计2027下半年)、Feynman
NVIDIA GPU配置信息整理
型号 | V100 PCIe V100 SXM2 V100S PCIe |
T4 | A100 PCIe A100 SXM |
H100 SXM H100 NVL |
H200 SXM H200 NVL |
---|---|---|---|---|---|
发布时间 | 2017 | 2018 | 2020 | 2022 | 2023 |
架构 | Volta | Turing | Ampere | Hopper | Hopper |
Tensor Core数量 | 640 | 320 | |||
CUDA Core数量 | 5120 | 2560 | |||
最大功率 | 250W(PCIe) 300W(SXM2) 250W(V100S) |
70W | 300W(PCIe) 400W(SXM) |
700W(SXM) 350-400W(NVL) |
700W(SXM) 600W(NVL) |
显存 | 32GB/16GB HBM2(PCIe&SXM2) 32GB HBM2(V100S) |
16GB GDDR6 | 80GB HBM2e | 80GB(SXM) 94GB(NVL) |
141GB |
显存带宽 | 900GB/s(PCIe&SXM2) 1134GB/s(V100S) |
300GB/s | 1,935GB/s(PCIe) 2,039GB/s(SXM) |
3.35TB/s(SXM) 3.9TB/s(NVL) |
4.8TB/s |
GPU互联带宽(一对一) | PCIe Gen3 32GB/s(PCIe) NVLink 300GB/s(SXM2) PCIe Gen3 32GB/s(V100S) |
PCIe Gen3 32GB/s | PCIe Gen4 64GB/s NVLink 600GB/s |
PCIe Gen5 128GB/s(SXM) NVLink 900GB/s(SXM) PCIe Gen5 128GB/s(NVL) NVIDIA NVLink 600GB/s(NVL) |
PCIe Gen5 128GB/s NVLink 900GB/s |
GPU互联带宽(一对多) | PCIe Gen4 64GB/s NVLink 600GB/s |
||||
FP64算力 | 9.7 TFLOPS | 34 TFLOPS(SXM) 30 TFLOPS(NVL) |
34 TFLOPS(SXM) 30 TFLOPS(NVL) |
||
TF64算力 | |||||
FP32算力 | 14 TFLOPS/15.7 TFLOPS | 8.1 TFLOPS | 19.5 TFLOPS | 67 TFLOPS(SXM) 60 TFLOPS(NVL) |
67 TFLOPS(SXM) 60 TFLOPS(NVL) |
TF32算力 | 156 TFLOPS | 312 TFLOPS* |
989 TFLOPS(SXM) 835 TFLOPS(NVL) |
989 TFLOPS(SXM) 835 TFLOPS(NVL) |
||
BF16算力 | 312 TFLOPS | 624 TFLOPS* |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
||
FP16算力 | 65 TFLOPS | 312 TFLOPS | 624 TFLOPS* |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
1979 TFLOPS(SXM) 1671 TFLOPS(NVL) |
|
FP8算力 | 3958 TFLOPS(SXM) 3341 TFLOPS(NVL) |
3958 TFLOPS(SXM) 3341 TFLOPS(NVL) |
|||
INT8算力 | 130 TOPS | 624 TOPS | 1248 TOPS* |
3958 TOPS(SXM) 3341 TOPS(NVL) |
3958 TOPS(SXM) 3341 TOPS(NVL) |
|
INT4算力 | 260 TOPS |
说明
显存带宽:指GPU从显存中读取或写入数据的速度
GPU互联带宽(一对一):指单个GPU与另一个GPU之间点对点通信的最大理论带宽。
GPU互联带宽(一对多):指单个GPU同时与多个GPU通信时,所有连接的总带宽上限。*
:With sparsity(稀疏性是一种通过减少模型中的非零元素数量来提高计算效率和减少资源消耗的技术。)