NVIDIA 显卡对比
pytorch
本文字数:1.6k 字 | 阅读时长 ≈ 7 min

NVIDIA 显卡对比

pytorch
本文字数:1.6k 字 | 阅读时长 ≈ 7 min

消费级显卡

参数 RTX 2080 RTX 3090 RTX 4090 RTX 5090 V100 PCIe V100 SXM2
架构 Turing Ampere Ada Lovelace Blackwell Volta Volta
CUDA 核心 2944 10496 16384 21760 5120 5120
Tensor Core 第 2 代 第 3 代 第 4 代 第 5 代 第 1 代 第 1 代
CUDA Capability 7.5 8.6 8.9 12.0 7.0 7.0
Boost Clock 1710 MHz 1695 MHz 2520 MHz 2407 MHz
显存容量 8 GB 24 GB 24 GB 32 GB 16 / 32 GB 16 / 32 GB
显存类型 GDDR6 GDDR6X GDDR6X GDDR7 HBM2 HBM2
显存带宽 448 GB/s 936 GB/s 1008 GB/s 1792 GB/s 900 GB/s 900 GB/s
功耗 225W 350W 450W 575W 250W 300W
常规卡间互联(经 PCIe / 主机) 32 GB/s 64 GB/s 64 GB/s 128 GB/s 32 GB/s 32 GB/s(经主机/平台)
NVLink ✓ 支持(双卡直连,100 GB/s) ✓ 支持(双卡直连,112.5 GB/s) ✗ 不支持 ✗ 不支持 ✗ 不支持 ✓ 支持(平台互联,最高 300 GB/s)
PCIe PCIe 3.0 x16 PCIe 4.0 x16 PCIe 4.0 x16 PCIe 5.0 x16 PCIe Gen3 —(SXM2)
理论 FP32(CUDA Core) ~10.1 TFLOPS 35.6 TFLOPS 82.6 TFLOPS 104.8 TFLOPS 14 TFLOPS 15.7 TFLOPS
FP16 Tensor(FP32累加,稠密/稀疏) ~40.3 TFLOPS 71.2 / 142.4 TFLOPS 165.2 / 330.4 TFLOPS 209.5 / 419 TFLOPS 112 TFLOPS 125 TFLOPS
BF16 Tensor(FP32累加,稠密/稀疏) 不支持 71.2 / 142.4 TFLOPS 165.2 / 330.4 TFLOPS 209.5 / 419 TFLOPS 不支持 不支持
TF32 Tensor(稠密/稀疏) 不支持 35.6 / 71.2 TFLOPS 82.6 / 165.2 TFLOPS 104.8 / 209.5 TFLOPS 不支持 不支持
FP8 Tensor(FP32累加,稠密/稀疏) 不支持 不支持 330.3 / 660.6 TFLOPS 419 / 838 TFLOPS 不支持 不支持
FP6 不支持 不支持 不支持 支持 不支持 不支持
FP4 Tensor(FP32累加,稠密/稀疏) 不支持 不支持 不支持 1676 / 3352 TFLOPS 不支持 不支持
官方来源 RTX 2080 用户指南
GeForce 对比页
Turing 技术博客
GeForce 对比页
Ampere 白皮书
RTX 3090 产品页
GeForce 对比页
Ada 白皮书
RTX 4090 产品页
GeForce 对比页
RTX 5090 产品页
Blackwell 白皮书
V100 Datasheet
Legacy CUDA CC
V100 Datasheet
Legacy CUDA CC

专业级显卡

A 卡

参数 A10 A100 PCIe 40GB A100 PCIe 80GB A100 SXM 40GB A100 SXM 80GB A800 40GB Active A800 80GB(PCIe/HGX)
架构 Ampere Ampere Ampere Ampere Ampere Ampere Ampere
Tensor Core 第 3 代 第 3 代 第 3 代 第 3 代 第 3 代 第 3 代 第 3 代
CUDA Capability 8.6 8.0 8.0 8.0 8.0
显存容量 24 GB 40 GB 80 GB 40 GB 80 GB 40 GB 80 GB
显存类型 GDDR6 HBM2 HBM2e HBM2 HBM2e HBM2 官方未公开
显存带宽 600 GB/s 1555 GB/s 1935 GB/s 1555 GB/s 2039 GB/s 1555.2 GB/s 官方未公开
功耗 150W 250W 300W 400W 400W 240W 官方未公开
常规卡间互联(经 PCIe / 主机) 64 GB/s 64 GB/s 64 GB/s 64 GB/s(经主机) 64 GB/s(经主机) 64 GB/s 官方未公开
NVLink ✗ 不支持 ✓ 支持(2 卡桥接 600 GB/s) ✓ 支持(2 卡桥接 600 GB/s) ✓ 支持(600 GB/s) ✓ 支持(600 GB/s) ✓ 支持(400 GB/s) 视具体 SKU,官方公开页未完整列出
主机接口 / 形态 PCIe Gen4 PCIe Gen4 PCIe Gen4 SXM4 SXM4 PCIe 4.0 x16 PCIe / HGX
理论 FP32(CUDA Core) 31.2 TFLOPS 19.5 TFLOPS 19.5 TFLOPS 19.5 TFLOPS 19.5 TFLOPS 19.5 TFLOPS 官方未公开
FP16 Tensor(FP32累加) 125 / 250 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 官方未按精度拆分 官方未公开
BF16 Tensor(FP32累加) 125 / 250 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 312 / 624 TFLOPS 官方未按精度拆分 官方未公开
TF32 Tensor 62.5 / 125 TFLOPS 156 / 312 TFLOPS 156 / 312 TFLOPS 156 / 312 TFLOPS 156 / 312 TFLOPS 官方未按精度拆分 官方未公开
FP8 Tensor(FP32累加) 不支持 不支持 不支持 不支持 不支持 不支持 官方未公开
FP6 不支持 不支持 不支持 不支持 不支持 不支持 官方未公开
FP4 Tensor(FP32累加) 不支持 不支持 不支持 不支持 不支持 不支持 官方未公开
官方来源 A10 产品页
CUDA CC
A100 Datasheet
CUDA CC
A100 Datasheet
CUDA CC
A100 Datasheet
CUDA CC
A100 Datasheet
CUDA CC
A800 40GB Active 产品页 AI Enterprise Release Notes
Ampere vGPU Types

H 卡

参数 H20 96GB H20 141GB H100 SXM 80GB H100 NVL 94GB H200 SXM 141GB H200 NVL 141GB
架构 Hopper Hopper Hopper Hopper Hopper Hopper
CUDA 核心
Tensor Core 第 4 代 第 4 代 第 4 代 第 4 代 第 4 代 第 4 代
CUDA Capability 9.0 9.0 9.0 9.0
Boost Clock
显存容量 96 GB 141 GB 80 GB 94 GB 141 GB 141 GB
显存类型 官方未公开 官方未公开 HBM3 HBM3 HBM3e HBM3e
显存带宽 官方未公开 官方未公开 3.35 TB/s 3.9 TB/s 4.8 TB/s 4.8 TB/s
功耗 官方未公开 官方未公开 最高 700W(可配置) 350–400W(可配置) 最高 700W(可配置) 最高 600W(可配置)
常规卡间互联(经 PCIe / 主机) 官方未公开 官方未公开 128 GB/s(经主机) 128 GB/s 128 GB/s(经主机) 128 GB/s
NVLink 官方未公开 官方未公开 ✓ 支持(900 GB/s) ✓ 支持(600 GB/s) ✓ 支持(900 GB/s) ✓ 支持(2/4-way,900 GB/s per GPU)
PCIe —(SXM5) —(SXM5) —(SXM) PCIe Gen5 —(SXM) PCIe Gen5
理论 FP32(CUDA Core) 官方未公开 官方未公开 67 TFLOPS 60 TFLOPS 67 TFLOPS 60 TFLOPS
FP16 Tensor(FP32累加,稠密/稀疏) 官方未公开 官方未公开 1,979 TFLOPS(官方页为稀疏值) 1,671 TFLOPS(官方页为稀疏值) 1,979 TFLOPS(官方页为稀疏值) 1,671 TFLOPS(官方页为稀疏值)
BF16 Tensor(FP32累加,稠密/稀疏) 官方未公开 官方未公开 1,979 TFLOPS(官方页为稀疏值) 1,671 TFLOPS(官方页为稀疏值) 1,979 TFLOPS(官方页为稀疏值) 1,671 TFLOPS(官方页为稀疏值)
TF32 Tensor(稠密/稀疏) 官方未公开 官方未公开 989 TFLOPS(官方页为稀疏值) 835 TFLOPS(官方页为稀疏值) 989 TFLOPS(官方页为稀疏值) 835 TFLOPS(官方页为稀疏值)
FP8 Tensor(FP32累加,稠密/稀疏) 官方未公开 官方未公开 3,958 TFLOPS(官方页为稀疏值) 3,341 TFLOPS(官方页为稀疏值) 3,958 TFLOPS(官方页为稀疏值) 3,341 TFLOPS(官方页为稀疏值)
FP6 官方未公开 官方未公开 不支持 不支持 不支持 不支持
FP4 Tensor(FP32累加,稠密/稀疏) 官方未公开 官方未公开 不支持 不支持 不支持 不支持
官方来源 Hopper vGPU Types Hopper vGPU Types H100 产品页
CUDA CC
H100 产品页
CUDA CC
H200 产品页
CUDA CC
H200 产品页
CUDA CC
3月 13, 2026
ufw
3月 13, 2026
ufw
12月 14, 2025
8月 26, 2025