harry's blog

消费级显卡

参数	RTX 2080	RTX 3090	RTX 4090	RTX 5090	V100 PCIe	V100 SXM2
架构	Turing	Ampere	Ada Lovelace	Blackwell	Volta	Volta
CUDA 核心	2944	10496	16384	21760	5120	5120
Tensor Core	第 2 代	第 3 代	第 4 代	第 5 代	第 1 代	第 1 代
CUDA Capability	7.5	8.6	8.9	12.0	7.0	7.0
Boost Clock	1710 MHz	1695 MHz	2520 MHz	2407 MHz	—	—
显存容量	8 GB	24 GB	24 GB	32 GB	16 / 32 GB	16 / 32 GB
显存类型	GDDR6	GDDR6X	GDDR6X	GDDR7	HBM2	HBM2
显存带宽	448 GB/s	936 GB/s	1008 GB/s	1792 GB/s	900 GB/s	900 GB/s
功耗	225W	350W	450W	575W	250W	300W
常规卡间互联（经 PCIe / 主机）	32 GB/s	64 GB/s	64 GB/s	128 GB/s	32 GB/s	32 GB/s（经主机/平台）
NVLink	✓ 支持（双卡直连，100 GB/s）	✓ 支持（双卡直连，112.5 GB/s）	✗ 不支持	✗ 不支持	✗ 不支持	✓ 支持（平台互联，最高 300 GB/s）
PCIe	PCIe 3.0 x16	PCIe 4.0 x16	PCIe 4.0 x16	PCIe 5.0 x16	PCIe Gen3	—（SXM2）
理论 FP32（CUDA Core）	~10.1 TFLOPS	35.6 TFLOPS	82.6 TFLOPS	104.8 TFLOPS	14 TFLOPS	15.7 TFLOPS
FP16 Tensor（FP32累加，稠密/稀疏）	~40.3 TFLOPS	71.2 / 142.4 TFLOPS	165.2 / 330.4 TFLOPS	209.5 / 419 TFLOPS	112 TFLOPS	125 TFLOPS
BF16 Tensor（FP32累加，稠密/稀疏）	不支持	71.2 / 142.4 TFLOPS	165.2 / 330.4 TFLOPS	209.5 / 419 TFLOPS	不支持	不支持
TF32 Tensor（稠密/稀疏）	不支持	35.6 / 71.2 TFLOPS	82.6 / 165.2 TFLOPS	104.8 / 209.5 TFLOPS	不支持	不支持
FP8 Tensor（FP32累加，稠密/稀疏）	不支持	不支持	330.3 / 660.6 TFLOPS	419 / 838 TFLOPS	不支持	不支持
FP6	不支持	不支持	不支持	支持	不支持	不支持
FP4 Tensor（FP32累加，稠密/稀疏）	不支持	不支持	不支持	1676 / 3352 TFLOPS	不支持	不支持
官方来源	RTX 2080 用户指南 GeForce 对比页 Turing 技术博客	GeForce 对比页 Ampere 白皮书 RTX 3090 产品页	GeForce 对比页 Ada 白皮书 RTX 4090 产品页	GeForce 对比页 RTX 5090 产品页 Blackwell 白皮书	V100 Datasheet Legacy CUDA CC	V100 Datasheet Legacy CUDA CC

专业级显卡

A 卡

参数	A10	A100 PCIe 40GB	A100 PCIe 80GB	A100 SXM 40GB	A100 SXM 80GB	A800 40GB Active	A800 80GB（PCIe/HGX）
架构	Ampere	Ampere	Ampere	Ampere	Ampere	Ampere	Ampere
Tensor Core	第 3 代	第 3 代	第 3 代	第 3 代	第 3 代	第 3 代	第 3 代
CUDA Capability	8.6	8.0	8.0	8.0	8.0	—	—
显存容量	24 GB	40 GB	80 GB	40 GB	80 GB	40 GB	80 GB
显存类型	GDDR6	HBM2	HBM2e	HBM2	HBM2e	HBM2	官方未公开
显存带宽	600 GB/s	1555 GB/s	1935 GB/s	1555 GB/s	2039 GB/s	1555.2 GB/s	官方未公开
功耗	150W	250W	300W	400W	400W	240W	官方未公开
常规卡间互联（经 PCIe / 主机）	64 GB/s	64 GB/s	64 GB/s	64 GB/s（经主机）	64 GB/s（经主机）	64 GB/s	官方未公开
NVLink	✗ 不支持	✓ 支持（2 卡桥接 600 GB/s）	✓ 支持（2 卡桥接 600 GB/s）	✓ 支持（600 GB/s）	✓ 支持（600 GB/s）	✓ 支持（400 GB/s）	视具体 SKU，官方公开页未完整列出
主机接口 / 形态	PCIe Gen4	PCIe Gen4	PCIe Gen4	SXM4	SXM4	PCIe 4.0 x16	PCIe / HGX
理论 FP32（CUDA Core）	31.2 TFLOPS	19.5 TFLOPS	19.5 TFLOPS	19.5 TFLOPS	19.5 TFLOPS	19.5 TFLOPS	官方未公开
FP16 Tensor（FP32累加）	125 / 250 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	官方未按精度拆分	官方未公开
BF16 Tensor（FP32累加）	125 / 250 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	312 / 624 TFLOPS	官方未按精度拆分	官方未公开
TF32 Tensor	62.5 / 125 TFLOPS	156 / 312 TFLOPS	156 / 312 TFLOPS	156 / 312 TFLOPS	156 / 312 TFLOPS	官方未按精度拆分	官方未公开
FP8 Tensor（FP32累加）	不支持	不支持	不支持	不支持	不支持	不支持	官方未公开
FP6	不支持	不支持	不支持	不支持	不支持	不支持	官方未公开
FP4 Tensor（FP32累加）	不支持	不支持	不支持	不支持	不支持	不支持	官方未公开
官方来源	A10 产品页 CUDA CC	A100 Datasheet CUDA CC	A100 Datasheet CUDA CC	A100 Datasheet CUDA CC	A100 Datasheet CUDA CC	A800 40GB Active 产品页	AI Enterprise Release Notes Ampere vGPU Types

H 卡

参数	H20 96GB	H20 141GB	H100 SXM 80GB	H100 NVL 94GB	H200 SXM 141GB	H200 NVL 141GB
架构	Hopper	Hopper	Hopper	Hopper	Hopper	Hopper
CUDA 核心	—	—	—	—	—	—
Tensor Core	第 4 代	第 4 代	第 4 代	第 4 代	第 4 代	第 4 代
CUDA Capability	—	—	9.0	9.0	9.0	9.0
Boost Clock	—	—	—	—	—	—
显存容量	96 GB	141 GB	80 GB	94 GB	141 GB	141 GB
显存类型	官方未公开	官方未公开	HBM3	HBM3	HBM3e	HBM3e
显存带宽	官方未公开	官方未公开	3.35 TB/s	3.9 TB/s	4.8 TB/s	4.8 TB/s
功耗	官方未公开	官方未公开	最高 700W（可配置）	350–400W（可配置）	最高 700W（可配置）	最高 600W（可配置）
常规卡间互联（经 PCIe / 主机）	官方未公开	官方未公开	128 GB/s（经主机）	128 GB/s	128 GB/s（经主机）	128 GB/s
NVLink	官方未公开	官方未公开	✓ 支持（900 GB/s）	✓ 支持（600 GB/s）	✓ 支持（900 GB/s）	✓ 支持（2/4-way，900 GB/s per GPU）
PCIe	—（SXM5）	—（SXM5）	—（SXM）	PCIe Gen5	—（SXM）	PCIe Gen5
理论 FP32（CUDA Core）	官方未公开	官方未公开	67 TFLOPS	60 TFLOPS	67 TFLOPS	60 TFLOPS
FP16 Tensor（FP32累加，稠密/稀疏）	官方未公开	官方未公开	1,979 TFLOPS（官方页为稀疏值）	1,671 TFLOPS（官方页为稀疏值）	1,979 TFLOPS（官方页为稀疏值）	1,671 TFLOPS（官方页为稀疏值）
BF16 Tensor（FP32累加，稠密/稀疏）	官方未公开	官方未公开	1,979 TFLOPS（官方页为稀疏值）	1,671 TFLOPS（官方页为稀疏值）	1,979 TFLOPS（官方页为稀疏值）	1,671 TFLOPS（官方页为稀疏值）
TF32 Tensor（稠密/稀疏）	官方未公开	官方未公开	989 TFLOPS（官方页为稀疏值）	835 TFLOPS（官方页为稀疏值）	989 TFLOPS（官方页为稀疏值）	835 TFLOPS（官方页为稀疏值）
FP8 Tensor（FP32累加，稠密/稀疏）	官方未公开	官方未公开	3,958 TFLOPS（官方页为稀疏值）	3,341 TFLOPS（官方页为稀疏值）	3,958 TFLOPS（官方页为稀疏值）	3,341 TFLOPS（官方页为稀疏值）
FP6	官方未公开	官方未公开	不支持	不支持	不支持	不支持
FP4 Tensor（FP32累加，稠密/稀疏）	官方未公开	官方未公开	不支持	不支持	不支持	不支持
官方来源	Hopper vGPU Types	Hopper vGPU Types	H100 产品页 CUDA CC	H100 产品页 CUDA CC	H200 产品页 CUDA CC	H200 产品页 CUDA CC

本文由 Yonghui Wang 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Apr 05, 2026 06:01 pm

NVIDIA 显卡对比

消费级显卡

专业级显卡

A 卡

H 卡