harry's blog

什么是 `sub_group_size` 参数？

在分布式深度学习中，NVIDIA 的 DeepSpeed 和 NCCL 是常用的深度学习优化工具，sub_group_size 是其中的一个关键参数，用来控制在 Zero Optimization 或 NCCL 通信中，梯度张量同步的 分组粒度大小。

工作原理

当多个 GPU 协同训练一个模型时，每张 GPU 都会计算自身张量的梯度结果。随后，这些梯度需要通过 GPU 间的通信网络（比如 NVLink 或 NVSwitch）同步到其他 GPU 上，以确保模型参数一致性。

sub_group_size 的核心作用：

定义每次通信操作传输的 梯度数据块大小。
张量的总梯度会被切分为若干小块，再按块同步到其他设备。
选择合适的粒度大小可以优化通信性能，避免通信开销过大导致训练效率低下。

公式如下：
[
T = \frac{\text{sub_group_size}}{\text{通信带宽}}
]
其中：

(T) 为单次数据同步时间。
通信带宽 是通信网络（如 NVLink、PCIe）的有效带宽。
sub_group_size 决定了每次传输的数据大小（粒度）。

为什么 `sub_group_size` 很重要？

通信性能是分布式训练中的重要瓶颈之一。sub_group_size 参数设置过大或过小都会影响训练效率：

过小的 sub_group_size：
- 每组数据传输变得很小，会导致通信频繁。
- 虽然单次通信延迟较低，但通信次数增多会带来更多控制和初始化开销。
过大的 sub_group_size：
- 每组数据传输较大，传输次数减少。
- 但由于单次传输占用更多带宽，可能导致通信延迟增加，甚至饱和硬件链路（比如 NVLink）。

选择 合适的粒度大小，需要根据系统硬件、网络带宽和模型规模来调节。

对 `sub_group_size` 的硬件理解

以 NVIDIA A100-SXM4-80GB GPU 集群为例：

A100 支持 NVLink 第三代 (NVLink 3.0)，每条链路的带宽为 25GB/s。
每张 GPU 有 12条 NVLink，总理论带宽为 (12 \times 25GB/s = 300GB/s)。
如果 8 张 GPU 通过 NVSwitch 连接，则总通信带宽将汇聚，但每条链路仍然受 NVLink 单链路限制为 25GB/s。

一个典型的分布式任务（例如训练一个 7B 参数模型）中：

每张 GPU 的梯度大小约为：
[
7B \times 2 , \text{字节（fp16大小）} \div 8 , \text{GPU} \approx 1.75 , \text{GB}
]
1.75GB 的梯度需要通过 NVLink/NVSwitch 同步到其他 GPU，并且通信效率取决于 sub_group_size 的设置。

如何设置 `sub_group_size`？

理论指导

假设 NVLink 单链路的带宽为 25GB/s，我们可以通过计算来决定合适的 sub_group_size 和同步时间：

设置为 8MB：
[
T = \frac{8 , \text{MB}}{25 , \text{GB/s}} = 0.00032s = 0.32ms
]
通信时间较短，但通信次数较高。
设置为 64MB：
[
T = \frac{64 , \text{MB}}{25 , \text{GB/s}} = 0.00256s = 2.56ms
]
通信时间适中，通信频率有所降低。
设置为 128MB：
[
T = \frac{128 , \text{MB}}{25 , \text{GB/s}} = 0.00512s = 5.12ms
]
单次传输时间增加，但通信次数进一步减少。

使用实例：`sub_group_size` 的实际效果

假设你有以下场景：

硬件架构：8张 NVIDIA A100 GPU，通过 NVSwitch 连接。
任务模型：7B 参数模型，采用 fp16 精度。
实验结果比较：

`sub_group_size`	耗时（单次通信）	通信次数	总通信时间
8MB	0.32ms	218 次	69.76ms
64MB	2.56ms	27 次	69.12ms
128MB	5.12ms	14 次	71.68ms

结果分析

64MB 是性能上的合理平衡点，通信时间和通信频率达到了较好的均衡。
如果带宽利用率较低，可尝试增大到 128MB；如果通信频率过高，可尝试减小到 32MB。

总结

sub_group_size 是深度学习分布式训练中影响通信效率和性能的重要参数：

它决定梯度张量同步的分组大小，影响通信时间和频率。
合理的设置需要根据 NVLink 带宽、模型规模和硬件拓扑调节。
对于典型的 A100 和 NVSwitch 配置：
- 推荐初值：64MB
- 调节范围：32MB 到 256MB

通过正确调整 sub_group_size，可以显著优化通信性能，为大规模分布式训练带来更高的效率和吞吐量。


---

希望这段整理能帮助你快速将 `sub_group_size` 的概念介绍到你的博客中，同时为读者提供清晰的背景和实践指导！如果还有需要补充的细节随时告诉我！ 😊



以下是补充完成的常用分组大小 `sub_group_size` 的表格和相关说明，扩展到 **1GB**，并按照 **字节 (Bytes) → KB → MB → GB** 转换详细列出。同时描述了适用场景，方便在实际情况下参考！

---

```markdown
### **sub_group_size 常用大小与说明**

`sub_group_size` 是分布式梯度同步中重要的参数，决定单次通信的数据块大小。以下表格列出了从 **1MB** 到 **1GB** 的常用值，涵盖适用的通信硬件场景和性能调优建议。

| 数据块大小       | 转换值                   | 推荐场景                                     |
|------------------|--------------------------|---------------------------------------------|
| **1MB**          | 1,048,576 字节           | 适合小模型的分布式训练；低带宽环境中优先选择       |
| **8MB**          | 8,388,608 字节           | 测试通信瓶颈的小规模场景，适合跨多节点的分布式性能 |
| **16MB**         | 16,777,216 字节          | 通信中等频率，梯度适中；适合较小模型（1-2GB梯度） |
| **32MB**         | 33,554,432 字节          | 减少通信开销，适合中型模型的多 GPU 同步任务     |
| **64MB**         | 67,108,864 字节          | **推荐默认值**；大多数分布式任务的最佳性能平衡     |
| **128MB**        | 134,217,728 字节         | 高带宽 NVLink 单节点；大模型同步推荐值           |
| **256MB**        | 268,435,456 字节         | 超大梯度（如10GB以上）；NVSwitch 全互联网络最佳选择 |
| **512MB**        | 536,870,912 字节         | 多 GPU 超大规模模型；需高效硬件支持（如 NVSwitch）|
| **1GB**          | 1,073,741,824 字节       | 极少数超级计算场景，高端网络设备（如 InfiniBand） |

逐级说明

以下对不同大小的 sub_group_size 进行详细说明，并解释适用场景和性能平衡点。

1MB (1048576 字节)

转化: ( 1 \times 1024 \times 1024 )
适用场景:
- 非常小模型（比如梯度同步需要的总数据只有几百 MB）。
- 多节点低带宽（如 PCIe 或较慢 InfiniBand）下调试通信性能。
优点:
- 由于通信粒度小，可以最大程度避免带宽饱和。
缺点:
- 通信频率过高，增加处理开销。

8MB (8388608 字节)

转化: ( 8 \times 1024 \times 1024 )
适用场景:
- 中小模型（梯度同步总数据在 1GB 左右）。
- 跨节点通信，适合使用 InfiniBand 或非 NVSwitch 的集群。
优点:
- 在保持通信延迟低的同时减少传输频率。
典型用例:
- 小集群的 ResNet 或 LSTM 模型同步。

64MB (67108864 字节)

转化: ( 64 \times 1024 \times 1024 )
适用场景:
- 多数分布式任务推荐值：适合 8卡 A100 集群，默认 NVLink 或 NVSwitch 配置。
- 通用的大规模模型（例如 GPT、BERT 等 7B - 13B 参数）。
优点:
- 通信频率适中，单次传输时延控制在合理范围（约 2.56ms）。
- 性能消耗与数据量保持均衡。
典型用例:
- 单机 8卡的 GPT2 / GPT3 中等规模模型。

128MB (134217728 字节)

转化: ( 128 \times 1024 \times 1024 )
适用场景:
- 高带宽系统（如 NVSwitch）推荐值，大模型首选。
- 大模型（梯度同步如 10GB+），且系统支持高带宽互联。
优点:
- 大幅降低通信频率。
- 提高多 GPU 训练吞吐量，带宽利用率接近 80%-90%。
典型用例:
- 大规模跨 GPU 任务，如 GPT-175B 模型或 Megatron 运行环境。

512MB (536870912 字节) 和 1GB (1,073,741,824 字节)

转化:
- 512MB = ( 512 \times 1024 \times 1024 )
- 1GB = ( 1024 \times 1024 \times 1024 )
适用场景:
- 超大规模模型通信 (如梯度规模 (> 20GB)) 或高性能超级计算场景。
- 适合拥有全互联 NVSwitch 或大规模 InfiniBand 网络的集群。
优点:
- 单次通信传输巨大，极大程度减少通信频率。
缺点:
- 如果带宽不足（如 PCIe 或非全互联），单次传输时间增大可能导致延迟瓶颈。
典型用例:
- 科研超算项目，如 GPT-3 规模训练（超过 175B 参数）。

总结：选择合理的分组大小

推荐初值：
- 对于大多数分布式训练任务，建议从 64MB (67108864) 开始。
- 它可以兼顾通信效率和系统带宽利用，在 NVLink + NVSwitch 配置中性能优秀。
扩展调试范围：
- 小模型：如果模型较小，比如梯度总量 <= 1GB，可以尝试较小值（如 8MB 或 16MB）。
- 高带宽环境：能够支持较大梯度分组时，调优范围可提升到 128MB - 256MB；高端超算场景可选择 512MB - 1GB。

"zero_optimization": {
    "stage": 2,
    "sub_group_size": 134217728,        // 128MB；大规模推荐值
    "reduce_bucket_size": 67108864,   // 同步桶大小设置为 64MB
    "overlap_comm": true,
    "contiguous_gradients": true
}

通过合理设置 sub_group_size，可显著减少通信开销，为大规模分布式训练任务提升吞吐效率！




https://resources.nvidia.com/en-us-l40s/l40s-datasheet-28413

https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-nvidia-us-2188504-web.pdf

https://26683789.fs1.hubspotusercontent-eu1.net/hubfs/26683789/H200-DataSheet.pdf

本文由 Yonghui Wang 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Sep 04, 2025 11:53 am

NCCL通信设置

什么是 `sub_group_size` 参数？

工作原理

为什么 `sub_group_size` 很重要？

对 `sub_group_size` 的硬件理解

如何设置 `sub_group_size`？

理论指导

推荐设置

使用实例：`sub_group_size` 的实际效果

结果分析

总结

逐级说明

1MB (1048576 字节)

8MB (8388608 字节)

64MB (67108864 字节)

128MB (134217728 字节)

512MB (536870912 字节) 和 1GB (1,073,741,824 字节)

总结：选择合理的分组大小

NCCL通信设置

什么是 sub_group_size 参数？

工作原理

为什么 sub_group_size 很重要？

对 sub_group_size 的硬件理解

如何设置 sub_group_size？

理论指导

推荐设置

使用实例：sub_group_size 的实际效果

结果分析

总结

逐级说明

1MB (1048576 字节)

8MB (8388608 字节)

64MB (67108864 字节)

128MB (134217728 字节)

512MB (536870912 字节) 和 1GB (1,073,741,824 字节)

总结：选择合理的分组大小

什么是 `sub_group_size` 参数？

为什么 `sub_group_size` 很重要？

对 `sub_group_size` 的硬件理解

如何设置 `sub_group_size`？

使用实例：`sub_group_size` 的实际效果