不同 normalization 之间的比较
pytorch
本文字数:241 字 | 阅读时长 ≈ 1 min

不同 normalization 之间的比较

pytorch
本文字数:241 字 | 阅读时长 ≈ 1 min

@TOC

不同 Normalization 之间的具体区别和优缺点我也不是很清楚,这里只是展示他们的具体运行机制

1. Batch Normalization

加速收敛,归一化为标准正态分布,能够解决梯度消失的问题
图像分类任务一般用 Batch Normalization,不用 Instance Normalization?
Batch Normalization 有一个很大的缺点,需要比较大的 Batch Size,比如 32,但是有些任务很大的 Batch 显存吃不下,对于较小的 Batch 表现又较差,所以需要下面的归一化方法

Batch Normalization 示例

2. Instance Normalization

作者提到输出图像不依赖内容之间的对比,所以可以用实例归一化

3. Layer Normalization

4. Group Normalization

Group Normalization 与 Layer Normalization 唯一不同的在于,Group Normalization 不是计算特征图的所有通道,而是取部分通道进行计算,也适用于 Batch 较小的情况,paper 中提到计算的通道数大约为 32

4月 06, 2025
3月 10, 2025
12月 31, 2024