Layer Normalization的原理及与BN的区别

### Layer Normalization 工作原理 Layer Normalization (LN) 是一种用于归一化神经网络内部激活的技术，旨在提高训练稳定性和速度[^1]。与 Batch Normalization 不同的是，Layer Normalization 对每个样本的特征维度进行归一化，而不是对整个 mini-batch 进行归一化。对于给定的一个隐藏层 \( h \)，假设该层有 \( d \) 维度，则 LN 的操作可以表示为： \[ \mu_l = \frac{1}{d} \sum_{i=1}^{d} h_i \] \[ s_l^2 = \frac{1}{d} \sum_{i=1}^{d} (h_i - \mu_l)^2 \] \[ \hat{h}_l = \frac{h_l - \mu_l}{\sqrt{s_l^2 + \epsilon}} \] 其中，\( \mu_l \) 和 \( s_l^2 \) 分别代表第 l 层的均值和方差；\( \epsilon \) 是一个小常数，用来防止除零错误。最终，通过引入可学习参数 γ 和 β 来缩放和平移标准化后的输出: \[ y_l = \gamma \cdot \hat{h}_l + \beta \] 这种设计使得 LN 特别适合于处理序列数据，如自然语言处理中的模型。 ### Layer Normalization 与 Batch Normalization 的区别 Batch Normalization (BN) 根据整个小批量的统计信息对每一层的输入进行归一化。具体而言，它计算每个特征在小批量中的均值和方差，将输入转换为零均值和单位方差[^3]。而 Layer Normalization 则是在单一样本上工作，在同一时间步长内的所有通道/单元都被一起考虑并进行了相同的变换。因此，主要差异在于： - **作用范围**：BN 考虑了 batch 中的数据分布，而 LN 关注个体样本； - **适用场景**：由于 BN 依赖于 batch size 并且可能受到 batch 内部变化的影响较大，所以在某些情况下（比如 RNN 或者非常深的 CNN），LN 表现得更好； - **稳定性**：当 batch size 较小时，BN 可能会变得不稳定，此时 LN 提供了一种更稳定的替代方案[^2]。 ```python import torch.nn as nn class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.conv = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3) self.bn = nn.BatchNorm2d(64) # 使用BN的情况 self.ln = nn.LayerNorm([64, 8, 8]) # 使用LN的情况 def forward(self, x): x = self.conv(x) bn_out = self.bn(x) # 应用BN ln_out = self.ln(x) # 应用LN return bn_out, ln_out ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Transformer + CNN 融合算法

目录

Layer Normalization的原理及与BN的区别

Python内容推荐

csv文件，配套 《Python手把手教学通关：入门到进阶，讲练测答四合一 》学习专栏使用

机器学习面试题总结.pdf

batch normalization 和 layer normalization 在RNN（LSTM、GRU）上的TensorFlow实现

BN与LN区别解析[源码]

TensorFlow实现Batch Normalization

BN、LN、IN、GN区别解析[项目源码]

Layer-Normalization.md

再思考Transformer中的Batch Normalization.pdf

BN与LN对比[源码]

【人工智能学习】【十四】Normalization

21. Normalization归一化总结1

BN超详细解析[源码]

BN推导.docx

2-Layer normalization 篇.pdf

Batch Normalization: Accelerating Deep Network Training by Reducing

04_BN层的深入理解1

深度学习中的标准化操作_BN与GN1

Batch Norm与Layer Norm区别[可运行源码]

深度学习中的归一化方法比较

A Survey of BatchNormalization（原理、背景、算法、演变、优缺点）

显示和隐藏进程的主窗口

#资源达人分享计划# clsWindow2.2_20210331控制PC版QQ发送消息.zip

根据进程ID获取进程的用户名

查看窗口和控件句柄、类名、标题、风格

Python获取系统所有进程PID及进程名称的方法示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

csv文件，配套《Python手把手教学通关：入门到进阶，讲练测答四合一》学习专栏使用