python手撕Batchnorm

### 手动实现 Batch Normalization 的方法 Batch Normalization 是一种用于加速深度学习模型收敛的技术，通过标准化每一层输入数据的分布来减少内部协变量偏移。以下是基于 Python 和 NumPy 实现 Batch Normalization 的具体方式。 #### 1. 数学原理 Batch Normalization 的核心思想是对每一批次 (mini-batch) 数据进行归一化处理，使得均值接近于 0，方差接近于 1。对于某一层的输入 \( x \)，经过 Batch Norm 后的结果为： \[ y = \gamma \cdot \hat{x} + \beta \] 其中， - \(\hat{x}\) 表示标准化后的值； - \(\mu_B\) 和 \(\sigma_B^2\) 分别表示 mini-batch 中的均值和方差； - \(\epsilon\) 是一个小常数，防止除零错误； - \(\gamma\) 和 \(\beta\) 是可学习参数，分别控制缩放和平移。标准公式如下： \[ \mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i,\quad \sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2 \] \[ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}},\quad y_i = \gamma \cdot \hat{x}_i + \beta \] 这些公式的推导可以在深度学习教材中找到[^4]。 #### 2. 前向传播实现下面是前向传播的手动实现代码： ```python import numpy as np def batch_norm_forward(x, gamma, beta, eps=1e-5): """ 执行批量归一化的前向传播。参数: x: 输入数据 (形状为 NxD) gamma: 缩放因子 (形状为 D,) beta: 平移因子 (形状为 D,) eps: 防止数值不稳定的小量返回: out: 归一化并变换后的输出 cache: 存储反向传播所需的信息 """ m = x.shape[0] # 获取批次大小 mu = np.mean(x, axis=0) # 计算均值 var = np.var(x, axis=0) # 计算方差 std_inv = 1.0 / np.sqrt(var + eps) # 计算倒数平方根 x_hat = (x - mu) * std_inv # 标准化 out = gamma * x_hat + beta # 缩放和平移 cache = (x, x_hat, mu, var, std_inv, gamma, beta, eps) return out, cache ``` 这段代码实现了 Batch Normalization 的前向传播逻辑，并存储了中间变量以便后续反向传播使用。 #### 3. 反向传播实现在梯度下降过程中，需要计算损失函数相对于输入 \( x \)、缩放参数 \( \gamma \) 和平移参数 \( \beta \) 的梯度。以下是反向传播的具体实现： ```python def batch_norm_backward(dout, cache): """ 批量归一化的反向传播。参数: dout: 上游梯度 (形状为 NxD) cache: 前向传播缓存返回: dx: 对应于输入 x 的梯度 dgamma: 对应于 gamma 的梯度 dbeta: 对应于 beta 的梯度 """ x, x_hat, mu, var, std_inv, gamma, beta, eps = cache m = x.shape[0] dbeta = np.sum(dout, axis=0) # β 的梯度 dgamma = np.sum(dout * x_hat, axis=0) # γ 的梯度 dx_hat = dout * gamma # ∂L/∂x̂ dvar = np.sum(dx_hat * (x - mu) * (-0.5) * (std_inv ** 3), axis=0) # ∂L/∂σ² dmu = np.sum(dx_hat * (-std_inv), axis=0) + dvar * np.mean(-2.0 * (x - mu), axis=0) # ∂L/∂μ dx = dx_hat * std_inv + dvar * 2.0 * (x - mu) / m + dmu / m # ∂L/∂x return dx, dgamma, dbeta ``` 此部分代码完成了对输入 \( x \)、\( \gamma \) 和 \( \beta \) 的梯度计算。 #### 4. 测试代码可以通过简单的测试验证上述实现是否正确： ```python np.random.seed(42) x = np.random.randn(10, 5) # 创建随机输入 gamma = np.ones(5) # 初始化γ beta = np.zeros(5) # 初始化β # 前向传播 out, cache = batch_norm_forward(x, gamma, beta) # 构造上游梯度 dout = np.random.randn(*out.shape) # 反向传播 dx, dgamma, dbeta = batch_norm_backward(dout, cache) print("dx:", dx) print("dgamma:", dgamma) print("dbeta:", dbeta) ``` 以上代码展示了如何从前向传播到反向传播完整地实现 Batch Normalization。 --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 opencv的findcontours函数python

目录

python手撕Batchnorm

Python内容推荐

Python深度学习-1-8章代码.zip

基于Python的使用numpy构建基础神经网络.zip

python PyTorch参数初始化和Finetune

python PyTorch参数初始化和Finetune.pdf

Python-PyTorch的批量归一化融合

Python利用神经网络解决非线性回归问题实例详解

【深度学习面试】Python深度学习常见面试题总结：涵盖梯度问题解决方案、反向传播算法、BatchNorm原理及模型组件功能解释

Python-DenseNet的一个PyTorch实现

pytorch方法测试详解——归一化(BatchNorm2d)

numpy实现卷积，通道卷积，batchnorm

Pytorch多GPU的计算和Sync BatchNorm

batchnorm:批量标准化

深度学习与PyTorch入门实战教程_涵盖人工智能发展历程与基础数学理论包括线性回归逻辑回归梯度及梯度下降损失函数多分类问题BatchNorm卷积神经网络CNN与Re.zip

inplace_abn:就地激活的BatchNorm，用于DNN的内存优化训练

tensorflow_batchnorm_folding-1.0.5.tar.gz

tensorflow_batchnorm_folding-1.0.4.tar.gz

基于PyTorch深度学习框架实现的卷积神经网络CNN图像分类模型项目_包含卷积层池化层全连接层以及多种激活函数如ReLU_Sigmoid_Tanh和批归一化BatchNorm与随.zip

tensorflow_batchnorm_folding-1.0.0.tar.gz

tensorflow_batchnorm_folding-1.0.3.tar.gz

vision-template-opencv-3.3:入门代码演示了如何使用CMake轻松地在src文件夹中编译源代码。 支持Linux，Mac和Windows（与VS 2015一起使用）-How to use the source code

Arduino-CMake-Toolchain：适用于所有Arduino兼容板的CMake工具链

opencv配置文件

二维码编码库-qrencode-vs2010静态库

vscode+cmake stm32工程模板

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

vision-template-opencv-3.3:入门代码演示了如何使用CMake轻松地在src文件夹中编译源代码。支持Linux，Mac和Windows（与VS 2015一起使用）-How to use the source code