【动手深度学习-笔记】批量规范化（Batch Normalization）

【动手深度学习-笔记】批量规范化（Batch Normalization）
目录
- 为什么要批量规范化？
  如何批量规范化？
  全连接层
  卷积层
  
  批量规范化究竟做了什么？
  参考资料
为什么要批量规范化？

深层的神经网络有一个特点，就是它的数据端（浅层）到损失端（深层）的“距离”是很远的，
利用反向传播（深层→浅层）进行训练的时候，浅层往往训练的比较慢，
一旦浅层发生变化，所有的层都要跟着变，所以深度较大的层要重新学习多次，导致收敛变慢。
批量规范化（Batch Normalization，简称BN）可以稳定数据的分布，使得深层对于浅层的变化不那么敏感。

如何批量规范化？

全连接层

对全连接层，BN作用在特征维。
具体来说，就是对于全连接层的输入输出的一个批量 $\mathcal{B}$ ，我们可以看成一个矩阵，每行是一条数据样本，每一列是一个特征向量，BN会对每一列的特征向量进行规范化操作。
1. 先求出特征向量的均值 $\hat{\boldsymbol{\mu}}_\mathcal{B}$ 和方差 ${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$ 的估计值：
  $\begin{aligned} \begin{aligned} {\hat{μ}}_{B} & = \frac{1}{| B |} \sum_{x \in B} x, \\ {\hat{σ}}_{B}^{2} & = \frac{1}{| B |} \sum_{x \in B} (x - {\hat{μ}}_{B})^{2} + ϵ . \end{aligned} \end{aligned}$
  其中 $\mathbf{x} \in \mathcal{B}$ 表示一个来自小批量 $\mathcal{B}$ 的输入特征；
  此外，在方差估计值中添加一个小的常量 $\epsilon > 0$ ，避免 ${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$ 为零（后面 ${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$ 要作为分母）
2. 再根据以下表达式转换 $\mathbf{x}$ ：
  $\mathrm{BN}(\mathbf{x}) = \boldsymbol{\gamma} \odot \frac{\mathbf{x} - \hat{\boldsymbol{\mu}}_\mathcal{B}}{\hat{\boldsymbol{\sigma}}_\mathcal{B}} + \boldsymbol{\beta}.$
  其中拉伸参数（scale） $\boldsymbol{\gamma}$ 和偏移参数（shift） $\boldsymbol{\beta}$ ，它们的形状与 $\mathbf{x}$ 相同。是需要与其他模型参数一起学习的参数。
卷积层

对卷积层，BN作用在通道维。思想和将1X1卷积层看作全连接层类似。
通道维可以看作是特征维，BN会对每一个通道的输出进行规范化操作。
举个例子，假设我们的小批量包含 $m$ 个样本，并且对于每个通道，卷积的输出具有高度 $p$ 和宽度 $q$ 。那么对于卷积层，我们在每个输出通道的 $\cdot p \cdot q$ 个元素上同时执行每个批量规范化。
因此，在计算平均值和方差时，我们会收集所有空间位置的值，然后在相同通道内应用相同的均值和方差，以便在每个空间位置对值进行规范化。

批量规范化究竟做了什么？

源论文是想用BN来减少内部的协变量偏移，但这个只是直觉性的
后续论文指出它可能通过在每个Batch加入噪音（也就是均值和方差）控制模型复杂度
当然这些都不是定论（有够玄学的-_-）

参考资料

7.5. 批量规范化 — 动手学深度学习 2.0.0-beta1 documentation
相关阅读:
知识图谱实战应用27-基于多模态数据的洪涝灾害知识图谱构建与实际应用
 php健身房教练预约系统网站
 Java面试（基础篇）——解构Java常见的基础面试题 & 结合Java源码分析
 nginx和feign负载均衡并不冲突
 在Linux上安装RStudio工具并实现本地远程访问【内网穿透】
【Linux】CPU当前频率及调整CPU频率操作
 【四】相机标定
 The widget on which setState() or markNeedsBuild() was called exception
axios进阶——取消已经发出去的请求
 网络工程师-HCIA网课视频学习（更换策略，这个网课质量不行）
原文地址：https://blog.csdn.net/qq_41129489/article/details/126659257

目录

为什么要批量规范化？

如何批量规范化？

全连接层

卷积层

批量规范化究竟做了什么？

参考资料