• 残差网络为什么有效


    残差单元简介

    残差网络(Residual Network,ResNet)由多个残差单元堆叠而成。

    残差单元通过为非线性的网络层添加跳跃连接(shortcut/skip connection)的方式来提高信息的传播效率。

    它将期望的映射函数 H ( x ) \mathcal{H}(\mathbf{x}) H(x)分解为残差函数 F ( x ) : = H ( x ) − x \mathcal{F}(x):=\mathcal{H}(\mathbf{x}) -\mathbf{x} F(x):=H(x)x和恒等(identity)函数 x : = x \mathbf{x}:=\mathbf{x} x:=x

    l + 1 l+1 l+1个残差单元的最终输出为:

    x l + 1 = relu ⁡ ( x l + F ( x l , W l ) ) \mathbf{x}_{l+1}=\operatorname{relu}(\mathbf{x}_{l}+\mathcal{F}(\mathbf{x}_{l},\mathcal{W}_l)) xl+1=relu(xl+F(xl,Wl))

    其中 W l \mathcal{W}_l Wl为残差函数的参数。

    残差网络为什么有效

    relu ⁡ \operatorname{relu} relu替换为恒等函数。则残差单元最终输出为:

    x l + 1 = x l + F ( x l , W l ) \mathbf{x}_{l+1}=\mathbf{x}_{l}+\mathcal{F}(\mathbf{x}_{l},\mathcal{W}_l) xl+1=xl+F(xl,Wl)

    通过递归,例如:

    可以得到任意较深的第 L L L个单元 和任意浅较的第 l l l个单元关系如下:

    公式表明:

    • 对于任意较深的第 L L L个单元,特征 x L \mathbf{x}_L xL 可以表示为较浅的第 l l l个单元的特征 x l \mathbf{x}_l xl加上 L L L l l l之间所有残差函数的和 ∑ i = l L − 1 F \sum_{i=l}^{L-1} \mathcal{F} i=lL1F

    • 对于任意第 L L L个单元,它的输出特征 x L = x 0 + ∑ i = 0 L − 1 F ( x i , W i ) \mathbf{x}_{L}=\mathbf{x}_{0}+\sum_{i=0}^{L-1} \mathcal{F}\left(\mathbf{x}_{i}, \mathcal{W}_{i}\right) xL=x0+i=0L1F(xi,Wi),即为之前每一层残差函数的总和加上 x 0 \mathbf{x}_0 x0

    这些特性有利于残差网络的反向传播,设损失函数为 ε \varepsilon ε,由链式法则求梯度:


    公式表明

    • 梯度 ∂ ε ∂ x l \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}} xlε可以被分解成两个部分,其中 ∂ ε ∂ x L ( ∂ ε ∂ x l ∑ i L − 1 F ) \frac{\partial\varepsilon}{\partial\mathbf{x}_{L}}(\frac{\partial\varepsilon}{\partial\mathbf{x}_{l}}\sum^{L−1}_i\mathcal{F}) xLε(xlεiL1F)是通过权重层传递的;而 ∂ ε ∂ x L \frac{\partial\varepsilon}{\partial\mathbf{x}_{L}} xLε不涉及 l l l L L L之间任何权重层,这保证了 L L L层的信息能够直接传回任意 l l l浅层。

    • 在一个小批量中梯度 ∂ ε ∂ x l \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}} xlε不可能出现消失的情况,因为通常 ∂ ε ∂ x l ∑ i L − 1 F \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}}\sum^{L−1}_i\mathcal{F} xlεiL1F对于一个批次的所有样本不可能都为-1,即对于一个批次 ( 1 + ∂ ∂ x l ∑ i = l L − 1 F ( x i , W i ) ) \left(1+\frac{\partial}{\partial \mathbf{x}_{l}} \sum_{i=l}^{L-1} \mathcal{F}\left(\mathbf{x}_{i}, \mathcal{W}_{i}\right)\right) (1+xli=lL1F(xi,Wi))不可能都为0。这意味不可能出现梯度为0的情况。

    另外,[3]的可视化实验表明,跳跃连接可以使得深度网络的优化地形更加平滑。

    NS:No Shortcut/Skip connections

    参考:

    [1] Deep Residual Learning for Image Recognition https://arxiv.org/abs/1512.03385

    [2] Identity Mappings in Deep Residual Networks https://arxiv.org/abs/1603.05027

    [3]Visualizing the Loss Landscape of Neural Nets https://arxiv.org/abs/1712.09913

  • 相关阅读:
    冒泡排序超详细讲解C语言
    【Harmony OS】【JAVA UI】鸿蒙系统中怎么使用Parcel进行存储数据或数据传递
    Anchor-free目标检测综述 -- Dense Prediction篇
    智能语音外呼OKCC呼叫中心的各项指标KPI
    如何在Docker环境下安装Firefox浏览器并结合内网穿透工具实现公网访问
    简述机器学习中的特征工程
    【开源】基于JAVA的快递管理系统
    python的socket模块以及通信相关学习笔记
    重装系统会影响到电脑的正常使用吗
    linux_mysql安装教程带安装包(亲测有效)
  • 原文地址:https://blog.csdn.net/weixin_44378835/article/details/125720130