残差网络(Residual Network,ResNet)由多个残差单元堆叠而成。

残差单元通过为非线性的网络层添加跳跃连接(shortcut/skip connection)的方式来提高信息的传播效率。

它将期望的映射函数 H ( x ) \mathcal{H}(\mathbf{x}) H(x)分解为残差函数 F ( x ) : = H ( x ) − x \mathcal{F}(x):=\mathcal{H}(\mathbf{x}) -\mathbf{x} F(x):=H(x)−x和恒等(identity)函数 x : = x \mathbf{x}:=\mathbf{x} x:=x。
第 l + 1 l+1 l+1个残差单元的最终输出为:
x l + 1 = relu ( x l + F ( x l , W l ) ) \mathbf{x}_{l+1}=\operatorname{relu}(\mathbf{x}_{l}+\mathcal{F}(\mathbf{x}_{l},\mathcal{W}_l)) xl+1=relu(xl+F(xl,Wl))
其中 W l \mathcal{W}_l Wl为残差函数的参数。
将 relu \operatorname{relu} relu替换为恒等函数。则残差单元最终输出为:
x l + 1 = x l + F ( x l , W l ) \mathbf{x}_{l+1}=\mathbf{x}_{l}+\mathcal{F}(\mathbf{x}_{l},\mathcal{W}_l) xl+1=xl+F(xl,Wl)
通过递归,例如:

可以得到任意较深的第
L
L
L个单元 和任意浅较的第
l
l
l个单元关系如下:

公式表明:
对于任意较深的第 L L L个单元,特征 x L \mathbf{x}_L xL 可以表示为较浅的第 l l l个单元的特征 x l \mathbf{x}_l xl加上 L L L和 l l l之间所有残差函数的和 ∑ i = l L − 1 F \sum_{i=l}^{L-1} \mathcal{F} ∑i=lL−1F。
对于任意第 L L L个单元,它的输出特征 x L = x 0 + ∑ i = 0 L − 1 F ( x i , W i ) \mathbf{x}_{L}=\mathbf{x}_{0}+\sum_{i=0}^{L-1} \mathcal{F}\left(\mathbf{x}_{i}, \mathcal{W}_{i}\right) xL=x0+∑i=0L−1F(xi,Wi),即为之前每一层残差函数的总和加上 x 0 \mathbf{x}_0 x0。
这些特性有利于残差网络的反向传播,设损失函数为 ε \varepsilon ε,由链式法则求梯度:

公式表明
梯度 ∂ ε ∂ x l \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}} ∂xl∂ε可以被分解成两个部分,其中 ∂ ε ∂ x L ( ∂ ε ∂ x l ∑ i L − 1 F ) \frac{\partial\varepsilon}{\partial\mathbf{x}_{L}}(\frac{\partial\varepsilon}{\partial\mathbf{x}_{l}}\sum^{L−1}_i\mathcal{F}) ∂xL∂ε(∂xl∂ε∑iL−1F)是通过权重层传递的;而 ∂ ε ∂ x L \frac{\partial\varepsilon}{\partial\mathbf{x}_{L}} ∂xL∂ε不涉及 l l l到 L L L之间任何权重层,这保证了 L L L层的信息能够直接传回任意 l l l浅层。
在一个小批量中梯度 ∂ ε ∂ x l \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}} ∂xl∂ε不可能出现消失的情况,因为通常 ∂ ε ∂ x l ∑ i L − 1 F \frac{\partial\varepsilon}{\partial\mathbf{x}_{l}}\sum^{L−1}_i\mathcal{F} ∂xl∂ε∑iL−1F对于一个批次的所有样本不可能都为-1,即对于一个批次 ( 1 + ∂ ∂ x l ∑ i = l L − 1 F ( x i , W i ) ) \left(1+\frac{\partial}{\partial \mathbf{x}_{l}} \sum_{i=l}^{L-1} \mathcal{F}\left(\mathbf{x}_{i}, \mathcal{W}_{i}\right)\right) (1+∂xl∂∑i=lL−1F(xi,Wi))不可能都为0。这意味不可能出现梯度为0的情况。
另外,[3]的可视化实验表明,跳跃连接可以使得深度网络的优化地形更加平滑。

NS:No Shortcut/Skip connections

参考:
[1] Deep Residual Learning for Image Recognition https://arxiv.org/abs/1512.03385
[2] Identity Mappings in Deep Residual Networks https://arxiv.org/abs/1603.05027
[3]Visualizing the Loss Landscape of Neural Nets https://arxiv.org/abs/1712.09913