由CNN的基本理论可知,基于CNN模型的图像分类性能与网络模型的深度存在重要的关系。一般而言,网络模型的深度越深,网络模型的拟合能力就越强。但是不断地增加网络模型的深度,不但无法提高网络模型的准确度,反而出现了梯度消失现象,产生了更高的误差。最终使CNN模型的图像的分类性能受损。为解决上述问题,本文详细介绍残差网络(Residual Networks,ResNet)的结构特点,在此基础上,研究不同深度的ResNet模型的图像分类性能。
残差网络ResNet在2015年由何恺明等提出,因为它简单与实用并存,随后很多研究都是建立在ResNet-50
或者ResNet-101
基础上完成。
ResNet主要解决深度卷积网络在深度加深时候的“退化”问题。在一般的卷积神经网络中,增大网络深度后带来的第一个问题就是梯度消失、爆炸,这个问题Szegedy提出BN层后被顺利解决。BN层能对各层的输出做归一化,这样梯度在反向层层传递后仍能保持大小稳定,不会出现过小或过大的情况。但是作者发现加了BN后再加大深度仍然不容易收敛,其提到了第二个问题–准确率下降问题:层级大到一定程度时准确率就会饱和,然后迅速下降,这种下降即不是梯度消失引起的也不是过拟合造成的,而是由于网络过于复杂,以至于光靠不加约束的放养式的训练很难达到理想的错误率。
准确率下降问题不是网络结构本身的问题,而是现有的训练方式不够理想造成的。当前广泛使用的优化器,无论是SGD,还是RMSProp,或是Adam,都无法在网络深度变大后达到理论上最优的收敛结果。
作者在文中证明了只要有合适的网络结构