深度学习中,当参数过多而训练样本比较少的情况下,模型容易过拟合,具体表现为训练集上准确率高,测试集上准确率大幅降低,因此出现了各种正则化方法,用于防止过拟合。在2012年,Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出Dropout。Dropout可以有效缓解模型过拟合,可以视为为一种正则化方法。
工作原理:在训练时,每个神经元以概率P保留,即1-P的概率停止工作,每次前向传播保留的神经元都不相同,这样使得模型不依赖于某些局部特征,泛化性能更强。而测试的时候,为了保证与训练时的输出期望一致,每个参数都要乘P。另一种改进的方法,可以避免在推理阶段进行rescale处理,称作inverted Dropout,原来的操作称为Vanilla Dropout,在训练时将保留下的神经元乘以
1
P
\frac{1}{P}
P1,这样推理时就不需要在改变权重。