机器学习的根本问题是优化与泛化问题。
出现过拟合,得到的模型在训练集上的准确率很高,但是在真实的场景下识别率确很低。
过拟合overfitting:指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据,而不是学习到了数据特征。

获取更多的训练数据
增加更多的训练样本可以帮助模型更好地学习数据的真实分布,减少过拟合的风险。
调节模型允许存储的信息量或者对模型允许存储的信息加以约束,该类方法也被称为正则化。
L1正则化(Lasso正则化):L1正则化使用模型权重的L1范数作为正则化项,即权重的绝对值之和。

L1正则化的效果是推动模型的权重向稀疏的方向学习,即将某些权重变为零,使得模型具有稀疏性。这对于特征选择和模型简化很有用。
L2正则化(Ridge正则化):L2正则化使用模型权重的L2范数作为正则化项,即权重的平方和的平方根。

L2正则损失对于大数值的权值向量进行严厉惩罚,鼓励更加分散的权重向量,使模型倾向于使用所有输入特征做决策,此时的模型泛化性能好!

让隐层的神经元以一定的概率不被激活。
实现方式:
训练过程中,对某一层使用Dropout,就是随机将该层的一些输出舍弃(输出值设置为0),这些被舍弃的神经元就好像被网络删除了一样。

随机失活比率(Dropout ratio):
是被设为0的特征所占的比例,通常在0.2~0.5范围内。

随机失活为什么能够防止过拟合呢?
解释一:随机失活使得每次更新梯度时参与计算的网络参数减少了,降低了模型容量,所以能够防止过拟合。

解释二:随机失活鼓励权重分散,从这个角度来看随机失活也能起到正则化的作用,进而防止过拟合。

解释三:Dropout可以看作模型集成。

训练过程中使用随机失活,测试过程中不随机失活。要保证两者结果相似,需要进行修改。

在测试过程中,不进行随机失活,而是将Dropout的参数p乘以输出。
上图例子中p=1 / 2
代码示例:
则训练E[a] = 测试E[a] * p = 测试E[a] * 1 / 2

训练E[a] / p = 训练E[a] / (1 / 2) = 测试E[a]

模型描述能力太弱,以至于不能很好地学习到数据中的归路。产生欠拟合的原因通常是模型过于简单。