引自《统计学习方法》李航, 当假设空间含有不同复杂度(例如,不同的参数个数)的模型时,就要面临模型选择的问题。我们希望选择或学习一个合适的模型。如果在假设空间中存在’真’模型,那么所选的模型应该逼近真模型。 具体地,所选的模型要与真模型参数个数相同,所选的模型的参数向量与真模型的参数向量相近。
过拟合现象:模型对已知数据预测的很好,对于未知数据预测很差的现象(训练集效果好,在测试集和验证集效果差)。
背后的原理:如果一味的追求对训练数据的预测能力,所选的模型复杂度往往会比真模型的复杂度更高。(李航-统计学习方法的说法)
从模型复杂度角度来说:模型过于复杂,把噪声数据也学习进去,导致模型泛化性能下降。
从数据集角度来说:数据集规模相对于模型复杂度来说太小,使得模型过度挖掘数据集中的特征。
解决过拟合常用方法:
现象:无论还在训练集还是在测试集中,模型的效果都很差。
原因:
解决办法:
写在前边:什么是正则化,不太好理解;监督学习的两个基本策略:经验风险最小化和结构风险最小化;假设样本足够多,那么认为经验风险最小的模型就是最优的模型;当样本容量很小的时候,经验风险最小化学习到的效果未必很好,会产生过拟合的现象;而结构风险最小化(等价于正则化)就是为了防止过拟合而提出来的。
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化项一般有如下形式:
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
其中第一项是经验项,第二项是正则化项。 λ \lambda λ为调整两者之间的系数。
第一项的经验风险较小的模型可能较复杂(有多个非零参数),这时第二项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。
参考:李航《统计学习方法》 p18;