泛化是指一个假设模型应用到新样本的能力,
新样本数据是指没有出现在训练集的数据
过度拟合如果在拟合模型时过分关注训练集的细节,得到了一个在训练集上辨析那很好、但不能泛化到新数据上的模型,那么就存在 过拟合 ,另一种说法是这个算法具有高方差,
欠拟合模型太过于简单,算法没有很好地拟合训练集,那么就存在 欠拟合 另一种说法时这个算法具有高偏差
刚好合适欠拟合和过拟合中间的状态,是一个拥有最好泛化性能的模型
如下图所示,分别是线性回归、逻辑回归中的欠拟合、刚好合适、过拟合模型的具体表现:
模型复杂度与泛化精度和测试精度的关系:
回归问题和分类问题都有可能出现过拟合的现象
引起欠拟合的原因:
引起过拟合的原因:
方法一、尽量减少选取变量的数量(这种减少特征变量的方法能够有效的减少过拟合的发生)
方法二、正则化(保留所有特征变量,减少量级或参数θ_j 的大小 )
正则化技术可以改善或者减少过度拟合问题,以使得学习算法更好的起作用
过度拟合将会在变量过多的时候,由于训练出地假设函数能很好的拟合训练集,此时的代价函数会很接近于0,或就恰好等于0,会导致它无法泛化到新的样本
注意:求和项是从θ_1 加到θ_n ,但实际上是否加上θ_0,对结果都影响不大,但通常我们只对 θ_1 到θ_n 进行正则化
λ——正则化参数:
λ为正则化参数,λ越大,惩罚越大;λ越小,惩罚越小。
作用:控制两个不同目标之间的取舍(平衡),从而保持模型尽可能简单,避免出现过拟合地情况
如果λ过大,导致θ1到θn都为0,最终只剩下下θ0,图像将变成一个直线,就会百年城一个欠拟合地模型
为了让正则化起到应有地效果,我们应该要选择一个合适的正则化参数
线性回归的梯度下降算法的正则化:
线性回归的正规方程算法的正则化:
在使用正则方程时,如果样本数量m小于特征的数量n时,就会出现出现 X 的转置乘以 X 的矩阵是不可逆的情况,而在使用了正则化后只要保证λ > 0,则可保证 X 的转置乘以 X +λ 乘以图中的这个矩阵 一定是可逆的(也即下图中括号内的矩阵是可逆的),因此,正则化还能解决一些矩阵不可逆的情况
逻辑回归中加了正则化项的代价函数
逻辑回归的梯度下降算法的正则化: