• 10.过拟合、欠拟合与正则化


    拟合、欠拟合与正则化主要内容

    1. 过拟合和欠拟合介绍
    2. 正则化解决过拟合问题
    3. 逻辑回归的正则化
    4. 线性回归的正则化

    一、过拟合和欠拟合介绍

    1.1 过拟合和欠拟合相关的概念

    • 泛化是指一个假设模型应用到新样本的能力,

      • 若一个模型能够对没见过的数据做出准确的预测,我们就说它能够从训练集 泛化 到测试集
    • 新样本数据是指没有出现在训练集的数据

    • 过度拟合如果在拟合模型时过分关注训练集的细节,得到了一个在训练集上辨析那很好、但不能泛化到新数据上的模型,那么就存在 过拟合 ,另一种说法是这个算法具有高方差,

    • 欠拟合模型太过于简单,算法没有很好地拟合训练集,那么就存在 欠拟合 另一种说法时这个算法具有高偏差

    • 刚好合适欠拟合和过拟合中间的状态,是一个拥有最好泛化性能的模型

    • 如下图所示,分别是线性回归、逻辑回归中的欠拟合、刚好合适、过拟合模型的具体表现:

      在这里插入图片描述

      在这里插入图片描述

    • 模型复杂度与泛化精度和测试精度的关系:
      在这里插入图片描述

    1.2 引起过拟合和欠拟合问题的原因

    • 回归问题和分类问题都有可能出现过拟合的现象

      • 在回归问题中过拟合情况为:拟合曲线过于复杂;
      • 在分类问题中过拟合情况为:决策边界过于复杂
    • 引起欠拟合的原因:

      • 特征量太少(可能并未考虑到对模型产产生较大的影响的其他特征)
      • 参数太少,模型复杂度过低
    • 引起过拟合的原因:

      • 训练样本抽取错误(如选样方法错误、样本标签错误、样本数量太少等,导致选取的杨树数据不能够代表预定的分类规则)
      • 参数太多,模型复杂度过高
      • 样本噪音干扰过大(使得机器将部分噪音任务是特征从而干扰预设的分类规则)
      • 权值学习迭代次数过多(拟合了训练数据中的噪声和训练样本中没有代表性的特征)

    1.3 过拟合问题的解决方法

    • 方法一、尽量减少选取变量的数量(这种减少特征变量的方法能够有效的减少过拟合的发生)

      • 可以人工检查变量清单,选择更为重要特征变量保留,舍弃一些不算很重要的特征
      • 有自动选择变量的算法
    • 方法二正则化(保留所有特征变量,减少量级或参数θ_j 的大小 )

    • 正则化技术可以改善或者减少过度拟合问题,以使得学习算法更好的起作用

    • 过度拟合将会在变量过多的时候,由于训练出地假设函数能很好的拟合训练集,此时的代价函数会很接近于0,或就恰好等于0,会导致它无法泛化到新的样本

    1.4 欠拟合问题的解决方法

    • 方法一增加数据量
    • 方法二增加特征向量的维度,提高模型复杂度

    二、正则化解决过拟合问题

    2.1 正则化的思想

    • 若我们的各个参数值θ尽可能越小,就能使得假设模型更简单,就能有效解决过拟合问题
    • 正则化的思想在不减少特征向量的维度的前提下,通过在代价函数J(θ)中添加正则项,从而对特征向量的每一维对应的参数进行“惩罚 ”(效果是x前面的系数变小),最终达到缓解过拟合的效果。

    2.2 正则化的代价函数

    在这里插入图片描述

    • 注意:求和项是从θ_1 加到θ_n ,但实际上是否加上θ_0,对结果都影响不大,但通常我们只对 θ_1 到θ_n 进行正则化

    • λ——正则化参数:

      • λ为正则化参数,λ越大,惩罚越大;λ越小,惩罚越小。

      • 作用:控制两个不同目标之间的取舍(平衡),从而保持模型尽可能简单,避免出现过拟合地情况

        • 第一个目标与目标函数的第一项有关,就是想要更好地训练,更好地拟合训练集
        • 第二个目标与目标函数的第二项有关(也即与正则化项有关),就是要保持参数尽可能地小
    • 如果λ过大,导致θ1到θn都为0,最终只剩下下θ0,图像将变成一个直线,就会百年城一个欠拟合地模型

      在这里插入图片描述

    • 为了让正则化起到应有地效果,我们应该要选择一个合适的正则化参数

    三、线性回归的正则化

    • 线性回归的梯度下降算法的正则化:
      在这里插入图片描述

    • 线性回归的正规方程算法的正则化:

      在这里插入图片描述

    • 在使用正则方程时,如果样本数量m小于特征的数量n时,就会出现出现 X 的转置乘以 X 的矩阵是不可逆的情况,而在使用了正则化后只要保证λ > 0,则可保证 X 的转置乘以 X +λ 乘以图中的这个矩阵 一定是可逆的(也即下图中括号内的矩阵是可逆的),因此,正则化还能解决一些矩阵不可逆的情况

      在这里插入图片描述

    四、逻辑回归的正则化

    • 逻辑回归中加了正则化项的代价函数

      在这里插入图片描述

    • 逻辑回归的梯度下降算法的正则化:

      在这里插入图片描述

  • 相关阅读:
    CentOS 常见命令详解
    【HTML】行内元素、块级元素与行内块级元素
    sudo 权限
    少儿编程 电子学会图形化 scratch编程等级考试四级真题答案解析(选择题)2022年9月
    iOS UITableView获取到的contentSize不正确
    linux 基础命令 cd /xxx 和 cd xxx 的区别
    Cyanine5-N3细胞成像和显微镜CY5-N3/azide星戈瑞
    Android GB28181设备接入端语音广播和语音对讲技术实现探究
    SQL 教程之 10 个 SQL 操作用于 80% 的数据操作
    blender 场景灯光基础设置
  • 原文地址:https://blog.csdn.net/qq_44749630/article/details/125934734