16.偏差、方差、正则化、学习曲线对模型的影响

16.偏差、方差、正则化、学习曲线对模型的影响
主要内容
1. 诊断偏差和方差
2. 正则化和偏差/方差
3. 学习曲线
4. 改善算法方法的总结
5. 对于偏差和方差的深入理解
一、诊断偏差和方差

 1.1 模型表现不好的两种情况
- 偏差 bias 太大(高偏差)——导致欠拟合 问题
- 方差 variance 太大(高方差)——导致过拟合 问题
1.2 判断模型高偏差、高方差的方法
- 通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在一个图上来分析判断
- 图使用多项式的度 d 作为横轴，在训练集和交叉验证集上分别计算J(θ)，会得到下面的曲线：
1.3 判断方法和结论
- 可以根据图中两条曲线判断模型是是高误差(欠拟合)、还是高方差(过拟合)：
- 通过图像容易知道
  1. 对于训练集，当多项式的度 d 较小时，模型拟合程序更低，误差越大；随着多项式的度 d 的增长，拟合程度提高，误差减小
  2. 对于交叉验证集，当多项式的度 d 较小时，模型拟合程序低，误差越大；随着多项式的度 d 的增长，误差呈现先减小后增大的趋势，转折点是模型开始拟合过拟合训练数据集的时候
- 具体结论：
  1. 图形左边知，当多项式的度 d 较小时，训练集和交叉验证集的误差都很大，说明欠拟合（也即训练集误差和交叉验证集误差近似时——欠拟合）
  2. 图形右边知，当多项式的度 d 较大时，训练集误差很小，交叉验证集误差远大于训练集误差，说明过拟合（也即交叉验证集误差远大于训练集误差时——过拟合）
二、正则化和偏差/方差

 2.1 正则化选择的影响
- 我们在训练模型的时候，通常会使用一些正则化方法来防止过拟合
- 但是正则化的程度（也即选择的 λ 的值的大小）太小或者太小也会造成模型的过拟合 / 欠拟合问题
- 通常情况下，我们选择测试的 λ 的值，一般是 0-10 之间的呈现 2 倍关系的值
2.2 例如：考虑正则化的线性回归模型
1. 当 λ 过大，θ 被惩罚后会变得很小、接近于0，最后方程只剩下 θ0 这一项，成为一条直线，导致高偏差bias、欠拟合
2. 当 λ 过小，正则项不起作用，导致高方差 variance、过拟合
2.3 选择合适的 λ 的方法
1. 使用训练集练出 12个不同程度正则化的模型
2. 用 12 个模型分别对交叉验证集计算出交叉验证误差
3. 选择出交叉验证误差最小的模型
4. 运用步骤3中选出的模型对测试集进行测试
2.4 λ 对代价函数（模型）的影响分析
- 将训练集和交叉验证集模型的代价函数误差和 λ 的值绘制在同一曲线上，得到下面的图形
- 结论：
  1. 由图像左边可知，当λ 很小时，训练集误差较小，而交叉验证集误差远大于训练集误差，说明过拟合
  2. 由图像右边可知，当λ 很大时，训练集误差不断增大，而交叉验证集误差则是先减小后增大，两个误差都很大，说明欠拟合
三、学习曲线

 3.1 学习曲线的概念
- 学习曲线 是一种很好的工具，使用学习曲线能判断某个学习算法是否处于偏差、方差问题
- 学习曲线 是学习算法的一个很好的 合理检验
- 学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量的函数绘制而来的曲线
3.2 利用学习曲线判断高偏差/欠拟合
- 我们用一条直线（作为例子）来适应数据，看出来，无论训练集有多么大误差都不会对代价函数模型有大的变化
- 即在高偏差/欠拟合 的情况下，增加数据到训练集并不能改善模型
3.3 利用学习曲线判断高方差/过拟合
- 假设我们使用一个非常高次的多项式模型，并且正则化非常小，可以看出，当交叉验证集误差远大于训练集误差是，往训练集误差增加更多的数据可以提高模型的效果
- 即在高方差/过拟合 的情况下，增加更多数据到训练集可能可以改善 模型算法效果
四、改善算法方法的总结

 4.1 调试一个算法的六个方法
1. 获得更多的训练数据——解决高方差问题
2. 尝试减少特征的数量——解决高方差问题
3. 尝试更多的特征数量——解决高偏差问题
4. 尝试添加多项式特征——解决高偏差问题
5. 尝试减少正则化程度λ ——解决高偏差问题
6. 尝试增大正则化程度λ ——解决高方差问题
4.2 神经网络大小对模型的影响
1. 使用较小的神经网络，类似于参数较少的情况，容易导致高偏差和欠拟合，但计算代价小
2. 使用较大的神经网络，类似于参数较多的情况，容易导致高方差和过拟合，虽然计算代价比较大，但是可以通过正则化手段来调整而使得算法更加适应数据
3. 通常选择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好
4.3 神经网络中的隐藏层数对模型的影响
- 对于神经网络中的隐藏层的层数的选择，通常从一层开始逐渐增加层数，为了更好的做出选择，可以把数据分为训练集、交叉验证集和测试集，并对不同的隐藏层层数的神经网络进行训练，然后选择交叉验证集代价最小的神经网络
五、对于偏差和方差的深入理解

 5.1 偏差和方差的概念
1. 偏差： 描述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据集
2. 方差： 描述的是预测值的变化范围，离散程度，也就是离期望值的距离。方差越大，预测结果数据的分布越散
5.2 基于偏差 / 方差的误差
1. 基于偏差的误差：是模型预期的预测与将要预测的真实值之间的差值。偏差是用来衡量模型的预测同真实值的差异。
2. 基于方差的误差：基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如，当你多次重复构建完整模型的进程时，方差是在预测模型的不同关系间变化的多少。
5.3 具体分析
1. 左上图：低偏差bias，低方差variance。预测结果准确率很高，并且模型比较健壮（稳定），预测结果高度集中。
2. 右上图：低偏差bias，高方差variance。预测结果准确率较高，但是模型不稳定，预测结果比较发散。
3. 左下图：高偏差bias，低方差variance。预测结果准确率较低，但是模型稳定，预测结果比较集中。
  结果准确率很高，并且模型比较健壮（稳定），预测结果高度集中。
4. 右上图：低偏差bias，高方差variance。预测结果准确率较高，但是模型不稳定，预测结果比较发散。
如果觉得文章不错的话，可以给我点赞鼓励一下我哦，欢迎小伙伴们收藏学习
关注我，我们一起学习，一起进步！！！
相关阅读:
数据可视化引领智慧工业新时代
 ABAP BOM按层级删除数据
 ZooKeeper的Linux端安装步骤（内含Java的Linux端安装）
【统计任意一组字符中大小写字母的个数】
Promethus+node_exporter集群部署监控
 使用ECS和RDS部署WordPress，搭建个人博客并使用域名访问
 spring boot 整合 itextpdf 导出 PDF，写入大文本，写入HTML代码，分析当下导出PDF的几个工具
 java算法学习索引之数组矩阵问题
 MySQL 运维常用脚本
 用HFSS仿真平面线圈的电感量
原文地址：https://blog.csdn.net/qq_44749630/article/details/126040728

主要内容

一、诊断偏差和方差

1.1 模型表现不好的两种情况

1.2 判断模型高偏差、高方差的方法

1.3 判断方法和结论

二、正则化和 偏差/方差

2.1 正则化选择的影响

2.2 例如：考虑正则化的线性回归模型

2.3 选择合适的 λ 的方法

2.4 λ 对代价函数（模型）的影响分析

三、学习曲线

3.1 学习曲线的概念

3.2 利用学习曲线判断高偏差/欠拟合

3.3 利用学习曲线判断高方差/过拟合

四、改善算法方法的总结

4.1 调试一个算法的六个方法

4.2 神经网络大小对模型的影响

4.3 神经网络中的隐藏层数对模型的影响

五、对于偏差和方差的深入理解

5.1 偏差和方差的概念

5.2 基于偏差 / 方差的误差

5.3 具体分析

二、正则化和偏差/方差