1.4+1.5 L1、L2正则化

2022.08.27 李航老师《统计学习方法》： 一. 统计学习及监督学习概论
# 本文目的就是为学者简化学习内容，提取我认为的重点 把书读薄;
# 本文重点：1.5 正则化理解
1
2
3

一. 统计学习及监督学习概论

1.4 模型评估与模型选择

图 1.8

m=0：就是未知数最高是0次幂 y=C 是条平行于x轴的线；
m=1：就是未知数最高是1次幂 y=kx+b 是条斜线；

越复杂的函数，训练数据误差是逐步减小的，但在预测未知数据时是误差是先减小后增大的，原因就是过拟合。

机器学习会出现过拟合的现象，如何解决？ 正则化。

$\mathop{\min}\limits_{f\in F}\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)$

其中， $\lambda J(f)$ 为正则化项。

什么是正则化？
减少泛化误差的方法，也就是减少过拟合的方法，也就是不是减少训练误差而是减少测试误差的方法。
我们怎么思考去正则化限制测试误差？ 有两个角度

第一种理解：见【图 1.8】，上一章有讲，未知数次数越高，泛化能力就约差，越容易过拟合，我们应该适当的限制次数；限制方法就是在适当的位置m开始小到 $w_m,w_{m+1},...$ 均为0 ；
第二种理解：我们在训练神经网络的时候，比如输出层的输入：
$z^{[l]}=W^{[l]^T}·a^{[l-1]}+b^{[l]}$
- l是输出层，之前是隐藏层。就是用第l-1层输出的结果a带入到第l层神经网络上计算。
- 我们把隐藏层的w和b均扩大2倍时,那么l层输入变为了 $2^{(l-1)}a^{[l-1]}$ , 我们把输出层W缩小 $2^{(l-1)}$

相关阅读:
JVM：（五）运行时数据区之虚拟机栈
【数据库】MySQL中的锁机制
Java代码优化的30个小技巧
AR导览软件定制开发方案
数据库设计
html5新增_webStorage
opencv最小值滤波（不局限于图像）
MyBatis进阶提升考试题，快来测测自己掌握的情况吧
阴影进阶，实现更加的立体的阴影效果！
C# 的静态构造函数和BeforeFieldInit含义

原文地址：https://blog.csdn.net/wistonty11/article/details/126692538