【白板推导系列笔记】线性回归-正则化-岭回归-频率角度

在之前已知

\begin{matrix} L o s s F u n c t i o n : L (ω) = \sum_{i = 1}^{N} | | ω^{T} x_{i} - y_{i} | |^{2} \\ 解 得 \hat{ω} = (X^{T} X)^{- 1} X^{T} Y \end{matrix}

L oss F u n c t i o n : L (ω) = i = 1 \sum N ∣∣ ω^{T} x_{i} - y_{i} ∣ ∣^{2} 解得 \overset{ω}{^} = (X^{T} X)^{- 1} X^{T} Y

在实际应用时，如果样本容量不远远大于样本的特征维度，很可能造成过拟合，对这种情况，我们有下面三个解决方式：

加数据
特征选择（降低特征维度）如 PCA 算法。
正则化

正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚）

作者：tsyw
链接：线性回归 · 语雀 (yuque.com)

一般的，正则化框架有
$\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}]$
当使用L1 Lasso时，对应正则化框架
$\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}]$
当使用L2 Ridge（岭回归）时，对应正则化框架
$\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]$

对于L2 Ridge，估计 $\hat{\omega}$ 有

\begin{aligned} J (ω) & = \sum_{i = 1}^{N} | | ω^{T} x_{i} - y_{i} | |^{2} + λ ω^{T} ω \\ = (ω^{T} X^{T} - Y^{T}) (X ω - Y) + λ ω^{T} ω \\ = ω^{T} X^{T} X ω - 2 ω^{T} X^{T} Y + Y^{T} T + λ ω^{T} ω \\ = ω^{T} (X^{T} X + λ I) ω - 2 ω^{T} X^{T} Y + Y^{T} Y \\ \hat{ω} & = \underset{ω}{a r g m i n} J (ω) \\ \frac{\partial J (ω)}{\partial ω} & = 2 (X^{T} X + λ I) ω - 2 X^{T} Y \\ 2 (X^{T} X + λ I) ω - 2 X^{T} Y & = 0 \\ \hat{ω} & = (X^{T} X + λ I)^{- 1} X^{T} Y \end{aligned}

J (ω) \overset{ω}{^} \frac{\partial J ( ω )}{\partial ω} 2 (X^{T} X + λ I) ω - 2 X^{T} Y \overset{ω}{^} = i = 1 \sum N ∣∣ ω^{T} x_{i} - y_{i} ∣ ∣^{2} + λ ω^{T} ω = (ω^{T} X^{T} - Y^{T}) (X ω - Y) + λ ω^{T} ω = ω^{T} X^{T} X ω - 2 ω^{T} X^{T} Y + Y^{T} T + λ ω^{T} ω = ω^{T} (X^{T} X + λ I) ω - 2 ω^{T} X^{T} Y + Y^{T} Y = ω a r g min J (ω) = 2 (X^{T} X + λ I) ω - 2 X^{T} Y = 0 = (X^{T} X + λ I)^{- 1} X^{T} Y

利用2范数进行正则化不仅可以使模型选择 $\omega$ 较小的参数，同时也避免 $X^{T}X$ 不可逆的问题

作者：tsyw
链接：线性回归 · 语雀 (yuque.com)

在前面已经知道

\begin{matrix} y = f (ω) + ϵ = ω^{T} x + ϵ \\ ϵ \sim (0, σ^{2}) \\ y | x; ω \sim N (ω^{T} x, σ^{2}) \end{matrix}

y = f (ω) + ϵ = ω^{T} x + ϵ ϵ \sim (0, σ^{2}) y ∣ x; ω \sim N (ω^{T} x, σ^{2})

假设权重先验也为高斯分布，即取先验分布

\omega \sim N(0,\sigma_{0}^{2})

，又有

\begin{aligned} p (y | ω) & = \frac{1}{\sqrt{2 π} σ} exp [- \frac{(y - ω^{T} x)^{2}}{2 σ^{2}}] \\ p (ω) & = \frac{1}{\sqrt{2 π} σ_{0}} exp [- \frac{| | ω | |^{2}}{2 σ_{0}^{2}}] \\ p (ω | y) & = \frac{p (y | ω) p (ω)}{p (y)} \end{aligned}

因此对于

\omega

的最大后验，有

\begin{aligned} \hat{ω} & = \underset{ω}{a r g m a x} p (ω | y) 这 里 应 该 是 \prod_{i = 1}^{N} p (ω | y_{i}), 但 最 后 再 写 不 影 响 \\ = \underset{ω}{a r g m a x} p (y | ω) \cdot p (ω) \\ = \underset{ω}{a r g m a x} \log [p (y | ω) \cdot p (ω)] \\ = \underset{ω}{a r g m a x} \log (\frac{1}{\sqrt{2 π} σ} \frac{1}{\sqrt{2 π} σ_{0}}) + \log exp [- \frac{(y - ω^{T} x)^{2}}{2 σ^{2}} - \frac{| | ω | |^{2}}{2 σ_{0}^{2}}] \\ = \underset{ω}{a r g m i n} [\frac{(y - ω^{T} x)^{2}}{2 σ^{2}} + \frac{| | ω | |^{2}}{2 σ_{0}^{2}}] \\ = \underset{ω}{a r g m i n} [(y - ω^{T} x)^{2} + \frac{σ^{2}}{σ_{0}^{2}} | | ω | |^{2}] \\ = \underset{ω}{a r g m i n} [\sum_{i = 1}^{N} (y_{i} - ω^{T} x_{i})^{2} + \frac{σ^{2}}{σ_{0}^{2}} | | ω | |^{2}] \end{aligned}

从这里就可以看出，正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
再加上之前的，没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计

我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前，有⼈问我们哪个盒⼦被选中，那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率（prior probability），因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦，我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率（posterior probability），因为它是我们观察到F之后的概率。注意，在这个例⼦中，选择红盒⼦的先验概率是 $\frac{4}{10}$ ，所以与红盒⼦相⽐，我们更有可能选择蓝盒⼦。然⽽，⼀旦我们观察到选择的⽔果是橘⼦，我们发现红盒⼦的后验概率现在是 $\frac{2}{3}$ ，因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符，因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多，因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上，这个证据相当强，已经超过了先验的假设，使得红盒⼦被选择的可能性⼤于蓝盒⼦。

来源：《PRML Translation》-P19
作者：马春鹏
原著：《Pattern Recognition and Machine Learning》
作者：Christopher M. Bishop

小结
线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为高斯分布的时候，MLE 的解等价于最小二乘误差，而增加了正则项后，最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解，加上 L1 正则项后，等价于 Laplace 噪声先验。

作者：tsyw
链接：线性回归 · 语雀 (yuque.com)

该部分在PRML中P27,28页中有提到

CSDN话题挑战赛第2期
参赛话题：学习笔记

相关阅读:
基于Spring Boot+Vue的健身房管理系统(协同过滤算法、功能非常多)
老狼数码：电视盒子哪个牌子好？目前最强的电视盒子
HTTP头部信息解释分析(详细整理)（转载）
SequoiaDB湖仓一体分布式数据库2022.6月刊
【MyBatis】#{ } 和 ${ } 的区别
python+django体质测试数据分析及可视化设计
【LeetCode面试经典150题】92. 反转链表 II
市场上低代码产品纷繁复杂，企业该如何选择？
Mac VsCode g++编译报错：不支持C++11语法解决
再谈回声消除测评丨Dev for Dev 专栏

原文地址：https://blog.csdn.net/liu20020918zz/article/details/127102110