• 【白板推导系列笔记】线性回归-正则化-岭回归-频率角度


    在之前已知
    L o s s   F u n c t i o n : L ( ω ) = ∑ i = 1 N ∣ ∣ ω T x i − y i ∣ ∣ 2 解得 ω ^ = ( X T X ) − 1 X T Y

    Loss Function:L(ω)=i=1N||ωTxiyi||2ω^=(XTX)1XTY" role="presentation">Loss Function:L(ω)=i=1N||ωTxiyi||2ω^=(XTX)1XTY
    Loss Function:L(ω)=i=1N∣∣ωTxiyi2解得ω^=(XTX)1XTY

    在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

    1. 加数据
    2. 特征选择(降低特征维度)如 PCA 算法。
    3. 正则化

    正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)

    作者:tsyw
    链接:线性回归 · 语雀 (yuque.com)

    一般的,正则化框架有
    a r g m i n ω [ L ( ω ) ⏟ L o s s + λ P ( ω ) ⏟ p e n a l t y ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}] ωargmin[Loss L(ω)+penalty λP(ω)]
    当使用L1 Lasso时,对应正则化框架
    a r g m i n ω [ L ( ω ) ⏟ L o s s + ∣ ∣ ω ∣ ∣ 1 ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}] ωargmin[Loss L(ω)+∣∣ω1]
    当使用L2 Ridge(岭回归)时,对应正则化框架
    a r g m i n ω [ L ( ω ) ⏟ L o s s + ∣ ∣ ω ∣ ∣ 2 2 ] = a r g m i n ω [ L ( ω ) ⏟ L o s s + ω T ω ] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega] ωargmin[Loss L(ω)+∣∣ω22]=ωargmin[Loss L(ω)+ωTω]

    对于L2 Ridge,估计 ω ^ \hat{\omega} ω^
    J ( ω ) = ∑ i = 1 N ∣ ∣ ω T x i − y i ∣ ∣ 2 + λ ω T ω = ( ω T X T − Y T ) ( X ω − Y ) + λ ω T ω = ω T X T X ω − 2 ω T X T Y + Y T T + λ ω T ω = ω T ( X T X + λ I ) ω − 2 ω T X T Y + Y T Y ω ^ = a r g m i n ω J ( ω ) ∂ J ( ω ) ∂ ω = 2 ( X T X + λ I ) ω − 2 X T Y 2 ( X T X + λ I ) ω − 2 X T Y = 0 ω ^ = ( X T X + λ I ) − 1 X T Y

    J(ω)=i=1N||ωTxiyi||2+λωTω=(ωTXTYT)(XωY)+λωTω=ωTXTXω2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω2ωTXTY+YTYω^=argminωJ(ω)J(ω)ω=2(XTX+λI)ω2XTY2(XTX+λI)ω2XTY=0ω^=(XTX+λI)1XTY" role="presentation">J(ω)=i=1N||ωTxiyi||2+λωTω=(ωTXTYT)(XωY)+λωTω=ωTXTXω2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω2ωTXTY+YTYω^=argminωJ(ω)J(ω)ω=2(XTX+λI)ω2XTY2(XTX+λI)ω2XTY=0ω^=(XTX+λI)1XTY
    J(ω)ω^ωJ(ω)2(XTX+λI)ω2XTYω^=i=1N∣∣ωTxiyi2+λωTω=(ωTXTYT)(XωY)+λωTω=ωTXTXω2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω2ωTXTY+YTY=ωargminJ(ω)=2(XTX+λI)ω2XTY=0=(XTX+λI)1XTY

    利用2范数进行正则化不仅可以使模型选择 ω \omega ω较小的参数,同时也避免 X T X X^{T}X XTX不可逆的问题

    作者:tsyw
    链接:线性回归 · 语雀 (yuque.com)

    在前面已经知道
    y = f ( ω ) + ϵ = ω T x + ϵ ϵ ∼ ( 0 , σ 2 ) y ∣ x ; ω ∼ N ( ω T x , σ 2 )

    y=f(ω)+ϵ=ωTx+ϵϵ(0,σ2)y|x;ωN(ωTx,σ2)" role="presentation">y=f(ω)+ϵ=ωTx+ϵϵ(0,σ2)y|x;ωN(ωTx,σ2)
    y=f(ω)+ϵ=ωTx+ϵϵ(0,σ2)yx;ωN(ωTx,σ2)
    假设权重先验也为高斯分布,即取先验分布 ω ∼ N ( 0 , σ 0 2 ) \omega \sim N(0,\sigma_{0}^{2}) ωN(0,σ02),又有
    p ( y ∣ ω ) = 1 2 π σ exp [ − ( y − ω T x ) 2 2 σ 2 ] p ( ω ) = 1 2 π σ 0 exp [ − ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] p ( ω ∣ y ) = p ( y ∣ ω ) p ( ω ) p ( y )
    p(y|ω)=12πσexp[(yωTx)22σ2]p(ω)=12πσ0exp[||ω||22σ02]p(ω|y)=p(y|ω)p(ω)p(y)" role="presentation">p(y|ω)=12πσexp[(yωTx)22σ2]p(ω)=12πσ0exp[||ω||22σ02]p(ω|y)=p(y|ω)p(ω)p(y)
    p(yω)p(ω)p(ωy)=2π σ1exp[2σ2(yωTx)2]=2π σ01exp[2σ02∣∣ω2]=p(y)p(yω)p(ω)

    因此对于 ω \omega ω的最大后验,有
    ω ^ = a r g m a x   ω p ( ω ∣ y ) 这里应该是 ∏ i = 1 N p ( ω ∣ y i ) , 但最后再写不影响 = a r g m a x   ω p ( y ∣ ω ) ⋅ p ( ω ) = a r g m a x   ω log ⁡ [ p ( y ∣ ω ) ⋅ p ( ω ) ] = a r g m a x   ω log ⁡ ( 1 2 π σ 1 2 π σ 0 ) + log ⁡ exp [ − ( y − ω T x ) 2 2 σ 2 − ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] = a r g m i n   ω [ ( y − ω T x ) 2 2 σ 2 + ∣ ∣ ω ∣ ∣ 2 2 σ 0 2 ] = a r g m i n   ω [ ( y − ω T x ) 2 + σ 2 σ 0 2 ∣ ∣ ω ∣ ∣ 2 ] = a r g m i n   ω [ ∑ i = 1 N ( y i − ω T x i ) 2 + σ 2 σ 0 2 ∣ ∣ ω ∣ ∣ 2 ]
    ω^=argmax ωp(ω|y)i=1Np(ω|yi),=argmax ωp(y|ω)p(ω)=argmax ωlog[p(y|ω)p(ω)]=argmax ωlog(12πσ12πσ0)+logexp[(yωTx)22σ2||ω||22σ02]=argmin ω[(yωTx)22σ2+||ω||22σ02]=argmin ω[(yωTx)2+σ2σ02||ω||2]=argmin ω[i=1N(yiωTxi)2+σ2σ02||ω||2]" role="presentation">ω^=argmax ωp(ω|y)i=1Np(ω|yi),=argmax ωp(y|ω)p(ω)=argmax ωlog[p(y|ω)p(ω)]=argmax ωlog(12πσ12πσ0)+logexp[(yωTx)22σ2||ω||22σ02]=argmin ω[(yωTx)22σ2+||ω||22σ02]=argmin ω[(yωTx)2+σ2σ02||ω||2]=argmin ω[i=1N(yiωTxi)2+σ2σ02||ω||2]
    ω^=ωargmax p(ωy)这里应该是i=1Np(ωyi),但最后再写不影响=ωargmax p(yω)p(ω)=ωargmax log[p(yω)p(ω)]=ωargmax log(2π σ12π σ01)+logexp[2σ2(yωTx)22σ02∣∣ω2]=ωargmin [2σ2(yωTx)2+2σ02∣∣ω2]=ωargmin [(yωTx)2+σ02σ2∣∣ω2]=ωargmin [i=1N(yiωTxi)2+σ02σ2∣∣ω2]

    从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
    再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计

    我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 4 10 \frac{4}{10} 104,所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是 2 3 \frac{2}{3} 32,因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。

    来源:《PRML Translation》-P19
    作者:马春鹏
    原著:《Pattern Recognition and Machine Learning》
    作者:Christopher M. Bishop

    小结
    线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。

    作者:tsyw
    链接:线性回归 · 语雀 (yuque.com)

    该部分在PRML中P27,28页中有提到

    CSDN话题挑战赛第2期
    参赛话题:学习笔记

  • 相关阅读:
    AttributeError: ‘Prophet‘ object has no attribute ‘stan_backend‘解决方案
    一次springboot和redis缓存的实践
    【博客550】k8s乐观锁机制:控制并发请求与数据一致性
    【C++11多线程编程】向线程函数传递参数
    Word 文档中的图片另存为 .jpg 格式图片
    JSP速过教程
    信号的机制——信号处理函数的注册
    面试题 17.04. 消失的数字
    重温缓存的正确使用姿势
    为什么要选择华为 HCIE-Security 课程?
  • 原文地址:https://blog.csdn.net/liu20020918zz/article/details/127102110