在之前已知
L
o
s
s
F
u
n
c
t
i
o
n
:
L
(
ω
)
=
∑
i
=
1
N
∣
∣
ω
T
x
i
−
y
i
∣
∣
2
解得
ω
^
=
(
X
T
X
)
−
1
X
T
Y
在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:
- 加数据
- 特征选择(降低特征维度)如 PCA 算法。
- 正则化
正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
一般的,正则化框架有
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
λ
P
(
ω
)
⏟
p
e
n
a
l
t
y
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}]
ωargmin[Loss
L(ω)+penalty
λP(ω)]
当使用L1 Lasso时,对应正则化框架
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
∣
∣
ω
∣
∣
1
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}]
ωargmin[Loss
L(ω)+∣∣ω∣∣1]
当使用L2 Ridge(岭回归)时,对应正则化框架
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
∣
∣
ω
∣
∣
2
2
]
=
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
ω
T
ω
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]
ωargmin[Loss
L(ω)+∣∣ω∣∣22]=ωargmin[Loss
L(ω)+ωTω]
对于L2 Ridge,估计
ω
^
\hat{\omega}
ω^有
J
(
ω
)
=
∑
i
=
1
N
∣
∣
ω
T
x
i
−
y
i
∣
∣
2
+
λ
ω
T
ω
=
(
ω
T
X
T
−
Y
T
)
(
X
ω
−
Y
)
+
λ
ω
T
ω
=
ω
T
X
T
X
ω
−
2
ω
T
X
T
Y
+
Y
T
T
+
λ
ω
T
ω
=
ω
T
(
X
T
X
+
λ
I
)
ω
−
2
ω
T
X
T
Y
+
Y
T
Y
ω
^
=
a
r
g
m
i
n
ω
J
(
ω
)
∂
J
(
ω
)
∂
ω
=
2
(
X
T
X
+
λ
I
)
ω
−
2
X
T
Y
2
(
X
T
X
+
λ
I
)
ω
−
2
X
T
Y
=
0
ω
^
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
利用2范数进行正则化不仅可以使模型选择 ω \omega ω较小的参数,同时也避免 X T X X^{T}X XTX不可逆的问题
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
在前面已经知道
y
=
f
(
ω
)
+
ϵ
=
ω
T
x
+
ϵ
ϵ
∼
(
0
,
σ
2
)
y
∣
x
;
ω
∼
N
(
ω
T
x
,
σ
2
)
假设权重先验也为高斯分布,即取先验分布
ω
∼
N
(
0
,
σ
0
2
)
\omega \sim N(0,\sigma_{0}^{2})
ω∼N(0,σ02),又有
p
(
y
∣
ω
)
=
1
2
π
σ
exp
[
−
(
y
−
ω
T
x
)
2
2
σ
2
]
p
(
ω
)
=
1
2
π
σ
0
exp
[
−
∣
∣
ω
∣
∣
2
2
σ
0
2
]
p
(
ω
∣
y
)
=
p
(
y
∣
ω
)
p
(
ω
)
p
(
y
)
因此对于
ω
\omega
ω的最大后验,有
ω
^
=
a
r
g
m
a
x
ω
p
(
ω
∣
y
)
这里应该是
∏
i
=
1
N
p
(
ω
∣
y
i
)
,
但最后再写不影响
=
a
r
g
m
a
x
ω
p
(
y
∣
ω
)
⋅
p
(
ω
)
=
a
r
g
m
a
x
ω
log
[
p
(
y
∣
ω
)
⋅
p
(
ω
)
]
=
a
r
g
m
a
x
ω
log
(
1
2
π
σ
1
2
π
σ
0
)
+
log
exp
[
−
(
y
−
ω
T
x
)
2
2
σ
2
−
∣
∣
ω
∣
∣
2
2
σ
0
2
]
=
a
r
g
m
i
n
ω
[
(
y
−
ω
T
x
)
2
2
σ
2
+
∣
∣
ω
∣
∣
2
2
σ
0
2
]
=
a
r
g
m
i
n
ω
[
(
y
−
ω
T
x
)
2
+
σ
2
σ
0
2
∣
∣
ω
∣
∣
2
]
=
a
r
g
m
i
n
ω
[
∑
i
=
1
N
(
y
i
−
ω
T
x
i
)
2
+
σ
2
σ
0
2
∣
∣
ω
∣
∣
2
]
从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计
我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 4 10 \frac{4}{10} 104,所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是 2 3 \frac{2}{3} 32,因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。
来源:《PRML Translation》-P19
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
小结
线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
该部分在PRML中P27,28页中有提到
CSDN话题挑战赛第2期
参赛话题:学习笔记