本文以线性回归模型为例,介绍了两种参数估计方法,即最小二乘法和极大似然估计法,阐述了两者之间的区别与联系。
最小二乘法,又称最小平方法,通过最小化误差平方和得到参数估计值,使得模型能够最好地拟合样本数据。
已知 N N N组数据 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } {D=\{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}} D={(x1,y1),(x2,y2),⋯,(xN,yN)},其中 x i = ( x i 1 , x i 2 , ⋯ , x i p ) T {x_i=(x_{i1}, x_{i2}, \cdots, x_{ip})^T} xi=(xi1,xi2,⋯,xip)T, p p p表示有 p p p个特征,设参数 w = ( w 1 , w 2 , ⋯ , w p ) T w=(w_1, w_2, \cdots, w_p)^T w=(w1,w2,⋯,wp)T。
最小二乘法的目标函数是
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2
L(w)=i=1∑N∣∣wTxi−yi∣∣2
令
X
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
X=(x_1, x_2, \cdots, x_N)^T
X=(x1,x2,⋯,xN)T,
Y
=
(
y
1
,
y
2
,
⋯
,
y
N
)
T
Y=(y_1, y_2, \cdots, y_N)^T
Y=(y1,y2,⋯,yN)T,
X
X
X为
N
×
p
N\times p
N×p维,
Y
Y
Y为
N
×
1
N\times 1
N×1维,
w
w
w为
p
×
1
p\times 1
p×1维,将
L
(
w
)
L(w)
L(w)表达为矩阵形式:
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
=
∑
i
=
1
N
(
w
T
x
i
−
y
i
)
2
=
(
w
T
x
1
−
y
1
,
⋯
,
w
T
x
N
−
y
N
)
⋅
(
w
T
x
1
−
y
1
,
⋯
,
w
T
x
N
−
y
N
)
T
=
(
w
T
X
T
−
Y
T
)
⋅
(
w
T
X
T
−
Y
T
)
T
=
(
w
T
X
T
−
Y
T
)
⋅
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
w
T
X
T
Y
−
Y
T
X
w
+
Y
T
Y
=
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
要使得
L
(
w
)
L(w)
L(w)最小,得到参数
w
^
=
a
r
g
m
i
n
L
(
w
)
{\hat{w}=argmin\ L(w)}
w^=argmin L(w)
∂
L
(
w
)
∂
w
=
2
X
T
X
w
−
2
X
T
Y
=
0
X
T
X
w
=
X
T
Y
w
=
(
X
T
X
)
−
1
X
T
Y
\frac{\partial L(w)}{\partial w}=2X^TXw-2X^TY=0\\ X^TXw=X^TY\\ w=(X^TX)^{-1}X^TY
∂w∂L(w)=2XTXw−2XTY=0XTXw=XTYw=(XTX)−1XTY
如果矩阵
X
T
X
X^TX
XTX非奇异,则
w
w
w有唯一解。
极大似然估计的目标是通过选择参数,使得从模型中抽取N组样本观测值的概率最大,即使得样本出现的可能性最大。
似然函数
L
(
w
∣
x
1
,
⋯
,
x
N
)
L(w|x_1, \cdots, x_N)
L(w∣x1,⋯,xN),简记为
L
(
w
)
L(w)
L(w):
L
(
w
)
=
p
(
x
1
,
x
2
,
⋯
,
x
N
∣
w
)
L(w)=p(x_1, x_2, \cdots, x_N|w)
L(w)=p(x1,x2,⋯,xN∣w)
可以理解为当参数为
w
w
w时,各组样本同时出现的概率。
假设样本独立同分布,似然函数可写为:
L
(
w
)
=
p
(
x
1
,
x
2
,
⋯
,
x
N
∣
w
)
=
p
(
x
1
∣
w
)
p
(
x
2
∣
w
)
⋯
p
(
x
N
∣
w
)
L(w)=p(x_1, x_2, \cdots, x_N|w)\\ =p(x_1|w)p(x_2|w)\cdots p(x_N|w)
L(w)=p(x1,x2,⋯,xN∣w)=p(x1∣w)p(x2∣w)⋯p(xN∣w)
下面为线性回归中使用极大似然估计的例子:
假设预测值
w
T
x
i
w^Tx_i
wTxi与真实值
y
i
y_i
yi之间的误差
ξ
i
\xi_i
ξi服从均值为0,方差为
σ
2
\sigma^2
σ2的正态分布,即
ξ
i
∼
N
(
0
,
σ
2
)
{\xi_i \sim N(0, \sigma^2)}
ξi∼N(0,σ2)
ξ
i
\xi_i
ξi的概率密度函数为:
p
(
ξ
i
)
=
1
2
π
σ
e
−
ξ
i
2
2
σ
2
p(\xi_i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}}
p(ξi)=2πσ1e−2σ2ξi2
将
ξ
i
=
y
i
−
w
T
x
i
\xi_i=y_i-w^Tx_i
ξi=yi−wTxi代入得:
p
(
y
i
∣
x
i
;
w
)
=
1
2
π
σ
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
p(y_i\mid x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}
p(yi∣xi;w)=2πσ1e−2σ2(yi−wTxi)2
p
(
y
i
∣
x
i
;
w
)
p(y_i\mid x_i;w)
p(yi∣xi;w)可以理解为当参数为
w
w
w时,若给定
x
i
x_i
xi,则
y
i
y_i
yi出现的概率。
给定N个样本,似然函数为:
L
(
w
)
=
l
o
g
∏
i
=
1
N
p
(
y
i
∣
x
i
;
w
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
σ
+
l
o
g
(
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
σ
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
=
N
l
o
g
1
2
π
σ
−
1
2
σ
2
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
要使得似然函数取最大值:
w
^
=
a
r
g
m
a
x
L
(
w
)
=
a
r
g
m
a
x
−
1
2
σ
2
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
=
a
r
g
m
i
n
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
可以发现,在假定样本独立同分布且误差
ξ
\xi
ξ服从
N
(
0
,
σ
2
)
{N(0, \sigma^2)}
N(0,σ2)的前提下,极大似然估计最终的目标函数与最小二乘法的相同。
最小二乘法的出发点在于找到合适的参数去拟合样本数据,最小化损失函数,使预测值与真实值之间的误差最小。
极大似然估计的出发点在于找到合适的参数,使样本出现的可能性最大,以最大化似然概率函数为目标。
在假定样本独立同分布且误差服从 N ( 0 , σ 2 ) {N(0, \sigma^2)} N(0,σ2)的前提下,极大似然估计和最小二乘法最终的目标函数相同。