上一节介绍了线性回归,并介绍了对 表达自变量 x x x与因变量 y y y之间关系的拟合方程 f ( W ) f(\mathcal W) f(W)中参数 W \mathcal W W 求解的一种工具——最小二乘法。本节将从 概率密度函数角度 观察最小二乘法。
已知数据集合
D
a
t
a
Data
Data包含
N
N
N个由自变量
x
x
x与因变量
y
y
y组成的样本,并且 各样本之间独立同分布:
D
a
t
a
=
{
(
x
(
1
)
,
y
(
1
)
)
,
(
x
(
2
)
,
y
(
2
)
)
,
⋯
,
(
x
(
N
)
,
y
(
N
)
)
}
Data = \{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)})\}
Data={(x(1),y(1)),(x(2),y(2)),⋯,(x(N),y(N))}
其中,任意一个自变量
x
(
i
)
(
1
=
1
,
2
,
⋯
,
N
)
x^{(i)}(1=1,2,\cdots,N)
x(i)(1=1,2,⋯,N)是一个
p
p
p维随机变量。记作
x
(
i
)
∈
R
p
x^{(i)} \in \mathbb R^{p}
x(i)∈Rp:
x
(
i
)
=
(
x
1
(
i
)
x
2
(
i
)
⋮
x
p
(
i
)
)
x^{(i)} = (x(i)1x(i)2⋮x(i)p)
x(i)=⎝
⎛x1(i)x2(i)⋮xp(i)⎠
⎞
因此,关于自变量
x
x
x的集合
X
\mathcal X
X可以表示为
N
×
p
N \times p
N×p的矩阵:
X
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
N
)
)
T
=
(
x
(
1
)
T
x
(
2
)
T
⋮
x
(
N
)
T
)
=
(
x
1
(
1
)
,
x
2
(
1
)
,
⋯
,
x
p
(
1
)
x
1
(
2
)
,
x
2
(
2
)
,
⋯
,
x
p
(
2
)
⋮
x
1
(
N
)
,
x
2
(
N
)
,
⋯
,
x
p
(
N
)
)
N
×
p
\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = (x(1)Tx(2)T⋮x(N)T) = (x(1)1,x(1)2,⋯,x(1)px(2)1,x(2)2,⋯,x(2)p⋮x(N)1,x(N)2,⋯,x(N)p)_{N \times p}
X=(x(1),x(2),⋯,x(N))T=⎝
⎛x(1)Tx(2)T⋮x(N)T⎠
⎞=⎝
⎛x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N)⎠
⎞N×p
对应的因变量
y
y
y的集合
Y
\mathcal Y
Y可表示为
p
×
1
p \times 1
p×1的向量形式:
Y
=
(
y
(
1
)
y
(
2
)
⋮
y
(
N
)
)
N
×
1
\mathcal Y = (y(1)y(2)⋮y(N))_{N \times 1}
Y=⎝
⎛y(1)y(2)⋮y(N)⎠
⎞N×1
最小二乘法的表达式如下:
L
(
W
)
=
∑
i
=
1
N
∣
∣
W
T
x
(
i
)
−
y
(
i
)
∣
∣
\mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||
L(W)=i=1∑N∣∣WTx(i)−y(i)∣∣
线性回归任务对于拟合方程
f
(
W
)
=
W
T
x
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
f(\mathcal W) = \mathcal W^{T}x^{(i)}(i=1,2,\cdots,N)
f(W)=WTx(i)(i=1,2,⋯,N)的求解思路表示为:求解的模型参数
W
\mathcal W
W使得模型任意自变量
x
(
i
)
x^{(i)}
x(i)的判别结果
W
T
x
(
i
)
\mathcal W^{T}x^{(i)}
WTx(i)与对应因变量
y
(
i
)
y^{(i)}
y(i)之间差距最小
(
i
=
1
,
2
,
⋯
,
N
)
(i=1,2,\cdots,N)
(i=1,2,⋯,N)。基于最小二乘估计方法,上述思路表示如下:
W
^
=
arg
max
W
L
(
W
)
\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}\mathcal L(\mathcal W)
W^=WargmaxL(W)
上一节中求解了
W
^
\hat{\mathcal W}
W^的一般式:
W
^
=
(
X
T
X
)
−
1
X
T
Y
\hat {\mathcal W} = (\mathcal X^{T} \mathcal X)^{-1} \mathcal X^{T}\mathcal Y
W^=(XTX)−1XTY
继续观察最小二乘法的表达式:
L
(
W
)
=
∑
i
=
1
N
∣
∣
W
T
x
(
i
)
−
y
(
i
)
∣
∣
2
\mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||^2
L(W)=i=1∑N∣∣WTx(i)−y(i)∣∣2
目标是使
L
(
W
)
\mathcal L(\mathcal W)
L(W)达到最小。那它的下界是多少呢?自然是0——假设存在某个自变量集合
X
=
{
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
N
)
}
\mathcal X=\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}
X={x(1),x(2),⋯,x(N)}与其对应的因变量集合
Y
=
{
y
(
1
)
,
y
(
2
)
,
⋯
,
y
(
N
)
}
\mathcal Y=\{y^{(1)},y^{(2)},\cdots,y^{(N)}\}
Y={y(1),y(2),⋯,y(N)}之间属于 线性相关 关系,即任意一个
y
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
y^{(i)}(i=1,2,\cdots,N)
y(i)(i=1,2,⋯,N)均可以使用对应的
x
(
i
)
x^{(i)}
x(i)进行线性表示。即:
y
(
i
)
=
W
T
x
(
i
)
y^{(i)} = \mathcal W^{T}x^{(i)}
y(i)=WTx(i)
那么,
L
(
W
)
=
0
\mathcal L(\mathcal W) = 0
L(W)=0恒成立。但这只是理想状态下的结果。在真实样本中,数据是存在噪声的,没有噪声的数据没有什么实际意义。
如果定义数据的噪声部分为
ϵ
\epsilon
ϵ,并假设
ϵ
\epsilon
ϵ服从高斯分布。即:
这里定义噪声
ϵ
\epsilon
ϵ与因变量
y
∈
Y
y \in \mathcal Y
y∈Y相同,均是1维随机变量,即标量。
ϵ
∼
N
(
μ
,
σ
2
)
\epsilon \sim \mathcal N(\mu,\sigma^2)
ϵ∼N(μ,σ2)
基于上述理想状态下,因变量
y
(
i
)
y^{(i)}
y(i)与自变量
x
(
i
)
x^{(i)}
x(i)之间的新关系表示如下:
y
(
i
)
=
f
(
W
)
+
ϵ
=
W
T
x
(
i
)
+
ϵ
(
i
=
1
,
2
,
⋯
,
N
)
y^{(i)} = f(\mathcal W) + \epsilon = \mathcal W^{T}x^{(i)} + \epsilon(i=1,2,\cdots,N)
y(i)=f(W)+ϵ=WTx(i)+ϵ(i=1,2,⋯,N)
继续观察,由于
ϵ
\epsilon
ϵ服从高斯分布,
y
(
i
)
y^{(i)}
y(i)与
x
(
i
)
x^{(i)}
x(i)之间存在线性关系,我们将
y
(
i
)
y^{(i)}
y(i)理解为 高斯分布的随机结果
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)向上平移了
W
T
x
(
i
)
\mathcal W^{T}x^{(i)}
WTx(i)个单位
(
i
=
1
,
2
,
⋯
,
N
)
(i=1,2,\cdots,N)
(i=1,2,⋯,N),只是换了个位置,但它仍然是高斯分布。基于该思路,我们发现:
y
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
y^{(i)}(i=1,2,\cdots,N)
y(i)(i=1,2,⋯,N)也是高斯分布。它服从的概率密度函数表示为:
将高斯分布仅平移至另一个位置,它并没有改变高斯分布影响的范围。因此,它的方差自然不会发生变化。
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
=
W
T
x
(
i
)
+
ϵ
∼
N
(
W
T
x
(
i
)
+
μ
,
σ
2
)
P(y^{(i)} \mid x^{(i)};\mathcal W) = \mathcal W^{T}x^{(i)} + \epsilon \sim \mathcal N(\mathcal W^{T}x^{(i)}+\mu,\sigma^2)
P(y(i)∣x(i);W)=WTx(i)+ϵ∼N(WTx(i)+μ,σ2)
至此,我们得到了一个概率模型
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
P(y^{(i)} \mid x^{(i)};\mathcal W)
P(y(i)∣x(i);W)。使用极大似然估计方法求解概率模型
P
P
P的模型参数
W
\mathcal W
W。
定义
L
(
W
)
L(\mathcal W)
L(W)表示关于模型参数
W
\mathcal W
W的
log
\log
log似然函数:
L
(
W
)
=
log
P
(
Y
∣
X
;
W
)
L(\mathcal W) = \log P(\mathcal Y \mid \mathcal X;\mathcal W)
L(W)=logP(Y∣X;W)
由于数据集合
D
a
t
a
Data
Data中各样本之间独立同分布,因此将
L
(
W
)
L(\mathcal W)
L(W)展开:
L
(
W
)
=
log
∏
i
=
1
N
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
=
∑
i
=
1
N
log
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
L(W)=logN∏i=1P(y(i)∣x(i);W)=N∑i=1logP(y(i)∣x(i);W)
L(W)=logi=1∏NP(y(i)∣x(i);W)=i=1∑NlogP(y(i)∣x(i);W)
由于
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
∼
N
(
W
T
x
(
i
)
+
μ
,
σ
2
)
P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^{T}x^{(i)} + \mu,\sigma^2)
P(y(i)∣x(i);W)∼N(WTx(i)+μ,σ2),直接将该高斯分布的概率密度函数表示出来:
P
(
y
(
i
)
∣
x
(
i
)
;
W
)
=
1
2
π
σ
e
−
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
2
σ
2
P(y^{(i)} \mid x^{(i)};\mathcal W) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}}
P(y(i)∣x(i);W)=2πσ1e−2σ2[y(i)−(WTx(i)+μ)]2
将概率密度函数带回上式:
L
(
W
)
=
∑
i
=
1
N
log
(
1
2
π
σ
e
−
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
2
σ
2
)
L(\mathcal W) = \sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}}\right)
L(W)=i=1∑Nlog⎝
⎛2πσ1e−2σ2[y(i)−(WTx(i)+μ)]2⎠
⎞
将上式展开,展开结果如下:
L
(
W
)
=
∑
i
=
1
N
log
(
1
2
π
σ
)
+
∑
i
=
1
N
log
e
−
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
2
σ
2
=
∑
i
=
1
N
log
(
1
2
π
σ
)
−
∑
i
=
1
N
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
2
σ
2
L(W)=N∑i=1log(1√2πσ)+N∑i=1loge−[y(i)−(WTx(i)+μ)]22σ2=N∑i=1log(1√2πσ)−N∑i=1[y(i)−(WTx(i)+μ)]22σ2
L(W)=i=1∑Nlog(2πσ1)+i=1∑Nloge−2σ2[y(i)−(WTx(i)+μ)]2=i=1∑Nlog(2πσ1)−i=1∑N2σ2[y(i)−(WTx(i)+μ)]2
根据极大似然估计的定义,概率模型
P
(
Y
∣
X
;
W
)
P(\mathcal Y \mid \mathcal X;\mathcal W)
P(Y∣X;W)的最优参数
W
^
\hat{\mathcal W}
W^表示为:
W
^
=
arg
max
W
L
(
W
)
\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}L(\mathcal W)
W^=WargmaxL(W)
继续观察
L
(
W
)
L(\mathcal W)
L(W)的展开结果:
至此,将
W
^
\hat {\mathcal W}
W^结果化简如下:
W
^
=
arg
max
W
(
∑
i
=
1
N
log
(
1
2
π
σ
)
−
∑
i
=
1
N
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
2
σ
2
)
=
arg
max
W
−
∑
i
=
1
N
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
=
arg
min
W
∑
i
=
1
N
[
y
(
i
)
−
(
W
T
x
(
i
)
+
μ
)
]
2
ˆW=argmaxW(N∑i=1log(1√2πσ)−N∑i=1[y(i)−(WTx(i)+μ)]22σ2)=argmaxW−N∑i=1[y(i)−(WTx(i)+μ)]2=argminWN∑i=1[y(i)−(WTx(i)+μ)]2
W^=Wargmax(i=1∑Nlog(2πσ1)−i=1∑N2σ2[y(i)−(WTx(i)+μ)]2)=Wargmax−i=1∑N[y(i)−(WTx(i)+μ)]2=Wargmini=1∑N[y(i)−(WTx(i)+μ)]2
将上述最优模型参数化简结果与最小二乘估计的标准式进行比较,发现:当 μ = 0 \mu = 0 μ=0时,最小二乘法与极大似然估计法求解最优模型参数的结果 W ^ \hat{\mathcal W} W^相同。这意味着:使用最小二乘法处理的数据集合 D a t a Data Data内部噪声服从均值为0的高斯分布的假设。
下一节将介绍正则化。
相关参考:
最小二乘法-概率视角-高斯噪声-MLE