上一节介绍了贝叶斯线性回归推断任务的推导过程,本节将介绍预测任务(Prediction)的推导过程
通过贝叶斯定理,关于后验分布
P
(
W
∣
D
a
t
a
)
\mathcal P(\mathcal W \mid Data)
P(W∣Data)的推断结果表示如下:
P
(
W
∣
X
)
\mathcal P(\mathcal W \mid \mathcal X)
P(W∣X)表示关于模型参数
W
\mathcal W
W的先验概率,与
X
\mathcal X
X无关,因而省略。
P
(
W
∣
D
a
t
a
)
=
P
(
Y
∣
W
,
X
)
⋅
P
(
W
∣
X
)
P
(
Y
∣
X
)
∝
P
(
Y
∣
W
,
X
)
⋅
P
(
W
)
P(W∣Data)=P(Y∣W,X)⋅P(W∣X)P(Y∣X)∝P(Y∣W,X)⋅P(W)
其中,根据线性回归模型,得知似然
P
(
Y
∣
W
,
X
)
\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)
P(Y∣W,X)服从均值为
0
0
0,方差为
σ
2
\sigma^2
σ2的一维高斯分布:
该高斯分布维度和标签
y
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
\mathcal y^{(i)}(i=1,2,\cdots,N)
y(i)(i=1,2,⋯,N)的维度相同
需要注意的点:这个高斯分布是关于
Y
\mathcal Y
Y的条概率分布。
P
(
Y
∣
W
,
X
)
∼
N
(
Y
∣
W
T
X
+
μ
,
σ
2
)
μ
=
0
\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal Y \mid \mathcal W^T\mathcal X + \mu,\sigma^2) \quad \mu = 0
P(Y∣W,X)∼N(Y∣WTX+μ,σ2)μ=0
P
(
W
)
\mathcal P(\mathcal W)
P(W)是模型参数
W
\mathcal W
W的先验概率分布,这里假设
P
(
W
)
\mathcal P(\mathcal W)
P(W)服从均值为0,协方差为
Σ
p
r
i
o
r
\Sigma_{prior}
Σprior的高斯分布:
同上,这里的高斯分布是
p
p
p维高斯分布,和
W
\mathcal W
W的维度相同。
P
(
W
)
∼
N
(
0
,
Σ
p
r
i
o
r
)
\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})
P(W)∼N(0,Σprior)
因而基于高斯分布的自共轭性质,后验分布
P
(
W
∣
D
a
t
a
)
\mathcal P(\mathcal W \mid Data)
P(W∣Data)同样服从高斯分布。这里定义
P
(
W
∣
D
a
t
a
)
∼
N
(
μ
W
,
Σ
W
)
\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})
P(W∣Data)∼N(μW,ΣW)并表示如下:
详见
指数族分布介绍中的指数族分布共轭性质。
P
(
W
∣
D
a
t
a
)
\mathcal P(\mathcal W \mid Data)
P(W∣Data)也可以写成
P
(
W
∣
X
,
Y
)
\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)
P(W∣X,Y).
N
(
μ
W
,
Σ
W
)
∝
N
(
W
T
X
,
σ
2
)
⋅
N
(
0
,
Σ
p
r
i
o
r
)
\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior})
N(μW,ΣW)∝N(WTX,σ2)⋅N(0,Σprior)
通过推断,得到
μ
W
,
Σ
W
\mu_{\mathcal W},\Sigma_{\mathcal W}
μW,ΣW表示如下:
{
μ
W
=
1
σ
2
(
A
−
1
X
T
Y
)
Σ
W
=
A
−
1
A
=
[
1
σ
2
X
T
X
+
Σ
p
r
i
o
r
−
1
]
p
×
p
{μW=1σ2(A−1XTY)ΣW=A−1A=[1σ2XTX+Σ−1prior]p×p
贝叶斯方法中,求解模型参数的概率分布只是一个中间步骤,最终目标是基于
W
\mathcal W
W概率分布
P
(
W
∣
X
,
Y
)
\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)
P(W∣X,Y),给定 未知样本
x
^
\hat x
x^,对它的 标签
y
^
\hat y
y^ 进行预测。
观察一下,
P
(
W
∣
X
,
Y
)
\mathcal P(\mathcal W \mid \mathcal X,\mathcal Y)
P(W∣X,Y)已求解的条件下,未知样本
x
^
\hat x
x^标签的预测过程:
这里
x
x
x是’单个样本‘的宏观表示,
y
y
y是单个标签的宏观表示。
这种表示相当于给
W
\mathcal W
W乘了一个系数,相当于
x
^
T
W
{\hat x}^T \mathcal W
x^TW和
W
\mathcal W
W之间存在线性关系。根据
高斯分布的相关定理介绍,有:(常数
B
\mathcal B
B的方差是0)
这里将
x
^
T
{\hat x}^T
x^T看作
A
;
B
=
0
\mathcal A;\mathcal B = 0
A;B=0:由于
[
x
^
T
]
1
×
p
[
W
]
p
×
1
[{\hat x}^T]_{1 \times p}[\mathcal W]_{p \times 1}
[x^T]1×p[W]p×1本身是一个实数(一维向量),因而对应分布同样是一维高斯分布。该分布仅仅是’无高斯分布噪声‘(noise-free)的分布结果。
使用贝叶斯方法求解线性回归,它主要分为两大步骤:
这里先验概率分布
P
(
W
)
\mathcal P(\mathcal W)
P(W)给定一个均值为0的高斯分布。
将训练好的(已求解的)
W
\mathcal W
W带入
x
^
\hat x
x^进行预测。
至此,贝叶斯线性回归介绍结束。