从本节开始将从推断入手介绍变分推断。
提示:本节的背景介绍与机器学习笔记之隐马尔可夫模型(一)概率模型背景的阶段性介绍的部分有很多重复部分,请对比食用,谢谢。
从频率学派的角度观察,其针对的核心问题是优化问题。
示例1:线性回归(Linear Regression,LR),是一种针对数据拟合的统计分析方法。
模型表示:
f
(
W
,
b
)
=
W
T
X
+
b
f(\mathcal W,b) = \mathcal W^{T}\mathcal X + b
f(W,b)=WTX+b
其中,
X
\mathcal X
X表示样本集合,
W
,
b
\mathcal W,b
W,b表示模型参数。最终目的是 通过已知数据
X
\mathcal X
X,将模型参数
W
,
b
\mathcal W,b
W,b估计出来。
基于上述思想,提出一个损失函数(Loss Function):每个样本点对拟合直线的误差之和。
L
(
W
,
b
)
=
∑
i
=
1
N
∣
∣
W
T
x
(
i
)
+
b
−
y
(
i
)
∣
∣
2
(
x
(
i
)
,
y
(
i
)
)
∈
D
\mathcal L(\mathcal W,b) = \sum_{i=1}^{N} ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2 \quad (x^{(i)},y^{(i)}) \in \mathcal D
L(W,b)=i=1∑N∣∣WTx(i)+b−y(i)∣∣2(x(i),y(i))∈D
其中,
D
\mathcal D
D表示数据集合,
x
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
x^{(i)}(i=1,2,\cdots,N)
x(i)(i=1,2,⋯,N)表示数据集合中任意一个样本信息,
N
N
N表示样本数量,是一个
p
p
p维向量;
y
(
i
)
y^{(i)}
y(i)表示样本信息
x
(
i
)
x^{(i)}
x(i)对应的标签信息,是一个标量:
D
=
{
(
x
(
i
)
,
y
(
i
)
)
}
i
=
1
N
x
(
i
)
=
(
x
1
(
i
)
,
x
2
(
i
)
,
⋯
,
x
p
(
i
)
)
T
\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N \\ x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T}
D={(x(i),y(i))}i=1Nx(i)=(x1(i),x2(i),⋯,xp(i))T
针对最优模型参数
W
^
,
b
^
\hat {\mathcal W},\hat b
W^,b^的求解问题,求解思想是:最小化样本点拟合直线的误差结果。
W
^
=
arg
max
W
L
(
W
,
b
)
b
^
=
arg
max
b
L
(
W
,
b
)
\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W} \mathcal L(\mathcal W,b) \\ \hat b = \mathop{\arg\max}\limits_{b} \mathcal L(\mathcal W,b)
W^=WargmaxL(W,b)b^=bargmaxL(W,b)
关于求解方式,分为解析解和数值解两种:
直接将
L
(
W
,
b
)
\mathcal L(\mathcal W,b)
L(W,b)对
W
\mathcal W
W求偏导,求得
W
\mathcal W
W的解析解如下:
∂
L
(
W
,
b
)
∂
W
≜
0
→
W
^
=
(
X
T
X
)
−
1
X
T
Y
X
=
(
x
(
1
)
,
⋯
,
x
(
N
)
)
N
×
p
T
Y
=
(
y
(
i
)
,
⋯
,
y
(
N
)
)
N
×
1
T
\frac{\partial \mathcal L(\mathcal W,b)}{\partial \mathcal W} \triangleq 0 \to \hat {\mathcal W} = \left(\mathcal X^{T}\mathcal X\right)^{-1}\mathcal X^{T}\mathcal Y \quad \mathcal X = \left(x^{(1)},\cdots,x^{(N)}\right)^{T}_{N \times p}\mathcal Y = \left(y^{(i)},\cdots,y^{(N)}\right)^{T}_{N \times 1}
∂W∂L(W,b)≜0→W^=(XTX)−1XTYX=(x(1),⋯,x(N))N×pTY=(y(i),⋯,y(N))N×1T
数值解一般使用方法如 梯度下降(Gradient Descent,GD)方法、随机梯度下降(Stochastic Gradient Descent,SGD)方法进行求解。
示例2:支持向量机(Support Vector Machine,SVM),它是一种基于线性分类的 硬分类代表方法。
示例3:EM算法,该算法基于极大似然估计,通过迭代求解的方式对含隐变量的模型参数进行优化:
θ
^
=
arg
max
θ
log
P
(
X
∣
θ
)
\hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)
θ^=θargmaxlogP(X∣θ)
其迭代公式表示如下:
θ
(
t
+
1
)
=
arg
max
θ
∫
Z
P
(
X
,
Z
∣
θ
)
⋅
P
(
Z
∣
X
,
θ
(
t
)
)
d
Z
\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta}\int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z
θ(t+1)=θargmax∫ZP(X,Z∣θ)⋅P(Z∣X,θ(t))dZ
经过整理,优化问题 的核心是求出概率模型的具体参数结果
θ
\theta
θ,并通过
θ
\theta
θ表示概率模型
P
(
X
∣
θ
)
P(\mathcal X \mid \theta)
P(X∣θ)。
这个‘优化问题’的重点在于‘求解’过程,而‘策略’可以理解成优化过程的一种载体。
从贝叶斯的角度观察,其针对的核心问题是积分问题。
已知样本集合
X
\mathcal X
X,通过贝叶斯定理求解
X
\mathcal X
X条件下,模型参数
θ
\theta
θ的后验概率分布
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X):
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
⋅
P
(
θ
)
P
(
X
)
P(\theta \mid \mathcal X) = \frac{P(\mathcal X \mid \theta) \cdot P(\theta)}{P(\mathcal X)}
P(θ∣X)=P(X)P(X∣θ)⋅P(θ)
贝叶斯推断(Inference):特指 在贝叶斯框架内,将
θ
\theta
θ的后验概率分布
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X)求解出来。
贝叶斯决策(Decision):已知数据集合
X
\mathcal X
X中包含
N
N
N个样本,现存在一个 集合
X
\mathcal X
X外的样本
x
^
\hat x
x^,求解集合
X
\mathcal X
X条件下,
x
^
\hat x
x^的后验概率
P
(
x
^
∣
X
)
P(\hat x\mid \mathcal X)
P(x^∣X)。
至此,我们通过模型参数
θ
\theta
θ,将集合
X
\mathcal X
X与新样本
x
^
\hat x
x^关联起来:
概率密度积分方法~
P
(
x
^
∣
X
)
=
∫
θ
P
(
x
^
,
θ
∣
X
)
d
θ
=
∫
θ
P
(
x
^
∣
θ
)
⋅
P
(
θ
∣
X
)
d
θ
P(ˆx∣X)=∫θP(ˆx,θ∣X)dθ=∫θP(ˆx∣θ)⋅P(θ∣X)dθ
至此,基于贝叶斯框架对 新样本
x
^
\hat x
x^ 的预测过程:
观察上式,可以直接将
P
(
x
^
∣
X
)
P(\hat x \mid \mathcal X)
P(x^∣X)看做
P
(
x
^
∣
θ
)
P(\hat x \mid \theta)
P(x^∣θ)关于
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X)的期望形式:
P
(
x
^
∣
X
)
=
E
θ
∣
X
[
P
(
x
^
∣
θ
)
]
P(\hat x \mid \mathcal X) = \mathbb E_{\theta \mid \mathcal X} \left[P(\hat x \mid \theta)\right]
P(x^∣X)=Eθ∣X[P(x^∣θ)]
因此,贝叶斯角度实现新样本
x
^
\hat x
x^的预测过程,其核心在于:如何求解参数的后验概率分布
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X)。
因此,求解后验概率分布
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X)这个行为被称为推断(Inference)。
和频率角度看待问题的核心区别:
频率角度求解的是‘模型参数’
θ
\theta
θ的‘具体结果’或‘迭代产生的近似结果’;(仅关于参数本身)
贝叶斯角度求解的是‘一个概率分布’,关于参数
θ
\theta
θ的后验概率分布
P
(
θ
∣
X
)
P(\theta \mid \mathcal X)
P(θ∣X)推断主要分为如下几种类型:
下一节将介绍变分推断的公式推导。
相关参考:
机器学习-变分推断1(背景介绍)