前面部分分别介绍了贝叶斯网络(Bayessian Network)和马尔可夫随机场(Markov Random Field)的结构表示(Representation),本节开始将介绍概率图模型的第二部分——推断(Inference)。
实际上,我们对推断并不陌生,在变分推断基本介绍中就已经介绍了推断的概念。
推断表示从 贝叶斯学派角度实现新样本
x
^
\hat x
x^的预测过程中,求解参数的后验概率分布
P
(
θ
∣
X
)
\mathcal P(\theta \mid \mathcal X)
P(θ∣X)。
更加泛化的说法:推断的核心是如何基于可观测变量推测未知变量的条件分布。具体数学符号表示如下:
样本集合
X
\mathcal X
X是
p
p
p维随机变量,并且每一维度是离散型随机变量。它的概率分布/概率模型
P
(
X
)
\mathcal P(\mathcal X)
P(X)表示如下:
P
(
X
)
=
P
(
x
1
,
x
2
,
⋯
,
x
p
)
\mathcal P(\mathcal X) = \mathcal P(x_1,x_2,\cdots,x_p)
P(X)=P(x1,x2,⋯,xp)
而推断的任务就是求解变量的概率。
可能是某一个变量的边缘概率/条件概率,也可能是若干个变量组成的联合概率/条件概率。
概率密度积分公式~这里定义
Z
\mathcal Z
Z是离散型随机变量。推断主要分为如下两大类型:
精确推断(Precise Inference):希望能够计算出目标变量的边际分布(通过积分(连续型随机变量)或者求和(离散型随机变量)消去其他变量达获取边缘概率分布的目的) 或者条件概率分布的精确结果。
这种方法的计算量复杂度随着极大团规模的增加而呈现指数级增长。因此,适用范围有限。
其常用方法有:
变量消去法(Variable Elimination,VE),它是精确推断的基本思想,利用模型所描述的条件独立性来消减计算目标概率值所需的计算量。
信念传播(Belief Propagation,BP),也称和积算法(Sum-Product Alglorithm)。针对计算多个边际分布过程中重复使用变量消去法 而产生的大量冗余计算的问题,将变量消去法中的和积操作看做是消息并保存,从而节省大量的计算资源。
而信念传播的弊端是只能针对树型结构 进行计算。
结点树算法(Junction Tree Algorithm):可看做是信念传播在 一般图结构下 的推断方法。
近似推断(Approximate Inference):在计算边际概率分布的过程中,可能出现因潜在空间(可以理解成参数变量的特征空间)维度
K
\mathcal K
K过高,以至于对参数变量进行积分需要消耗大量算力和时间代价。数学符号表示如下:
P
(
X
)
=
∫
Z
P
(
X
,
Z
)
d
Z
=
∫
Z
P
(
X
∣
Z
)
⋅
P
(
Z
)
d
Z
=
∫
z
1
⋯
∫
z
K
P
(
X
∣
Z
)
⋅
P
(
Z
)
d
z
1
,
⋯
,
z
K
P(X)=∫ZP(X,Z)dZ=∫ZP(X∣Z)⋅P(Z)dZ=∫z1⋯∫zKP(X∣Z)⋅P(Z)dz1,⋯,zK
从而在使用贝叶斯定理过程中,极难求解出后验概率结果:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
⋅
P
(
θ
)
P
(
X
)
\mathcal P(\theta \mid \mathcal X) = \frac{\mathcal P(\mathcal X \mid \theta) \cdot \mathcal P(\theta)}{\mathcal P(\mathcal X)}
P(θ∣X)=P(X)P(X∣θ)⋅P(θ)
因此,为了简化运算,我们并不追求参数的精确分布结果,从而通过一些近似方法求解参数分布
P
(
θ
∣
X
)
\mathcal P(\theta\mid \mathcal X)
P(θ∣X)。
常用方法:
在隐马尔可夫模型介绍中提到的隐马尔可夫模型解决的三个任务:
其中,求值任务、解码任务本质上就是推断任务:
这个操作类似于“最大后验概率推断”。因而,隐马尔可夫模型也被称为 动态贝叶斯网络(Dynamic Bayessian Network)。
下一节将介绍变量消去法(Variable Elimination)。
相关参考:
概率图模型之精确推断
机器学习-概率图模型7-推断Inference-介绍