机器学习笔记之概率图模型(九)最大乘积算法(Max-Product Algorithm)

机器学习笔记之概率图模型——最大乘积算法（Max-Product Algorithm）

引言

引言

上一节介绍了信念传播算法(Belief Propagation,BP)的思想以及具体算法过程，本节将介绍精确推断中的最大乘积算法(Max-Product Algorithm)。

回顾：推断的本质

已知数据集合 $\mathcal X$ 共包含 $p$ 维特征，并且假设每个特征都是离散型随机变量：
$\mathcal X = \{x_1,x_2,\cdots,x_p\}$
根据概率图的性质，这 $p$ 维特征并非存在 $p$ 个结点，而是每个结点可能包含一个/多个特征，这里假定共存在 $n$ 个结点。我们关心的重点并不在结点的数量，而在于边的信息。假设随机变量 $\mathcal X$ 表示的概率图中存在 $\mathcal K$ 条边，即：
每一条边 $e_{i}(i=1,2,\cdots,\mathcal K)$ 表示某两个结点之间的关联关系。概率图给定的条件下，将其理解成‘已知信息’。
$\mathcal E = \{e_1,e_2,\cdots,e_{\mathcal K}\}$

在推断基本介绍中提到，推断的本质即变量/特征概率的计算。如：

变量/特征的边缘概率：
概率的加法/积分运算~,这里 $x_i(i=1,2,\cdots,n)$ 并非表示维度特征，而表示结点所包含的特征集合。
$\mathcal P(x_i) = \sum_{x_1} \cdots\sum_{x_{i-1}}\sum_{x_{i+1}} \cdots \sum_{x_n} \mathcal P(\mathcal X)$
从概率图的角度观察，基于边的边缘概率 $\mathcal P(e_i)$ ，其本质上是某两个结点关联关系的概率：
- 从有向图的角度观察，该关联关系使用条件概率进行表示：
  $\mathcal P(e_i) = \mathcal P(x_{i \to end} \mid x_{i \to start})$
  其中 $x_{i \to start}$ 表示边 $e_i$ 的起始点， $x_{i \to end}$ 表示 $e_i$ 的终止点。
- 从无向图的角度观察，该关联关系使用势函数进行表示：
  不同于‘有向图’中 $e_i$ 的有向性，无向图中 $x_{i \to start},x_{i \to end}$ 没有顺序性，只是借用上述符号而已。
  $\mathcal P(e_i) = \psi(x_{i \to start},x_{i \to end})$
变量/特征的条件概率：将结点分成如下两个子集 $x_{\mathcal A},x_{\mathcal B}$ ，结点集合间的条件概率分布表示如下：
概率的乘法运算~
$\mathcal P(x_{\mathcal A} \mid x_{\mathcal B}) \quad x_{\mathcal A} \cup x_{\mathcal B} = \mathcal X$
在给定概率图的条件下，边本身的含义即确定了的结点/特征之间的关联关系。因此基于边的条件概率，实际上是 给定关联关系的条件下，关联关系对应结点的后验概率。即：
$\mathcal P(\mathcal X \mid \mathcal E)$
根据任务需要，可能并不需要完整结点集合 $\mathcal X$ 的概率结果，而只关心部分结点的后验概率结果。如：
$\mathcal P(x_{\mathcal B} \mid \mathcal E) = \sum_{x_{\mathcal A}} \mathcal P(\mathcal X \mid \mathcal E)$
基于变量/特征的最大后验概率推断：
根据条件概率公式：
$\mathcal P(x_{\mathcal B} \mid x_{\mathcal A}) = \frac{\mathcal P(x_{\mathcal A} ,x_{\mathcal B})}{\mathcal P(x_{\mathcal A})}$
在求解关于 $x_{\mathcal B}$ 的最优解 $\hat {x_{\mathcal B}}$ 时，由于分母 $\mathcal P(x_{\mathcal A})$ 与 $x_{\mathcal B}$ 无关，有：
$\hat {x_{\mathcal B}} = \mathop{\arg\max}\limits_{x_{\mathcal B}} \mathcal P(x_{\mathcal B} \mid x_{\mathcal A}) \propto \mathop{\arg\max}\limits_{x_{\mathcal B}} \mathcal P(x_{\mathcal A},x_{\mathcal B})$
基于边的最大后验概率推断，最终得到给定结点之间的关联关系(边)，从而找到表示优秀性能的结点组成的序列。因此有：
$\hat {\mathcal X} = \mathop{\arg\max}\limits_{\mathcal X} \mathcal P(\mathcal X \mid \mathcal E)$
同理，局部最优序列也可进行如下表示：
$\hat {x_{\mathcal A}} = \mathop{\arg\max}\limits_{x_{\mathcal A}} \mathcal P(x_{\mathcal A} \mid \mathcal E)$

回顾：维特比算法

在介绍隐马尔可夫模型的解码问题中介绍了维特比算法(Viterbi Algorithm)。解码问题的本质即给定观测序列 $\mathcal O = \{o_1,\cdots,o_T\}$ ，求解对应状态序列的后验概率 $\mathcal P(\mathcal I \mid \mathcal O,\lambda)$ 。
$\lambda$ 表示隐马尔可夫模型的参数变量 $\to \pi,\mathcal A,\mathcal B$

但使用的方法并非直接求解 $\mathcal P(\mathcal I \mid \mathcal O,\lambda)$ ，而是通过找出 $\mathcal P(\mathcal I,\mathcal O \mid \lambda)$ 的最优解在相邻时刻间的关联关系：
其中 $\mathcal I_t$ 表示状态序列 $\{i_1,\cdots,i_t\}$ ,其他符号 $\mathcal I_{t+1},\mathcal O_t,\mathcal O_{t+1}$ 同理。
$\delta_t = \mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t \mid \mathcal O_t,\lambda) \propto \mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t,\mathcal O_t \mid \lambda) \\ \delta_{t+1} = \mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1} \mid \mathcal O_{t+1},\lambda) \propto \mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1},\mathcal O_{t+1} \mid \lambda) \\ \delta_t \to \delta_{t+1}$
从初始时刻开始，将迭代过程的中间步骤记录下来，从而找出一条最优状态序列 $\hat {\mathcal I_T}$ 。由于最优序列的子集同样是最优的，因此任意两个时刻之间的状态序列均可以通过记录查找的方式获取，从而减少运算时间(动态规划问题)。
这明显是两步操作;
1. 本质上是描述 $\mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t \mid \mathcal O_t,\lambda)$ 和 $\mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1} \mid \mathcal O_{t+1},\lambda)$ 之间的关联关系；
2. 通过‘最大后验概率推断’将步骤1的操作转化为 $\mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t,\mathcal O_t \mid \lambda)$ 和 $\mathop{\max}\limits_{\mathcal I_{t}} \mathcal P(\mathcal I_{t+1},\mathcal O_{t+1} \mid \lambda)$ 之间的关联关系。

最大乘积算法

回顾：信念传播

信念传播的算法思想中，结点间的消息传递方式只是其中一部分，在 消息传递的过程中，将结点之间的消息记录下来并进行存储。一旦需要计算其他结点的边缘概率分布时，可以直接通过消息查找的方式进行计算，从而节省大量运算时间。
由于‘概率图结构’是给定不变的，因此无论从哪个结点作为根结点进行迭代，任意存在关联关系的‘结点对’ $x_j,x_k$ 之间消息传递的结果 $m_{j \to k}(x_k)$ 都不会发生变化。
$x_j,x_k$ 之间的 消息传递结果 $m_{j \to k}(x_k)$ 表示如下：
${mj→k(xk)=∑xjψjk(xj,xk)⋅∏l∈n(i),l≠kml→j(xj)P(xi)∝∏k∈n(i)mk→i(xi)$

对于联合概率分布的误区

联合概率分布并非某一具体数值，而是在变量取不同结果过程中，联合概率分布也会发生相应变化：

例如存在一枚质地不均匀的硬币，其正面朝上的概率 $\mathcal P(up) = 0.3$ ，反面朝上的概率 $\mathcal P(down)=0.7$ ，投掷两次该硬币，第一次变量结果记作 $x_1$ ，第二次变量结果记作 $x_2$ ，针对四种情况：(正,正),(正,反),(反,正),(反,反) 对应的概率结果表示如下：

	正	反
正	$0.09$	$0.21$
反	$0.21$	$0.49$

那么对应联合概率结果存在 $3$ 种情况： $0.09, 0.21, 0.49$

由于设定数据集合 $\mathcal X$ 中的各特征是离散型随机变量，因此 各特征内存在对应取值，并且每个取值对应相应概率结果。从而对应的联合概率分布结果也会存在多种情况。
这里并不局限于‘离散型随机变量’，连续型随机变量同样也会存在多种情况。

最大乘积算法(Max-Product Algorithm)示例

最大乘积算法既可以求解某结点变量的边缘概率分布，也可以求解多个结点变量的联合概率分布。

与信念传播算法之间不同的是，它求解的均是最大概率分布。而具体的迭代方式依然使用信念传播方法。

已知一个马尔可夫随机场表示如下：
马尔可夫随机场-示例
求解目标包含两个阶段：

所有结点的最大联合概率分布；
最优结点变量的边缘概率分布；

具体传播过程如上述蓝色箭头所示，逐步推导迭代过程：

首先观察结点变量 $i_8,i_9$ ，它们均只和 $i_2$ 相关联，因此结点变量 $i_9$ 基于自身随机变量的取值，向结点变量 $i_2$ 传递的最大消息 $m_{9 \to 2}(i_2)$ 表示如下：
需要注意的问题： $m_{9 \to 2}(i_2)$ 中的变量只包含 $i_2$ ，因为 $i_9$ 已经选择了‘使 $\psi_{92}(i_9,i_2)$ 达到最大所对应的取值。下面同理。
$m_{9 \to 2}(i_2) = \mathop{\max}\limits_{i_9} \psi_{92}(i_9,i_2)$
同理，结点变量 $i_8$ 向结点变量 $i_2$ 传递的最大消息 $m_{8 \to 2}(i_2)$ 表示如下：
$m_{8 \to 2}(i_2) = \mathop{\max}\limits_{i_8} \psi_{82}(i_8,i_2)$
至此， $i_8,i_9$ 两个变量结点的路径全部处理完毕。 $i_2,i_8,i_9$ 三个变量结点的最大联合概率分布 $\mathop{\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9)$ 表示如下：
这里将 $i_2,i_8,i_9$ 看成一个独立的子图，后续同理。
$\mathop{\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9) = \mathop{\max}\limits_{i_2} m_{9 \to 2}(i_2) \cdot m_{8 \to 2}(i_2)$
此时变量结点 $i_2,i_8,i_9$ 的最优取值 $i_2^*,i_8^*,i_9^*$ 也可以被表示出来：
后面省略了~
$i_2^*,i_8^*,i_9^* = \mathop{\arg\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9)$
继续观察结点变量 $i_6,i_7$ ，它们均只和 $i_1$ 相关联，与 $i_8,i_9$ 同理， $m_{7 \to 1}(i_1),m_{6 \to 1}(i_1)$ 以及最大联合概率分布 $\mathop{\max}\limits_{i_1,i_6,i_7} \mathcal P(i_1,i_6,i_7)$ 分别表示如下：
$m_{7 \to 1} (i_{1}) m_{6 \to 1} (i_{1}) i_{1}, i_{6}, i_{7} max P (i_{1}, i_{6}, i_{7}) = i_{7} max ψ_{71} (i_{7}, i_{1}) = i_{6} max ψ_{61} (i_{6}, i_{1}) = i_{1} max m_{7 \to 1} (i_{1}) \cdot m_{6 \to 1} (i_{1})$
继续观察 $i_1,i_2,i_3$ 部分， $i_1,i_2$ 变量结点向 $i_3$ 传递的最大消息 $m_{1 \to 3}(i_3),m_{2 \to 3}(i_3)$ 分别表示如下：
相比于子集合 ${i_2,i_8,i_9\},\{i_1,i_6,i_7\}$ ,随着迭代的加深，子集合扩张了~
$m_{1 \to 3}(i_3) = \mathop{\max}\limits_{i_1} \psi_{13}(i_1,i_3) \cdot m_{7 \to 1}(i_1) \cdot m_{6 \to 1}(i_1)\\ m_{2 \to 3}(i_3) = \mathop{\max}\limits_{i_2} \psi_{23}(i_2,i_3) \cdot m_{9 \to 2}(i_2) \cdot m_{8 \to 2}(i_2)$
因此，对应最大联合概率分布 $\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)$ 对应表示如下：
$i_{1}, i_{2}, i_{3}, i_{6}, i_{7}, i_{8}, i_{9} max P (i_{1}, i_{2}, i_{3}, i_{6}, i_{7}, i_{8}, i_{9}) = i_{3} max m_{1 \to 3} (i_{3}) \cdot m_{2 \to 3} (i_{3})$
最终剩余结点变量 $i_4$ ，该点只与 $i_3$ 相关联，因此 $m_{3 \to 4}(i_4)$ 可表示为：
$m_{3 \to 4}(i_4) = \mathop{\max}\limits_{i_3} \psi_{34}(i_3,i_4) \cdot m_{1 \to 3}(i_3) \cdot m_{2 \to 3}(i_3)$
对应最大联合概率分布 $\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)$ 对应表示如下：
$\mathop{\max}\limits_{i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9) = \mathop{\max}\limits_{i_4} m_{3 \to 4}(i_4)$

至此，整个概率图全部遍历结束，对上述结果进行整理，该概率图的最大联合概率分布 表示如下：
$i_{1}, i_{2}, i_{3}, i_{4}, i_{6}, i_{7}, i_{8}, i_{9} max P (i_{1}, i_{2}, i_{3}, i_{4}, i_{6}, i_{7}, i_{8}, i_{9}) = i_{4} max m_{3 \to 4} (i_{4}) = i_{4} max i_{3} max ψ_{34} (i_{3}, i_{4}) \cdot m_{1 \to 3} (i_{3}) \cdot m_{2 \to 3} (i_{3}) = i_{4} max i_{3} max ψ_{34} (i_{3}, i_{4}) \cdot (i_{1} max ψ_{13} (i_{1}, i_{3}) \cdot m_{7 \to 1} (i_{1}) \cdot m_{6 \to 1} (i_{1})) \cdot (i_{2} max ψ_{23} (i_{2}, i_{3}) \cdot m_{9 \to 2} (i_{2}) \cdot m_{8 \to 2} (i_{2})) = i_{4} max i_{3} max ψ_{34} (i_{3}, i_{4}) \cdot [i_{1} max ψ_{13} (i_{1}, i_{3}) \cdot (i_{7} max ψ_{71} (i_{7}, i_{1})) \cdot (i_{6} max ψ_{61} (i_{6}, i_{1}))] \cdot [i_{2} max ψ_{23} (i_{2}, i_{3}) \cdot (i_{9} max ψ_{92} (i_{9}, i_{2})) \cdot (i_{8} max ψ_{82} (i_{8}, i_{2}))]$

由于知道了各阶段的联合概率分布，边缘概率分布的计算变得非常简单。以 $i_4$ 结点为例。现在已知联合概率分布 $\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)$ 和概率分布 $\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)$ ， $i_4$ 的边缘概率分布直接做除法即可：
$\mathcal P(i_4^*) = \frac{\mathop{\max}\limits_{i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)}{\mathop{\max}\limits_{i_1,i_2,i_3,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)}$

下一节将介绍针对环结构概率图的处理方法——因子图。

相关阅读:
Kafka的存储机制和可靠性
群友讨论：Pandas与MySQL求解经销商会话时间相关的问题
【C++】运算符重载 ⑨ ( 等号 = 运算符重载 | 调用默认浅拷贝构造函数的情况分析 | 等号 = 运算符重载与拷贝构造函数各自使用场景 | 等号 = 操作符重载步骤 )
SpringCloud 微服务应用篇 | （4）Feign远程调用
PLG SaaS 产品 Figma 商业模式拆解
Python人工智能需要学什么
C：warning: null argument where non-null required (argument 2) [-Wnonnull]
【红包雨压测环境】
国庆假期买哪款耳机好？国庆假期必备蓝牙耳机推荐
【Pingtunnel工具教程】利用ICMP隧道技术进行ICMP封装穿透防火墙

原文地址：https://blog.csdn.net/qq_34758157/article/details/127550303