机器学习笔记之隐马尔可夫模型(四)求值问题——后向算法(Backward Algorithm)

机器学习笔记之隐马尔可夫模型——后向算法处理求值问题

引言

引言

上一节介绍了基于隐马尔可夫模型使用前向算法处理求值问题，本节将介绍另一种求值问题方法——后向算法(Backward Algorithm)。

回顾：前向算法

关于隐马尔可夫模型的基础概念、模型参数相关的数学符号表示见机器学习笔记之隐马尔可夫模型(二)背景介绍一节。

求值问题

求值问题(Evaluation)本质上是在给定隐马尔可夫模型参数 $\lambda$ 的条件下，求解观测序列 $\mathcal O = \{o_1,o_2,\cdots,o_T\}$ 发生的概率大小 $P(\mathcal O \mid \lambda)$ 。

前向算法

前向算法(Forward Algorithm)的逻辑如下图所示。
请添加图片描述
其核心思想是当前 $t$ 时刻状态变量 $i_t=q_i$ 的条件下， $i_t$ 与初始时刻到当前时刻的观测变量 $\{o_1,\cdots,o_t\}$ 的联合概率分布 $P(o_1,\cdots,o_t,i_t=q_i \mid \lambda)$ 与 $t + 1$ 时刻的联合概率分布 $P(o_1,\cdots,o_t,o_{t+1},i_{t+1}=q_j \mid \lambda)$ 之间的关联关系。

基于齐次马尔可夫假设与观测独立性假设，记：
$\alpha_{t}(i) = P(o_1,\cdots,o_t,i_t=q_i \mid \lambda) \\ \alpha_{t+1}(j) = P(o_1,\cdots,o_t,o_{t+1},i_{t+1}=q_j \mid \lambda)$
$\alpha_{t}(i)$ 与 $\alpha_{t+1}(j)$ 之间关联关系表示如下：
$α_{t + 1} (j) = i = 1 \sum K [P (o_{t + 1} ∣ i_{t + 1} = q_{j}) \cdot P (i_{t + 1} = q_{j} ∣ i_{t} = q_{i}, λ) \cdot α_{t} (i)]$
至此，从 $\alpha_0(i)$ 开始，执行 $T$ 次迭代，得到最终结果 $\alpha_{T}(i)$ 。最终对 $P(\mathcal O \mid \lambda)$ 进行求解：
$P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K} \alpha_{T}(i)$

因此， $P(\mathcal O \mid \lambda)$ 的时间复杂度为 $O(\mathcal K^2 \times \mathcal T)$ 。

后向算法

整体逻辑

后向算法的逻辑如下图所示(蓝色部分)：
请添加图片描述
后向算法的核心思想共包含两项：

给定隐马尔可夫模型的参数 $\lambda$ 条件下， $t + 1$ 时刻到最终时刻的观测变量 $\{o_{t+1},\cdots,o_{T}\}$ 关于 $t$ 时刻状态变量 $i_t = q_i$ 的条件概率分布 $P(o_{t+1},\cdots,o_{T} \mid i_t = q_i,\lambda)$ 与 $t$ 时刻的条件概率分布 $P(o_t,\cdots,o_T \mid i_{t-1},\lambda)$ 之间的关联关系。数学符号表达如下：
$\beta_t(i) =P(o_{t+1},\cdots,o_{T} \mid i_t = q_i,\lambda) \\ \beta_{t-1}(i) = P(o_{t},\cdots,o_{T} \mid i_{t-1} = q_j,\lambda) \\ \beta_t(i) \overset{\text{?}}{\leftrightarrow}\beta_{t-1}(i)$
该算法的迭代方式是 从后向前迭代。即初始状态是 $\beta_T(i)$ ：
$\beta_{T}(i) = P(i_T = q_i,\lambda)$
通过 $T$ 次迭代，得到迭代的尽头 $\beta_{1}(i)$ ：
$\beta_1(i) = P(o_2,\cdots,o_T \mid i_1 = q_i,\lambda)$
只要找出 $\beta_1(i)$ 和 $P(\mathcal O \mid \lambda)$ 之间的关联关系，即可通过 $\beta_1(i)$ 求解 $P(\mathcal O \mid \lambda)$ ：
$\beta_1(i)\overset{\text{?}}{\leftrightarrow}P(\mathcal O \mid \lambda)$

$\beta_1(i)$ 和 $P(\mathcal O \mid \lambda)$ 之间的关联关系

观察：最终迭代求解的 $\beta_1(i)$ 和 $P(\mathcal O \mid \lambda)$ 有什么联系：

将 $P(\mathcal O \mid \lambda)$ 展开：
$P(\mathcal O \mid \lambda) = P(o_1,o_2,\cdots,o_T \mid \lambda)$
使用条件概率密度积分将状态变量 $i_1 = q_i$ 引进来：
$i_1$ 是状态变量，存在 $\mathcal K$ 种选择。
$P (O ∣ λ) = i_{1} \sum P (o_{1}, \dots, o_{T}, i_{1} = q_{i}, λ) = i = 1 \sum K P (o_{1}, \dots, o_{T}, i_{1} = q_{i}, λ) = i = 1 \sum K [P (o_{1}, \dots, o_{T} ∣ i_{1} = q_{i}, λ) \cdot P (i_{1} = q_{i}, λ)]$
观察 $P(i_1 = q_i,\lambda)$ ，它是模型参数 $\lambda$ 中的初始概率分布 $\pi$ ，因此，上式可转化如下：
$P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K} \left[P(o_1,\cdots,o_T \mid i_1 = q_i,\lambda)\cdot \pi\right]$
观察上式，想办法把 $\beta_1(i)$ 给凑出来。针对 $P(o_1,\cdots,o_T \mid i_1 = q_i,\lambda)$ ，首先使用条件概率将 $o_1$ 分离出来：
$\sum_{i=1}^{\mathcal K} \left[P(o_1 \mid o_2, \cdots,o_T,i_1 = q_i,\lambda) \cdot P(o_2, \cdots,o_T \mid i_1 = q_i,\lambda) \cdot \pi\right]$
关于括号中的第一项，使用 观测独立性假设 进行简化：
实际上，在整个推导过程中， $\lambda$ 是可加可不加的，因为在‘求值问题’中， $\lambda$ 是已知的常量。
$\sum_{i=1}^{\mathcal K} [P(o_1 \mid i_1 = q_i,\lambda) \cdot P(o_2, \cdots,o_T \mid i_1 = q_i,\lambda) \cdot \pi]$
观察括号中的第二项，它实际上就是 $\beta_1(i)$ 。而第一项使用发射矩阵 $\mathcal B$ 中的元素进行表示即： $b_i(o_1)$ 。
至此，已经找到了 $P(\mathcal O \mid \lambda)$ 和 $\beta_1(i)$ 之间的关联关系：
$P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K} \left[b_i(o_1) \cdot \pi\cdot \beta_1(i) \right]$

$\beta_t(i)$ 和 $\beta_{t-1}(j)$ 之间的关联关系

观察 $\beta_t(i)$ 和 $\beta_{t-1}(j)$ 的展开结果：
$\beta_t(i) =P(o_{t+1},\cdots,o_{T} \mid i_t = q_i,\lambda) \\ \beta_{t-1}(i) = P(o_{t},\cdots,o_{T} \mid i_{t-1} = q_j,\lambda)$

首先观察 $\beta_{t-1}(j)$ ，结合图像分析，状态变量 $i_{t-1}$ 与观测变量 $o_t,\cdots,o_T$ 之间是不关联的，一个朴素思想是：引入状态变量 $i_t$ ，将 $i_{t-1},o_t,\cdots,o_T$ 关联起来：

$β_{t - 1} (j) = i_{t} \sum P (o_{t}, \dots, o_{T}, i_{t} = q_{i} ∣ i_{t - 1} = q_{j}, λ) = i = 1 \sum K P (o_{t}, \dots, o_{T}, i_{t} = q_{i} ∣ i_{t - 1} = q_{j}, λ)$
想办法凑出 $i_t$ 和 $i_{t-1}$ 之间的条件关系。即使用条件概率将 $o_t,\cdots,o_T$ 与 $i_t = q_i$ 分离出来：
$i = 1 \sum K [P (o_{t}, \dots, o_{T} ∣ i_{t} = q_{i}, i_{t - 1} = q_{j}, λ) \cdot P (i_{t} = q_{i} ∣ i_{t - 1} = q_{j}, λ)] = i = 1 \sum K [P (o_{t}, \dots, o_{T} ∣ i_{t} = q_{i}, i_{t - 1} = q_{j}, λ) \cdot a_{ij}]$
观察括号中的第一项，从概率图阻断的角度观察，亦或从观测独立的角度观察，状态变量 $i_{t-1}$ 不可能与任意一个观测变量 $o_t,\cdots,o_T$ 存在关系。因此，第一项可表示为： $P(o_t,\cdots,o_T \mid i_t = q_i)$ 。对应结果整理如下：
$i_{t-1}$ 和后续观测变量结点均属于‘顺序结构’。由于 $i_t$ 的阻塞性， $o_1,\cdots,o_T$ 均与 $i_{t-1}$ 条件独立。传送门
$\beta_{t-1}(j) = \sum_{i=1}^{\mathcal K}[P(o_t,\cdots,o_T \mid i_t = q_i,\lambda) \cdot a_{ij}]$
基于上式，凑出观测独立性假设步骤。将 $o_t$ 提到前面，则有：
$\sum_{i=1}^{\mathcal K} [P(o_t \mid o_{t+1},\cdots,o_T,i_t = q_i,\lambda)\cdot P(o_{t+1},\cdots,o_T \mid i_t = q_i,\lambda) \cdot a_{ij}]$
根据 观测独立性假设，第一项 $P(o_t \mid o_{t+1},\cdots,o_T,i_t = q_i,\lambda) = P(o_t \mid i_t= q_i,\lambda)$ 。并且第二项就是之前定义的 $\beta_{t}(i)$ 。最终迭代结果整理如下：
$β_{t - 1} (j) = i = 1 \sum K P (o_{t} ∣ i_{t} = q_{i}, λ) \cdot β_{t} (i) \cdot a_{ij} = i = 1 \sum K b_{i} (o_{t}) \cdot β_{t} (i) \cdot a_{ij}$

至此，得到了 $\beta_{t-1}(j)$ 和 $\beta_{t}(i)$ 之间的递归关系。
观察后向算法 需要的时间复杂度：

得到 $\beta_1(i)$ 需要的时间复杂度是 $O(\mathcal K \times T)$ ；
通过公式： $P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K} \left[b_i(o_1) \cdot \pi\cdot \beta_1(i) \right]$ 需要的时间复杂度是 $O(\mathcal K)$
因此后向算法的时间复杂度和前向算法相同，均是 $O(\mathcal K^2 \times T)$ 。

下一节将介绍隐马尔可夫模型的参数 $\lambda$ 求解问题

相关参考：
机器学习-隐马尔可夫模型4-Evaluation问题-后向算法

相关阅读:
## Virtualbox连内网后，宿主机可以直接访问内网的设置
深度学习系列60: 大模型文本理解和生成概述
7-20 窗口滑动
sed & awk使用简介
Day4：Linux系统编程1-60P
策略模式和模板模式
Frida IOS 堆栈输出与IDA 对应
JS基础数据类型及判断
【机器学习】Metrics: 衡量算法性能的关键指标
【JavaScript】写程序编程基础入门

原文地址：https://blog.csdn.net/qq_34758157/article/details/126822087