机器学习笔记之隐马尔可夫模型(六)总结部分

机器学习笔记之隐马尔可夫模型——问题总结

引言

引言

上一节介绍了基于隐马尔可夫模型的解码问题，本节将针对之前介绍的关于隐马尔可夫模型的相关性质并延伸至动态模型的高度 进行总结。

回顾：隐马尔可夫模型

变量性质

隐马尔可夫模型(Hidden Mixture Model,HMM)的概率图格式表示如下：
请添加图片描述
从图中观察:

图像上方的节点被称为状态变量 $i_t(t = 1,2,\cdots,T)$ ；图像下方的节点被称为观测变量 $o_t(t = 1,2,\cdots,T)$ ；
状态变量基于时间过程的有序排列而产生的序列称为状态序列；同理，观测变量基于时间过程的有序排列而产生的序列称为观测序列。记状态序列为 $\mathcal I$ ，观测序列为 $\mathcal O$ ，具体表示如下：
$\mathcal I = (i_1,i_2,\cdots,i_T) \\ \mathcal O = (o_1,o_2,\cdots,o_T)$

基于隐马尔可夫模型的性质，状态序列 $\mathcal I$ 中的任一状态变量的取值结果均是离散的。即：
$\forall i_t \in \mathcal I, \quad i_t \in \mathcal Q = \{q_1,q_2,\cdots,q_{\mathcal K}\}$
其中： $q_1,\cdots,q_{\mathcal K}$ 称为状态值， $\mathcal Q$ 称为状态值集合。同理，观测序列 $\mathcal O$ 中的任一观测变量的取值结果均是离散的。即：
$\forall o_t \in \mathcal O,\quad o_t \in \mathcal V = \{v_1,v_2,\cdots,v_{\mathcal M}\}$
其中： $v_1,v_2,\cdots,v_{\mathcal M}$ 成为观测值， $\mathcal V$ 称为观测值集合。

模型参数

隐马尔可夫模型的参数记作 $\lambda$ ，模型参数共包含三个部分：

初始概率分布 $\pi$ ：
即 状态变量 $i_1$ 选择任意状态值 $q_i (i \in {1,2,\cdots,\mathcal K})$ 的概率结果组成的向量形式。即：
$\pi = [P(i1=q1)P(i1=q2)⋮P(i1=qK)]_{\mathcal K \times 1} \quad \sum_{k=1}^{\mathcal K} P(i_1 = q_{k}) = 1$
状态转移矩阵 $\mathcal A$ ：矩阵 $\mathcal A$ 中的任意一个元素 $a_{ij}$ 表示当前时刻的状态变量 $i_t =q_i$ 的条件下，下一时刻的状态变量 $i_{t+1} = q_j$ 的后验概率结果。即：
$\mathcal A = [a_{ij}]_{\mathcal K \times \mathcal K},\quad a_{ij} = P(i_{t+1}=q_j \mid i_t = q_i)$
发射矩阵 $\mathcal B$ ：矩阵中的任意一个元素 $b_{j}(k)$ 表示当前时刻的状态变量 $i_t =q_i$ 的条件下，对应时刻的观测变量 $o_t = v_k$ 的后验概率结果。即：
$\mathcal B = [b_j(k)]_{\mathcal K \times \mathcal M}, \quad b_j(k) = P(o_t = v_k \mid i_t = q_j)$

假设支撑

齐次马尔可夫假设：任一时刻状态变量 $i_t$ 的后验概率，只和其前一时刻的状态变量 $i_{t-1}$ 相关，与其他变量无关。即：
$P(i_t \mid i_{t-1},\cdots,i_{1},o_{t-1},\cdots,o_1) = P(i_t \mid i_{t-1})$
观测独立性假设：任一时刻观测变量 $o_t$ 的后验概率，只和对应时刻的状态变量 $i_t$ 相关，与其他变量无关。
$P(o_t \mid i_t,i_{t-1},\cdots,i_1,o_{t-1},\cdots,o_1) = P(o_t \mid i_t)$

问题处理

隐马尔可夫模型主要处理三类问题：

求值问题/评估问题(Evaluation)：其具体表述是：隐马尔可夫模型给定模型参数 $\lambda = (\pi,\mathcal A,\mathcal B)$ ，求解 观测序列 $\mathcal O = (o_1,o_2,\cdots,o_T)$ 的后验概率结果 $P(\mathcal O \mid \lambda)$ 。
常用的求解方式分为两种：
- 前向算法(Forward ALgorithm)：通过求解 $P(o_1,\cdots,o_t,i_t=q_i \mid \lambda)$ 和 $P(o_1,\cdots,o_{t+1},i_{t+1} = q_j \mid \lambda)$ 之间的关联关系，迭代求解 $P(\mathcal O \mid \lambda)$ ：
  从 $\alpha_1(i)$ 开始，经过 $T$ 次迭代，即可求出对应结果 $\alpha_T(i)$ ;
  $\alpha_t(i) = P(o_1,\cdots,o_t,i_t=q_i \mid \lambda) \\ \alpha_{t+1}(j) = P(o_1,\cdots,o_{t+1},i_{t+1} = q_j \mid \lambda) \\ \alpha_{t+1}(j) = \sum_{i=1}^{\mathcal K} b_j(o_{t+1})\cdot a_{ij}\cdot \alpha_t(i) \\ P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K}\alpha_T(i)$
- 后向算法(Backward Algorithm)：通过求解条件概率 $P(o_{t+1},\cdots,o_{T} \mid i_t = q_i,\lambda)$ 和条件概率 $P(o_t,\cdots,o_T \mid i_{t-1} = q_j,\lambda)$ 之间的关联关系，迭代求解 $P(\mathcal O \mid \lambda)$ ：
  与前向算法相反，从 $\beta_T(i)$ 开始，经过 $T$ 次迭代，即可求出对应结果 $\beta_1(j)$ ;
  $\beta_t(i) = P(o_{t+1},\cdots,o_{T} \mid i_t = q_i,\lambda) \\ \beta_{t-1}(j) = P(o_t,\cdots,o_T \mid i_{t-1} = q_j,\lambda) \\ \beta_{t-1}(j) = \sum_{i=1}^{\mathcal K} b_i(o_t) \cdot \beta_t(i) \cdot a_{ij} \\ P(\mathcal O \mid \lambda) = \sum_{i=1}^{\mathcal K} [b_i(o_t) \cdot \beta_1(i) \cdot \pi]$
学习问题/参数求解问题(Learning)
针对模型参数 $\lambda$ 的求解问题，采用狭义EM算法迭代求解：
$\lambda^{(t+1)} = \mathop{\arg\max}\limits_{\lambda} \sum_{\mathcal I} \left[\log P(\mathcal O \mid \lambda) \cdot P(\mathcal I \mid \mathcal O,\lambda^{(t)}) \right]$
以求解 $\lambda^{(t+1)}$ 中的 $\pi^{(t+1)}$ 为例，已知上时刻迭代的求解结果 $\lambda^{(t)}$ ， $\pi^{(t+1)}$ 使用 $\lambda^{(t)}$ 表示如下：
$\pi^{(t+1)} = (\pi_1^{(t+1)},\pi_2^{(t+1)},\cdots,\pi_{\mathcal K}^{(t+1)}) \\ \pi_k^{(t+1)} = \hat P(i_1 = q_k) = \frac{P(\mathcal O,i_1 = q_k \mid \lambda^{(t)})}{P(\mathcal O \mid \lambda^{(t)})} \quad (k=1,2,\cdots,\mathcal K)$
解码问题(Decoding)
解码问题被看做给定长度为 $T$ 的观测序列 $\mathcal O = (o_1,o_2,\cdots,o_T)$ ，目标是求解与观测序列 $\mathcal O$ 对应状态序列 $\mathcal I = (i_1,i_2,\cdots,i_T)$ 的后验概率 $P(\mathcal I \mid \mathcal O)$ ：
常用方法是维特比算法(Viterbi)，其核心是分别给定 $t$ 时刻状态变量 $i_t = q_i$ 与 $t + 1$ 时刻状态变量 $i_{t+1}=q_j$ ，并分别求解从初始状态 $i_1$ 开始，到 $i_{t},i_{t+1}$ 的最大联合概率，并找出他们之间的关系：
$\delta_t(k) = \mathop{\max}\limits_{i_1,i_2,\cdots,i_{t-1}} P(o_1,\cdots,o_t,i_1,\cdots,i_{t-1},i_t = q_i \mid \lambda) \\ \delta_{t+1}(j) = \mathop{\max}\limits_{i_1,i_2,\cdots,i_{t}} P(o_1,\cdots,o_{t+1},i_1,\cdots,i_t,i_{t+1} = q_j \mid \lambda) \\ \delta_{t+1}(j) = \max_{a \leq k\leq\mathcal K} [\delta_t(k) \cdot a_{kj} \cdot b_i(o_{t+1})]$
基于上述迭代关系，从初始状态 $i_1$ 开始，查找转移过程中的最优状态变量：
$\phi_{t+1}(j) = \mathop{\arg\max}\limits_{1 \leq k \leq \mathcal K}[\delta_t(k) \cdot a_{kj} \cdot b_i(o_{t+1})]$
从而得到基于状态值的下标序列：
$(\phi_1,\phi_2,\cdots,\phi_T)$

总结与延伸

HMM(动态模型)与GMM(静态模型)的联系

首先，隐马尔可夫模型是一种包含隐变量的概率图模型，并且它是一种动态模型(Dynamic Model)：

本身是一个混合模型(Mixture Model)；
信息随着时间的变化而变化；
这里的时间也可以是‘抽象的时间概念，如序列’。

如果从混合模型的角度观察，在之前介绍的高斯混合模型(Gaussian Mixture Model,GMM)，它的概率图模型如下所示：
高斯混合模型-概率图
其中隐变量 $\mathcal Z$ 服从离散分布：

$\mathcal Z$	$z_1$	$z_2$	$\cdots$	$z_{\mathcal K}$
$P(\mathcal Z)$	$p_1$	$p_2$	$\cdots$	$p_{\mathcal K}$

$\sum_{i=1}^{\mathcal K} p_i = 1$
如果使用隐马尔可夫模型中的表达方式，状态变量 $\mathcal Z$ 确定 的条件下，观测变量 $\mathcal X$ 的概率分布，即 发射分布(与离散的发射矩阵相对应) 服从高斯分布。

我们在介绍隐马尔可夫模型时，仅强调了状态变量 $i_t \in \mathcal I$ 的取值范围是离散的，对观测变量 $o_t \in \mathcal O$ 的发射概率 $P(o_t \mid i_t)$ 没有这种约束；
在公式推导过程中，为了简化运算，将观测变量也设置为离散的形式。

因此，如果设隐马尔可夫模型中 $P(o_t \mid i_t) \sim \mathcal N(\mu_t,\Sigma_t)$ ，那么，该隐马尔可夫模型就可以看成 高斯混合模型 + 时间(序列)信息 的形式。其转移过程如下图所示：
请添加图片描述

关于动态模型的问题延伸

基于上述隐马尔可夫模型的问题处理，我们将其延伸到动态模型(状态空间模型)(State-Space Mdoel)的高度，对 动态模型的问题处理进行概括：
补概率图的坑~

学习问题/模型参数求解问题(Learning)：通过可观测的样本数据 $\mathcal X$ ，学习概率模型 $P(\mathcal X \mid \theta)$ 中的参数 $\theta$ 。
推断问题(Inference)：通过可观测的样本数据 $\mathcal X$ ，推断概率模型中隐变量的后验概率 $P(\mathcal Z \mid \mathcal X,\theta)$ 。

基于状态空间模型：
$\mathcal X = (x_1,x_2,\cdots,x_T) \\ \mathcal Z = (z_1,z_2,\cdots,z_T)$
并且各观测数据之间不是独立同分布关系：
$x_i \overset{\text{i.i.d}}{\nLeftrightarrow} x_j \quad i,j \in \{1,2,\cdots,T\};i \neq j$
针对状态空间模型，它的推断问题根据不同的求解要求进行详细划分：
- 解码问题(Decoding)：
  给定 长度为 $t$ 的观测序列 $\mathcal X = (x_1,\cdots,x_t)$ ，求解 对应时刻隐状态序列 $\mathcal Z = (z_1,\cdots,z_t)$ 的后验概率分布：
  $P(z_1,\cdots,z_t \mid x_1,\cdots,x_t,\theta)$
- 似然问题(Probability of Evidence)
  如果模型只是一个普通的混合模型，而不是状态空间模型，如高斯混合模型，它的似然 $P(\mathcal X \mid \theta)$ 可以直接使用如下方式求解：
  
  $P (X ∣ θ) = \int_{Z} P (X, Z ∣ θ) d Z = \int_{Z} P (Z ∣ X, θ) \cdot P (X ∣ Z, θ) d Z$
  而状态空间模型需要求解观测序列 $\mathcal X$ 中各时刻观测变量 $x_t$ 联合概率分布的似然结果：
  $P(\mathcal X \mid \theta) = P(x_1,x_2,\cdots,x_T \mid \theta)$
- 滤波问题(Filtering)
  给定从初始时刻到 $t$ 时刻的观测序列 $(x_1,x_2,\cdots,x_t)$ ，求解 $t$ 时刻状态变量的后验概率分布：
  对 $t$ 时刻状态变量 $P(z_t)$ 进行估计时，可能并不是仅和'对应观测变量' $x_t$ 相关，而是和之前时刻的观测变量 $(x_1,\cdots,x_t)$ 可能存在关系。
  因此，滤波(Filtering)的含义是指 $P(z_t \mid x_1,\cdots,x_t)$ 可能比 $P(z_t \mid x_t)$ 更加准确，过滤掉更多的噪声。
  $P(z_t \mid x_1,\cdots,x_t)$
  因此，滤波问题常适用于在线学习方法中。
  
  在线学习(On-line Learning)：一次输入一条数据，该数据训练完毕后直接更新权重。因此，它不需要一开始就提供完整的训练数据集；
  在线学习的缺点也很明显，由于一条一条训练，模型参数更新过程可能随着加入的错误数据导致更新方向偏移；
  
  离线学习(Off-line Learning)：一开始提供一个数据集，划分成 $m$ 个batch块，至少训练一个batch块再更新数据。
  这种方式可以弥补在线学习的缺陷，一次性投入若干样本进行训练，不会因为个别错误数据使模型参数偏移的过于严重。
- 平滑问题(Smoothing)
  给定一个完整的观测序列 $(x_1,x_2,\cdots,x_T)$ ，求解 $t$ 时刻的状态变量 $z_t$ 。即：
  $P(z_t \mid x_1,x_2,\cdots,x_T)$
  这种操作通常对应离线学习。已经有了完整数据，对某一部分参数进行复盘。
- 预测问题(Prediction)
  在 隐马尔可夫模型——解码问题提到过预测问题。
  
  情况1：给定初始时刻到 $t$ 时刻的观测序列 $(x_1,x_2,\cdots,x_t)$ ，求解 后续时刻的状态变量：
  $P(z_{t+1} \mid x_1,\cdots,x_t)$
  并不一定只求解后续一个时刻的状态变量，预测后续若干时刻的联合概率分布 也属于预测问题的求解范围。
  以后续两个状态变量 $z_{t+1},z_{t+2}$ 为例。
  $P(z_{t+1},z_{t+2} \mid x_1,x_2,\cdots,x_t)$
  情况2：给定初始时刻到 $t$ 时刻的观测序列 $(x_1,x_2,\cdots,x_t)$ ，求解后续时刻的观测变量：
  同上，以后续两个观测变量 $x_{t+1},x_{t+2}$ 为例。
  $P(x_{t+1},x_{t+2} \mid x_1,x_2,\cdots,x_t)$

相关阅读:
渗透测试之BurpSuite工具的使用介绍（三）
【PyTorch攻略（1/7）】张量基本语法
基础练习查找整数
OTA自动化测试解决方案
利用pwd构造rce
【AI可视化---03】掌握图形辉煌：探索Matplotlib对Python AI的影响！细说人工智能中的数据可视化，这三篇就够了！附：误差棒、置信区间、详解图像仿射变换...
VR全景技术在城市园区发展中有哪些应用与帮助
gitlab安装脚本
历史本质是就是新生事物替代旧事物的过程，要保持对新生事物的关注，伺机拥抱
一文解读 NFT 零版税

原文地址：https://blog.csdn.net/qq_34758157/article/details/126845419