【李航统计学习笔记】第十章：隐马尔科夫模型

【李航统计学习笔记】第十章：隐马尔科夫模型
10.1 隐马尔科夫模型

蓝色圆圈代表状态变量，绿色圆圈代表观测变量。

模型参数及符号：

状态集合： $Q=\left\{q_{1, \ldots} q_{N}\right\}$

预测集合： $V=\left\{v_{1, \ldots} v_{M}\right\}$

状态序列： $I=\left\{i_{1, \ldots} i_{T}\right\} \quad i_{\mathrm{t}} \subset Q$

预测序列 : $O=\left\{0_{1, \ldots} o_{T}\right\} \quad o_{\mathrm{t}} \subset$ $V$

然后我们可以构建状态转移矩阵

$\begin{array}{cccccc} i_{2} = q_{1} & i_{2} = q_{2} & \dots & i_{2} = q_{N} \\ i_{1} = q_{1} & a_{11} & a_{12} & \dots & a_{1 N} & a_{1 j} = P (i_{2} = q_{j} ∣ i_{1} = q_{1}) \\ i_{1} = q_{2} & a_{21} & a_{22} & \dots & a_{2 N} & a_{2 j} = P (i_{2} = q_{j} ∣ i_{1} = q_{2}) \\ \dots & \dots & \dots & \dots & \dots & \dots \\ i_{1} = q_{N} & a_{N 1} & a_{N 2} & \dots & a_{N N} & a_{N j} = P (i_{2} = q_{j} ∣ i_{1} = q_{N}) \end{array}$
i1=q1i1=q2…i1=qNi2=q1a11a21…aN1i2=q2a12a22…aN2……………i2=qNa1 Na2 N…aNNa1j=P(i2=qj∣i1=q1)a2j=P(i2=qj∣i1=q2)…aNj=P(i2=qj∣i1=qN)
也就是
$\begin{array}{cccc} a_{11} & a_{12} & \dots & a_{1 N} \\ a_{21} & a_{22} & \dots & a_{2 N} \\ \dots & \dots & \dots & \dots \\ a_{N 1} & a_{N 2} & \dots & a_{N N} \end{array}$
然后我们构建观测概率矩阵
$\begin{array}{ccccc} o_{1} = v_{1} & o_{1} = v_{2} & \dots & o_{1} = v_{M} \\ i_{1} = q_{1} & b_{1} (1) & b_{1} (2) & \dots & b_{1} (M) \\ i_{1} = q_{2} & b_{2} (1) & b_{2} (2) & \dots & b_{2} (M) \\ \dots & \dots & \dots & \dots & \dots \\ i_{1} = q_{N} & b_{N} (1) & b_{N} (2) & \dots & b_{N} (M) \end{array}$

$B_{N \times M}=\left[$
$\begin{array}{cccc} b_{11} & b_{12} & \dots & b_{1 M} \\ b_{21} & b_{22} & \dots & b_{2 M} \\ \dots & \dots & \dots & \dots \\ b_{N 1} & b_{N 2} & \dots & b_{N M} \end{array}$
\right] BN×M=⎣ ⎡b11b21⋯bN1b12b22⋯bN2⋯⋯⋯⋯b1Mb2M⋯bNM⎦ ⎤

我们设定初始状态概率向量为
$\pi=\left[$
$\begin{matrix} π_{1} \\ π_{2} \\ \dots \\ π_{N} \end{matrix}$
\right]=\left[
$\begin{matrix} P (i_{1} = q_{1}) \\ P (i_{2} = q_{2}) \\ \dots \\ P (i_{N} = q_{N}) \end{matrix}$
\right] π=⎣ ⎡π1π2⋯πN⎦ ⎤=⎣ ⎡P(i1=q1)P(i2=q2)⋯P(iN=qN)⎦ ⎤
模型参数量是
$\lambda=\left(\pi_{N \times 1}, A_{N \times N}, B_{N \times M}\right)$
总参数量= $\times(N \times N) \times(N \times M)$ 。而自由参数量= $\times(N \times N-N) \times(N \times M-N)$ 。

在隐马尔科夫模型中，我们有两个基本假设:
- 齐次马尔科夫性: $P\left(i_{t} \mid i_{t-1}, \cdots, i_{1}\right)=P\left(i_{t} \mid i_{t-1}\right)$
- 观测独立假设
同时我们有三个基本问题：
- 概率计算问题： $\mid \lambda)$
- 学习问题: $\arg \max P(O \mid \lambda)$
- 预测问题: $\arg \max P(I \mid O)$
概率算法，计算 $\mid \lambda)$

1.直接计算法

$\mid \lambda)=\sum_{I} P(O \mid I, \lambda) P(I \mid \lambda)=\sum_{i_{1}, i_{2}, \ldots, i_T} \pi_{i_{1}} b_{i_{1}\left(o_{1}\right)} a_{i_{1} i_{2}} b_{i_{2}\left(o_{2}\right)} \ldots a_{i_{T-1} i_{T}} b_{i_{T}\left(o_{T}\right)}$

但是这个式子的计算复杂度为 $O(TN^T)$

2.前向计算法

计算复杂度为: $O\left(T N^{2}\right)$

引入新变量: $\alpha_{t}(i)=P\left(o_{1}, \cdots, o_{t}, i_{t}=q_{i} \mid \lambda\right), i=1, \ldots, N$

输入：隐马尔科夫模型 $\lambda$ , 观测序列 $O$

输出：观测序列概率 $\mid \lambda)$

步骤：

(1) 初值: $\alpha_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), i=1,2, \ldots, N$
(2) 递推: 对于 $\mathrm{t}=1,2, \ldots, T-1$

$\begin{matrix} α_{t + 1} (i) = P (O_{1}, \dots, o_{t}, o_{t + 1}, i_{t + 1} = q_{i}) \\ = \sum_{j = 1}^{N} P (O_{1}, \dots, O_{t}, i_{t} = q_{i}) P (O_{t + 1} ∣ i_{t + 1} = q_{i}) P (i_{t + 1} = q_{i} ∣ i_{t} = q_{j}) \\ = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1}) \end{matrix}$
αt+1(i)=P(O1,…,ot,ot+1,it+1=qi)=j=1∑NP(O1,…,Ot,it=qi)P(Ot+1∣it+1=qi)P(it+1=qi∣it=qj)=[j=1∑Nαt(j)aji]bi(ot+1)
(3) 终止：
$\mid \lambda)=\mathrm{P}\left(O_{1}, \ldots, O_{T} \mid \lambda\right)=\sum_{i=1}^{N} \mathrm{P}\left(O_{1}, \ldots, O_{T}, i_{T}=q_{i} \mid \lambda\right)=\sum_{i=1}^{N} \alpha_{T}(i)$
我们引入新变量 $\beta_{t}(i)=\mathrm{P}\left(o_{t+1}, \cdots, o_{T} \mid i_{t}=q_{i}, \lambda\right), i=1, \ldots, N$

3.后向算法

计算复杂度 $O(TN^2)$

输入：隐马尔科夫模型 $\lambda$ ,观测序列 $O$

输出：观测序列概率 $P(O\mid \lambda)$

步骤：

(1) 初值： $\beta_{T}(i)=1, i=1,2, \ldots, N$
(2) 递推：对t $\ldots, 1$
$\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j), i=1,2, \ldots, N$
(3) 终止： $P(O\mid\lambda)=\sum_{i=1}^{N} \pi_{i} b_{i}\left(o_{i}\right) \beta_{1}(i)$

学习算法，估计参数 $\lambda=(\pi, A, B)$

1.监督学习方法

已知训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 $\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \ldots,\left(O_{S}, I_{S}\right)\right\}$

(1)转移概率 $a_{i j}$ 的估计
$\hat{a}_{i j}=\frac{A_{i j}}{\sum_{j=1}^{N} A_{i j}}, i=1,2, \ldots, N ; j=1,2, \ldots, N$
(2)转移概率 $a_{i j}$ 的估计
$\widehat{b}_{j}(k)=\frac{B_{j k}}{\sum_{k=1}^{M} B_{j k}} j=1,2, \ldots, N ; k=1,2, \ldots, M$
(3)初始状态概率 $\pi_{i}$ 的估计 $\hat{\pi}_{i}$ 为 $S$ 个样本中初始状态为 $q_{i}$ 的频率

2.Buam-Welch算法（EM算法）

输入：观测数据 $O=\left(O_{1}, O_{2}, \ldots, O_{T}\right)$

输出：隐马尔科夫模型参数

(1)初始化：对 $n = 0$ ,选取 $a_{i j}^{(0)}, b_{j}(k)^{(0)}, \pi_{i}^{(0)}$ ,得到模型 $\lambda^{(0)}=\left(A^{(0)}, B^{(0)}, \pi^{(0)}\right)$

(2)递推：对 $\cdots,$
$a_{i j}^{(n+1)}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)}\\ b_{j}(k)^{(n+1)}=\frac{\sum_{t=1, o t=v k}^{T} \gamma_{t}(j)}{\sum_{t=1}^{T} \gamma_{t}(j)}\\ \pi_{i}^{(n+1)}=\gamma_{1}(i)$
其中

$\begin{matrix} γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{P (O ∣ λ)} = \frac{α_{t} (i) β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) β_{t} (j)} \\ ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)} \end{matrix}$
γt(i)=P(O∣λ)αt(i)βt(i)=∑j=1Nαt(j)βt(j)αt(i)βt(i)ξt(i,j)=∑i=1N∑j=1Nαt(i)aijbj(ot+1)βt+1(j)αt(i)aijbj(ot+1)βt+1(j)

预测算法

目标：计算 $\arg \max P(I \mid O, \lambda)$

1.近似算法

$i_{t}^{*}=\arg \max _{1 \leq i \leq N}\left[\gamma_{t}(i)\right], t=1,2, \ldots, T$

其中 $\gamma_{t}(\mathrm{i})=P\left(i_{t}=q_{i} \mid O, \lambda\right)$

当 $t = 1$ :
$i_{1}^{*}=\arg \max _{1 \leq j \leq N} P\left(i_{1}=q_{j} \mid O, \lambda\right)=\arg \max _{1 \leq j \leq N}\left\{$
$\begin{matrix} P (i_{1} = q_{j} ∣ O, λ) \\ \dots \\ (i_{1} = q_{N} ∣ O, λ) \end{matrix}$
\right\} i1∗=arg1≤j≤NmaxP(i1=qj∣O,λ)=arg1≤j≤Nmax⎩ ⎨ ⎧P(i1=qj∣O,λ)⋯(i1=qN∣O,λ)⎭ ⎬ ⎫
当 $t = 2$
$i_{2}^{*}=\arg \max _{1 \leq j \leq N} P\left(i_{2}=q_{j} \mid O, \lambda\right)$
最后
$I^{*}=\left(i_{1}^{*}, \ldots, i_{T}^{*}\right)$

2.维特比算法

输入：模型 $\lambda=(A, B, \pi)$ 观测数据 $O=(o_1, o_2, \cdots, o_T)$

输出：最优路径 $I^{*}=\left(i_{1}^{*}, \ldots, i_{T}^{*}\right)$

(1)初始化

$\begin{matrix} δ_{t} (i) = π_{i} b_{i} (o_{1}), i = 1, 2, \dots, N \\ Ψ_{t} (i) = 0, i = 1, 2, \dots, N \end{matrix}$
δt(i)=πibi(o1),i=1,2,…,NΨt(i)=0,i=1,2,…,N
(2)递推

对于 $\cdots, T$

$\begin{matrix} δ_{t} (i) = max_{1 \leq j \leq N} [δ_{t - 1} (j) a_{i j}] b_{i} (o_{t}), i = 1, 2, \dots, N \\ Ψ_{t} (i) = \arg max_{1 \leq j \leq N} [δ_{t - 1} (j) a_{i j}], i = 1, 2, \dots, N \end{matrix}$
δt(i)=1≤j≤Nmax[δt−1(j)aij]bi(ot),i=1,2,…,NΨt(i)=arg1≤j≤Nmax[δt−1(j)aij],i=1,2,…,N
(3)终止
$\begin{matrix} P^{*} = max_{1 \leq i \leq N} δ_{T} (i) \\ i_{T}^{*} = \arg max_{1 \leq i \leq N} [δ_{T} (i)] \end{matrix}$
(4)最优路径回溯

对于 $\cdots, 1$
$i_{t}^{*}=\Psi_{t+1}\left(i_{t+1}^{*}\right)$
求得最优路径 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \ldots, i_{T}^{*}\right)$

总结
1. 状态链、观测链、状态转移矩阵、观测转移矩阵
2. 隐马尔可夫两种假设：齐次马尔可夫性、观测独立假设
3. 概率计算法：直接计算法、前向算法、后向算法
4. 学习算法：EM算法
5. 预测算法：近似算法、维特比算法
10.2 维特比算法(Viterbi Algorithm)

如上一节所示，我们在初始化中引入了新变量
$\delta_{t}(j)=\max _{i_{1}, i_{2}, \ldots, i_{t-1}} \mathrm{P}\left(i_{1}, \ldots, i_{t-1}, i_{t}=j, o_{t}, \ldots, o_{1} \mid \lambda\right), i=1,2, \ldots, N$
推导：

$\begin{aligned} δ_{t + 1} (i) & = max_{i_{1}, i_{2}, \dots, i t} P (i_{1}, \dots, i_{t}, i_{t + 1} = i, O_{t + 1}, \dots, o_{1} ∣ λ) \\ = max_{1 \leq j \leq N} δ_{t} (j) P (o_{t + 1} ∣ i_{t + 1} = q_{i}) P (i_{t + 1} = q_{i} ∣ i_{t} = q_{j}) \\ = max_{1 \leq j \leq N} [δ_{t} (j) a_{j i}] b_{i} (o_{t + 1}) i = 1, 2, \dots, N; t = 1, 2, \dots, T - 1 \end{aligned}$
δt+1(i)=i1,i2,…,itmaxP(i1,…,it,it+1=i,Ot+1,…,o1∣λ)=1≤j≤Nmaxδt(j)P(ot+1∣it+1=qi)P(it+1=qi∣it=qj)=1≤j≤Nmax[δt(j)aji]bi(ot+1)i=1,2,…,N;t=1,2,…,T−1
维特比算法本质是用动态规划来解决隐马尔科夫模型的预测问题
相关阅读:
kafka-- kafka集群环境搭建
 第七天，方法的使用，封装，继承
 地图数据设计（二）：矢量数据检查与错误处理
 第二证券：知名私募美股持仓曝光科技与消费板块成“心头好”
传统单节点网站的 Serverless 上云
 Deno加入ECMA
【如何成为学习高手】学习是有方法的，按照正确的方法练习，每个人都可以成为学霸
 MySQL系统变量之lc_time_names语言环境
 指针与引用
 SSD算法
原文地址：https://blog.csdn.net/weixin_39236489/article/details/126339364

10.1 隐马尔科夫模型

概率算法，计算 P ( O ∣ λ ) P(O \mid \lambda) P(O∣λ)

1.直接计算法

2.前向计算法

3.后向算法

学习算法，估计参数 λ = ( π , A , B ) \lambda=(\pi, A, B) λ=(π,A,B)

1.监督学习方法

2.Buam-Welch算法（EM算法）

预测算法

1.近似算法

2.维特比算法

总结

10.2 维特比算法(Viterbi Algorithm)

概率算法，计算 $\mid \lambda)$

学习算法，估计参数 $\lambda=(\pi, A, B)$