机器学习笔记之高斯混合模型(三)EM算法求解高斯混合模型(E步操作)

机器学习笔记之高斯混合模型——EM算法求解高斯混合模型【E步操作】

引言

引言

上一节介绍了尝试使用极大似然估计求解高斯混合模型的模型参数，但无法求出解析解。本节将介绍使用EM算法求解高斯混合模型的模型参数。

回顾：高斯混合模型及模型参数

令 $\mathcal X$ 表示观测数据(Observed Data)，共包含 $N$ 个样本点，并假设 任意样本之间独立同分布：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots, x^{(N)}\} \\ x^{(i)} \overset{\text{i.i.d.}}{\sim}x^{(j)} \quad (x^{(i)},x^{(j)} \in \mathcal X;i\neq j)$
任意一个样本点 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。从样本数量角度观察，隐变量集合 $\mathcal Z$ 表示如下：
$\mathcal Z = \{z^{(1)},z^{(2)},\cdots,z^{(N)}\}$
称 $(\mathcal X,\mathcal Z)$ 为完整数据(Complete Data)，样本数量角度表示如下：
$(\mathcal X,\mathcal Z) = \{(x^{(1)},z^{(1)}),\cdots,(x^{(N)},z^{(N)})\}$
从变量分布的角度观察，隐变量 $\mathcal Z$ 是基于 $\mathcal K$ 个参数的离散分布，各参数及对应概率分布表示如下：

$\mathcal Z$	$z_1$	$z_2$	$\cdots$	$z_{\mathcal K}$
$P(\mathcal Z)$	$p_1$	$p_2$	$\cdots$	$p_{\mathcal K}$

并满足：
$\sum_{k=1}^{\mathcal K} p_k = 1$
任意 $z_j \in \mathcal Z$ 均唯一对应一个高斯分布。换句话说，给定隐变量标签 $z_j \in \mathcal Z$ 的条件下， $z_j$ 标签下的样本数据 $x$ 服从高斯分布。因而共包含 $\mathcal K$ 个高斯分布：

$\mathcal Z$	$z_1$	$z_2$	$\cdots$	$z_{\mathcal K}$
$P(\mathcal X \mid \mathcal Z)$	$\mathcal N(\mu_1,\Sigma_1)$	$\mathcal N(\mu_2,\Sigma_2)$	$\cdots$	$\mathcal N(\mu_{\mathcal K},\Sigma_{\mathcal K})$

数学符号表达即：
$P(\mathcal X\mid \mathcal Z = z_k) \sim \mathcal N(\mathcal X \mid \mu_{k},\Sigma_k) \quad (k=1,2,\cdots,\mathcal K)$
因此，高斯混合模型的概率模型 $P(\mathcal X)$ 表达如下：

P (X) = Z \sum P (X ∣ Z = z_{k}) P (Z = z_{k}) = k = 1 \sum K N (X ∣ μ_{k}, Σ_{k}) \cdot p_{k}

概率模型的模型参数

\theta

表示如下：

\theta = \{p_1,\cdots,p_{\mathcal K},\mu_1,\cdots,\mu_{\mathcal K},\Sigma_1,\cdots,\Sigma_{\mathcal K}\}

回顾：狭义EM算法

EM算法是求解概率模型 $P(\mathcal X \mid \theta)$ 模型参数的一种方法，它的底层是极大似然估计，它的迭代求解公式具体表示如下：

θ^{(t + 1)} = θ ar g max \int_{Z} lo g P (X, Z ∣ θ) \cdot P (Z ∣ X, θ^{(t)}) d Z = θ ar g max E_{Z ∣ X, θ} [lo g P (X, Z ∣ θ)]

基于上述公式，可以将EM算法分成两个步骤：

E步(Expection-Step)：令 $E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$ 表示为 关于 $\theta,\theta^{(t)}$ 的函数。则有：
$\mathcal L(\theta,\theta^{(t)}) = \int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta) \cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
M步(Maximization-Step)：基于E步操作，选择合适的 $\theta$ ，使得 $\mathcal L(\theta,\theta^{(t)})$ 最大。
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta,\theta^{(t)})$

E步、M步交替进行，最终迭代收敛至最优解(至少局部最优)。

使用EM算法求解高斯混合模型参数

场景整理

EM算法中符号表示与高斯混合模型中的符号表示 对比如下：
等号左端是‘EM算法’的符号表示；等号右端是‘高斯混合模型’的符号表示。

P (X, Z ∣ θ) P (Z ∣ X, θ) = P (Z = z_{j}) \cdot P (X ∣ Z = z_{j}) = p_{Z} \cdot N (X ∣ μ_{Z}, Σ_{Z}) = i = 1 \prod N p_{z^{(i)}} \cdot N (x^{(i)} ∣ μ_{z^{(i)}}, Σ_{z^{(i)}}) = \frac{P ( X , Z )}{P ( X )} = \frac{\prod _{i = 1}^{N} p _{z^{(i)}} \cdot N ( x ^{(i)} ∣ μ _{z^{(i)}} , Σ _{z^{(i)}} )}{\sum _{k = 1}^{K} p _{k} \cdot N ( X ∣ μ _{k} , Σ _{k} )}

求解过程(E步过程)

已知 $\mathcal L(\theta,\theta^{(t)})$ 函数表示如下：
$\mathcal L(\theta,\theta^{(t)}) = \int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta) \cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
将 $P(\mathcal X,\mathcal Z \mid \theta),P(\mathcal Z \mid \mathcal X,\theta)$ 代入上式：
由于‘高斯混合模型’隐变量 $\mathcal Z$ 是离散型参数，因而将 $\int$ 符号改为 $\sum$ 符号，并且各样本之间服从’独立同分布‘。
$\sum_{\mathcal Z} \log \prod_{i=1}^N P(x^{(i)},z^{(i)} \mid \theta) \cdot \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$

将 $\log \prod_{i=1}^N P(x^{(i)},z^{(i)} \mid \theta)$ 进行变换，并将 $\sum_{\mathcal Z}$ 展开：
$\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \sum_{i=1}^N \log P(x^{(i)},z^{(i)} \mid \theta) \cdot \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$
关于 $\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}}$ 这个形式 需要解释一下，我们之前并没有讨论过 $z^{(i)}(i=1,2,\cdots,N)$ 到底是什么，只是知道每个样本下 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。

$z^{(i)}$ 不是一个具体数值，而是一个向量。它表示样本 $x^{(i)}$ “可能属于的高斯分布”所组成的向量。示例：
依然假设样本空间内一共包含 $\mathcal K$ 个高斯分布，样本 $x^{(1)}$ 对应的隐变量 $z^{(1)}$ 表示如下：
$z^{(1)} = (z_1^{(1)},z_2^{(1)},\cdots,z_{\mathcal K}^{(1)})^{T}$
其中， $z_{k}^{(1)}(k=1,2,\cdots,\mathcal K)$ 表示 样本 $x^{(1)}$ 可能属于编号为 $k$ 的高斯分布。注意， $z_k^{(1)}$ 只表示高斯分布的编号(或者称为离散参数)，它不表示概率。 它是如何表示概率的？结果如下表：

$z^{(1)}$	$z_1^{(1)}$	$z_2^{(1)}$	$\cdots$	$z_{\mathcal K}^{(1)}$
$P(z^{(1)})$	$p_1^{(1)}$	$p_2^{(1)}$	$\cdots$	$p_{\mathcal K}^{(1)}$

$p_j^{(i)}$ 是样本点 $x^{(i)}$ 指向编号为 $z_j$ 的隐变量对应的高斯分布 $\mathcal N(\mu_j,\Sigma_j)$ 的概率，而 $P(z^{(i)})$ 表示 $\mathcal K$ 个概率结果组成的向量。用数学语言表达即：
$p_j^{(i)} = P(x^{(i)} \to z_j) = P(x^{(i)} \in \mathcal N(\mu_j,\Sigma_j)) \\ P(z^{(i)}) = (p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)}) ^{T}$
同样存在这种现象的不仅仅是概率，还有均值、协方差：

$\mu_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $\mathcal K$ 个高斯分布上的期望结果组成的向量：
$\mu_{z^{(i)}} = (\mu_{1}^{(i)}，\mu_2^{(i)}, \cdots, \mu_{\mathcal K}^{(i)})^{T}$
$\Sigma_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $\mathcal K$ 个高斯分布上的协方差结果组成的向量：
$\Sigma_{z^{(i)}} = (\Sigma_{1}^{(i)}，\Sigma_2^{(i)}, \cdots, \Sigma_{\mathcal K}^{(i)})^{T}$

由于 $\sum_{i=1}^N \log P(x^{(i)},z^{(i)}\mid \theta)$ 中隐变量的形式是 $z^{(i)}(i=1,2,\cdots,N)$ 而不是 $z_j(j=1,2,\cdots,\mathcal K)$ 因此对 $\sum_{\mathcal Z}$ 的展开不是 $\sum_{z_1,z_2,\cdots,z_{\mathcal K}}$ 而是 $\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}}$ 。

继续将 $\sum_{i=1}^N \log P(x^{(i)},z^{(i)}\mid \theta)$ 展开，展开结果如下：

$L (θ, θ^{(t)}) = z^{(1)}, z^{(2)}, \dots, z^{(N)} \sum [lo g P (x^{(1)}, z^{(1)} ∣ θ) + P (x^{(2)}, z^{(2)} ∣ θ) + \dots + P (x^{(N)}, z^{(N)} ∣ θ)] \cdot i = 1 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)}) = ⎣ ⎡ z^{(1)}, z^{(2)}, \dots, z^{(N)} \sum lo g P (x^{(1)}, z^{(1)} ∣ θ) i = 1 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)}) ⎦ ⎤ + \dots + ⎣ ⎡ z^{(1)}, z^{(2)}, \dots, z^{(N)} \sum lo g P (x^{(N)}, z^{(N)} ∣ θ) i = 1 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)}) ⎦ ⎤$
基于上述结果，仅观察第一项：
$\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(1)},z^{(1)} \mid \theta) \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$
观察 $\prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$ ，发现只有第一项 $P(z^{(1)} \mid x^{(1)},\theta^{(t)})$ 和 $z^{(1)}$ 相关；因此，将上式表示为如下形式：

$z^{(1)}, z^{(2)}, \dots, z^{(N)} \sum lo g P (x^{(1)}, z^{(1)} ∣ θ) \cdot P (z^{(1)} ∣ x^{(1)}, θ^{(t)}) i = 2 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)}) = z^{(1)} \sum [lo g P (x^{(1)}, z^{(1)} ∣ θ) \cdot P (z^{(1)} ∣ x^{(1)}, θ^{(t)})] \cdot z^{(2)}, \dots, z^{(N)} \sum [i = 2 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)})]$
观察 $\sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right]$ ，它可以展开成如下形式：
$z^{(2)}, \dots, z^{(N)} \sum [i = 2 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)})] = z^{(2), \dots, z^{(N)}} \sum [P (z^{(2)} ∣ x^{(2)}, θ^{(t)}) \times \dots \times P (z^{(N)} ∣ x^{(N)}, θ^{(t)})] = z^{(2)} \sum P (z^{(2)} ∣ x^{(2)}, θ^{(t)}) \times \dots \times z^{(N)} \sum P (z^{(N)} ∣ x^{(N)}, θ^{(t)})$
上述结果的任意一项 $\sum_{z^{(j)}} P(z^{(j)} \mid x^{(j)},\theta^{(t)}) (j=2,\cdots,N)$ 都是 基于离散型变量的概率密度积分，因此则有：
$\sum_{z^{(2)}} P(z^{(2)} \mid x^{(2)},\theta^{(t)}) = \cdots =\sum_{z^{(N)}} P(z^{(N)} \mid x^{(N)},\theta^{(t)}) = 1 \\ \sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] = 1 \times \cdots \times 1 = 1$
因此，被观察的第一项 结果如下：
$z^{(1)}, z^{(2)}, \dots, z^{(N)} \sum lo g P (x^{(1)}, z^{(1)} ∣ θ) i = 1 \prod N P (z^{(i)} ∣ x^{(i)}, θ^{(t)}) = z^{(1)} \sum [lo g P (x^{(1)}, z^{(1)} ∣ θ) \cdot P (z^{(1)} ∣ x^{(1)}, θ^{(t)})] \cdot 1 = z^{(1)} \sum [lo g P (x^{(1)}, z^{(1)} ∣ θ) \cdot P (z^{(1)} ∣ x^{(1)}, θ^{(t)})]$
基于上一步骤， $\mathcal L(\theta,\theta^{(t)})$ 可表示为如下形式：

$L (θ, θ^{(t)}) = z^{(1)} \sum [lo g P (x^{(1)}, z^{(1)} ∣ θ) \cdot P (z^{(1)} ∣ x^{(1)}, θ^{(t)})] + \dots + z^{(N)} \sum [lo g P (x^{(N)}, z^{(N)} ∣ θ) \cdot P (z^{(N)} ∣ x^{(N)}, θ^{(t)})] = i = 1 \sum N z^{(i)} \sum [lo g P (x^{(i)}, z^{(i)} ∣ θ) \cdot P (z^{(i)} ∣ x^{(i)}, θ^{(t)})]$
将场景整理中的对应结果代入，有：
关于 $P(z^{(i)}),\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ 详见上面黄色字解释。
$\mathcal L(\theta,\theta^{(t)}) = \sum_{i=1}^N \sum_{z^{(i)}} \log P(z^{(i)}) \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}}) \cdot \frac{P(z^{(i)}) \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k \cdot \mathcal N(x^{(i)} \mid \mu_k,\Sigma_k)}$

至此，使用EM算法对高斯混合模型求解过程的E步求解完毕，下一节将介绍M步的求解过程。

p.s.这节视频中符号表示的信息确实很复杂，要多想~

相关参考：
机器学习-高斯混合模型(3) -EM求解-E-step

相关阅读:
pytest之parametrize()实现数据驱动
Revit中视图范围的应用及快速批量视图命名
Android Mvp案例解析
《软件质量保证与测试》第 6 章——系统测试重点部分总结
Echarts 柱状图逐条加载动画
【day9】每日编程：求路径总数&另类加法
HazelEngine 学习记录 - 2D Renderer
基于开源模型搭建实时人脸识别系统（五）：人脸跟踪
Python 关于整除以及负数取余遇到的问题
lspci源码

原文地址：https://blog.csdn.net/qq_34758157/article/details/126787601