机器学习笔记之高斯分布(四)关于高斯分布的推断问题

机器学习笔记之高斯分布——基于联合概率分布求解条件概率分布

引言

引言

本节将介绍高斯分布相关的推断问题。

回顾

推断任务介绍

在概率图模型——推断任务介绍中提到推断的本质就是求解变量的概率。已知随机变量集合 $\mathcal X$ 的变量表示如下：
$\mathcal X = (x_1,x_2,\cdots,x_p)^T$

给定联合概率分布 $\mathcal P(\mathcal X)$ 的条件下，求解某一维度 $x_i(i=1,2,\cdots,p)$ 的边缘概率分布 $\mathcal P(x_i)$ ：
$P (x_{i}) = x_{1}, \dots, x_{i - 1} \sum x_{i + 1}, \dots, x_{p} \sum P (X) = x_{1}, \dots, x_{i - 1} \sum x_{i + 1}, \dots, x_{p} \sum P (x_{1}, \dots, x_{p})$
假设 $\mathcal X$ 可分为两个子集 $\mathcal X_{\mathcal A},\mathcal X_{\mathcal B}$ ，并且子集之间满足如下关系：
${X_{A} \cap X_{B} = ϕ X_{A} \cup X_{B} = X$
给定联合概率分布 $\mathcal P(\mathcal X)$ 的条件下，求解集合间的条件概率分布：
$\text{Given } \mathcal P(\mathcal X) \Rightarrow \mathcal P(\mathcal X_{\mathcal A} \mid \mathcal X_{\mathcal B})$
最大后验概率推断(MAP Inference)，给定联合概率分布，求解某变量的边际概率分布。常用于解码(Decoding)任务中。
这里不过多赘述，具体详见隐马尔可夫模型——解码问题

概率分布与概率模型

在该系列第一篇文章极大似然估计与最大后验概率估计中，就已经介绍了概率分布和概率模型之间可以看作相同的事物。已知样本集合 $\mathcal X$ ：

概率分布 $\mathcal P(\mathcal X)$ 表示样本集合 $\mathcal X$ 取值的概率规律；
概率模型表示在概率分布 $\mathcal P(\mathcal X)$ 下，通过模型参数采样出若干样本，这些样本组成样本集合 $\mathcal X$ 。

从采样的角度观察，概率模型中的样本数量是无穷大的，是采不完的；从模型估计的角度观察，除非概率模型极为简单，否则极难得到概率模型的精确解，只能通过有限的样本对概率模型进行估计。

高斯分布(Gaussian Distribution)，它既是概率分布，也是概率模型。本节将对高斯分布概率模型的条件概率分布、边缘概率分布进行推断。
在概率图模型中，特别是动态模型中，包含关于高斯分布的条件概率推断过程。如卡尔曼滤波(线性高斯模型),以及未来要介绍的[高斯网络]这里挖一个坑，后续来补~

高斯分布推断任务

场景构建

样本集合 $\mathcal X$ 是包含 $p$ 维随机变量的随机变量集合，并且 $\mathcal X$ 服从 $p$ 维高斯分布：

X \sim N (μ, Σ) = 1 ( 2 π ) p 2 | Σ | 1 2 exp [- 1 2 (x - μ) T Σ - 1 (x - μ)] X \in R p, Random Variable

X \sim N (μ, Σ) = \frac{1}{( 2 π ) ^{\frac{p}{2}} ∣ Σ ∣ ^{\frac{1}{2}}} exp [- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)] X \in R^{p}, Random Variable

其中随机变量集合

\mathcal X

，均值

\mu

，协方差矩阵

\Sigma

向量形式表示如下：

\mathcal X = (x1x2⋮xp)_{p \times 1}\quad \mu = (μ1μ2⋮μp)_{p \times 1} \quad \Sigma = (σ11,σ12,⋯,σ1pσ21,σ22,⋯,σ2p⋮σp1,σp2,⋯,σpp)_{p \times p}

推导任务描述

任务描述：已知一个多维高斯分布，求解它的边缘概率分布和条件概率分布：
给定了概率分布，意味着给定了‘概率模型’。因而这个多维高斯分布中的‘均值’ $\mu$ ,协方差 $\Sigma$ 全部是已知项。
这里将随机变量集合 $\mathcal X$ 分成两组：
这里只是将随机变量集合分成两组，并不一定是有序的。
$\mathcal X = (XaXb)$

\quad \mathcal X_a \in \mathbb R^m;\mathcal X_b \in \mathbb R^n \quad

X = (X_{a} X_{b}) X_{a} \in R^{m}; X_{b} \in R^{n} {X_{a} \cap X_{b} = ϕ X_{a} \cup X_{b} = X

同理，

\mu,\Sigma

同样对其进行划分：
需要注意的点，

\Sigma_{aa},\Sigma_{ab},\Sigma_{ba},\Sigma_{bb}

中，只有

\Sigma_{aa},\Sigma_{bb}

分别表示

\mathcal X_a,\mathcal X_b

的协方差矩阵，

\Sigma_{ab},\Sigma_{ba}

表示

\mathcal X_a,\mathcal X_b

之间的相关性信息，并且

\Sigma_{ab}^T = \Sigma_{ba}

.

\mu= (μaμb) \quad \Sigma = (Σaa,ΣabΣba,Σbb) = [Conv(Xa,Xa),Conv(Xa,Xb)Conv(Xb,Xa),Conv(Xb,Xb)] = [D(Xa),Conv(Xa,Xb)Conv(Xb,Xa),D(Xb)]

上述全部是已知项。可以将概率分布 $\mathcal P(\mathcal X)$ 看作关于 $\mathcal X_a,\mathcal X_b$ 的联合概率分布：
$\mathcal P(\mathcal X) = \mathcal P(\mathcal X_a,\mathcal X_b)$
需要求解的量：
$\mathcal P(\mathcal X_a),\mathcal P(\mathcal X_b),\mathcal P(\mathcal X_b \mid \mathcal X_a)$

推导过程

边缘概率分布推断

关于随机变量子集合 $\mathcal X_a$ 的边缘概率分布 $\mathcal P(\mathcal X_a)$ ，可以将其定义成如下形式：
关于‘边缘概率分布’ $\mathcal P(\mathcal X_b)$ 的推导同理，这里仅介绍 $\mathcal P(\mathcal X_a)$ .
基于上述定理，可以假设‘系数矩阵’ $\mathcal A = (\mathcal I_m,0)_{1 \times p}$ '偏置矩阵' $\mathcal B = 0$ 省略。

X_{a} = 1 \cdot X_{a} + 0 \cdot X_{b} = (I_{m}, 0) (X_{a} X_{b}) I_{m} = m 项 (1, 1, \dots, 1) = A X

至此，基于上述定理，

\mathcal X_a

的期望结果

\mathbb E_{\mathcal P(\mathcal X_a)}[\mathcal X_a]

可表示为：

E_{P (X_{a})} [X_{a}] = (I_{m}, 0) (μ_{a} μ_{b}) = μ_{a}

同理，

\mathcal X_a

的协方差矩阵结果

\text{Var}(\mathcal X_a)

可表示为：

Var (X_{a}) = A Σ A^{T} = (I_{m}, 0) (Σ_{a a}, Σ_{a b} Σ_{b a}, Σ_{b b}) (I_{m} 0) = (Σ_{a a}, Σ_{a b}) (I_{m} 0) = Σ_{a a}

因此，随机变量子集

\mathcal X_a

的边缘概率分布服从高斯分布，其高斯分布表示为：

\mathcal X_a \sim \mathcal N(\mu_a,\Sigma_{aa})

条件概率分布推断

针对条件概率 $\mathcal P(\mathcal X_b \mid \mathcal X_a)$ ，引入一个量：
构造量本身可能无意义，针对推导的技巧性创造出的量。
与 $\mathcal X_b,\mathcal X_a$ 相关联的量 $\mathcal X_{b.a}$ 表示如下：

注意： $\mathcal X_{b.a}$ 本质上是 $\mathcal X_a,\mathcal X_b$ 之间的线性关系，并且下标是有序的。
单纯从格式角度观察， $\mathcal X_{b.a}$ 是一个 $\times 1$ 向量，和 $\mathcal X_b$ 大小相同。
构造 $\mathcal X_{b.a}$ 的动机在于构造 $\mathcal X_b$ 和 $\mathcal X_a$ 之间的关联关系。
$X_{b . a} = X_{b} - Σ_{b a} Σ_{a a}^{- 1} X_{a} = (- Σ_{b a} Σ_{a a}^{- 1}, I_{p}) (X_{a} X_{b})$

如果将 $\mathcal X_{b.a}$ 看作一组随机变量，结合上述定理，我们尝试求解该随机变量的边缘概率分布：

这组随机变量的期望 $\mathbb E_{\mathcal P(\mathcal X_{b.a})}[\mathcal X_{b.a}]$ 表示如下：
使用 $\mu_{b.a}$ 这个符号表示期望结果。
可以将 $\Sigma_{ba} \Sigma_{aa}^{-1},\mathcal I_p)$ 看作系数矩阵 $\mathcal A$ .
$E_{P (X_{b . a})} [X_{b . a}] = A μ = (- Σ_{b a} Σ_{a a}^{- 1}, I_{p}) (μ_{a} μ_{b}) = μ_{b} - Σ_{b a} Σ_{a a}^{- 1} μ_{a} = μ_{b . a}$
$\mathcal X_{b.a}$ 的协方差矩阵 $\text{Var}(\mathcal X_{b.a})$ 表示如下：
根据矩阵逆的定义， $\Sigma_{aa}^{-1}\Sigma_{aa} = \mathcal E$ ,因而 $\Sigma_{ba} - \Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa} = 0$
同理，使用 $\Sigma_{bb.a}$ 来表示协方差结果。
$Var (X_{b . a}) = A Σ A^{T} = (- Σ_{b a} Σ_{a a}^{- 1}, I_{p}) (Σ_{a a}, Σ_{a b} Σ_{b a}, Σ_{b b}) (- Σ_{b a} Σ_{a a}^{- 1} I_{p}) = (Σ_{b a} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a a}, Σ_{b b} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a b}) (- Σ_{b a} Σ_{a a}^{- 1} I_{p}) = (0, Σ_{b b} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a b}) (- Σ_{b a} Σ_{a a}^{- 1} I_{p}) = Σ_{b b} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a b} = Σ_{b b . a}$

至此，我们得到了 $\mathcal X_{b.a},\mu_{b.a},\Sigma_{bb.a}$ ，从而可以确定这个引入的变量，它的概率分布：

X_{b . a} \sim N (μ_{b . a}, Σ_{b b . a}) {μ_{b . a} = μ_{b} - Σ_{b a} Σ_{a a}^{- 1} μ_{a} Σ_{b b . a} = Σ_{b b} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a b}

回过头来重新观察 $\mathcal X_b$ 和 $\mathcal X_a$ 之间的关系：
$\mathcal X_b = \mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a$
由于上面描述的高斯分布的相关定理可知， $\mathcal X_b$ 是 $\mathcal X_{b.a}$ 和 $\Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a$ 的线性计算结果，因此它必然也是高斯分布。
因此，关于 $\mathcal X_b \mid \mathcal X_a$ 的期望 $\mathbb E_[\mathcal X_b \mid \mathcal X_a]$ ,方差 $\text{Var}[\mathcal X_b \mid \mathcal X_a]$ 分别表示如下：
将 $\mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a$ 看作 $\mathcal A\mathcal X + \mathcal B$ 的形式，有:

⎩ ⎪ ⎨ ⎪ ⎧ X \to X_{b . a} A \to E B \to Σ_{b a} Σ_{a a}^{- 1} X_{a}

为什么要这么分：因为

\mathcal X_{b.a}

中包含

\mathcal X_b

变量，而

\mathcal X_b,\mathcal X_a

由于相互独立，因此视作常数：

{Xa∩Xb=ϕXa∪Xb=X \\

其中

\mathcal E

表示单位向量。该部分可参考这篇文章【PRML】高斯分布

⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ E [X_{b} ∣ X_{a}] = E \cdot μ_{b . a} + Σ_{b a} Σ_{a a}^{- 1} X_{a} = μ_{b . a} + Σ_{b a} Σ_{a a}^{- 1} X_{a} = μ_{b} + Σ_{b a} Σ_{a a}^{- 1} (X_{a} - μ_{a}) Var [X_{b} ∣ X_{a}] = E \cdot Σ_{b b . a} \cdot E^{T} = Σ_{b b . a} = Σ_{b b} - Σ_{b a} Σ_{a a}^{- 1} Σ_{a b}

最终，条件概率分布

\mathcal P(\mathcal X_b \mid \mathcal X_a)

表示如下：

\mathcal P(\mathcal X_b \mid\mathcal X_a) \sim \mathcal N(\mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a , \quad \Sigma_{bb.a})

关于 $\mathcal P(\mathcal X_b \mid \mathcal X_a)$ 的个人解释

最大的疑问点在于给出了 $\mathcal X_b$ 的表示：
$\mathcal X_b = \mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a$
为什么等式右边关于 $\mathcal X_b$ 的表示，它的期望、方差组成的概率分布是条件概率分布？
$\mathcal X_b \mid \mathcal X_a \overset{\text{?}}{\to} \mathcal N(\mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a , \quad \Sigma_{bb.a})$

针对该场景，条件概率 $\mathcal P(\mathcal X_b \mid \mathcal X_a)$ 的本质是给定 $\mathcal X_a$ 的条件下， $\mathcal X_b$ 的概率分布。思路可以理解成 由已知随机变量集合 $\mathcal X_a$ 参与的，关于 $\mathcal X_b$ 的概率分布。
基于这种思路，创建了中间量 $\mathcal X_{b.a}$ 。这个中间量本身没有实际意义，但是这个中间量的出现，使得对 $\mathcal X_b$ 的均值、方差的表示有了 $\mathcal X_a$ 的参与，并且所有参数都是已知的。

相关阅读:
ElasticSearch全文搜索引擎
高项_第十三章项目合同管理
SpringBoot项目--电脑商城【删除收货地址】
最小均方算法（lsm）-python代码实现
JDK8的特性
goland 旧版本使用1.19环境
算法日记-02完全背包和多重背包问题总结
温故知新《设计模式》创建型模式
Histograms of Oriented Gradients for Human Detection
osg学习-1《绘制基本单元》

原文地址：https://blog.csdn.net/qq_34758157/article/details/127920851