机器学习笔记之高斯分布——从几何角度观察多维高斯分布

机器学习笔记之高斯分布——从几何角度观察多维高斯分布
机器学习笔记之高斯分布——从几何角度观察多维高斯分布
- 引言
- 回顾：一维高斯分布
  多维高斯分布
  总结
引言

 回顾：一维高斯分布

在使用极大似然估计计算高斯分布最优参数一节中介绍了一维高斯分布。具体表示如下：
$\sim \mathcal N(\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$

其中 $x,\mu,\sigma$ 均属于一维矩阵，即标量。

多维高斯分布

多维高斯分布与一维高斯分布的明显区别是：随机变量 $x$ ，期望 $\mu$ 以多维向量的形式出现，方差以多维矩阵的形式出现(方阵)。
随机变量定义：
数据集合 $\mathcal X$ 包含 $N$ 个样本：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$
其中， $\mathcal X$ 中 任意样本 $x^{(i)}(i \in \{1,2,\cdots,N\})$ 均属于 $p$ 维随机变量，记作 $\in \mathbb R^{p}$ ；
以样本 $x^{(i)}$ 为例，其向量表示如下：
$x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T}$
期望 $\mu$ 同样属于 $p$ 维随机变量。每一维度值表示数据集合中所有样本对应该维度值的期望结果。 $\mu$ 的向量表示如下：
$\mu = (\mu_1,\mu_2,\cdots,\mu_p)$

$\Sigma$ 表示协方差矩阵。它的定义表示如下：
$x$ 表示‘宏观意义’上的样本;任意样本。
$\Sigma = \mathbb E[(x - \mu)(x - \mu)^{T}]$
由于多维高斯分布中 $x,\mu$ 均为 $p$ 维向量。因此，将 $(x_1,x_2,\cdots,x_p),\mu = (\mu_1,\mu_2,\cdots,\mu_p)$ 带入上式：
$\Sigma = \mathbb E$
$[\begin{matrix} (x_{1} - μ_{1})^{2}, (x_{1} - μ_{1}) (x_{2} - μ_{2}), \dots, (x_{1} - μ_{1}) (x_{p} - μ_{p}) \\ (x_{2} - μ_{2}) (x_{1} - μ_{1}), (x_{2} - μ_{2})^{2}, \dots, (x_{2} - μ_{2}) (x_{p} - μ_{p}) \\ ⋮ \\ (x_{p} - μ_{p}) (x_{1} - μ_{1}), (x_{p} - μ_{p}) (x_{2} - μ_{2}), \dots, (x_{p} - μ_{p})^{2} \end{matrix}]$
=
$(\begin{matrix} σ_{11}, σ_{12}, \dots, σ_{1 p} \\ σ_{21}, σ_{22}, \dots, σ_{2 p} \\ ⋮ \\ σ_{p 1}, σ_{p 2}, \dots, σ_{p p} \end{matrix})$
_{p \times p} Σ=E⎣ ⎡(x1−μ1)2,(x1−μ1)(x2−μ2),⋯,(x1−μ1)(xp−μp)(x2−μ2)(x1−μ1),(x2−μ2)2,⋯,(x2−μ2)(xp−μp)⋮(xp−μp)(x1−μ1),(xp−μp)(x2−μ2),⋯,(xp−μp)2⎦ ⎤=⎝ ⎛σ11,σ12,⋯,σ1pσ21,σ22,⋯,σ2p⋮σp1,σp2,⋯,σpp⎠ ⎞p×p
观察上述矩阵，发现 $\sigma_{ij} = \sigma_{ji} = \mathbb E[(x_i - \mu_i)(x_j - \mu_j)]$ 。因此，协方差矩阵 $\Sigma$ 是 实对称矩阵。并且 $\sigma_{ii} = (x_i - \mu_i)^2 \geq0(i = 1,2,\cdots,p)$ 恒成立。因此 $\Sigma$ 至少是半正定矩阵。
不排除 $\sigma_{ii}=0$ 的情况发生，因此这个协方差矩阵不一定是‘正定矩阵’。但在推导过程中暂时设定为‘正定矩阵’。

多维高斯分布的概率密度函数表示如下：
从‘概率模型’角度将高斯分布表示为 $\mid \mu,\Sigma)$
$\sim \mathcal N(\mu,\Sigma) = P(x \mid \mu,\Sigma) = \frac{1}{(2\pi)^{\frac{p}{2}}\cdot|\Sigma|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu)^{T} \Sigma^{-1} (x -\mu) }$
其中， $|\Sigma|$ 表示协方差矩阵的行列式结果； $\Sigma^{-1}$ 表示协方差矩阵的逆矩阵。

观察：如果将 $x$ 看作自变量/需要求解的量， $\mu,\Sigma$ 看作多维高斯分布 $\mathcal N(\mu,\Sigma)$ 的参数，则整个概率密度函数公式中和 $x$ 有关的部分只有：
$\mu)^{T} \Sigma^{-1}(x - \mu)$
首先观察它的维度： $\mu)$ 是 $p\times 1$ 维向量， $\mu)^{T}$ 自然是 $1\times p$ 维向量；协方差矩阵的逆不改变维度： $\Sigma^{-1} \to p \times p$ ；因此， $\mu)^{T} \Sigma^{-1}(x - \mu)$ 本质上是一个一维矩阵，是个标量，是一个具体数值。

这里引进一个概念：马氏距离(Mahalanobis distance)。它描述的是两个向量(高维空间内两个数据点)之间的距离描述。马氏距离传送门
例如 $p$ 维空间的两个数据点：
$(x_1,x_2,\cdots,x_p)^{T} \\ y=(y_1,y_2,\cdots,y_p)^{T}$
它们的马氏距离表示如下：
$D_{M}(x,y) = \sqrt{(x - y)^{T}\Sigma^{-1}(x - y)}$

在这里可以将 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 视作样本点 $x$ 与样本均值向量 $\mu$ 之间的马氏距离。

如果 $\Sigma^{-1}$ 是单位矩阵，马氏距离将退化为欧式距离(Euclidean Distance)

假设协方差矩阵是正定矩阵，对协方差矩阵进行特征值分解：
如果协方差矩阵是一般情况下的‘半正定’，那么 $\Sigma$ 自然是不能求逆的， $\Sigma^{-1}$ 是不存在的。
$\Sigma = U \Lambda U^{T}$
根据特征值分解定义， $U$ 是一个正交矩阵，即：
$UU^{T} = U^{T}U = I$
其中 $I$ 表示单位向量， $U, I$ 矩阵格式均为 $p\times p$ 。将正交矩阵 $U$ 定义为 $(u_1,u_2,\cdots,u_p)$ ；其中 $u_i(i=1,2,\cdots,p)$ 看作 $\times 1$ 维向量。
$\Lambda$ 表示特征值向量，对角线上元素为 $\Sigma$ 矩阵的特征值。
根据上式则有：

$\begin{aligned} Σ & = U Λ U^{T} \\ = (u_{1}, u_{2}, \dots, u_{p}) (\begin{matrix} λ_{0}, 0, \dots, 0 \\ 0, λ_{1}, \dots, 0 \\ ⋮ \\ 0, 0, \dots, λ_{p} \end{matrix}) (\begin{matrix} u_{1}^{T} \\ u_{2}^{T} \\ ⋮ \\ u_{p}^{T} \end{matrix}) \\ = (u_{1} λ_{1}, u_{2} λ_{2}, \dots, u_{p} λ_{p}) (\begin{matrix} u_{1}^{T} \\ u_{2}^{T} \\ ⋮ \\ u_{p}^{T} \end{matrix}) \\ = u_{1} λ_{1} u_{1}^{T} + u_{2} λ_{2} u_{2}^{T} + \dots + u_{p} λ_{p} u_{p}^{T} \end{aligned}$
Σ=UΛUT=(u1,u2,⋯,up)⎝ ⎛λ0,0,⋯,00,λ1,⋯,0⋮0,0,⋯,λp⎠ ⎞⎝ ⎛u1Tu2T⋮upT⎠ ⎞=(u1λ1,u2λ2,⋯,upλp)⎝ ⎛u1Tu2T⋮upT⎠ ⎞=u1λ1u1T+u2λ2u2T+⋯+upλpupT
由于 $\lambda_1,\lambda_2,\cdots,\lambda_p$ 是特征值，是常数，因此可以提到前面， $u_iu_i^{T}$ 结果是 $\times p$ 的方阵；
$\Sigma = \sum_{i=1}^p\lambda_iu_iu_i^{T}$
基于上式，通过 $\Sigma$ 求解 $\Sigma^{-1}$ ：
正交阵的性质，正交阵的转置等于该正交阵的逆。即： $U^{T} = U^{-1}$
$\begin{aligned} Σ^{- 1} & = (U Λ U^{T})^{- 1} \\ = (U^{T})^{- 1} Λ^{- 1} U^{- 1} \\ = U Λ^{- 1} U^{T} \\ = \sum_{i = 1}^{p} \frac{1}{λ_{i}} u_{i} u_{i}^{T} \end{aligned}$
将 $\Sigma^{-1}$ 带入 $\mu)^{T} \Sigma^{-1}(x - \mu)$ ，则有：
$\begin{aligned} (x - μ)^{T} Σ^{- 1} (x - μ) & = (x - μ)^{T} \sum_{i = 1}^{p} \frac{1}{λ_{i}} u_{i} u_{i}^{T} (x - μ) \end{aligned}$

观察， $-\mu)^{T}$ 是 $\times p$ 的向量； $\sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T}$ 是 $\times p$ 维向量； $\mu)$ 是 $\times 1$ 维向量。
因此， $\mu)^{T} \sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T}(x - \mu)$ 仍然是一个标量、一个数值。
将 $-\mu)^T,(x - \mu)$ 两个向量看成整体，不执行任何拆分，将 $\sum_{i=1}^p \frac{1}{\lambda_i}$ 提出来：
$\sum_{i=1}^p \frac{1}{\lambda_i}(x - \mu)^{T}u_iu_i^{T}(x - \mu)$
令向量
$(\begin{matrix} k_{1} \\ k_{2} \\ ⋮ \\ k_{p} \end{matrix})$
_{p \times 1} k=⎝ ⎛k1k2⋮kp⎠ ⎞p×1， $k_i(i=1,2,\cdots,p) = (x - \mu)^{T}u_i$

上式可转化为：
$\sum_{i=1}^p \frac{1}{\lambda_i}k_ik_i^{T}$

由于 $k$ 的定义，因此， $k_i(i=1,2,\cdots,p)$ 是标量、数值。即：
$k_i^{T} = k_i$
则有：
$\mu)^{T} \Sigma^{-1}(x - \mu) = \sum_{i=1}^p \frac{1}{\lambda_i}k_ik_i^{T} = \sum_{i=1}^p \frac{k_i^2}{\lambda_i}(i=1,2,\cdots,p)$

将上述结果展开：
$\sum_{i=1}^p \frac{k_i^2}{\lambda_i} = \frac{k_1^2}{\lambda_1} + \frac{k_2^2}{\lambda_2} +\cdots + \frac{k_p^2}{\lambda_p}$

如果给定上述结果一个具体的值： $\Delta$
则有：

$\begin{aligned} \frac{k_{1}^{2}}{λ_{1}} + \frac{k_{2}^{2}}{λ_{2}} + \dots + \frac{k_{p}^{2}}{λ_{p}} = Δ \\ \frac{1}{Δ} (\frac{k_{1}^{2}}{λ_{1}} + \frac{k_{2}^{2}}{λ_{2}} + \dots + \frac{k_{p}^{2}}{λ_{p}}) = 1 \\ \frac{k_{1}^{2}}{Δ λ_{1}} + \frac{k_{2}^{2}}{Δ λ_{2}} + \dots + \frac{k_{p}^{2}}{Δ λ_{p}} = 1 \end{aligned}$
λ1k12+λ2k22+⋯+λpkp2=ΔΔ1(λ1k12+λ2k22+⋯+λpkp2)=1Δλ1k12+Δλ2k22+⋯+Δλpkp2=1
它就是一个超椭圆形的标准方程。
令 $p = 2$ ：
$\frac{k_1^2}{\Delta\lambda_1} + \frac{k_2^2}{\Delta\lambda_2} = 1$

它就是一个椭圆的标准方程，其中 $\sqrt{\Delta\lambda_1},b = \sqrt{\Delta\lambda_2}$

至此，基于马氏距离 $\mu)^{T} \Sigma^{-1}(x - \mu)$ ，它执行一次坐标系的映射：
- 原始 $p$ 维坐标系 $x_i(i=1,2,\cdots,p)$ ;
- 经过一系列变换： $k_i = (x - \mu)^{T} u_i$
  将 $x$ 坐标系先通过平移 $\mu$ 个长度后，再映射到 $u$ 坐标系中(矩阵乘法的特点)
- $k_i$ 表示在样本 $x$ 在 $u$ 坐标系中的映射结果。
- 而马氏距离 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 可理解为在 $x$ 映射到 $k$ 之后，构建一个椭圆，而椭圆上的值就是马氏距离的结果。
  
  上述表示 $i = 2$ 时的高斯分布图像，由于 $x$ 只和 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 相关，和表示概率的 $\frac{1}{(2\pi)^{\frac{p}{2}}\cdot|\Sigma|^{\frac{1}{2}}}$ 无关。
但是概率和 $\Delta$ 相关，基于上述标准方程，椭圆的长轴和短轴长度分别是 $\sqrt{\Delta\lambda_1},\sqrt{\Delta\lambda_2}$ ；选择的 $\Delta$ 值直接影响椭圆的大小，从而影响获取横截面的位置。

因此，当概率被确定时，以上述图为例，在 $z$ 轴对应概率值位置进行横切，而横切得到的横截面必然是椭圆形截面。而 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 表示椭圆形上的点。

总结
- 矩阵乘法——将当前变量的坐标系映射到其他坐标系中；
  在后续的线性判别分析中加深印象;
- 将 $x$ 参考系被映射到新的参考系中，并将马氏距离映射为标准的超椭圆方程。
相关参考：
机器学习-白板推导系列(二)-数学基础
相关阅读:
浅谈 synchronized 锁机制原理与 Lock 锁机制
 文件上传漏洞
 springmvc之自定义注解--＞自定义注解简介，基本案例和aop自定义注解
 spring boot @Configuration和@Componment的区别
 面试常谈的Binder理解，每个人都不一样~
密码技术学习一：密码
 接口自动化测试
 vue-element学习（一）
【reverse】新160个CrackMe之116-REM-KeyGenME#10——脱壳、去背景音乐、识别反调试
 java中的垃圾回收算法与垃圾回收器
原文地址：https://blog.csdn.net/qq_34758157/article/details/126347941

机器学习笔记之高斯分布——从几何角度观察多维高斯分布

引言

回顾：一维高斯分布

多维高斯分布

总结