熵-条件熵-联合熵-互信息-交叉熵

0.引言

属于信息论基本概念。

1.信息熵 Entropy (information theory)

wiki
如何理解信息熵，这个视频做得真的很棒！

信息量： $x = log_2N$ ， $N$ 为等可能事件数量。例如，信息量为3，则原始等可能事件数为 $2^3=8$ .

请添加图片描述

信号量是信息熵的一个特例：事件是等可能发生的。

假设一个硬币：正面出现的概率为 0.8, 反面出现的概率为 0.2
将其转换为等可能事件（ $N = 1 / p$ ）：
- 正面–>想象为 $1 / 0.8 = 1.25$ 个等可能事件中出现一次的概率
- 反面–>想象为 $1 / 0.2 = 5$ 个等可能事件中出现一次的概率
则此时的信息量为：直观的信息量应为 $l o g 1.25 + l o g 5$ ，由于这两个等可能事件出现的概率也不同，所以此时真正的信息量为融入概率后的： $0.8*log\frac{1}{0.8} + 0.2*log\frac{1}{0.2}$ .
这就得出了著名的信息熵公式： $\Sigma{p_ilog\frac{1}{p_i}} = - \Sigma p_ilogp_i$
$H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

这篇文章中给出了定义:

定义：熵, 用来度量信息的不确定程度。
解释：熵越大，信息量越大。不确定程度越低，熵越小，比如“明天太阳从东方升起”这句话的熵为0，因为这个句话没有带有任何信息，它描述的是一个确定无疑的事情。

例子也很直观：

例子：假设有随机变量X，用来表达明天天气的情况。X可能出现三种状态 1) 晴天2) 雨天 3)阴天每种状态的出现概率均为 P(i) = 1/3，那么根据熵的公式： $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

可以计算得到：H(X) = - 1/3 * log(1/3) - 1/3 * log(1/3) + 1/3 * log(1/3) = log3 =0.47712

如果这三种状态出现的概率为(0.1, 0.1, 0.8)：H(X) = -0.1 * log(0.1) *2 - 0.8 * log(0.8) = 0.277528

可以发现前面一种分布X的不确定程度很高（熵值很高），每种状态都很有可能。后面一种分布，X的不确定程度较低（熵值较低），第三种状态有很大概率会出现。

2.条件熵 Conditional entropy

wiki

定义：在一个条件下，随机变量的不确定性。

两个随机变量X，Y的分布，可以形成联合熵（Joint Entropy），用H(X, Y)表示。即： $H (X, Y) = - Σ p (x, y) l o g (x, y)$
$H (X ∣ Y) = H (X, Y) - H (Y)$ , 表示(X, Y)发生所包含的熵，减去Y单独发生包含的熵：在Y发生的前提下，X发生新带来的熵。

\begin{aligned} H (X | Y) = H (X, Y) - H (X) \\ = - \sum_{x, y} p (x, y) \log p (x, y) + \sum_{x} p (x) \log p (x) \\ = - \sum_{x, y} p (x, y) \log p (x, y) + \sum_{x} (\sum_{y} p (x, y)) \log p (x) \\ = - \sum_{x, y} p (x, y) \log p (x, y) + \sum_{x, y} p (x, y) \log p (x) \\ = - \sum_{x, y} p (x, y) \log \frac{p (x, y)}{p (x)} \\ = - \sum_{x, y} p (x, y) \log p (y ∣ x) \end{aligned}

H (X ∣ Y) = H (X, Y) - H (X) = - x, y \sum p (x, y) lo g p (x, y) + x \sum p (x) lo g p (x) = - x, y \sum p (x, y) lo g p (x, y) + x \sum (y \sum p (x, y)) lo g p (x) = - x, y \sum p (x, y) lo g p (x, y) + x, y \sum p (x, y) lo g p (x) = - x, y \sum p (x, y) lo g \frac{p ( x , y )}{p ( x )} = - x, y \sum p (x, y) lo g p (y ∣ x)

3.联合熵 Joint Entropy

wiki

两个离散随机变量 X ,Y 的联合熵（以比特为单位）定义为:

$\mathrm {H} (X,Y)=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}P(x,y )\log _{2}[P(x,y)]$

对于两个以上的随机变量 $X_{1},...,X_{n}$ 扩展:

$\mathrm {H} (X_{1},...,X_{n})=-\sum _{x_{1}\in {\mathcal {X}}_{1}}... \sum _{x_{n}\in {\mathcal {X}}_{n}}P(x_{1},...,x_{n})\log _{2}[P(x_{1 },...,x_{n})]$

4.互信息 Mutual information

wiki

定义：指的是两个随机变量之间的相关程度。

理解：确定随机变量X的值后，另一个随机变量Y不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。这个概念和条件熵相对。

${\displaystyle {$

\begin{aligned} I (X; Y) & \equiv H (X) - H (X ∣ Y) \\ \equiv H (Y) - H (Y ∣ X) \\ \equiv H (X) + H (Y) - H (X, Y) \\ \equiv H (X, Y) - H (X ∣ Y) - H (Y ∣ X) \end{aligned}

}}

I (X; Y) \equiv H (X) - H (X ∣ Y) \equiv H (Y) - H (Y ∣ X) \equiv H (X) + H (Y) - H (X, Y) \equiv H (X, Y) - H (X ∣ Y) - H (Y ∣ X)

${\displaystyle {$

\begin{aligned} I (X; Y) & = \sum_{x \in X, y \in Y} p_{(X, Y)} (x, y) \log \frac{p_{(X, Y)} (x, y)}{p_{X} (x) p_{Y} (y)} \\ = \sum_{x \in X, y \in Y} p_{(X, Y)} (x, y) \log \frac{p_{(X, Y)} (x, y)}{p_{X} (x)} - \sum_{x \in X, y \in Y} p_{(X, Y)} (x, y) \log p_{Y} (y) \\ = \sum_{x \in X, y \in Y} p_{X} (x) p_{Y ∣ X = x} (y) \log p_{Y ∣ X = x} (y) - \sum_{x \in X, y \in Y} p_{(X, Y)} (x, y) \log p_{Y} (y) \\ = \sum_{x \in X} p_{X} (x) (\sum_{y \in Y} p_{Y ∣ X = x} (y) \log p_{Y ∣ X = x} (y)) - \sum_{y \in Y} (\sum_{x \in X} p_{(X, Y)} (x, y)) \log p_{Y} (y) \\ = - \sum_{x \in X} p_{X} (x) H (Y ∣ X = x) - \sum_{y \in Y} p_{Y} (y) \log p_{Y} (y) \\ = - H (Y ∣ X) + H (Y) \\ = H (Y) - H (Y ∣ X) . \end{aligned}

}}

I (X; Y) = x \in X, y \in Y \sum p_{(X, Y)} (x, y) lo g \frac{p _{(X, Y)} ( x , y )}{p _{X} ( x ) p _{Y} ( y )} = x \in X, y \in Y \sum p_{(X, Y)} (x, y) lo g \frac{p _{(X, Y)} ( x , y )}{p _{X} ( x )} - x \in X, y \in Y \sum p_{(X, Y)} (x, y) lo g p_{Y} (y) = x \in X, y \in Y \sum p_{X} (x) p_{Y ∣ X = x} (y) lo g p_{Y ∣ X = x} (y) - x \in X, y \in Y \sum p_{(X, Y)} (x, y) lo g p_{Y} (y) = x \in X \sum p_{X} (x) ⎝ ⎛ y \in Y \sum p_{Y ∣ X = x} (y) lo g p_{Y ∣ X = x} (y) ⎠ ⎞ - y \in Y \sum (x \in X \sum p_{(X, Y)} (x, y)) lo g p_{Y} (y) = - x \in X \sum p_{X} (x) H (Y ∣ X = x) - y \in Y \sum p_{Y} (y) lo g p_{Y} (y) = - H (Y ∣ X) + H (Y) = H (Y) - H (Y ∣ X) .

两个随机变量 $X, Y$ 的互信息,定义为 $X, Y$ 的联合分布和独立分布乘积的相对熵。
$I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$ ， $Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

互信息和信息增益实际是同一个值。信息增益 = 熵 – 条件熵， $g (D, A) = H (D) - H (D ∣ A)$

请添加图片描述

5.相对熵

wiki

相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等.

设 $p (x) 、 q (x)$ 是 $X$ 中取值的两个概率分布,则 $p$ 对 $q$ 的相对熵是
$D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)$

说明:

相对熵可以度量两个随机变量的“距离”
一般的, $D (p ∣ ∣ q) \neq = D (q ∣ ∣ p)$

相关阅读:
vector的使用
Python-将常用库写入到一个Python程序里面，后续使用直接导入这个文件即可，就相当于导入了所有的库，就不用每次都写一堆的import了
git 提交成了LFS格式，如何恢复
大二Web课程设计——美食网站设计与实现（HTML+CSS+JavaScript）
通过云速搭CADT实现云原生分布式数据库PolarDB-X 2.0的部署
【TensorFlow】P1 Google Colab 使用
Whisper 整体架构图
一幅长文细学Vue（五）——组件高级（上）
C 语言网络编程 — NAT 网关运行原理
动态规划-线性DP问题总结（一）

原文地址：https://blog.csdn.net/fb_941219/article/details/125535739