熵 | 无线通信知识

文章目录

一、信息论（熵、联合熵、条件熵）
二、Bernoulli熵
三、联合熵和条件熵
四、互信息
五、相对熵(KL距离)
六、微分熵
七、最大熵分布
常需要的不等式公式

一、信息论（熵、联合熵、条件熵）

熵定义： $H(X)=E[-log_2p(x)]=-\sum_{x\in X}p(x)log_2p(x)$
note

H(X)是X的平均香农信息内容
H(X)是每个符号的平均信息量
二元问题(抛硬币)，H(X)取值为[H(X),H(X)+1]

为什么用 $log_2(.)$ 衡量信息

非负性： $f(p)\ge0$ , $0\le p\le1$
特殊点：当p=0, $f(p)=\infty$
可加性
单调递增连续性？？

二、Bernoulli熵

符号集 $\chi=[0,1]$ ，对应的概率 $\vec{p}=[p,1-p]$
Bernoulli熵： $H(X)=H(p)=-plog_2p-(1-p)log_2(1-p)$
note：

通常用 $H (p)$ 表示 $H (X)$
p=0 or 1时， $H (p) = 0$
$H (p)$ 是p的凸函数
p=0.5， $H (p)$ 最大
$H (p)$ 的取值范围 $0\le H(p)\le log_2|\chi|$

请添加图片描述

三、联合熵和条件熵

联合熵：
$H(X,Y)=-Elogp(x,y)=-\sum_{x\in X} \sum_{y\in Y} p(x,y)logp(x,y)$
条件熵
$H(Y|X)=-Elog(y|x)=-\sum_{x\in X} \sum_{y\in Y}p(x,y)logp(y|x)$
$H(Y|X)=\sum_{x\in X}p(x)H(Y|X=x)$
熵的链式法则

$H (X, Y) = H (X) + H (Y ∣ X)$
$H (X, Y ∣ Z) = H (X ∣ Z) + H (Y ∣ X, Z)$
$H(X_1,X_2,....X_n)=\sum_{i=1}^{n}H(X_i|X_{i-1},....X_1)$

四、互信息

定义：
$I (X; Y) = H (X) - H (X ∣ Y) = H (X) + H (Y) - H (X, Y)$
互信息具有对称性

$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$
$I (X; Y) = H (X) + H (Y) - H (X, Y)$
$I (X; Y) = I (Y, X)$
$I (X; X) = H (X)$
$I(X;Y)\ge0$ ，当且仅当X Y互相独立时，等号成立

互信息的链式法则
$I(X_1,X_2,....X_n;Y)=\sum_{i=1}^nI(X_i;Y|X_{i-1},....,X_1)$

五、相对熵(KL距离)

$D(\vec{p}||\vec{q})=\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}=E_{\vec{p}}[-logq(x)]-H(\vec{p})$
$D(\vec{p}||\vec{q})$ 测量的是两个概率分布 $\vec{p}$ 和 $\vec{q}$ 间的距离，并非真实距离
$D(\vec{p}||\vec{q})\ge 0$ ，当且仅当 $\vec{p}$ = $\vec{q}$ ，等号成立

六、微分熵

对于连续型随机变量，一个以f(x)为密度函数的连续型随机变量，X的微分熵h(x)为：
$h(x)=\int_{-\infty}^{\infty}f_X{(x)}logf_X(x)dx=E-logf_X(x)$
note

微分熵仅依赖于随机变量的概率密度函数，有时候将微分熵写为h(f)
微分熵可以为负值

微分熵分类

	均匀分布的微分熵	高斯分布的微分熵	多元高斯分布的微分熵
前提条件:随机变量服从	均匀分布 $X\sim U(a,b)$	高斯分布 $X\sim U(\mu,\sigma^2)$	$X_{1:n}\sim N(\vec{m},\vec{k})$
pdf	$\begin{matrix} \frac{1}{b - a}, & x \in (a, b)) \\ 0 & e l s e \end{matrix}$	$f(x)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$	$f(x)=\|2\pi\vec{k}\|^\frac{1}{2}exp\{-\frac{1}{2}(x-\vec{m})^T\vec k^{-1}(x-\vec m)\}$ m：均值矢量 $\vec k$ 协方差矢量
微分熵	$h(x)=\int_a^bf(x)logf(x)dx=log(b-a)$ 当b-a<1时,h(x)<0	$h(x)=-loge\int_{-\infty}^{\infty}f(x)lnf(x)dx=\frac{1}{2}log(2\pi e\sigma^2)$	$h(x)=\frac{1}{2}log\|2\pi e\vec k\|$

七、最大熵分布

条件一：（幅值约束）对于r有限长范围(a,b)使其最大熵的分布是均匀分布
$u(x)=\frac{1}{b-a} \rightarrow$ 、 $\le D(f||x) \rightarrow h_f(x)=log(b-a)$
条件二：（功率约束）给定协方差矩阵 $\vec k$ ，零均值的多元高斯分布能使熵在 $(-\infty,\infty)^n$ 上最大
$\phi (x)=\|2\pi\vec{k}\|^\frac{1}{2}exp\{-\frac{1}{2}x^T\vec k^{-1}\vec x\}$ ;
$\le D(f||x)=h_f(x)-E_flog\phi(x) \rightarrow h_f(x)\le-(loge)E_f(-\frac{1}{2}ln|2\pi \vec k|-\frac{1}{2}x^T \vec k^{-1}x)=h_{\phi (x)}$

常需要的不等式公式

$H(Y|X)\le H(X)$ ,X和Y互相独立时，等号成立
$H(X_1,X_2,....X_n)\le \sum_{i=1}^nH(X_i)$ ，当且仅当 $X_i$ 互相独立时等号成立

参考文章：通信算法基础知识汇总（5）、通信算法基础知识汇总（8）

相关阅读:
Centos指令合集
一文看懂拉格朗日乘子法、KKT条件和对偶问题
【SpringMVC】RESTful风格CRUD实现
MySQL-(6)
深度学习(二)
商场积分体系设计购物中心会员管理系统
c语言中的结构体变量
vsftp新建用户及目录时遇到的坑
SQL注入类型（详细讲解）
分词phrase

原文地址：https://blog.csdn.net/Summer789111/article/details/132665818