属于信息论基本概念。
信息量: x = l o g 2 N x = log_2N x=log2N, N N N 为等可能事件数量。例如,信息量为3,则原始等可能事件数为 2 3 = 8 2^3=8 23=8.



信号量是信息熵的一个特例:事件是等可能发生的。
这篇文章中给出了定义:
定义:熵, 用来度量信息的不确定程度。
解释: 熵越大,信息量越大。不确定程度越低,熵越小,比如“明天太阳从东方升起”这句话的熵为0,因为这个句话没有带有任何信息,它描述的是一个确定无疑的事情。
例子也很直观:
例子:假设有随机变量X,用来表达明天天气的情况。X可能出现三种状态 1) 晴天2) 雨天 3)阴天 每种状态的出现概率均为 P(i) = 1/3,那么根据熵的公式: H ( X ) = − ∑ i = 1 n p ( x i ) log p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=−∑i=1np(xi)logp(xi)
可以计算得到:H(X) = - 1/3 * log(1/3) - 1/3 * log(1/3) + 1/3 * log(1/3) = log3 =0.47712
如果这三种状态出现的概率为(0.1, 0.1, 0.8):H(X) = -0.1 * log(0.1) *2 - 0.8 * log(0.8) = 0.277528
可以发现前面一种分布X的不确定程度很高(熵值很高),每种状态都很有可能。后面一种分布,X的不确定程度较低(熵值较低),第三种状态有很大概率会出现。
定义:在一个条件下,随机变量的不确定性。
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
X
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
+
∑
x
p
(
x
)
log
p
(
x
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
+
∑
x
(
∑
y
p
(
x
,
y
)
)
log
p
(
x
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
+
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
y
∣
x
)
两个离散随机变量 X ,Y 的联合熵(以比特为单位)定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) log 2 [ P ( x , y ) ] {\displaystyle \mathrm {H} (X,Y)=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}P(x,y )\log _{2}[P(x,y)]} H(X,Y)=−x∈X∑y∈Y∑P(x,y)log2[P(x,y)]
对于两个以上的随机变量 X 1 , . . . , X n X_{1},...,X_{n} X1,...,Xn 扩展:
H ( X 1 , . . . , X n ) = − ∑ x 1 ∈ X 1 . . . ∑ x n ∈ X n P ( x 1 , . . . , x n ) log 2 [ P ( x 1 , . . . , x n ) ] {\displaystyle \mathrm {H} (X_{1},...,X_{n})=-\sum _{x_{1}\in {\mathcal {X}}_{1}}... \sum _{x_{n}\in {\mathcal {X}}_{n}}P(x_{1},...,x_{n})\log _{2}[P(x_{1 },...,x_{n})]} H(X1,...,Xn)=−x1∈X1∑...xn∈Xn∑P(x1,...,xn)log2[P(x1,...,xn)]
定义:指的是两个随机变量之间的相关程度。
理解:确定随机变量X的值后,另一个随机变量Y不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。这个概念和条件熵相对。
I
(
X
;
Y
)
≡
H
(
X
)
−
H
(
X
∣
Y
)
≡
H
(
Y
)
−
H
(
Y
∣
X
)
≡
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
≡
H
(
X
,
Y
)
−
H
(
X
∣
Y
)
−
H
(
Y
∣
X
)
{\displaystyle {
I
(
X
;
Y
)
=
∑
x
∈
X
,
y
∈
Y
p
(
X
,
Y
)
(
x
,
y
)
log
p
(
X
,
Y
)
(
x
,
y
)
p
X
(
x
)
p
Y
(
y
)
=
∑
x
∈
X
,
y
∈
Y
p
(
X
,
Y
)
(
x
,
y
)
log
p
(
X
,
Y
)
(
x
,
y
)
p
X
(
x
)
−
∑
x
∈
X
,
y
∈
Y
p
(
X
,
Y
)
(
x
,
y
)
log
p
Y
(
y
)
=
∑
x
∈
X
,
y
∈
Y
p
X
(
x
)
p
Y
∣
X
=
x
(
y
)
log
p
Y
∣
X
=
x
(
y
)
−
∑
x
∈
X
,
y
∈
Y
p
(
X
,
Y
)
(
x
,
y
)
log
p
Y
(
y
)
=
∑
x
∈
X
p
X
(
x
)
(
∑
y
∈
Y
p
Y
∣
X
=
x
(
y
)
log
p
Y
∣
X
=
x
(
y
)
)
−
∑
y
∈
Y
(
∑
x
∈
X
p
(
X
,
Y
)
(
x
,
y
)
)
log
p
Y
(
y
)
=
−
∑
x
∈
X
p
X
(
x
)
H
(
Y
∣
X
=
x
)
−
∑
y
∈
Y
p
Y
(
y
)
log
p
Y
(
y
)
=
−
H
(
Y
∣
X
)
+
H
(
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
.
{\displaystyle {
互信息和信息增益实际是同一个值。信息增益 = 熵 – 条件熵, g ( D , A ) = H ( D ) – H ( D ∣ A ) g(D,A)=H(D) – H(D|A) g(D,A)=H(D)–H(D∣A)

相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等.
设
p
(
x
)
、
q
(
x
)
p(x)、q(x)
p(x)、q(x) 是
X
X
X 中取值的两个概率分布,则
p
p
p 对
q
q
q 的相对熵是
D
KL
(
P
∥
Q
)
=
∑
x
∈
X
P
(
x
)
log
(
P
(
x
)
Q
(
x
)
)
=
−
∑
x
∈
X
P
(
x
)
log
(
Q
(
x
)
P
(
x
)
)
{\displaystyle D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)}
DKL(P∥Q)=x∈X∑P(x)log(Q(x)P(x))=−x∈X∑P(x)log(P(x)Q(x))
说明: