信息量是衡量信息多少的度量,通俗来说就是衡量一个事件发生的惊奇程度
。事件发生的概率越低,该事件发生对应的惊奇程度越高。比如事件“天上下刀子了”就比事件“天上下雨了”更令人惊奇,因为前者的发生概率远远小于后者。
设事件 x x x 的发生概率为 p ( x ) p(x) p(x) ,则传递该事件发生需要的最少比特信号位 (即信息量) 为 log 2 1 p ( x ) = − log 2 p ( x ) \log _2 \frac{1}{p(x)}=-\log _2 p(x) log2p(x)1=−log2p(x)
举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log 2 2 \log _22 log22 个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log 2 8 \log _28 log28个比特的信号来传递该信息。
信息熵用于衡量整个事件空间包含的平均信息量,即信息量的平均期望
,等概率分布的随机变量的熵的计算可以表示为:
−
log
2
P
(
x
i
)
-\log _2 P\left(x_i\right)
−log2P(xi)
那么对于不等概率的分布将如何计算呢?公式中展示出了加权的思想,即把每一个结果都看作等可能事件中的一个结果,按照其发生的概率加权求和
H
(
X
)
=
∑
i
=
1
n
P
(
x
i
)
log
2
1
P
(
x
i
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
2
P
(
x
i
)
分析一个问题,熵的值是怎么确定的呢?
类似于质量、长度等物理量,信息熵同样作为物理量也需要有一个基本度量单位
。类似于光年作为长度单位被定义为光行驶一年的长度,熵的基本单位被定义为等概率分布随机变量的不确定性,记作
b
i
t
bit
bit。也就是说抛一枚均匀的硬币,对于哪面朝上这一事件包含的不确定性的量是
1
b
i
t
1 bit
1bit的熵。
信息量不等于信息熵,信息熵等于平均信息量
互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定度的削弱程度。互信息定义为:
I
(
X
;
Y
)
=
E
[
I
(
x
,
y
)
]
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X ; Y)=E[I(x, y)]=H(X)-H(X \mid Y)
I(X;Y)=E[I(x,y)]=H(X)−H(X∣Y)
Y
Y
Y 未知,
X
X
X 的不确定度(熵)为
H
(
X
)
H(X)
H(X)
Y
Y
Y 已知,
X
X
X 的不确定度变为
H
(
X
∣
Y
)
H(X \mid Y)
H(X∣Y):
互信息 = 先验不确定性-后验不确定性 = 不确定性减少的量
通信系统中若发端的符号为
X
X
X 收端的符号为
Y
Y
Y 。如果是一一对应信道 ,接收到
Y
Y
Y 后对
X
X
X 的不确定 、性将完全消除,即
H
(
X
∣
Y
)
=
0
H(X \mid Y)=0
H(X∣Y)=0 ,一般情况
H
(
X
∣
Y
)
<
H
(
X
)
H(X \mid Y)
通过信道传输消除了一些不确定性,获得了一定的信息,故
0
≤
I
(
X
;
Y
)
≤
H
(
X
)
0 \leq I(X ; Y) \leq H(X)
0≤I(X;Y)≤H(X)
参考:互信息