本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。
自信息是为了衡量某件事情发生所包含的信息多少。其定义如下: I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=−logP(x) 表示若一件事发生的概率越低,那么其包含的信息量也就越大。如果是以 e e e 为底数,那么 I ( x ) I(x) I(x) 的单位是奈特(nats),如果是以 2 2 2 为底数,那么 I ( x ) I(x) I(x) 的单位是比特(bit)或香农。
香农熵用来衡量整个概率分布中的不确定性总量,即遵循这个分布的事件所产生的期望信息总量。其定义如下: H ( x ) = E x ∼ P [ I ( x ) ] H(x)=E_{x\sim P}[I(x)] H(x)=Ex∼P[I(x)] 若是连续型随机变量,香农熵被称为微分熵。
若对于同一随机变量 x \text{x} x 有两个单独的概率分布 P ( x ) P(\text{x}) P(x) 和 Q ( x ) Q(\text{x}) Q(x) ,可以使用KL散度来衡量这两个分布的差异。其定义如下: D K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q)=E_{\text{x}\sim P}\left [log\frac{P(x)}{Q(x)}\right ]=E_{\text{x}\sim P}[logP(x)-logQ(x)] DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)]
特性:
1)非负性。
2)非对称:
D
K
L
(
P
∣
∣
Q
)
≠
D
K
L
(
Q
∣
∣
P
)
D_{KL}(P||Q)\neq D_{KL}(Q||P)
DKL(P∣∣Q)=DKL(Q∣∣P)
定义如下: H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E x ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-E_{\text{x}\sim P}logQ(x) H(P,Q)=H(P)+DKL(P∣∣Q)=−Ex∼PlogQ(x)