假设两个相互独立随机变量,x,y的概率分布分别为p(x),p(y)。那么联合概率分布:
P ( x , y ) = p ( x ) ⋅ p ( y ) P(x,y)=p(x)·p(y) P(x,y)=p(x)⋅p(y)
熵表示信息量,随机变X``Y相互独立,取值(x,y)的信息量应该是加法,即
h ( x , y ) = h ( x ) + h ( y ) h(x,y)=h(x)+h(y) h(x,y)=h(x)+h(y)
所以我们很自然去想取log,这样统计学就和信息量建立了联系。
所以,定义信息量:
h ( x ) = − l n p ( x ) h(x)=-lnp(x) h(x)=−lnp(x)
e还是2都可以,不影响逻辑。通信领域常用2,机器学习中常用e.P(x)<=1 所以去负号让h(x)>=0,熵毕竟表示信息量,非负数更符合逻辑上面只考虑随机变量取一个值情况,如果取值有n种情况,熵定义为:
H ( p ) = E p [ − l n P ( x ) ] = − ∑ i