• 从信源熵到互信息


    从信源熵到互信息

    1. 信源熵

    为了表征信源的信息量,所有符号信息量的期望为
    H [ X ] = − ∑ k = 1 n P r { X = a k } log ⁡ P r { X = a k } = E [ − log ⁡ P r { X } ] H[X] = -\sum_{k=1}^{n} P_r \{X=a_k\} \log P_r \{X=a_k\} \\ = \mathbb{E} [ - \log P_r \{X \} ] H[X]=k=1nPr{X=ak}logPr{X=ak}=E[logPr{X}]

    这就是 X X X 的熵。

    符号 E \mathbb{E} E 代表对于函数 − log ⁡ P r { X } - \log P_r \{X \} logPr{X} 在样本 X X X 上遍历。

    2. 条件熵

    如果有 X = { a k } k = 1 n X=\{a_k\}_{k=1}^{n} X={ak}k=1n Y = { b k } k = 1 m Y=\{b_k\}_{k=1}^{m} Y={bk}k=1m
    单独考虑 X X X 及其分布为 P r { X = a k } P_r \{X=a_k\} Pr{X=ak} 的熵即为 H [ X ] H[X] H[X]

    固定 Y = b j Y=b_j Y=bj,考虑 X X X 的条件分布 P r { X = a k ∣ Y = b j } P_r \{X=a_k \vert Y=b_j\} Pr{X=akY=bj}:

    • X X X Y Y Y 独立,则 P r { X = a k ∣ Y = b j } = P r { X = a k } P_r \{X=a_k \vert Y=b_j\} = P_r \{X=a_k \} Pr{X=akY=bj}=Pr{X=ak}
    • X X X Y Y Y 不独立,则为新的分布

    给定 Y = b j Y=b_j Y=bj X X X 的熵,即为 P r { X = a k ∣ Y = b j } P_r \{X=a_k \vert Y=b_j\} Pr{X=akY=bj} 的期望:
    H [ X ∣ Y = b j ] = − ∑ k = 1 n P r { X = a k ∣ Y = b j } log ⁡ P r { X = a k ∣ Y = b j } H[X \vert Y=b_j] = -\sum_{k=1}^{n} P_r \{X=a_k \vert Y=b_j\} \log P_r \{X=a_k \vert Y=b_j\} H[XY=bj]=k=1nPr{X=akY=bj}logPr{X=akY=bj}


    给定 Y Y Y X X X 的熵,即为 H { X ∣ Y = b j } H \{X \vert Y=b_j\} H{XY=bj} 的期望:
    H [ X ∣ Y ] = ∑ k = 1 n P r { Y = b j } H [ X ∣ Y = b j ] H[X \vert Y ] = \sum_{k=1}^{n} P_r \{ Y=b_j\} H[X \vert Y=b_j] H[XY]=k=1nPr{Y=bj}H[XY=bj]

    3. 条件熵的性质

    条件熵 = 联合熵 - 条件自身的熵

    H [ X ∣ Y ] = H [ X , Y ] − H [ Y ] , H [ Y ∣ X ] = H [ X , Y ] − H [ X ] H[X|Y]= H[X,Y]-H[Y], \quad H[Y|X]= H[X,Y]-H[X] H[XY]=H[X,Y]H[Y],H[YX]=H[X,Y]H[X]

    proof:
    first, we have
    H [ X ∣ Y ] = E [ − log ⁡ P r { X ∣ Y } ] H[X|Y]= \mathbb{E} [ -\log P_r\{ X|Y \}] H[XY]=E[logPr{XY}]
    H [ X , Y ] = E [ − log ⁡ P r { X , Y } ] H[X,Y]= \mathbb{E} [ -\log P_r\{ X,Y \}] H[X,Y]=E[logPr{X,Y}]

    符号 E \mathbb{E} E 代表对于函数 f ( X , Y ) f (X,Y) f(X,Y) 在样本 { X , Y } \{X,Y \} {X,Y} 上遍历。

    since
    P r { X ∣ Y } = P r { X , Y } P r { Y } P_r\{ X|Y \} = \frac{ P_r\{ X,Y \} }{ P_r\{ Y \} } Pr{XY}=Pr{Y}Pr{X,Y}
    we have
    log ⁡ P r { X ∣ Y } = log ⁡ P r { X , Y } − log ⁡ P r { Y } \log P_r\{ X|Y \} = \log P_r\{ X,Y \} - \log { P_r\{ Y \} } logPr{XY}=logPr{X,Y}logPr{Y}
    so
    E [ − log ⁡ P r { X ∣ Y } ] = E [ − log ⁡ P r { X , Y } ] − E [ − log ⁡ P r { Y } ] \mathbb{E} [- \log P_r\{ X|Y \}] = \mathbb{E} [-\log P_r\{ X,Y \}] - \mathbb{E}[-\log { P_r\{ Y \} } ] E[logPr{XY}]=E[logPr{X,Y}]E[logPr{Y}]

    条件熵 <= 无条件熵(通过做差利用Jesen不等式证明)
    H [ X ∣ Y ] ≤ H [ X ] H[X|Y] \le H[X] H[XY]H[X]

    联合熵 <= 各自熵之和
    H [ X ∣ Y ] = H [ X , Y ] − H [ Y ] ≤ H [ X ] → H [ X , Y ] ≤ H [ X ] + H [ Y ] H[X|Y]= H[X,Y]-H[Y] \le H[X] \rightarrow H[X,Y] \le H[X] + H[Y] H[XY]=H[X,Y]H[Y]H[X]H[X,Y]H[X]+H[Y]

    4. 互信息

    互信息:无条件熵 - 条件熵
    I ( X ; Y ) = H [ X ] − H [ X ∣ Y ] I ( Y ; X ) = H [ Y ] − H [ Y ∣ X ] I(X;Y) = H[X] - H[X|Y] \\ I( Y;X) = H[Y] - H[Y|X] I(X;Y)=H[X]H[XY]I(Y;X)=H[Y]H[YX]

    互信息 = 各自熵之和 - 联合熵
    I ( X ; Y ) = H [ X ] − H [ X ∣ Y ] = H [ X ] − { H [ X , Y ] − H [ Y ] } = H [ X ] + H [ Y ] − H [ X , Y ] I(X;Y) = H[X] - H[X|Y] \\ = H[X] - \{H[X,Y]-H[Y] \} \\ = H[X] + H[Y] - H[X,Y] I(X;Y)=H[X]H[XY]=H[X]{H[X,Y]H[Y]}=H[X]+H[Y]H[X,Y]
    I ( Y ; X ) = H [ X ] + H [ Y ] − H [ X , Y ] I( Y;X) = H[X] + H[Y] - H[X,Y] I(Y;X)=H[X]+H[Y]H[X,Y]

    互信息是对称的,即为
    I ( X ; Y ) = I ( Y ; X ) I(X;Y) =I( Y;X) I(X;Y)=I(Y;X)

  • 相关阅读:
    计算机毕业设计(附源码)python英语四六级在线学习系统
    前端发送axios请求报错Request failed with status code 500解决方案
    918. 环形子数组的最大和
    elasticsearch
    【ArcGIS微课1000例】0077:ArcGIS生成经纬网(shp格式)
    “山大地纬杯”第十二届山东省ICPC大学生程序设计竞赛
    Linux下 mtrace工具排查内存泄露问题
    MySQL 数据导入方案推荐
    实例解读:Python量化分析在投资中的应用
    一文了解大模型工作原理——以ChatGPT为例
  • 原文地址:https://blog.csdn.net/qq_23947237/article/details/126146327