• 交叉熵与对数似然分析


    信息论(Information Theory)

    • “信息”是指一组消息的集合。

    • 假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。

    • 信息论将信息的传递看作一种统计现象。

      • 信息传输

      • 信息压缩

    熵(Entropy)

    在信息论中,用来衡量一个随机事件的不确定性。

    • 熵越高,则随机变量的信息越多;
    • 熵越低,则随机变量的信息越少.

    applicatio_确定性非常高,p(x=n)=1

    appl_那么有appleapply两种可能,假设

    (1)P(x=e)=0.7(2)P(x=y)=0.3

    自信息(Self Information):一个随机事件所包含的信息量

    对于一个随机变量X,当X=x时的自信息I(x)定义为

    I(x)=logp(x)

    这样定义,让它满足可加性

    (3)I(x,x)=[logp(x)+logp(x)](4)=log(p(x)p(x))

    随机变量X的自信息的数学期望

    (5)H(x)=Ex[I(x)](6)=Ex[logp(x)](7)=xχp(x)logp(x)

    熵编码(Entropy Encoding)

    在对分布p(y)的符号进行编码时,熵H(p)也是理论上最优的平均编码长度,这种编码方式称为熵编码。

    什么样的编码是最优编码呢?最常出现的字符编码越短,出现频率越小的字符编码越长。

    交叉熵(Cross Entropy)

    交叉熵是按照概率分布q的最优编码对真实分布为p的信息进行编码的长度

    H(p,q)=Ep[logq(x)]=xp(x)logq(x)

    • 在给定q的情况下,如果p和q越接近,交叉熵越小;
    • 如果p和q越远,交叉嫡就越大。

    KL散度(Kullback-Leibler Divergence)

    • KL散度是用概率分布q来近似p时所造成的信息损失量。
    • KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码,其平均编码长度(即交叉熵)H(pq)和p的最优平均编码长度(即熵)H(p)之间的差异。

    KL(p,q)=H(p,q)H(p)=xp(x)logp(x)q(x)

    应用到机器学习

    以分类为例

    真实分布

    Pr(y|x)

    预测分布

    Pθ(y|x)

    假设y*为x的真实标签

    (8)Pr(y|x)=1(9)Pr(y|x)=0,yy

    真实分布相当于onehot向量

    (10)[00010]c=Pr(y|x)

    如何衡量两个分布的差异?

    课程视频链接:3.3交叉熵与对数似然

    原创作者:孤飞-博客园
    原文链接:https://www.cnblogs.com/ranxi169/p/16583838.html

  • 相关阅读:
    Linux内核之completion机制
    linux日志不循环问题诊断
    CDH大数据平台 ERROR Heartbeating to 192.168.0.200:7182 failed
    14个SpringBoot优化小妙招,看完后同事说写代码像写诗!
    计算机毕业设计SSM电影网上购票系统【附源码数据库】
    选择算法之冒泡排序【图文详解】
    【面试经典150 | 区间】汇总区间
    【muduo源码剖析】Buffer类的设计
    End-to-End Object Detection with Transformers(论文解析)
    python+requests接口自动化测试
  • 原文地址:https://www.cnblogs.com/ranxi169/p/16583838.html