交叉熵与对数似然分析

交叉熵与对数似然分析
信息论(Information Theory)
- “信息”是指一组消息的集合。
- 假设在一个噪声通道上发送消息，我们需要考虑如何对每一个信息进行编码、传输以及解码，使得接收者可以尽可能准确地重构出消息。
- 信息论将信息的传递看作一种统计现象。
  - 信息传输
  - 信息压缩
熵(Entropy)

在信息论中，熵用来衡量一个随机事件的不确定性。
- 熵越高，则随机变量的信息越多；
- 熵越低，则随机变量的信息越少.
applicatio_确定性非常高，p(x=n)=1

appl_那么有apple或apply两种可能,假设

$\begin{array}{r} (1) & P (x = e) = 0.7 \\ (2) & P (x = y) = 0.3 \end{array}$
自信息(Self Information):一个随机事件所包含的信息量

对于一个随机变量X,当X=x时的自信息I(x)定义为

$I (x) = - \log_{} p (x)$
这样定义，让它满足可加性

$\begin{aligned} (3) & I (x, x^{'}) & = - [\log_{} p (x) + \log_{} p (x^{'})] \\ (4) & = - \log_{} (p (x) \cdot p (x^{'})) \end{aligned}$
熵：随机变量X的自信息的数学期望

$\begin{aligned} (5) & H (x) & = E_{x} [I (x)] \\ (6) & = E_{x} [- \log p (x)] \\ (7) & = - \sum_{x \in χ}^{} p (x) \log p (x) \end{aligned}$
熵编码（Entropy Encoding)

在对分布p(y)的符号进行编码时，熵H(p)也是理论上最优的平均编码长度，这种编码方式称为熵编码。

什么样的编码是最优编码呢？最常出现的字符编码越短，出现频率越小的字符编码越长。

交叉熵(Cross Entropy)

交叉熵是按照概率分布q的最优编码对真实分布为p的信息进行编码的长度。

$\begin{aligned} H (p, q) & = E_{p} [- \log q (x)] \\ = - \sum_{x} p (x) \log q (x) \end{aligned}$
- 在给定q的情况下，如果p和q越接近，交叉熵越小；
- 如果p和q越远，交叉嫡就越大。
KL散度(Kullback-Leibler Divergence)
- KL散度是用概率分布q来近似p时所造成的信息损失量。
- KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码，其平均编码长度（即交叉熵）H(pq)和p的最优平均编码长度(即熵)H(p)之间的差异。
$\begin{aligned} KL (p, q) & = H (p, q) - H (p) \\ = \sum_{x} p (x) \log \frac{p (x)}{q (x)} \end{aligned}$

应用到机器学习

以分类为例

真实分布

$P_{r} (y | x)$
预测分布

$P_{θ} (y | x)$
假设y*为x的真实标签

$\begin{aligned} (8) & P_{r} (y * | x) = 1 \\ (9) & P_{r} (y | x) = 0, \forall y \neq y * \end{aligned}$
真实分布相当于onehot向量

$\begin{array}{r} (10) & {[\begin{array}{c} 0 \\ 0 \\ 0 \\ 1 \\ 0 \end{array}]}_{c} = P_{r} (y | x) \end{array}$
如何衡量两个分布的差异？

课程视频链接：3.3交叉熵与对数似然

原创作者：孤飞-博客园
原文链接：https://www.cnblogs.com/ranxi169/p/16583838.html
相关阅读:
关于NPM下载源的总结
 【C++布隆过滤器和哈希切分】
Vue2电商前台项目——项目的初始化及搭建
 ArcGIS笔记12_ArcGIS搜索工具没法用？ArcGIS运行很慢很卡？
Linux常用命令(3)-文件和目录管理
 Android Killer v1.3.1版本太低无法正常反编译及回编的问题
 scratch绘制红蓝线条电子学会图形化编程scratch等级考试四级真题和答案解析2022年9月
 深度解密Go底层Map
如何快速地生成一个Python项目的requirements.txt
maven私服搭建
原文地址：https://www.cnblogs.com/ranxi169/p/16583838.html

信息论(Information Theory)

熵(Entropy)

交叉熵(Cross Entropy)

KL散度(Kullback-Leibler Divergence)

应用到机器学习