DDPM交叉熵损失函数推导

$\rm KL$ 散度

由于以下推导需要用到 $\rm KL$ 散度，这里先简单介绍一下。
$\rm KL$ 散度一般用于度量两个概率分布函数之间的“距离”，其定义如下：
$KL\big[P(X)||Q(X)\big]=\sum_{x\in X}\Big[P(x)\log\frac{P(x)}{Q(x)}\Big]=E_{x\sim P(x)}\Big[\log\frac{P(x)}{Q(x)}\Big]$
这里 $P (X)$ 和 $Q (X)$ 是两个概率分布函数，可以看到对于离散型随机变量， $\rm KL$ 散度对 $x$ 进行求和；对于连续型随机变量， $\rm KL$ 散度对 $x$ 进行积分(期望)。
高斯分布的 $\rm KL$ 散度
对于两个单一变量的高斯分布 $p\sim\mathcal{N}(\mu_1, \sigma_1^2)$ 和 $q\sim\mathcal{N}(\mu_2,\sigma_2^2)$ 而言，它们的KL散度为
$KL(p,q)=\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2}$

似然函数

下方是论文中给出的后向过程 $\mathbf{x}_{t-1}$ 的分布，其方差为常数。
$p_{\theta}(\mathbf{x}_{0:T})=p(\mathbf{x}_T)\prod_{t=1}^T p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t),\qquad p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)=\mathcal{N}(\mathbf{x}_{t-1};\mu_{\theta}(\mathbf{x}_t,t),\sum_{\theta}(\mathbf{x}_t,t))$
推出扩散模型目标数据分布的似然函数，推出似然函数后才能优化模型。 $p_{\theta}(\mathbf{x}_0)$ 为目标数据分布，其对数似然下界越大，那么对数似然越大。为了方便推导，这里用其负对数似然 $-\log p_{\theta}(\mathbf{x}_0)$ 推导，其上界越小，负对数似然越小，相对应其对数似然越大。

- log p θ (x 0) \leq - log p θ (x 0) + D K L (q (x 1 : T ∣ x 0) ∥ p θ (x 1 : T ∣ x 0)) (1) = - log p θ (x 0) + E x 1 : T \sim q (x 1 : T ∣ x 0) [[log q ( x 1 : T ∣ x 0 ) p θ ( x 0 : T ) / p θ ( x 0 )]] (2) = - log p θ (x 0) + E q [[log q ( x 1 : T ∣ x 0 ) p θ ( x 0 : T ) + log p θ (x 0)]] (3) = E q (x 1 : T ∣ x 0) [[log q ( x 1 : T ∣ x 0 ) p θ ( x 0 : T )]] (4)

- lo g p_{θ} (x_{0}) \leq - lo g p_{θ} (x_{0}) + D_{K L} (q (x_{1 : T} ∣ x_{0}) ∥ p_{θ} (x_{1 : T} ∣ x_{0})) (1) = - lo g p_{θ} (x_{0}) + E_{x_{1 : T} \sim q (x_{1 : T} ∣ x_{0})} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} ) / p _{θ} ( x _{0} )}] (2) = - lo g p_{θ} (x_{0}) + E_{q} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} )} + lo g p_{θ} (x_{0})] (3) = E_{q (x_{1 : T} ∣ x_{0})} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} )}] (4)

公式推导

$(1)$ : 不等式右边加上一个 $\rm KL$ 散度，由于 $\rm KL$ 散度始终大于等于0，所以不等号成立。也即不等式右边是左边的上界，我们只需要优化右边的式子使其达到最小，那么等式左边的对数似然就达到最小。
$(1)\rightarrow(2)$ : 这一步是将 $\rm KL$ 散度展开，可以见上方 $\rm KL$ 散度的定义，定义中 $P (x)$ 相当于 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ ， $Q (x)$ 相当于 $p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 。将 $Q (x)$ 按照条件概率公式展开： $p_{\theta}(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{1:T},\mathbf{x}_0)/p_{\theta}(\mathbf{x}_0)=p_{\theta}(\mathbf{x}_{0:T})/p_{\theta}(\mathbf{x}_0)$ ，这样就得到了第 $(2)$ 步的式子。
$(2)\rightarrow(3)$ : 将 $\log$ 进行展开即可。
$(3)\rightarrow(4)$ : 由于该期望是针对分布 $q$ 的，则 $\log p_{\theta}(\mathbf{x}_0)$ 相对于 $q$ 就是常数。所以 $\Bbb{E}_q\big[\log p_{\theta}(\mathbf{x}_0)\big]=\log p_{\theta}(\mathbf{x}_0)$ ，然后和前面的 $-\log p_{\theta}(\mathbf{x}_0)$ 约去，就得到了式子 $(4)$ 。

推导结束

然后我们将不等式左边的 $-\log p_{\theta}(\mathbf{x}_0)$ 套上一个关于分布 $q(\mathbf{x}_0)$ 的期望，得到 $-\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$ (交叉熵，也即loss)；相应的，不等式右边也要加上一个 $\mathbf{x}_0$ ，则由 $\Bbb{E}_{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}$ 变为 $\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。如果我们想最小化loss，也就是最小化 $\Bbb{E}_{q(\mathbf{x}_{0:T})}$ 。
$\rm Let\text{ }\it L_{\rm VLB} \it = \Bbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log\frac{q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{0:T})}\Big]\geq -\Bbb{E}_{q(\mathbf{x}_0)}\log p_{\theta}(\mathbf{x}_0)$

化简loss上界

L V L B = E q (x 0 : T) [[log q ( x 1 : T ∣ x 0 ) p θ ( x 0 : T )]] (1) = E [[log \prod T t = 1 q ( x t ∣ x t - 1 ) p θ ( x T ) \prod T t = 1 p θ ( x t - 1 ∣ x t )]] (2) = E q [[- log p θ (x T) + \sum t = 1 T log q ( x t ∣ x t - 1 ) p θ ( x t - 1 ∣ x t )]] (3) = E q [[- log p θ (x T) + \sum t = 2 T log q ( x t ∣ x t - 1 ) p θ ( x t - 1 ∣ x t ) + log q ( x 1 ∣ x 0 ) p θ ( x 0 ∣ x 1 )]] (4) = E q [[- log p θ (x T) + \sum t = 2 T log ((q ( x t - 1 ∣ x t , x 0 ) p θ ( x t - 1 ∣ x t ) \cdot q ( x t ∣ x 0 ) q ( x t - 1 ∣ x 0 ))) + log q ( x 1 ∣ x 0 ) p θ ( x 0 ∣ x 1 )]] (5) = E q [[- log p θ (x T) + \sum t = 2 T log q ( x t - 1 ∣ x t , x 0 ) p θ ( x t - 1 ∣ x t ) + \sum t = 2 T log q ( x t ∣ x 0 ) q ( x t - 1 ∣ x 0 ) + log q ( x 1 ∣ x 0 ) p θ ( x 0 ∣ x 1 )]] (6) = E q [[- log p θ (x T) + \sum t = 2 T log q ( x t - 1 ∣ x t , x 0 ) p θ ( x t - 1 ∣ x t ) + log q ( x T ∣ x 0 ) q ( x 1 ∣ x 0 ) + log q ( x 1 ∣ x 0 ) p θ ( x 0 ∣ x 1 )]] (7) = E q [[log q ( x T ∣ x 0 ) p θ ( x T ) + \sum t = 2 T log q ( x t - 1 ∣ x t , x 0 ) p θ ( x t - 1 ∣ x t ) - log p θ (x 0 ∣ x 1)]] (8) = E q [D K L (q (x T ∣ x 0) ∥ p θ (x T))                              L T + \sum t = 2 T D K L (q (x t - 1 ∣ x t, x 0) ∥ p θ (x t - 1 ∣ x t))                                          L t - 1 - log p θ (x 0 ∣ x 1)                L 0] (9)

L_{V L B} = E_{q (x_{0 : T})} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} )}] (1) = E [lo g \frac{\prod _{t = 1}^{T} q ( x _{t} ∣ x _{t - 1} )}{p _{θ} ( x _{T} ) \prod _{t = 1}^{T} p _{θ} ( x _{t - 1} ∣ x _{t} )}] (2) = E_{q} [- lo g p_{θ} (x_{T}) + t = 1 \sum T lo g \frac{q ( x _{t} ∣ x _{t - 1} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )}] (3) = E_{q} [- lo g p_{θ} (x_{T}) + t = 2 \sum T lo g \frac{q ( x _{t} ∣ x _{t - 1} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )} + lo g \frac{q ( x _{1} ∣ x _{0} )}{p _{θ} ( x _{0} ∣ x _{1} )}] (4) = E_{q} [- lo g p_{θ} (x_{T}) + t = 2 \sum T lo g (\frac{q ( x _{t - 1} ∣ x _{t} , x _{0} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )} \cdot \frac{q ( x _{t} ∣ x _{0} )}{q ( x _{t - 1} ∣ x _{0} )}) + lo g \frac{q ( x _{1} ∣ x _{0} )}{p _{θ} ( x _{0} ∣ x _{1} )}] (5) = E_{q} [- lo g p_{θ} (x_{T}) + t = 2 \sum T lo g \frac{q ( x _{t - 1} ∣ x _{t} , x _{0} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )} + t = 2 \sum T lo g \frac{q ( x _{t} ∣ x _{0} )}{q ( x _{t - 1} ∣ x _{0} )} + lo g \frac{q ( x _{1} ∣ x _{0} )}{p _{θ} ( x _{0} ∣ x _{1} )}] (6) = E_{q} [- lo g p_{θ} (x_{T}) + t = 2 \sum T lo g \frac{q ( x _{t - 1} ∣ x _{t} , x _{0} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )} + lo g \frac{q ( x _{T} ∣ x _{0} )}{q ( x _{1} ∣ x _{0} )} + lo g \frac{q ( x _{1} ∣ x _{0} )}{p _{θ} ( x _{0} ∣ x _{1} )}] (7) = E_{q} [lo g \frac{q ( x _{T} ∣ x _{0} )}{p _{θ} ( x _{T} )} + t = 2 \sum T lo g \frac{q ( x _{t - 1} ∣ x _{t} , x _{0} )}{p _{θ} ( x _{t - 1} ∣ x _{t} )} - lo g p_{θ} (x_{0} ∣ x_{1})] (8) = E_{q} [L_{T} D_{K L} (q (x_{T} ∣ x_{0}) ∥ p_{θ} (x_{T})) + t = 2 \sum T L_{t - 1} D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - L_{0} lo g p_{θ} (x_{0} ∣ x_{1})] (9)

公式推导

$(1)\rightarrow(2)$ : 将条件概率展开。由于 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)$ 是扩散过程，是从 $\mathbf{x}_0$ 逐步推导 $\mathbf{x}_T$ 得到过程，其符合马尔科夫假设，故 $q(\mathbf{x}_{1:T}\mid\mathbf{x}_0)=q(\mathbf{x}_1\mid\mathbf{x}_0)\cdot q(\mathbf{x}_2\mid\mathbf{x}_1)\cdot ... \cdot q(\mathbf{x}_T\mid\mathbf{x}_{T-1})=\prod_{t=1}^Tq(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ ；对于 $p_{\theta}(\mathbf{x}_{0:T})$ ，我们先将其根据条件概率转换为 $p_{\theta}(\mathbf{x}_T)p_{\theta}(\mathbf{x}_{0:T-1}\mid\mathbf{x}_T)$ ，然后将后面那一项和 $q$ 一样，展开即可。
$(2)\rightarrow(3)$ : 将 $\log$ 进行展开，连乘展开后转换为求和。
$(3)\rightarrow(4)$ : 将 $\log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 单独拿出来计算。
$(4)\rightarrow(5)$ : 回忆一下，之前在讲逆扩散过程的时候我们得到了这样一个式子 $q(\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)=q(\mathbf{x}_{t}\mid\mathbf{x}_{t-1})\frac{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}{q(\mathbf{x}_{t}\mid\mathbf{x}_0)}$ ，通过这个式子，我们就能得到 $q(\mathbf{x}_t\mid\mathbf{x}_{t-1})$ 的表达式，然后替换即可。
$(5)\rightarrow(6)$ : 将 $\log$ 进行展开。
$(6)\rightarrow(7)$ : $\sum_{t=2}^T\log\frac{q(\mathbf{x}_t\mid\mathbf{x}_0)}{q(\mathbf{x}_{t-1}\mid\mathbf{x}_0)}=\log\Big(\frac{q(\mathbf{x}_2\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}\cdot\frac{q(\mathbf{x}_3\mid\mathbf{x}_0)}{q(\mathbf{x}_2\mid\mathbf{x}_0)}\cdot...\cdot\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_T-1\mid\mathbf{x}_0)}\Big)=\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)}$
$(7)\rightarrow(8)$ : $\log\frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{q(\mathbf{x}_1\mid\mathbf{x}_0)} + \log\frac{q(\mathbf{x}_1\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log q(\mathbf{x}_T\mid\mathbf{x}_0)-\log p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)$ ，然后将 $\log q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $-\log p_{\theta}(\mathbf{x}_T)$ 合并成 $\log \frac{q(\mathbf{x}_T\mid\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_T)}$
$(8)\rightarrow(9)$ : 对于 $L_T$ ， $q(\mathbf{x}_T\mid\mathbf{x}_0)$ 和 $p_{\theta}(\mathbf{x}_T)$ 都是不含参的，前者 $q$ 分布是由 $\beta_t$ 求出的，不含有任何参数；后者是一个各向同性的高斯分布。故 $L_T$ 是不含参的，在优化时可以将其舍弃。对于 $L_{t-1}$ ，参见 $\rm KL$ 散度定义，可以将其表示为 $\rm KL$ 散度，如果这里我们将 $t$ 取1，其转化为 $\log\frac{q(\mathbf{x}_0\mid\mathbf{x}_1,\mathbf{x}_0)}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}=\log\frac{1}{p_{\theta}(\mathbf{x}_0\mid\mathbf{x}_1)}$ 。故当 $t$ 为1时，得到的结果就是 $L_{t-1}$ 后面那一项 $L_0$ ，故我们可以将其合并。故我们只需要优化 $L_{t-1}$ 即可。

推导结束

在论文中，作者将分布 $p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 的方差看作与 $\beta$ 相关的常数，那么可训练的参数就存在于其均值当中。在 $L_{t-1}$ 中， $q(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0)$ 是一个高斯分布，其方差和均值我们已经在之前后向过程推导中求出，均值为 $\tilde{\mu}_t(\mathbf{x}_t)$ ，方差为和 $\beta_t$ 有关的常数。而 $p_{\theta}(\mathbf{x}_{t-1}\mid\mathbf{x}_t)$ 也是我们假设的高斯分布，它的方差也是常数，均值为 $\mu_{\theta}(\mathbf{x}_t,t)$ ，所以参数只在 $\mu_{\theta}$ 当中。对于这两个高斯分布，我们可以运用高斯分布的 $\rm KL$ 散度公式，其中的方差我们可以不考虑。则我们可以得到如下的式子：
$L_{t-1}=\Bbb{E}_q \Big[\frac{1}{2\sigma_t^2} \lVert \tilde{\mu}_t(\mathbf{x}_t,\mathbf{x}_0)-\mu_{\theta}(\mathbf{x}_t,t)\rVert^2 \Big]+C$

由这个式子，我们优化目标就很明确了，我们要优化 $\mu_{\theta}$ ，让其无线逼近于 $\tilde{\mu}_t$ ，这样才能使 $L_{t-1}$ 最小。首先我们将 $\tilde{\mu}_t(\mathbf{x}_t)$ 代入上述的式子中，原式中的 $\tilde{z}_t$ 用 $\epsilon$ 来表示， $\mathbf{x}_t$ 用 $\mathbf{x}_t(\mathbf{x}_0,\epsilon)$ 替换，就能得到下方第二个等号的式子。

L t - 1 - C = E x 0, ϵ [1 2 σ 2 t ∥ ∥ ∥ ∥ μ ~ t ((x t (x 0, ϵ), 1 α ¯ t - - \sqrt (x t (x 0, ϵ) - 1 - α ¯ t - - - - - \sqrt ϵ))) - μ θ (x t (x 0, ϵ), t) ∥ ∥ ∥ ∥ 2] = E x 0, ϵ [1 2 σ 2 t ∥ ∥ ∥ ∥ 1 α - - \sqrt t ((x t (x 0, ϵ) - β t 1 - α ¯ t - - - - - \sqrt ϵ)) - μ θ (x t (x 0, ϵ), t) ∥ ∥ ∥ ∥ 2]

L_{t - 1} - C = E_{x_{0}, ϵ} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ ∥ \tilde{μ}_{t} (x_{t} (x_{0}, ϵ), \frac{1}{α ˉ _{t}} (x_{t} (x_{0}, ϵ) - 1 - \overset{α}{ˉ}_{t} ϵ)) - μ_{θ} (x_{t} (x_{0}, ϵ), t) ∥ ∥ ∥^{2}] = E_{x_{0}, ϵ} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ ∥ \frac{1}{α _{t}} (x_{t} (x_{0}, ϵ) - \frac{β _{t}}{1 - α ˉ _{t}} ϵ) - μ_{θ} (x_{t} (x_{0}, ϵ), t) ∥ ∥ ∥^{2}]

这里我们的

\mathbf{x}_t

是已知的，那么为了使

L_{t-1}

最小，我们可以将

\mu_{\theta}(\mathbf{x}_t,t)

表示为

\tilde{\mu}_t

的一个波动，其中的

\epsilon

是未知的，则我们可以训练一个网络来预测

\epsilon

。

\mu_{\theta}(\mathbf{x}_t,t)=\tilde{\mu}_t\Big(\mathbf{x}_t,\frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\epsilon_{\theta}(\mathbf{x}_t)}) \Big)=\frac{1}{\sqrt{\alpha_t}}\Big(\mathbf{x}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_{\theta}(\mathbf{x}_t,t) \Big)

于是

L_{t-1}

可以简化为如下形式

\Bbb{E}_{\mathbf{x_0},\epsilon}\Big[ \frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]

作者又发现，将系数丢掉，训练更加稳定质量更好，于是就得到了下方的

L_{\rm simple}

L_{\rm simple}(\theta):=\Bbb{E}_{t,\mathbf{x_0},\epsilon}\Big[ \lVert \epsilon-\epsilon_{\theta}(\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\rVert^2\Big]

相关阅读:
WCF Demo
前端框架Vue学习 ——（六）Vue组件库Element
java集合
Spring MVC：REST
使用Python中的pytesseract模块实现抓取图片中文字
刷题笔记（二十）--回溯算法：组合问题
一体化运维：挖矿病毒可能正在蚕食你的IT资源
VScode 安装插件后依然不能理解lombok注释的问题
树莓派高级开发之树莓派博通BCM2835芯片手册导读与及“相关IO口驱动代码的编写”
使用jenkins插件Allure生成自动化测试报告

原文地址：https://blog.csdn.net/zhL816/article/details/127990198

DDPM交叉熵损失函数推导

K L \rm KL KL散度

似然函数

公式推导

推导结束

化简loss上界

公式推导

推导结束

$\rm KL$ 散度