Diffusion Model 深入剖析

最近AI生成艺术领域非常火热，从 Midjourney 到 Stable Diffusion，不管你是绘画高手还是艺术小白，只要输入想要绘制内容的描述或者基础图像，就可以生成富有艺术感的画作！这些风格各异、以假乱真的AI生成图像背后,离不开 Diffusion Model 。之前文章《Stable Diffusion原理详解》中我对 Diffusion Model 做了简要的介绍，本文将深入到 Diffusion Model 内部，深入剖析 Diffusion Model 的工作原理以及它是如何生成图像的。

在这里插入图片描述

文章目录

概述

在这里插入图片描述

图1. 扩散模型原理概要

Diffusion Model的训练可以分为两部分：

正向扩散过程 → 为图像添加噪声。
反向扩散过程 → 去除图像中的噪声。

正向扩散过程

在这里插入图片描述

图2. 正向扩散过程

正向扩散过程向输入图像 $x_0$ 逐步加入高斯噪声，一共 $T$ 步。该过程将产生一系列噪声图像样本 $x_1, \dots , x_T$ 。

当 $\to \infin$ 时，最终的结果将变成一张完全噪声图像，就好像它是从各向同性高斯分布中采样的一样。

但是我们可以使用一个闭合公式在特定的时间步长 $t$ 直接对有噪声的图像进行采样，而不是设计一种算法来迭代地向图像添加噪声。

正向扩散可以用如下公式描述：
$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt {1-\beta_t}x_{t-1}, \beta_tI) \tag{1}$
其中 $t$ 是时间帧（从 0 到 $T$ ）， $x_t$ 是从真实数据分布 $q (x)$ 中采样的数据样本（例如 $x_0 \sim q(x)$ ）， $\beta_t$ 是 variance schedule， $\le \beta_t \le 1$ ，且 $\beta_0$ 较小， $\beta_T$ 较大。 $I$ 是单位矩阵。

公式推导

可以使用重参数化技巧（Reparameterization Trick）推导出闭合公式。

如果 $\sim \mathcal{N}(\mu, \sigma^2)$ ，那么 $z$ 可以写成 $\mu + \sigma\varepsilon$ 的形式，其中 $\varepsilon \sim \mathcal{N}(0, 1)$ 。这就是 重参数化技巧 。

利用这个技巧，我们可以将采样图像 $x_t$ 表示为如下形式：
$x_t = \sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}\varepsilon_{t-1} \tag{2}$
这样我们就可以递归地展开它得到闭式公式：
$xt=√1−βtxt−1+√βtεt−1……ε∼N(0,I)=√αt\fcolorboxredwhite$xt−1$+√1−αtεt−1…⋯设αt=1−βt=√αt\fcolorboxredwhite$(√αt−1xt−2+√1−αt−1εt−2)$+√1−αtεt−1…⋯递归展开xt−1=√αtαt−1xt−2+\fcolorboxredwhite$√αt(1−αt−1)εt−2+√1−αtεt−1$…⋯乘法分配律乘开=√αtαt−1xt−2+\fcolorboxredwhite$√1−αtαt−1ˉεt−2$……\textcolorred怎么突然得到这个结果？⋮=√αtαt−1…α1x0+√1−αtαt−1…α1ε=√¯αtx0+√1−ˉαtε……¯αt=t∏i=1αi$

注意：所有 $\varepsilon$ 都是独立同分布的标准正态随机变量。

这里使用不同的符号和下标区分它们很重要，因为它们是独立的并且它们的值在采样后可能不同。

上面的公式推导最难理解的是第4行到第5行，很多人卡在这一步止步不前，下面我将给出详细的推导步骤并解释它是如何工作的：

我们设：
$α_{t} (1 - α_{t - 1}) ε_{t - 2} 1 - α_{t} ε_{t - 1} = X = Y$
即
$x_t=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\underbrace{\sqrt{\alpha_t(1-\alpha_{t-1})}\varepsilon_{t-2}}_X+\underbrace{\sqrt{1-\alpha_t}\varepsilon_{t-1}}_Y$
应用从重参数化技巧
$0 + α_{t} (1 - α_{t - 1}) ε_{t - 2} 0 + 1 - α_{t} ε_{t - 1} ⟹ X \sim N (0, α_{t} (1 - α_{t - 1}) I) ⟹ Y \sim N (0, (1 - α_{t}) I)$
设 $Z = X + Y$ ，我们知道，如果 $\sim \mathcal{N}(\mu_X, \sigma_X^2), \quad Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ ，则 $\sim \mathcal{N}(\mu_X+\mu_Y, \sigma_X^2+\sigma_Y^2)$

代入 $X$ 和 $Y$ 的实际数值可得
$μX=0μY=0σ2X+σ2Y=αt(1−αt−1)+(1−αt)=\cancelαt−αtαt−1+1−\cancelαt=1−αtαt−1$
所以 $\sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})I)$ ，应用重参数化技巧即可得到：
$\sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})I)=0+\sqrt{1-\alpha_t\alpha_{t-1}}\:\bar\varepsilon_{t-2}=\sqrt{1-\alpha_t\alpha_{t-1}}\:\bar\varepsilon_{t-2}$
这就得到了第五行的结果。

重复以上步骤，最终我们将得到一个仅取决于输入图像 $x_0$ 的公式：
$x_t=\sqrt{\bar{\alpha_t}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon \tag{3}$
这样我们就可以使用公式（3）在任何时间帧 $t$ 直接对 $x_t$ 进行采样，这极大提高了正向扩散过程的执行效率。

逆向扩散过程

在这里插入图片描述

图3. 逆向扩散过程

逆向扩散过程可以用下面的公式描述：
$q(x_{t-1}|x_{t}) = \mathcal{N}(x_{t-1};\tilde\mu_t(x_t, x_0),\tilde\beta_tI)$
与正向过程不同，我们不能使用 $q(x_{t-1}|x_t)$ 来逆转噪声，因为它很难处理（无法计算）。

因此，我们需要训练神经网络 $p_\theta(x_{t-1}|x_t)$ 来近似 $q(x_{t-1}|x_t)$ ：
$p_\theta(x_{t-1}|x_{t}) = \mathcal{N}(x_{t-1};\mu_\theta(x_t, t),\sum_\theta (x_t, t))$
近似值 $p_\theta
(x|xₜ) $服从正态分布，其均值和方差需要满足：
${μθ(xt,t):=˜μt(xt,x0)∑θ(xt,t):=˜βtI$

损失函数

我们可以将损失定义为负对数似然：
$\text{Loss} = -\log(p_\theta(x_0))$
其中 $p_\theta(x_0)$ 依赖于 $x_1, x_2, \dots, x_T$ ，因此处理起来很棘手。

不难发现，这里的设置与变分下界中的设置非常相似。因此我们可以绕开棘手的损失函数本身，转而优化变分下界。通过优化可计算下界，我们可以间接优化棘手的损失函数。

在这里插入图片描述

下面是变分下界的推导和展开：
$- lo g p_{θ} (x_{0}) ⋮ - lo g p_{θ} (x_{0}) ⋮ - lo g p_{θ} (x_{0}) \leq - lo g p_{θ} (x_{0}) + D_{K L} (q (x_{1 : T} ∣ x_{0}) ∣ ∣ p_{θ} (x_{1 : T} ∣ x_{0})) \leq E_{q} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} )}] \leq E_{q} [L_{T} D_{K L} (q (x_{T} ∣ x_{0}) ∣ ∣ p_{θ} (x_{T})) + t = 2 \sum T L_{t - 1} D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∣ ∣ p_{θ} (x_{t - 1} ∣ x_{t})) L_{0} - lo g p_{θ} (x_{0} ∣ x_{1})]$
其中 $\mathbb{E}_q\Big[\log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})}\Big]$ 就是变分下界；展开后的公式由3部分构成，我将其分别命名为 $L_T, L_{t-1}, L_0$ 。下面重点解释一下这3部分。

$L_T$ : 常数项

$L_T = D_{KL}(q(x_T|x_0)||p_\theta(x_T))$

由于 $q(x_T|x_0)$ 没有可学习的参数， $p_\theta(x_T)$ 只是一个高斯噪声概率，因此这一项在训练期间是一个常数，可以忽略。

$L_{t-1}$ : 逐步去噪项

$L_{t-1} = D_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))$

这一项对目标去噪步骤 $q$ 和近似去噪步骤 $p_\theta$ 进行比较。这里通过以 $x_0$ 为条件，让 $q(x_{t-1}|x_t, x_0)$ 变得易于处理。我们分别来看 $q$ 和 $p_\theta$
$q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1};\tilde\mu(x_t, x_0), \tilde\beta_tI)\\ \tilde\beta_t = \frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t} \sdot \beta_t\\ \tilde\mu(x_t, x_0) = \frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t + \frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}x_0\\ \vdots \\ \tilde\mu(x_t) = \frac{1}{\sqrt{\alpha_t}}\Big(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\varepsilon_t\Big)$
经过一系列的推导， $q(x_{t-1}|x_t,x_0)$ 的均值 $\tilde\mu_t$ 如上所示。其中 $x_0 = \frac{1}{\sqrt{\bar\alpha_t}}\Big(x_t-\sqrt{1-\bar\alpha_t}\varepsilon_t\Big)$ 。

为了逼近目标去噪步骤 $q$ ，我们只需要使用神经网络来逼近其均值。因此，我们将近似均值 $\mu_\theta$ 设置为与目标均值 $\tilde{\mu}_t$ 相同的形式（使用可学习的神经网络 $\varepsilon_\theta$ ）：
$\tilde{μ} (x_{t}) μ_{θ} (x_{t}, t) = \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ε_{t}) = \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ε_{θ} (x_{t}, t))$
目标均值和近似均值之间的比较可以使用均方误差 (MSE) 来完成：
$L_{t} = E_{x_{0}, ε} [\frac{1}{2 σ _{t}^{2}} ∣ ∣ \tilde{μ}_{t} (x_{t}) - μ_{θ} (x_{t}, t) ∣ ∣^{2}] = E_{x_{0}, ε} [\frac{1}{2 σ _{t}^{2}} ∣ ∣ \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ε_{t}) - \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ε_{θ} (x_{t}, t)) ∣ ∣^{2}] = E_{x_{0}, ε} [\frac{( 1 - α _{t} ) ^{2}}{2 α _{t} ( 1 - α ˉ _{t} ) σ _{t}^{2}} ∣ ∣ ε_{t} - ε_{θ} (x_{t}, t) ∣ ∣^{2}]$
上面公式中 $\frac{(1-\alpha_t)^2}{2\alpha_t(1-\bar\alpha_t)\sigma_t^2}$ 是个常数，可以忽略掉，因此简化后的逐步去噪损失为：
$L_t^{\text{simple}} = \mathbb{E}_{t \sim [1,T],x_0,\varepsilon_t}\Big[||\varepsilon_t-\varepsilon_\theta(x_t,t)||^2\Big]$
实践中，通过忽略加权项并简单地将目标噪声和预测噪声与 MSE 进行比较，可以获得更好的结果。

因此，事实证明，为了逼近所需的去噪步骤 $q$ ，我们只需要使用神经网络 $\varepsilon_\theta$ 来逼近噪声 $\varepsilon_t$ 。

$L_0$ : 重构项

这是最后一步去噪的重构损失，在训练过程中可以忽略，原因如下：

可以使用 $L_{t-1}$ 中的相同神经网络对其进行近似。
忽略它会使样本质量更好，且更易于实施。

简化损失函数

上面分别解释了 $L_T, L_{t-1}, L_0$ 。我们可以发现 $L_T$ 和 $L_0$ 都可以忽略，那么我们的损失函数就可以简化为:
$L_{\text{simple}} = \mathbb{E}_{t,x_0,\varepsilon}\Big[||\varepsilon_t-\varepsilon_\theta(x_t,t)||^2\Big]\\ x_t=\sqrt{\bar{\alpha_t}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

U-Net 模型

数据集

在每轮迭代：

为每个训练样本（图像）选择一个随机时间步长 $t$ 。
将高斯噪声（对应于 $t$ ）应用于每个图像。
将时间步长转换为嵌入（向量）。

在这里插入图片描述

训练

官方给出的训练算法如下：

在这里插入图片描述

下面详细解释一下训练步骤是如何工作的：

在这里插入图片描述

逆向扩散

在这里插入图片描述

我们可以使用上述算法从噪声中生成图像。下图是具体说明：

在这里插入图片描述

注意，在最后一步中，我们只是简单地输出学习到的均值 $\mu_\theta(x_1, 1)$ ，而不向其添加噪声。

总结

最后对本文的要点做一个总结：

扩散模型分为正向扩散和逆向扩散两部分。
正向扩散可以使用闭合的公式来完成。
可以使用经过训练的神经网络完成逆向扩散。
为了逼近去噪步骤 $q$ ，我们只需要使用神经网络 $\varepsilon_\theta$ 来近似噪声 $\varepsilon_t$ 。
对简化损失函数的训练产生更好的样本质量。

相关阅读:
企业云性能监控
基于元数据的无代码平台设计与开发概述
实战讲解Spring配置中心Config同步更新配置信息（图+文）
Visual Studio2022 离线安装包下载
商业银行云模式下的技术变革
【华为机试真题 Python实现】动态规划-如何写一个递归函数
ODrive移植keil（四）—— PWM触发ADC采样
C#.NET ORM 如何访问 Access 数据库 [FreeSql]
nx平台视频推流
linux 网络 cat /proc/net/dev 查看测试网络丢包情况

原文地址：https://blog.csdn.net/jarodyv/article/details/130903760

Diffusion Model 深入剖析