【扩散模型李宏毅B站教学以及基础代码运用】

B站DDPM公式推导以及代码实现：
Link2

这个视频里面有论文里面的公式推导，并且1小时10分开始讲解实例代码。
后面一段时间看了一些其他博客，更加明白了。
就是通过将概率变为均匀分布的形式。正向添加噪声通过重采样技巧可以直接从t和噪声得到。反向推的时候借助一个多条件分布，然后通过各种变换，求得这个概率分布的均值和方差，然后根据公式Sample。
https://segmentfault.com/a/1190000043744225 扩散模型(Diffusion Model)详解：直观理解、数学原理、PyTorch （代码实现）
https://blog.csdn.net/qq_40714949/article/details/126643111 简单基础入门理解Denoising Diffusion Probabilistic Model，DDPM扩散模型
https://blog.csdn.net/zhL816/article/details/127990163 DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述
https://blog.csdn.net/Little_White_9/article/details/124435560 VLB公式推导
思维图：
在这里插入图片描述

文章目录

扩散模型概念：

就像石头里面已经有了雕塑，只需要看我们怎么把其他多余的部分去掉。
在这里插入图片描述
注意观察，我们每一个Denoise阶段都不一样，因为每一个阶段传入的图片以及需要处理的noise都不一样，并且直接产生图片比直接产生噪音更难，所以我们通过预测noise来解决问题。

比如下图所示：step2是我们加的噪声，那么传入input和2的时候就希望预测出gt了，然后进行相减得到step1的图片。
在这里插入图片描述

Diffusion Model工作原理：

VAE和Diffusion的区别
在这里插入图片描述
先看整个训练过程:

实际结果和我们想的是不一样的。训练时通过X0和噪声得到一个图，逆向的时候输入t和生成的图来得到噪音。想象的是一点一点加入噪音，实际上是直接加进去的。在这里插入图片描述
推断时刻：theat是带有参数的网络。

影像生成模型本质上的共同目标

通过采样一个高深distribution生成一个图片。希望生成的图片和真实的图片的distribution很接近。
在这里插入图片描述
那么怎么衡量这两个分布的接近程度呢？多数采用的都是Maximum liklihood Estimation.
我们希望我们采样的数据能够通过theta网络计算出来的概率越大越好。
通过数学变换，将概率最大变为Pdata和Ptheat这两个distribution的KL散度最小。
在这里插入图片描述
VAE的下界
Ptheat(x)表示：通过theta产生x的概率。

在这里插入图片描述
DDPM计算Ptheta(x)的方法下图表示产生X0的概率。

两者对比

接下来需要计算q(x1|x0)此类公式。
计算方法：X1到X2的计算方法在论文中有提及。

两个高斯分布都是服从N(0,1),相加的话还是一个高斯分布，并且还是服从N（0，1）,只是前面系数会发生变化。系数的话是根号下面数字相加。所以相加之后均值还是为0，方差a方加b方即可，这个在另外一个视频里面有讲解。
在这里插入图片描述

在这里插入图片描述

经过一番推导之后得到：

之后计算最下面三项：

通过以下推导：

之后通过X0,Xt可以得到Xt-1的分布。

可以看到前面一项的mean 和 variance是固定的，第二项的variance也是固定的，因此我们需要把第二项的mean变得和第一项的接近。
在这里插入图片描述
那么怎么minimiaze这个mean呢？希望用Xt去预测出来那个mean。

经过推导：

最终得到下图：

里面beta可以学习，但是效果不好，所以使用线性固定。最后加上一个噪声猜测是为了增强鲁棒性，并且本身就是从噪声开始，不加噪声的话可能不会生成图片。

B站简单示例代码讲解

# 加载数据集
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_s_curve
import torch

s_curve,_ = make_s_curve(10**4,noise=0.1)
print(np.shape(s_curve))
s_curve = s_curve[:,[0,2]]/10.0

print("shape of s:",np.shape(s_curve))

data = s_curve.T

fig,ax = plt.subplots()
ax.scatter(*data,color='blue',edgecolor='white');

ax.axis('off')
 
dataset = torch.Tensor(s_curve).float()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

在这里插入图片描述

# 2确定超参数的值
num_steps = 100
#制定每一步的beta
betas = torch.linspace(-6,6,num_steps)
betas = torch.sigmoid(betas)*(0.5e-2 - 1e-5)+1e-5

#计算alpha、alpha_prod、alpha_prod_previous、alpha_bar_sqrt等变量的值
alphas = 1-betas
alphas_prod = torch.cumprod(alphas,0)
# print(alphas_prod)
alphas_prod_p = torch.cat([torch.tensor([1]).float(),alphas_prod[:-1]],0)
# print(alphas_prod_p)
alphas_bar_sqrt = torch.sqrt(alphas_prod)
one_minus_alphas_bar_log = torch.log(1 - alphas_prod)
one_minus_alphas_bar_sqrt = torch.sqrt(1 - alphas_prod)

assert alphas.shape==alphas_prod.shape==alphas_prod_p.shape==\
alphas_bar_sqrt.shape==one_minus_alphas_bar_log.shape\
==one_minus_alphas_bar_sqrt.shape
print("all the same shape",betas.shape)

、确定扩散过程任意时刻的采样值

#3 计算任意时刻的x采样值，基于x_0和重参数化
def q_x(x_0,t):
    """可以基于x[0]得到任意时刻t的x[t]"""
    noise = torch.randn_like(x_0)
    alphas_t = alphas_bar_sqrt[t]
    alphas_1_m_t = one_minus_alphas_bar_sqrt[t]
    return (alphas_t * x_0 + alphas_1_m_t * noise)#在x[0]的基础上添加噪声
j
# 4 演示原始数据分布加噪100步后的结果

num_shows = 20
fig,axs = plt.subplots(2,10,figsize=(28,3))
plt.rc('text',color='black')

#共有10000个点，每个点包含两个坐标
#生成100步以内每隔5步加噪声后的图像
for i in range(num_shows):
    j = i//10
    k = i%10
    q_i = q_x(dataset,torch.tensor([i*num_steps//num_shows]))#生成t时刻的采样数据
    axs[j,k].scatter(q_i[:,0],q_i[:,1],color='red',edgecolor='white')
    axs[j,k].set_axis_off()
    axs[j,k].set_title('$q(\mathbf{x}_{'+str(i*num_steps//num_shows)+'})$')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46