从零点五开始的深度学习笔记——VAE(Variational AutoEncoder) （一）预备知识

VAE-Variational AutoEncoder 学习笔记

1. VAE变分自动编码器
- 1.1 Stacked AutoEncoder 回顾
- 1.2 Variational AutoEncoder 结构
2. 预备知识
3. 总结

1. VAE变分自动编码器

变分自动编码器是生成模型（generative model）中常见的系列之一，常见的生成模型还有GAN。这篇博文主要参考了 Ahlad Kumar视频中对VAE核心公式的解释和推导，力图将完整的实现和推导过程整理成笔记。这篇笔记所整理的内容是2019年1月11日的一个Ahlad Kumar博主的VAE系列视频教程，除此之外还加入了一些个人的理解。我们将逐渐过渡到cVAE (conditional Variational AutoEncoder)。

视频参考链接：https://www.youtube.com/watch?v=w8F7_rQZxXk

1.1 Stacked AutoEncoder 回顾

下面的图片展示了Stacked AutoEncoder的结构图（来源为lilianweng github账号中的一张图片），主要包括一个编码器，一个bottleneck和一个解码器，任务目标是重建图像（看图中的Cost function），最终得到一个bottleneck，作为图像的低维表示。
Stacked AutoEncoders结构

1.2 Variational AutoEncoder 结构

VAE的主要结构与Stacked AutoEncoder的别无二致，区别在于，使用了概率论的相关知识去实现编码器，和解码器，而bottleneck部分则是通过才采样获得的。想要完全理解VAE，其核心在于理解Loss函数的构成。
在这里插入图片描述

2. 预备知识

废话不多说，我们先来充一下电，补充点预备知识，正如标题所说，是零点五起步的学习笔记，因此对某些内容将不做进一步的介绍。

2.1 概率

2.1.1 概率分布

$p (x)$ ：随机变量 $x$ 的概率。试想，如果一个变量是随机变化阴晴不定的，那我们应该如何描述和使用它？答案是期望，我们可以简单地认为一个随机变量的期望是确定的，具有统计学意义的（粗糙地理解为可被用于计算的）。一个随机变量的期望的计算公式可以有多种写法，离散的，连续的，还有各种简化的表示方法，下面我们将它用等号串起来：
$\mathbb{E}_p\left[x\right] = \mathbb{E}_{x\sim p}\left[x\right] = \int xp(x)dx = \sum_i^k x_ip(x_i)$
由上式，可以理解为一个随机变量的期望就是这个变量沿着概率分布的加权平均。其中，离散的概率分布函数简称pmf (probability mass function)，而连续的概率的分布函数简称pdf (probability density function)

2.1.2 条件概率

$p (x ∣ y)$ ：当 $y$ 事件发生（随机变量确定）时，随机变量 $x$ 的概率，也被称为条件概率。如下图不难理解，在不同事件发生的时候，x的概率是不同的。也就是说，由于引入了更多的信息（如哪个 $y$ 事件发生了）， $x$ 时间发生的概率也会随之更新，从而给出相对而言更加准确的预测。

2.1.3 贝叶斯定理（Baye’s theorem）

贝叶斯定理的公式如下，其中 $p (y ∣ x)$ 表示后验概率posterier probability， $p (y)$ 表示先验概率prior probability, $\frac{p(x|y)}{p(x)}$ 表示可能性比例likelihood ratio， $p (x, y)$ 叫联合概率分布joint probability distribution。

\begin{aligned} p (y | x) & = \frac{p (x | y) p (y)}{p (x)} = \frac{p (x, y)}{p (x)} \end{aligned}

p (y ∣ x) = \frac{p ( x ∣ y ) p ( y )}{p ( x )} = \frac{p ( x , y )}{p ( x )}

那么贝叶斯定理具体是怎么应用于生活实践中的呢？总的来说就是模型求逆的过程。首先我们得到一堆有

x

有

y

的数据，

y

是天气类型，如晴天，阴天，多云，大雨，暴雨等，

x

为前一天的气象参数，如气压，温度，湿度，风速等相关的信息。我们采集到了今天的气象数据

x

，明天应该是什么天气？这个问题在贝叶斯定理看来就是求解

p (y ∣ x)

的问题。我们可以通过历史数据，统计出不同天气出现的概率

p (y)

，以及出现不同天气时，前一天的气象参数出现的概率

p (x ∣ y)

。这时候，距离获得

p (y ∣ x)

仅仅一步之遥，也就是利用下面的全概率定理求解出不同气象参数出现的概率

p (x)

。

2.1.4 全概率定理（Theorem of total probability）

假设 $y_i$ (i=1,…,N)为N个互斥事件，那么 $x$ 事件发生的概率为：
$p(x)=\sum_i^N p(x|y_i)p(y_i)$

因此，上面的贝叶斯公式也可以写为：

p (y | x) = \frac{p (x | y) p (y)}{\sum_{i}^{N} p (x | y_{i}) p (y_{i})}

p (y ∣ x) = \frac{p ( x ∣ y ) p ( y )}{\sum _{i}^{N} p ( x ∣ y _{i} ) p ( y _{i} )}

2.2 矩阵迹计算技巧

如果 $x$ 是一个标量，那么他的期望等于他的迹， $\mathbb{E}[x]=\mathbb{E}[tr(x)]$
设 $A, B, C$ 维度兼容的矩阵，那么矩阵的运算满足，期望和迹可交换，迹中的三个连乘矩阵可按序循环交换：
$\begin{aligned} t r (A B) = & t r (B A) \\ t r (A B C) = & t r (B C A) = t r (C A B) \\ E [t r (x)] = & t r (E [x]) \end{aligned}$
期望计算的变换
$\mathbb{E}[x^TAx] =~\mathbb{E}[tr(x^TAx)] = \mathbb{E}[tr(Axx^T)] = tr(\mathbb{E}[Axx^T])$

2.3 KL散度 (Kullback-Leibler Divergence)

2.3.1 介绍

正常人看到KL都会想要问一句，什么是KL散度？从名字上面确实是看不出KL表达的是什么意思的，因为K->Kullback， L->Leibler是KL散度提出者名字的首字母，而散度divergence，可以理解为散开的程度。KL散度是计算两个概率分布之间的距离的度量。也就是说，两个概率分布相差约大，这个计算值因该越大，反之则越小，下面是计算公式：

D_{K L} (P | | Q) = \sum_{x} P (x) l o g (\frac{P (x)}{Q (x)})

D_{K L} (P ∣∣ Q) = x \sum P (x) l o g (\frac{P ( x )}{Q ( x )})

例子：假设有离散事件 $x$ 的可能取值为{0, 1, 2}, 概率分布 $P (x)$ 中 $P (0) = 0.36, P (1) = 0.48, P (2) = 0.16$ , 概率分布 $Q (x)$ 中 $Q(0)=Q(1)=Q(2)=\frac{1}{3}$ . 则 $P$ 和 $Q$ 的KL散度是多少？
我们已经是有计算机且会简单写点Python的成年人了，当然编程安排一下：

'''
Author       : Dianye Huang
Date         : 2022-08-23 10:04:45
LastEditors  : Dianye Huang
LastEditTime : 2022-08-23 10:21:41
Description  : 
'''

import math 
class MetricZoo(object):
    def __init__(self) -> None:
        pass
    
    @staticmethod
    def D_KL(P:list, Q:list):
        '''
        Description: 
            Kullback-Leibler Divegence which computes the distance 
            between two probability distributions. 
        @ param : P{list}    -- list of distribution  
        @ param : Q{list}    -- list of distribution
        @ return: dkl{float} -- a scalar 
        '''        
        dkl = 0 
        for p, q in zip(P, Q):
            dkl += p*math.log(p/q) # in math module, log -> ln
        return dkl

if __name__ == '__main__':
    mz = MetricZoo()
    P = [0.36, 0.48, 0.16]
    Q = [1/3]*3
    KL_P_Q = round(mz.D_KL(P, Q), 5)
    KL_Q_P = round(mz.D_KL(Q, P), 5)
    print(f'D_KL(P||Q): {KL_P_Q}')
    print(f'D_KL(Q||P): {KL_Q_P}')

    ''' ----- output
    D_KL(P||Q): 0.0853
    D_KL(Q||P): 0.09746 
    '''
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

2.3.2 KL散度的属性(properties)：

$\mathbb{D}_{KL} (P||Q) \ge 0$ ， $\mathbb{D}_{KL} (Q||P) \ge 0$
$\mathbb{D}_{KL} (P||Q) \neq \mathbb{D}_{KL} (Q||P)$ , 不满足对称性, 如上面代码的例子

2.3.3 多变量正态分布之间的KL散度计算

条件：
计算两个多变量正态分布(multi-variate normal distributions) $p (x)$ 和 $q (x)$ 之间的KL散度。

\begin{aligned} p (x) & = N (x; μ_{1}, Σ_{1}) \\ q (x) & = N (x; μ_{2}, Σ_{2}) \\ N (x; μ, Σ) & = \frac{1}{\sqrt{(2 π)^{k} | Σ |}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)) \end{aligned}

p (x) q (x) N (x; μ, Σ) = N (x; μ_{1}, Σ_{1}) = N (x; μ_{2}, Σ_{2}) = \frac{1}{( 2 π ) ^{k} ∣Σ∣} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))

其中，

\mu_1

,

\mu_2

为均值，

\Sigma_1

,

\Sigma_2

为协方差矩阵,

x\in\mathbb{R}^k

为满足分布的随机变量，

|\Sigma|

表示

\Sigma

的行列式。
结论：

p (x)

和

q (x)

的KL散度为：

\begin{aligned} D_{K L} (p (x) | | q (x)) = \frac{1}{2} [l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - k + t r (Σ_{2}^{- 1} Σ_{1}) + (μ_{2} - μ_{1})^{T} Σ_{2}^{- 1} (μ_{2} - μ_{1})] \end{aligned}

证明：
直接将两个概率分布的表达式套入KL散度的公式中，然后展开简化后即可得到结论的公式，这里需要应用到很多矩阵迹的运算技巧，在上一节的预备知识中可以查到。

\begin{aligned} l o g P (x) = & - \frac{k}{2} l o g (2 π) - \frac{1}{2} l o g (| Σ_{1} |) - \frac{1}{2} (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1}) \\ l o g Q (x) = & - \frac{k}{2} l o g (2 π) - \frac{1}{2} l o g (| Σ_{2} |) - \frac{1}{2} (x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2}) \\ μ_{1} = & E_{p} [x] = \sum_{x} P (x) x \\ Σ_{1} = & E_{p} [(x - μ_{1}) (x - μ_{1})^{T}] \end{aligned}

带入上式，可得：

\begin{aligned} D_{K L} (P | | Q) = & \sum_{x} P (x) l o g (\frac{P (x)}{Q (x)}) \\ = & \sum_{x} P (x) (l o g P (x) - l o g Q (x)) \\ = & \sum_{x} P (x) (- \frac{k}{2} l o g (2 π) - \frac{1}{2} l o g (| Σ_{1} |) - \frac{1}{2} (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1}) \\ + \frac{k}{2} l o g (2 π) + \frac{1}{2} l o g (| Σ_{2} |) + \frac{1}{2} (x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2}))) \\ = & \sum_{x} P (x) (\frac{1}{2} l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - \frac{1}{2} (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1}) + \frac{1}{2} (x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})) \end{aligned}

接下来的简化大法就需要用到矩阵迹的运算公式了，精华都在这张PPT中：
在这里插入图片描述

\begin{aligned} D_{K L} (P | | Q) = & \sum_{x} P (x) (\frac{1}{2} l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - \frac{1}{2} (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1}) + \frac{1}{2} (x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})) \\ = & \frac{1}{2} l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - \frac{1}{2} E_{p} [(x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1})] + \frac{1}{2} E_{p} [(x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})] \end{aligned}

D_{K L} (P ∣∣ Q) = = x \sum P (x) (\frac{1}{2} l o g (\frac{∣ Σ _{2} ∣}{∣ Σ _{1} ∣}) - \frac{1}{2} (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1}) + \frac{1}{2} (x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})) \frac{1}{2} l o g (\frac{∣ Σ _{2} ∣}{∣ Σ _{1} ∣}) - \frac{1}{2} E_{p} [(x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1})] + \frac{1}{2} E_{p} [(x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})]

其中，第一项期望展开后为：

\begin{aligned} E_{p} [- (x - μ_{1})^{T} Σ_{1}^{- 1} (x - μ_{1})] \\ = & E_{p} [t r ((x - μ_{1}) (x - μ_{1})^{T} Σ_{1}^{- 1})] \\ = & t r (E_{p} [(x - μ_{1}) (x - μ_{1})^{T}] Σ_{1}^{- 1}) \\ = & t r (Σ_{1} Σ_{1}^{- 1}) \\ = & t r (I_{k}) \\ = & k \end{aligned}

第二项期望展开后为：

\begin{aligned} \frac{1}{2} E_{p} [(x - μ_{2})^{T} Σ_{2}^{- 1} (x - μ_{2})] \\ = & E_{p} {\frac{1}{2} {[(x - μ_{1}) + (μ_{1} - μ_{2})]}^{T} Σ_{2}^{- 1} [(x - μ_{1}) + (μ_{1} - μ_{2})]} \\ = & E_{p} {\frac{1}{2} (x - μ_{1})^{T} Σ_{2}^{- 1} (x - μ_{1}) + (x - μ_{1})^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) + \frac{1}{2} (μ_{1} - μ_{2})^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2})} \\ = & t r {E_{p} [\frac{1}{2} Σ_{2}^{- 1} (x - μ_{1}) (x - μ_{1})^{T}]} + t r {{(E_{p} [x] - μ_{1})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2})} + \frac{1}{2} (μ_{1} - μ_{2})^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) \\ = & t r {\frac{Σ_{2}^{- 1} Σ_{1}}{2}} + 0 + \frac{1}{2} (μ_{1} - μ_{2})^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) \end{aligned}

带入上面所有的公式，最终可得：

\begin{aligned} D_{K L} (P | | Q) = & \frac{1}{2} l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - \frac{k}{2} + t r {\frac{Σ_{1}^{- 1} Σ_{2}^{- 1}}{2}} + \frac{1}{2} (μ_{1} - μ_{2})^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) \\ = & \frac{1}{2} [l o g (\frac{| Σ_{2} |}{| Σ_{1} |}) - k + t r (Σ_{2}^{- 1} Σ_{1}) + (μ_{2} - μ_{1})^{T} Σ_{2}^{- 1} (μ_{2} - μ_{1})] \end{aligned}

3. 总结

这篇博客主要记录了如何VAE的一些预备知识，尤其是记录了两个多变量正态分布的KL散度的计算的详细推导。后面的笔记将主要关注VAE提出的动机和主要思想，VAE网络权值优化的公式推导，VAE的编程实现，最后再过渡到cVAE。

最后，祝诸君周中愉快！

2022年8月24日
Dianye Huang

相关阅读:
python--Matplotlib数据可视化基础
Java 流(Stream)、文件(File)和IO
从 JPA 2.x 迁移到 3.0
【Python零基础入门篇 · 24】：面向对象的多态、静态方法和类方法
上周热点回顾（11.28-12.4）
第2章变量和基本类型读书笔记
如何优化负载均衡？一文讲懂
golang工程——opentelemetry简介、架构、概念、追踪原理
C/C++程序员可以躺平的技术岗位----音视频开发
设计模式-组合模式

原文地址：https://blog.csdn.net/huangdianye/article/details/126476880

从零点五开始的深度学习笔记——VAE(Variational AutoEncoder) （一） 预备知识