自动编码器网络是一种无监督的方法,旨在通过同时学习编码器-生成器图来结合生成和表示特性。虽然被广泛研究,但它们是否具有与GANs相同的生成能力,或者学习不相干的表征,这些问题还没有被完全解决。我们引入了一个自动编码器来共同解决这些问题,我们称之为对抗性潜自动编码器(ALAE)。它是一个通用架构,可以利用最近对GAN训练程序的改进。我们设计了两个自动编码器:一个基于MLP编码器,另一个基于StyleGAN的生成器,我们称之为StyleALAE。我们验证了这两种架构的解缠特性。我们表明,StyleALAE不仅可以生成1024x1024的人脸图像,其质量与StyleGAN相当,而且在相同的分辨率下还可以产生基于真实图像的人脸重建和操作。这使得ALAE成为第一个能够与纯生成器类型的架构相比较并超越其能力的自动编码器。
本文是一篇将GAN的训练思想与VAE相进行结合的文章,其推理过程如下:
即,输入图像
x
x
x,经过编码器
E
E
E编码后,得到潜空间的潜向量
w
w
w。由于
w
w
w是解缠的,因此当
w
w
w输入生成器
G
G
G后,同时对
G
G
G施加一定的噪声
η
\eta
η,那么得到的生成图像
G
(
w
,
η
)
G(w,\eta)
G(w,η)除了能够对
x
x
x进行重建(VAE的基本要求)之外,还要能对
x
x
x原有的某些属性进行修改。
其训练过程如下,可以看到就是把GAN的训练过程搬了过来,引入了额外的判别器
D
D
D:
首先,对于真实的图像
x
x
x,在经过编码器
E
E
E编码后,得到的潜向量(图中未标明)应被判别器
D
D
D判定为"真"。
与之相对的,对于随机噪声
z
z
z,其经过一个映射
F
F
F后,同样应得到一个潜向量
w
w
w。那么这个
w
w
w与噪声
η
\eta
η送入生成器
G
G
G进行生成后,得到生成图像
G
(
w
,
η
)
G(w,\eta)
G(w,η)。这个图像经过编码器
E
E
E进行编码,再次得到一个潜向量。那么这个潜向量应该满足两个性质:
①与生成前的潜向量
w
w
w保持一致(图中的
Δ
\Delta
Δ)。这样可以保证生成器
G
G
G是以
w
w
w为主进行图像重建,而非简单把
w
w
w和噪声
η
\eta
η给混在一起(直接混在一起的话编码器
E
E
E是没法从重建图像
G
(
w
,
η
)
G(w,\eta)
G(w,η)中重新把
w
w
w给提出来的)。
②应该尽可能像由真实图像编码出的潜向量相似,即应该骗过判别器
D
D
D。这么做其实也是间接约束生成的图像
G
(
w
,
η
)
G(w, \eta)
G(w,η)应该与真实图像
x
x
x相似。
从这里可以看到,ALAE的设计是比较巧妙的,在训练阶段是将噪声映射后送入生成器 G G G去生成,得到生成图像后,再编码,利用判别器判断其真实性,而非和GAN一样用判别器去直接判断图像本身是否生成;在测试阶段,则是按照传统的顺序,先用编码器 E E E编码,然后再用生成器 G G G生成。
按照原文的定义,其是将GAN中的生成器 G \mathcal{G} G和判别器 F \mathcal{F} F拆分为了两部分,即 G = G ∘ F \mathcal{G} = G \circ F G=G∘F, D = D ∘ E \mathcal{D} = D \circ E D=D∘E。