论文地址
论文代码
背景:
使用CLIP和GAN来完成T2I任务,一种常规的做法就是最大化输入文本与生成图像在CLIP空间上的得分,论文中把这个分数叫做sCLIPsCLIP,也就是最大化这两者的余弦相似度(这是CLIP的原理),可以用如下公式表达。
ξξ表示GAN的输入,一般就是高斯分布中随机采样的噪声,但是在这,作者使用的是BigGAN,他在论文中也说了,BigGAN的生成器的输入就是随机噪声和图像类别,还说了这个BigGAN是在ImageNet上训练的,包含了1000个类别。ττ就是文本描述。
如果单纯最大化这个sCLIP 分数就会有两个矛盾的