Scaling Autoregressive Models for Content-Rich Text-to-Image Generation
公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)
目录
我们提出了 Pathways (Dean, 2021) 自回归文本到图像 (Pathways Autoregressive Text-to-Image,Parti) 模型,该模型可生成高保真逼真图像,并支持涉及复杂构图和世界知识的内容丰富的合成。 Parti 将文本到图像的生成视为序列到序列的建模问题,类似于机器翻译,以图像标记序列作为目标输出,而不是另一种语言中的文本标记。 这种策略自然可以利用大型语言模型的丰富先前工作,这些模型通过扩展数据和模型大小在功能和性能方面不断取得进步。 我们的方法很简单:首先,Parti 使用基于 Transformer 的图像标记器(tokenizer) ViT-VQGAN 将图像编码为离散标记序列。 其次,我们通过将编码器-解码器 Transformer 模型扩展至 20B 参数来实现一致的质量改进,在 MS-COCO 上新的最先进的零样本 FID 得分为 7.23,微调后的 FID 得分为 3.22。 我们对 Localized Narratives 以及 PartiPrompts (P2)(超过 1600 个英语提示的新整体基准)进行了详细分析,证明了 Parti 在各种类别和难度方面的有效性。 我们还探索并强调我们模型的局限性,以便定义和举例说明进一步改进的重点关注领域。 请参阅 parti.research.google 以获取高分辨率图像。
人们通常能够通过书面或口头语言的描述来想象丰富而详细的场景。 支持基于此类描述生成图像的能力可能会解锁生活许多领域的创意应用,包括艺术、设计和多媒体内容创建。
另一条具有相当势头的研究涉及基于扩散的文本到图像模型,例如 GLIDE(Nichol 等人,2022)以及同期作品 DALL-E 2(Ramesh 等人,2022)(又名 unCLIP) 和 Imagen(Saharia 等人,2022)。

Parti 是基于 Transformer 的序列到序列模型 (Vaswani et al., 2017),该架构对于许多任务的性能至关重要,包括机器翻译 (Vaswani et al., 2017)、语音识别 (Zhang et al., 2017;Gulati 等人,2020)、会话建模(Adiwardana 等人,2020)、图像标题(Yu 等人,2022b)等等。


虽然最近的工作主要集中在 MS-COCO 基准测试上,但我们还表明,可以在 Localized Narratives 数据集上实现强大的零样本和微调结果(Pont-Tuset 等人,2020),该数据集的描述比 MS-COCO 的描述的平均长 4 倍。
我们的主要贡献包括:

与 DALL-E(Ramesh 等人,2021)、CogView(Ding 等人,2021)和 Make-A-Scene(Gafni 等人,2022)类似,Parti 是一个两阶段模型,由图像标记器和自回归模型组成,如图 3 所示。
自回归文本到图像模型必须将 2D 图像线性化为补丁表示的 1D 序列。
为了对第二阶段模型最有用,图像标记器需要学习一个有效的视觉码本,该码本支持在广泛的图像中平衡使用其条目。
我们在放大时注意到 ViT-VQGAN 的一些输出图像中的视觉像素化图样(参见附录 H),并进一步发现 sigmoid 激活函数之前的输出投影层的病态权重矩阵。 作为修复,我们删除了最终的 sigmoid 激活层和 logit-laplace 损失,将原始值暴露为 RGB 像素值(范围 [0, 1])。 方便的是,通过微调解码器,此修复可以热插拔到已经训练好的图像标记器中。

最后,虽然 256×256分 辨率的图像捕捉了大部分内容、结构和纹理,但更高分辨率的图像具有更大的视觉冲击力。 为此,我们在图像标记器之上采用了一个简单的超分辨率模块,如图 4 所示。遵循 WDSR(Yu et al., 2018)(12 个残差块,128 个通道),具有残差连接的堆叠卷积层被用作超分辨率网络模块。 它是通过与 ViT-VQGAN 相同的损失(感知损失、StyleGAN 损失和 ℓ2 损失,具有与(Yu 等人,2022a)中相同的损失权重)学习的,从重建图像映射到更高分辨率的重建图像。 超分辨率模块对于 512×512 版本有约 15M 参数,对于 1024×1024 版本有约 30M 参数。 我们注意到,扩散模型也可以在这里用作迭代细化(iterative refinement)超分辨率模块,正如 DALL-E 2(Ramesh 等人,2022)和 Imagen(Saharia 等人,2022)中所演示的那样,无论有或没有以文本输入为条件。
如图 3 所示,通过将文本到图像视为序列到序列建模问题,在第二阶段训练标准编码器-解码器 Transformer 模型。 该模型以文本作为输入,并使用第一阶段图像标记器生成的光栅化图像潜在编码的下一个标记预测进行训练。 对于文本编码,我们在训练数据的采样文本语料库上构建了词汇量为 16,000 的句子片段模型(Sennrich et al., 2016;Kudo & Richardson, 2018)(第 4.1 节)。 图像标记由学习的 ViT-VQGAN 图像标记器生成(参见第 2.1 节)。 在推理时,模型对图像标记进行自回归采样,随后使用 ViT-VQGAN 解码器将其解码为像素。

我们使用文本标记的最大长度为 128,图像标记的长度固定为 1024(即来自 256 × 256 输入图像的 32 × 32 潜在编码)。 例如,图 1 中给出的 Starry Night 提示的 67 个单词描述的总长度为 92 个文本标记。 所有解码器 transformers 都使用卷积形状的掩码稀疏注意力(masked sparse attention)(Child et al., 2019),并遵循 DALL-E 实现(Ramesh et al., 2021)(详细信息可以在(Ramesh et al., 2021)的附录 B.1 图 11 中找到)。 我们训练了四种大小变体,参数范围从 3.5 亿到 200 亿个参数不等,如表 1 所示。具体来说,我们按照之前扩展语言模型的实践来配置 Transformer,在 MLP 维度中默认扩展率为 4 倍。 当模型尺寸加倍时,我们将头(head)数量加倍。 在当前的扩展变体中,我们的配置更喜欢更大的解码器来建模图像标记,因此解码器具有更多层(例如,3B 模型中的 3 倍和 20B 模型中的 4 倍)。
大多数现有的两阶段文本到图像生成模型,包括 DALL-E (Ramesh et al., 2021)、CogView (Ding et al., 2021) 和 Make-A-Scene (Gafni et al., 2022) ),是仅解码器模型。 我们发现,在 3.5 亿到 7.5 亿个参数的模型规模下,Parti 的编码器-解码器变体在训练损失和文本到图像生成质量方面都优于纯解码器变体。 因此,我们选择专注于扩展编码器-解码器模型。
编码器-解码器架构还解耦文本编码与图像标记生成,因此可以直接探索使用预训练文本编码器热启动模型。 直观地说,对于基于通用语言训练获得的表示,使用该表示的文本编码器应该更有能力处理基于视觉的提示(参见 Imagen)。 我们在两个数据集上对文本编码器进行预训练:具有 BERT(Devlin et al., 2019)预训练目标的 Colossal Clean Crawled Corpus (C4)(Raffel et al., 2020),以及具有对比学习目标(不使用对比预训练的图像编码器)的我们的图像文本数据(参见第 4.1 节) 。 预训练后,我们继续训练编码器和解码器,以在 8192 个离散图像标记的词汇表上使用 softmax 交叉熵损失来进行文本到图像生成。

预训练后的文本编码器在 GLUE 上的性能与 BERT(Devlin 等人,2019)相当(参见附录 G,表 9); 然而,在文本到图像生成的完整编码器-解码器训练过程之后,文本编码器性能下降。 我们将此观察作为未来关于通用语言表示和基于视觉的语言表示的差异和统一的研究主题。 尽管如此,文本编码器预训练对 3B 参数 Parti 模型的文本到图像生成损失略有帮助,因此我们的 20B 模型默认使用预训练。 我们在附录 G 中提供了详细的训练损失、文本编码器的 GLUE 评估以及一些定性比较。
无分类器指导(Ho & Salimans,2021)(简称 CF-指导)对于提高没有预训练分类器的扩散模型的样本质量至关重要(Nichol 等人,2022 年;Ramesh 等人,2022 年;Saharia 等人,2022 年)。 在此设置中,生成模型 G 被训练为能够执行无条件生成 G(z)(其中 z 代表随机噪声)和条件生成 G(z, c)(其中 c 代表某些条件,例如语言描述)。 它被实现为以一定概率随机丢弃条件向量(掩蔽或切换到学到的嵌入)。 在推理过程中,输出 I 的采样是通过使用无条件和条件预测的线性组合来完成的:
![]()
其中 λ 是一个超参数,表示无分类器指导的权重。 直观上,它降低了样本的无条件似然,同时增加了条件似然,这可以被视为鼓励生成的样本和文本条件之间的对齐。
无分类器指导在文本到图像生成的自回归模型中也得到了类似的应用(Crowson,2021;Gafni 等人,2022),效果很好。 Make-A-Scene(Gafni 等人,2022)通过用填充标记随机替换文本提示来微调模型。 在推理过程中,标记是从无条件模型和以文本提示为条件的条件模型中采样的 logits 的线性组合中采样的。 我们还在 Parti 中应用了 CF-guidance,发现它在输出图像-文本对齐方面有显着改进,尤其是在具有挑战性的文本提示上。 对于无条件输入,我们简单地将文本标记 id 设置为零,将文本标记填充设置为 1。
对于每个文本提示的批量采样图像,DALL-E(Ramesh 等人,2021)中使用了对比重排序,它在生成后计算图像-文本对齐分数。 我们在工作中应用对比重排序,发现它是对无分类器指导的补充。 与 DALL-E(Ramesh 等人,2021)中使用的 512 个图像相比,我们在本文报告的实验中每个文本提示仅采样 16 个图像。 我们根据对比标题模型 (Contrastive Captioners model,CoCa) 的图像和文本嵌入的对齐分数对每个输出集进行重新排序(Yu 等人,2022b)。 CoCa 基本尺寸模型((Yu 等人,2022b)中的表 1)在相同的数据集上进行训练,详细信息请参见第 4.1 节。 我们注意到,在文本到图像采样过程中,对一小组批量采样图像进行重新排序计算量最小,并且在不同图像输出之间产生有用的图像文本对齐分数。
我们在 Lingvo(Shen 等人,2019)中实现模型,并在 CloudTPUv4 硬件上使用 GSPMD(Xu 等人,2021)进行扩展,以进行训练和推理。 GSPMD 是一个基于 XLA 编译器的模型分区系统,它允许我们将 TPU 集群视为单个虚拟设备,并在几个张量上使用分片注释(sharding annotations)来指示编译器在数千个设备上自动分发数据和计算。

训练。 我们简单地使用数据并行性来训练 350M 和 750M 模型。 对于3B模型,我们使用 4 路层内模型并行(见图 5)和 128 路数据并行。 在每个张量中划分单个维度足以缩放 3B 模型。 模型权重根据前馈隐维度和注意力头数量维度进行划分; 前馈层和注意力层的内部激活张量也在隐层和头部维度上进行划分。 与 Megatron-LM(Shoeybi 等人,2019)的一个区别是,我们在不同维度上完全划分前馈层和注意力层的输出激活,详细信息如 GSPMD 工作中的 finalized 2d sharding 所示(Xu 等人, 2021)。 该策略将导致采用 ReduceScatter 和 AllGather 通信模式而不是AllReduce,从而显着减少峰值激活内存。

20B模型有 16 个编码器层和 64 个解码器层(见表1)。 每层权重的大小适中(而不是非常宽),这使得管道并行性(Huang et al., 2018)成为缩放的一个不错的选择。 我们使用通用的流水线包装层(wrapper layer),允许我们指定单阶段程序,稍后将自动转换为多阶段流水线程序; 包装层使用矢量化和移位缓冲区(shifting buffers)把流水线转换为张量划分问题(参见 (Xu et al., 2021) 的第 3.3 节)。 因此,在流水线中,所有较低级别的基础设施都可以复用。 采用 GSPMD 流水线还有两个额外的好处:1)它允许我们在模型子组件中方便地配置流水线,从而简化编码器-解码器模型的整体复杂性;2)由于流水线是作为矢量化程序上的张量分区来实现的,因此我们可以将同一组设备复用于 transformer 层之外的其他类型的并行性。

我们将模型配置为具有独立的编码器和解码器管道,每个管道有 16 个阶段。 除了流水线之外,我们还使用 64 路数据并行。 然而,这使得每个核心的批量大小变小,从而暴露出由于级间数据依赖性(称为管道并行性中的气泡(Huang et al., 2018))而导致管道过度停顿的额外挑战。 为了减少气泡的比例,我们在解码器管道中采用了 (Xu et al., 2021) 中描述的循环调度((Narayanan et al., 2021) 中也提出了类似的技术),其中每个阶段的 4 层都按循环顺序执行。 在编码器和解码器之外,我们使用同一组设备来实现数据并行,而不是使用嵌入、softmax 和图像标记器层的流水线。 图 6 说明了总体分布式训练策略。
在训练过程中,使用 Adafactor (Shazeer & Stern, 2018) 优化器来节省内存,β1 = 0.9,β2 = 0.96,解耦 weight decay 值为 4.5 × 10−2。 优化器间隙变量(optimizer slot variables)的一阶矩也从 float32 量化为 int8。 我们对编码器和解码器中的所有模型使用默认的 dropout ratio 0.1。 20B 模型中使用了确定性版本的 Dropout 层以及矢量化版本的 Adafactor 优化器,以支持训练流水线模型。 注意力投影和前馈变压器层的数据类型被转换为 bfloat16,而所有层规范和模型输出都保留为 float32。 我们使用 4.5e-5 的默认学习率和具有 5,000 个预热步骤的指数学习率计划。 指数衰减从训练步数 85,000 开始,总共 450,000 步,最终比率为 0.025。 我们在训练期间使用全局批量大小 8192。 我们不使用模型权重的指数移动平均值,从而节省设备内存。 解码器 transformer 中使用了卷积形稀疏注意力,类似于DALL-E(Ramesh等人,2021)(附录B.1.架构,图11)。 我们另外将梯度范数修剪为 4.0 以稳定训练,尤其是在开始时。 在编码器和解码器的输出处,我们应用了附加层归一化。
推理。 我们推理优化的主要目标是加速小批量图像生成。 我们为 3B 和 20B 模型选择层内模型并行性。 与训练相反,我们没有完全划分前馈层和注意层的输出激活以进行推理; 这是因为 1) 自回归解码的每一步都会产生更小的张量,并且 AllReduce 目前(at the time of writing)在小数据上表现更好,2) 推理过程中无需考虑激活内存,因为推理过程没有向后传递。
我们对所有 Parti 模型的图像文本数据集组合进行训练。数据包括公开可用的 LAION-400M 数据集(Schuhmann 等人,2021); FIT400M,用于训练 ALIGN 模型(Jia 等人,2021a)的完整 18 亿个示例的过滤子集; JFT-4B 数据集(Zhai et al., 2022),其中包含带有文本注释标签的图像。 对于 JFT 的文本描述,我们在原始标签作为文本(如果图像有多个标签则连接)或来自 SimVLM-Huge 模型(Wang 等人,2022)的机器生成的标题之间进行随机切换。 我们在第 8 节中讨论数据的局限性。对于所有图像输入,我们遵循 DALL-E dVAE 输入处理((Ramesh 等人,2021)中的第 A.2 节,训练)进行图像标记器训练和 DALL- E Transformer 输入处理((Ramesh 等人,2021)中的第 B.2 节,训练)用于编码器-解码器训练。

我们在 MS-COCO (2014) (Lin et al., 2014) 和 Localized Narratives (Pont-Tuset et al., 2020) 上评估我们的模型,总结在表 2 中。MS-COCO 是当前用于测量零样本和微调的文本到图像生成性能的标准数据集,这使其成为与之前的工作进行比较的一致点。 然而,MS-COCO 标题是对其相应图像的简短、高级的表征。 为了进行更全面的评估,我们还使用 Localized Narratives (LN-COCO) 的 COCO 部分,它提供了与 MS-COCO (2017) 数据集相对应的图像的更长、更详细的描述,并对比 Parti 与 ( Koh 等人,2021;Zhang 等人,2021) 在 LN-COCO 上的性能。 这些长格式描述通常与用于训练大型文本到图像生成模型的描述有很大不同。 这提供了对域外分布的泛化度量,以及这些模型的微调能力。 无论社区当前对零样本性能的关注如何,有效微调的能力对于调整开放域文本到图像生成模型以适应特定应用或领域也很重要。
MS-COCO(Lin 等人,2014)和 Localized Narratives(Pont-Tuset 等人,2020)等现有基准对于衡量文本到图像合成系统的进度显然很有用,但其中可用的描述通常仅限于自然图像中的日常场景和物体。 这限制了它们对广泛提示的表示 - 特别是,它们缺乏允许我们更好地探索开放域文本到图像生成的模型功能的提示。 例如,MS-COCO 标题是图像中高级的参与者和动作的简要表征; 这些通常涵盖常见场景并面向对象。Localized Narratives 具有高度详细的描述,但也强调自然场景和物体。 最近,(Park et al., 2021)的工作重点是文本到图像的生成任务,但仅限于两种场景,未见过的对象颜色(例如“蓝色花瓣”)和对象形状(例如“长喙”)。 受这些缺点的启发,我们提出了 PartiPrompts (P2),这是一组 1600 种不同的英语提示,使我们能够更全面地评估和测试文本到图像合成模型的极限。


P2 基准测试中的每个提示都与两个标签相关联:(1) 类别,指示提示所属的广泛组;(2) 挑战,突出显示使提示变得困难的方面。 表 3 提供了 P2 中使用的一些类别示例(共 12 个选项),范围从 “黄金比例” 等抽象概念到 “纽约市天际线” 等具体的世界知识概念。 类似地,表 4 列出了挑战方面的样本(共 11 个),从基本的 “兔子” 到复杂的例如《星夜》这幅画的完整描述(“蓝色夜空的布面油画 ……一座教堂拔地而起,就像一座灯塔,映衬着连绵起伏的蓝色山丘。”) 例如,提示 “宁静的湖边风景,蜥脚类恐龙正在迁徙” 被归类为 “户外场景”,而其挑战方面则是 “想象力”。 类似地,提示 “7 只狗坐在扑克桌周围,其中两只正在转过身” 将动物作为类别,将数量作为挑战方面。 提示的这两个视图使我们能够从两个方面分析模型的功能——生成的整体内容和捕获的微妙细节。

我们通过思考新颖的提示以及从最近的论文(Ramesh 等人,2021;Ding 等人,2021;Gu 等人,2022;Nichol 等人,2022;Ramesh 等人, 2022)中手动策划和采样提示(约占 P2 中提示的 7%)来创建 PartiPrompts。
虽然可以为提示分配多个类别和挑战方面,但我们选择通过手动决定每个提示的单个主要类别和挑战方面来降低模型分析的复杂性。
图 7 突出显示了 1600 个提示中类别标签和挑战方面的分布。 人们可以根据挑战方面将这些提示分为不同的难度级别:标准包括 Basic 和 Simple Detail(约占提示的 1/3); 中级包括 Fine-grained Detail 和 Style & Format(也是约 1/3 的提示); 挑战包括 Imagination,Quantity,
Complex,和 Linguistic Structures 等其余 7 个挑战方面。
还值得一提的是 DrawBench,这是一个同时期开发的包含 200 个提示的基准(Saharia et al., 2022)。 它有 11 个标签,混合了类别(例如“DALL-E”)和具有挑战性的方面(例如“计数”)。 相比之下,PartiPrompts 将这两个维度分开,有 12 个类别和 11 个具有挑战性的方面,允许更丰富的提示分类和更细粒度的分析,以及 8 倍以上的提示。 这两个基准测试都包含对当前最佳模型(包括 DALL-E2、Imagen 和 Parti)提出强大挑战的提示,并希望能够激发进一步的基准,以随着未来模型的不断改进而增加难度。
我们对 MS-COCO 和 Localized Narratives 进行自动评估,以与之前的工作进行比较。 在 MS-COCO 和 PartiPrompts 上,我们还获得了对 Parti 20B 的人类并行评估,以与强大的检索基线以及 XMC-GAN 模型(Zhang 等人,2021)进行比较。XMC-GAN 模型在目前(at the time of writing)所有公开可用的模型中具有最佳 FID。 我们还在 PartiPrompts 上对参数为 3B 和 20B 的两个 Parti 模型进行了人工评估,并提供了详细的类别细分。 默认情况下,Parti 对每个文本提示采样 16 个图像,并使用 CoCa 模型对输出进行排名(参见第 2.4 节)。
也许文本到图像生成模型最引人注目的用途是为从未描述过的情况创建新颖的图像。 因此,强大的模型应该比简单地从大型数据集中检索候选图像的方法更有效。 我们按如下方式实现检索基线。
为了与 Parti 生成的图像进行比较,我们在两种设置下报告检索基线结果,我们将其描述为零样本和微调以与模型评估术语保持一致。 对于 MS-COCO,对我们的训练数据的检索是“零样本”,而对 MS-COCO 的训练分割的检索是“微调的”——分别对应于数据集外和数据集内的检索。 我们使用自动测量和人工评估将 Parti 生成的图像与检索到的图像进行图像真实性和图像文本对齐的比较。
我们使用两个主轴进行评估:(1) 生成的图像质量,以及 (2) 生成的图像与输入文本的对齐情况。 我们报告自动定量指标和人工评估结果。 此外,我们还展示了用于定性评估和比较的示例模型输出。
自动图像质量。与文本到图像生成方面的先前工作类似,我们使用 Fréchet Inception Distance (FID)(Heusel 等人,2017)作为测量图像质量的主要自动化指标。
自动图像文本对齐。遵循 DALL-Eval(Cho 等人,2022),我们还通过自动标题评估(或标题器评估)来测量文本图像拟合:模型输出的图像使用预训练的 VL-T5 模型(Cho 等人, 2021)获取标题,然后通过 BLEU (Papineni et al., 2002)、CIDEr (Vedantam et al., 2015)、METEOR (Denkowski & Lavie, 2014) 和 SPICE (Anderson 等人,2016) 评估输入提示和生成的标题的相似性。
人类并排评估。 我们遵循之前的工作(Zhang et al., 2021;Ramesh et al., 2021)进行并行评估,其中人类注释者会针对同一提示提供两个输出,并被要求选择哪个输出图像质量更高(通常,图像真实感更好)并且与输入提示更匹配(图像文本对齐)。 这些模型是匿名的,每次向注释者呈现时,模型对都是随机排序的(左与右),每对模型都由五个独立的注释者进行判断。 我们以图形方式显示每个模型根据获得 0、1、2、3、4 或 5 票的示例数量逐步细分的结果。 此外,我们突出显示每个模型获得多数票(三票或更多票)的示例百分比,作为比较的总结。 请参阅附录 E 查看我们的注释器界面的屏幕截图。

表 5 展示了我们自动图像质量评估的主要结果。
对于 LN-COCO,Parti 的微调 FID 得分为 8.29,这比 XMC-GAN 的微调结果 14.12 和检索基线 16.48 有了巨大的进步。 此外,Parti 的零样本 FID 分数为 15.97,几乎与 XMC-GAN 的微调分数(在 LN-COCO 集上训练)相匹配。 我们与 XMC-GAN 进行可视化并进行并排比较,发现与 XMC-GAN 生成的图像相比,Parti 生成的零样本图像在真实性和图像文本拟合方面质量要好得多,我们将其作为警示故事提供:研究人员不应仅仅依赖 FID 来比较文本到图像生成模型。

自动图像文本对齐评估。 表 6 提供了 Parti 对标题器评估(Cho 等人,2022)作为自动图像文本对齐措施的结果。

人类评价。 对于 MS-COCO,我们将零样本生成结果与微调的 XMC-GAN(Zhang 等人,2021)模型进行比较,该模型在具有相同 MS-COCO 提示的可用图像的所有目前公开可用模型中,具有最佳的 FID。

模型扩展比较。我们比较了 Parti 的四种不同模型大小,参数计数范围从 350M、750M 到 3B 和 20B,如表 1 所示。所有四个模型均在相同混合数据集上进行训练,且具有第 2.4 节描述的相同图像标记器和 CoCa 重排序模型。




人类评估。 除了 MS-COCO 之外,我们还对 P2 基准进行人类评估,将我们的 20B 模型与 3B 变体和检索基线进行比较。

为了更好地理解 20B 相对于 3B 模型的改进,图 12 在跨 P2 类别(左)和挑战方面(右)的图像文本匹配方面进一步细分了 20B 模型的人类偏好。
定性比较。


图 10 清楚地显示了当我们扩大模型尺寸时质量的提高。


图 13 从不同的角度检查了模型,证明 P2 中的简短提示也可能非常具有挑战性。
在本节中,我们将讨论我们选择的示例,然后逐步介绍如何使用复杂的提示,最后提供 Parti 限制的详细说明(带有示例)。
在图 1 和图 2 中(以及附录中图 16、图 17 和图 19 中的其他示例),我们希望具体传达 Parti 的一些优势,包括处理复杂提示、多种视觉风格、图像中的文字、世界知识等等。

图 1 的顶行显示了包含梵高画作《星夜》的非常长且复杂的描述的模型 - 输出全部来自同一批次,并显示出相当大的视觉多样性。 其他行表明该模型可以将著名的地标放在共同的场景中并调整风格。


图 2 显示了用于棘手或复杂提示的单个图像:
与最近关于文本到图像生成的其他工作一样,本文包括新颖的图像以及为模型生成图像提供的复杂提示,如上一小节所述。 当然,如标题中所述的最具挑战性和最令人印象深刻的例子会被选择(即精心挑选(cherry picked))。 因此,它们通常不代表,例如,单次交互,其中模型直接生成这样的图像作为其排名最高的输出。 正如第 8 节所述,我们无法直接向公众发布我们的模型,因此在本节中,我们希望提供一个简短的窗口,了解 Parti 增加描述性和视觉复杂性的过程,包括事情如何沿着进展顺利进行,或者不能立即发挥作用。
我们想在这项工作中引入的一个关键概念是种植樱桃树(growing the cherry tree)——我们相信这个概念将在这个领域的发展中发挥作用。


作为一个具体示例,考虑开发复杂提示的过程,如图 14 所示。这显示了创建提示变体的分支和合并过程,每个提示有两个输出。 在带有提示的每个框中,左侧给出前八个 20B Parti 输出中最好的(按所有输出排名),右侧给出前八个中最差的。
我们希望此图及其描述能够让您了解这样的模型在添加细节和改写提示时如何响应。 从某种意义上说,这是模型暗中流传(whispering)的一种形式,因为人们将这些模型延伸到了极限。 也就是说,模型可以轻松容纳多少描述性的复杂性和多样性,这通常是值得注意的。 在下一节中,我们将指出 Parti 模型仍然系统性地遇到困难的特定领域,因此是需要改进的关键领域。


目前,Parti 在许多情况下处理得不好或不一致,或者导致输出中出现有趣的模式,甚至产生一些错误(有时可能会令人愉快)。 所有这些错误的可能性随着复杂性的增加而增加。 图 15 提供了示例提示和图像,并提及了它们所例证的特定故障模式。 请注意,这些示例不是精选的,它们通常在输出中排名较低,并且在许多情况下(尽管不是全部)模型会为提示生成排名较高且高质量的输出。我们列出了故障模式并在此处进行讨论。 除非另有说明,均参考图 15,并以面板(大写字母)和图像 (a-d) 形式给出。
注:有些提示无法在图中显示。 他们是:
颜色渗漏。 当在描述中为一个对象提供颜色或颜色与该对象本身密切相关,但未为其他对象指定颜色时,它通常会蔓延到未指定的对象。 例如,棒球在有网球的情况下会变成黄色 (A(b,c)),或者皇冠会被赋予衬衫的颜色 (D(a,d))。
特征混合。 类似地,当两个所描述的对象具有某些相似性时,它们可以融合为一个对象或合并另一个对象的属性。 例子包括带有网球绒毛的棒球 (A(b,c))、大金字塔和珠穆朗玛峰的混合体而不是并置 (B(c,d)),以及将大众车标融合到苏格兰裙的毛皮袋中 ( 图 14,方框 4b、4c、5a)。
细节的遗漏、幻象或重复。 特别是在复杂的场景中,模型有时会忽略一些提到的细节、重复它们或产生未提到的幻象的事物。 例如,A(d) 中丢失的棒球、D(a,c) 中丢失的航天飞机、I(b) 中丢失的马车和雕像以及 H(d) 中包含的眼镜(幻象)。
偏移的位置或交互。 对象有时会被放置在错误的位置(尤其是在提示复杂性增加的情况下)。 示例包括 C(a,c,d) 中未与飞机缠斗的甲虫、D(b,d) 中的航天飞机和航天飞机图、H(a) 中的草和裂缝以及地球在 I(b) 中的位置。
计数。Parti 可以可靠地生成最多七个相同类型的对象(当没有像面板 A 中那样指定其他对象或混合其他细节时)。 除此之外,它大多是不精确的。
空间关系。 虽然模型通常正确地描绘了指定为彼此上方或下方的对象,但它仍然不一致,并且通常是随机的左侧与右侧。 当涉及对象组(例如 A(a) 和 F(a,b))之间的空间关系时,这些失败尤其复杂。
否定和缺失。Parti 倾向于绘制提到的物品,即使提示说缺少某样东西。
视觉外观和媒体混合不正确。特别是在涉及混合媒体类型的场景中,例如照片般逼真的物体以及墙上的文字和绘画,某些物品将从被描绘为物体跳到被描绘为绘画,反之亦然。
强烈的视觉先验。某些配置和视觉特征密切相关,以至于很难将模型推离它们,特别是在面对描述中的其他复杂性时。
强烈的语言先验。某些术语与特定实体或词义高度相关。
文本渲染错误。
使用提及错误。 该模型可以在图像上渲染文本,但有时它会生成图像(使用)而不是文本(提及)(例如,H(b) 中的飞机图),反之亦然(在 T 恤上渲染航天飞机而不是绘制一个- 与 D 相关的另一个输出,但未显示)。
解耦多个实体。 该模型通常能够将大量细节打包到包含单个实体的图像中,但当存在多个关键实体时,会面临更大的挑战。
风格丢失。Parti 可以可靠地产生多种风格,例如点画派(pointillism)和木刻,但立体主义和超现实主义等其他风格往往会丢失更深层次的风格,特别是当应用于复杂的场景时。
不可能的场景。
缩放和透视。 Parti 经常产生过于放大的输出,例如,仅显示车辆或主题的一部分。 虽然它可以响应缩小、四分之三视图、广角镜头等指令,但这仍然经常导致拍摄对象被裁剪。 为了确保更广阔的视野,通常需要使用其他细节,例如在主题上添加鞋子以获取脚或添加对田野和花朵的描述以获取整个长颈鹿(如 G(c,d) 中所做的那样)。
动物主角。
详细或棘手的视觉效果。 让模型对提示做出反应是非常困难的,例如来自拼图(及其变体)的一只熊:人们可能想要一个熊的一部分像埃舍尔(Escher)的看起来真实图像,而其他部分则是拼图的一部分。 一般来说,控制这种细粒度的规范似乎超出了当前的模型,并且可能在交互式编辑设置中得到更好的服务。
常见的误解。一些视觉世界知识在更广阔的世界中被错误地理解,这部分反映在数据中,然后反映在模型中。
我们希望这些观察和对限制和错误类型的细分,以及它们在许多 PartiPrompt 中的对应关系,对于我们在本文展示的结合强大功能以及启发未来改进文本到图像生成模型的工作都是有用的。 从这个角度来看,还值得回顾一下 WordsEye (Coyne & Sproat, 2001),这是一个 2001 年构建的自动文本到场景系统。
文本到图像的生成。 文本到图像生成的任务解决了从自然语言描述合成真实图像的问题。 成功的模型可以实现许多创造性的应用。
图像标记器。之前的工作探索了通过学到的深度神经网络将图像标记为离散的潜在变量。
除了上面介绍的模型功能和评估之外,用于文本到图像生成的大型模型还需要考虑更广泛的问题。
创造力和艺术。 机器学习模型能够使用语言描述生成新颖、高质量的图像,为人们创造独特且美观的图像(包括艺术图像)开辟了许多新的可能性。
评估使用机器学习模型创作的作品的设计优点或艺术优点(或缺乏)需要对多年来基于算法的艺术、模型本身、涉及的人员以及更广泛的艺术环境有细致的了解(Browne,2022)。 模型的艺术输出范围取决于训练数据,这可能对西方图像存在文化偏见,并且可能阻止模型像人类艺术家那样展示全新的艺术风格(Srinivasan & Uchino,2021)。
视觉(错误)沟通。
深度造假(Deepfake)和虚假信息。 鉴于模型输出的质量足以与真实照片相混淆,而且由于输出质量和真实感正在迅速提高,因此使用此类技术来创建深度造假显然令人担忧。 缓解这个问题的一种方法是对每个生成的图像应用人们无法感知的水印(Luo et al., 2020),这样就可以验证任何给定的图像是否是由特定模型(例如 Parti)生成的。 虽然这种方法可以减轻虚假信息的风险,但当未经个人同意而复制个人肖像时,仍然可能会造成伤害。
偏见和安全。
预期用途。 由于上述影响和限制,以及需要进一步探索的担忧,Parti 是一个研究原型。 它不适用于高风险或敏感领域,也不适用于生成人物图像。
这些考虑因素都促使我们决定目前不发布我们的模型、代码或数据。 相反,我们将在后续工作中重点关注进一步仔细测量模型偏差,以及缓解策略,例如提示过滤、输出过滤和模型重新校准。 我们还相信,可以使用文本到图像生成模型作为工具来大规模理解大型图像文本数据集中的偏差,通过明确地探测它们是否存在一系列已知类型的偏差,并尝试发现其他形式 隐藏的偏见。 我们还将与艺术家协调,将高性能文本到图像生成模型的功能应用到他们的作品中,无论是出于纯粹的创意目的还是艺术品出租。 考虑到许多研究小组的强烈兴趣以及随之而来的模型和训练数据的快速发展,这一点变得更加重要。 理想情况下,这些模型将增强(而不是取代)人类的创造力和生产力,以便我们所有人都能享受一个充满新的、多样化的和负责任的审美视觉体验的世界。
在这项工作中,我们证明像 Parti 这样的自回归模型可以根据文本提示生成多样化的高质量图像,而且它们具有明显的缩放优势。 尤其是,Parti 能够代表广泛的视觉世界知识,例如地标、特定年份、车辆的品牌和型号、陶器类型、视觉风格,并将这些集成到新颖的设置和配置中。 我们还对局限性进行了广泛的讨论,包括对多种模型错误和挑战的细分,我们希望这对于了解模型的功能和强调未来研究的机会都是有用的。 为此,我们在这项工作中发布的 PartiPrompts (P2) 基准测试是有意设计的,以引发许多此类错误类型。
还有机会将扩展的自回归模型与扩散模型集成,首先让自回归模型生成初始低分辨率图像,然后使用扩散模块迭代细化和超分辨率图像(Gu 等人,2022 年;Ramesh 等人,2022 年;Saharia 等人,2022 年)。 在文本到图像生成模型的许多重要评估和负责任的人工智能需求方面取得进展也至关重要。 为此,我们将对自回归模型和扩散模型进行更多的实验和比较,以了解它们的相对能力,解决两类模型和缓解策略中的公平性和偏见的关键问题,并确定结合他们优势的最佳机会。
Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. Transactions on Machine Learning Research, 2022.


给定 MS-COCO 提示,图 24 显示了非精挑细选的 Parti 采样图像与其他方法(Ramesh 等人,2021;Nichol 等人,2022;Gafni 等人,2022;Ramesh 等人,2022)的输出的定性比较。 Parti 展示了很强的泛化能力,无需像 MS-COCO 这样在特定领域进行微调,并且它实现了高度的图像真实感,通常非常接近真实图像。


虽然使用预训练文本编码器热启动模型很简单,但我们观察到文本编码器预训练对 3B 参数 Parti 模型的文本到图像生成损失的帮助非常小。 定性示例如图 29 所示,定量损失比较如图 30 所示。我们将此观察结果作为未来关于通用语言理解和基于视觉的语言理解的差异和统一的研究主题。

我们在放大时注意到 ViT-VQGAN 的一些输出图像中的视觉像素化图样,并进一步发现 sigmoid 激活函数之前的输出投影层的病态权重矩阵。 作为修复,我们删除了最终的 sigmoid 激活层和 logit-laplace 损失,将原始值暴露为 RGB 像素值(范围 [0, 1])。 方便的是,此修复可以热插拔到已经通过微调解码器训练好的图像标记器中。
本文提出了 Pathways 自回归文本到图像 (Pathways Autoregressive Text-to-Image,Parti) 模型,证实自回归模型可以实现最先进的性能。
规模很重要:最大的 Parti 模型 (20B) 最有能力生成逼真图像,并支持内容丰富的合成,特别是涉及复杂构图和世界知识的合成。
引入了一个整体基准,PartiPrompts(P2),这是一组丰富的超过 1600 个(英语)提示,旨在衡量在各种类别和受控难度维度上的模型能力。
Parti 对更长描述有强大的泛化能力,从而能够在模型探索中增加相当大的复杂性。本文提出了种植樱桃树(Growing a Cherry Tree)的新概念,帮助人们了解 Parti 增加描述性和视觉复杂性的过程。
建立了关于识别文本到图像生成模型的局限性的新先例,并针对观察到的错误类型,提供了详细的带有示例的细分(breakdown)。

Parti 是一个两阶段模型,由图像标记器和自回归模型组成,如图 3 所示。
第一阶段:训练标记器,将图像转换为一系列离散视觉标记,用于训练并在推理时重建图像。
第二阶段:训练标准自回归编码器-解码器 Transformer 模型。
文本编码器预训练。编码器-解码器架构还解耦文本编码与图像标记生成,因此可以直接使用预训练文本编码器。
此外,还使用无分类器指导和重排序提升最终的生成性能。