在这项工作中,我们使用一种新的风格特征表示学习方法来解决任意图像风格转移的挑战性问题。作为图像风格化任务中的一个关键组成部分,合适的风格表示对于取得令人满意的结果至关重要。现有的基于深度神经网络的方法在二阶统计的指导下取得了合理的结果,如内容特征的格拉姆矩阵。然而,他们没有利用足够的风格信息,这导致了局部失真和风格不一致等人为因素。为了解决这些问题,我们建议通过分析多种风格之间的相似性和差异性并考虑风格分布,直接从图像特征中学习风格表示,而不是其二阶统计。具体来说,我们提出了对比性任意风格转移(CAST),这是一种新的风格表示学习和通过对比性学习的风格转移方法。我们的框架由三个关键部分组成,即用于风格代码编码的多层风格投影仪,用于有效学习风格分布的领域增强模块,以及用于图像风格转移的生成网络。我们进行了全面的定性和定量评估,以证明我们的方法与最先进的方法相比,取得了明显更好的结果。代码和模型可在https://github.com/zyxElsa/CAST_pytorch。
如果一幅画胜过千言万语,那么一件艺术品就能说明整个故事。艺术风格,描述了艺术作品的外观,是艺术家描绘其主题的方式,以及艺术家如何表达他或她的愿景。风格是由描述艺术作品的特征决定的,如艺术家运用形式、色彩和构图的方式。艺术风格转移,作为一种通过结合自然图像的内容和现有绘画图像的风格来创造新绘画的有效方式,是计算机图形学和计算机视觉的一个主要研究课题[Jing等人,2020b;Liao等人,2017],其中风格表示是最重要的问题。
自Gatys等人[2016]提出使用Gram矩阵作为艺术风格表示后,通过先进的神经风格转移网络产生高质量的视觉效果。尽管在任意图像风格转移领域取得了显著的进展,但二阶特征统计(Gram矩阵或均值/方差)风格表示法限制了其进一步发展和应用。如图1所示,不同艺术品风格的外观不仅在颜色和局部纹理方面有很大差异,而且在布局和构图方面也有很大差异。图2d和2e显示了最近提出的两种最先进的风格转移方法的结果。我们注意到,使用二阶统计学对图像之间的神经激活分布进行调整的结果是很难捕捉到颜色分布或特殊布局,或模仿不同风格的具体细节笔触效果。
在本文中,我们重新审视了神经风格转换的核心问题,即适当的艺术风格表示。广泛使用的二阶统计作为全局风格描述符可以在一定程度上区分风格,但它们不是表示风格的最佳方式。通过二阶统计,任意风格化通过人为设计的图像特征和损失函数以启发式的方式制定了风格。换句话说,网络学会了适应风格图像和生成图像的二阶统计,而不是风格本身。直接从艺术图像中探索风格的关系和分布,而不是使用预先定义的风格表示,是值得的。
为此,我们建议通过基于对比学习的优化,用一种新颖的风格表示来改善任意的风格转移。我们的关键见解是,如果只给一个艺术图像,一个没有艺术知识的人很难定义风格,但识别不同风格之间的差异却相对容易。具体来说,我们提出了一个新颖的对比性任意风格转换(CAST)框架,用于图像风格的表示和风格转换。CAST包括一个基于编码器-变换-解码器结构的主干,一个多层风格投影仪(MSP)模块,以及一个领域增强(DE)模块。我们引入对比学习来考虑风格之间的正负关系,并使用DE来学习整体艺术图像领域的分布。为了捕捉不同尺度的风格特征,我们的MSP模块将风格图像的每一层的特征投射到相应的风格编码空间。我们的贡献可以概括为以下几点。
图像风格转移。传统的风格转移方法,如基于笔画的渲染[Fišer等人,2016]和图像过滤[Wang等人,2004]通常使用低层次的手工制作的特征。Gatys等人[2016]和后续的变体[Gatys等人2017;Kolkin等人2019]证明了从预训练的深度卷积神经网络中提取的特征的统计分布可以有效地捕获风格模式。虽然结果显著,但这些方法将任务表述为一个复杂的优化问题,这导致了高计算成本。最近的一些方法依靠可学习的神经网络来匹配特征空间中的统计信息以提高效率。每风格-每模型方法[Gao等人,2020;Johnson等人,2016;Puy和Pérez 2019]为每个单独的风格训练一个特定的网络。多风格-每模型方法[Chen等人,2017;Dumoulin等人,2017;Ulyanov等人,2016;Zhang和Dana,2018]使用一个单一模型代表多种风格。
任意风格转移方法[Deng等人,2022,2020;Li等人,2017;Svoboda等人,2020;Wu等人,2021a]建立更灵活的前馈架构,使用统一的模型处理任意风格。AdaIN[Huang and Belongie 2017]和DIN[Jing et al. 2020a]直接将内容特征的总体统计与风格特征的统计相统一,并采用条件实例归一化。然而,在实例归一化层动态生成仿生参数可能会导致失真假象。相反,一些方法遵循编码器-解码器的方式,将特征转换和/或融合引入到基于自动编码器的框架中。例如,Li等人[2019]学习了一个跨域特征线性转换矩阵(LST),以实现通用风格转移,并通过从转换后的特征解码产生所需的风格化结果。Park等人[2019]引入SANet,将语义上最接近的风格特征灵活地匹配到内容特征上。Deng等人[2021]提出MCCNet,通过多通道关联融合示范性风格特征和输入内容特征,实现高效的风格转换。An等人[2021]提出了可逆的神经流和无偏见的特征转移模块(ArtFlow),以防止通用风格转移过程中的内容泄漏。Liu等人[2021b]提出了一个自适应注意力归一化模块(AdaAttN),考虑浅层和深层特征来计算注意力分数。基于GAN的方法[Kotovenko等人,2019a,b;Sanakoyeu等人,2018a;Svoboda等人,2020;Zhu等人,2017]已成功用于集合风格转移,将集合中的风格图像视为一个域[Chen等人,2021b;Lin等人,2021;Xu等人,2021]。
对比性学习。对比学习已被用于许多应用中,如图像去模糊化[Wu et al. 2021b]、上下文预测[Santa Cruz et al. 2019]、几何预测[Liu et al. 2019]和图像翻译。对比学习被引入到图像翻译中,以保留输入的内容[Han等人2021]并减少模式崩溃[Jeong和Shin 2021; Kang和Park 2020; Liu等人2021a]。CUT[Park等人,2020]通过将输入和输出图像裁剪成斑块并最大化斑块之间的互信息,提出了补丁式对比学习。继CUT之后,TUNIT[Baek等人,2021]对具有类似语义结构的图像进行对比学习。然而,语义相似性假设对于任意的风格转移任务并不成立,这导致所学的风格表征的性能明显下降。IEST [Chen et al. 2021a]将对比性学习应用于基于特征统计(平均值和标准差)作为风格先验的图像风格转移。对比性损失只在生成的结果中计算。IEST中的对比学习是一种辅助方法,用于关联共享相同风格的风格化图像,其能力来自预训练的VGG的特征统计。不同的是,我们通过提出一个新颖的框架来引入风格表示的对比性学习,该框架全面使用视觉特征来表示任意图像风格转移的任务的风格。
在这项工作中,我们提出了一个新的框架,即CAST,用于任意图像风格的转移任务。我们没有依赖二阶指标,如格拉姆矩阵或深度特征的平均值/方差,而是通过引入一个风格编码的MSP模块直接使用图像特征。我们开发了一个对比性的损失函数,以利用现有的艺术品集合中可用的多风格信息,帮助训练MSP模块和我们的生成性风格转移网络。我们进一步提出了一个DE方案来有效地模拟现实和艺术图像领域的分布。广泛的实验结果表明,与最先进的方法相比,我们提出的CAST方法实现了卓越的任意风格转移结果。在未来,我们计划通过考虑艺术家和类别信息来改进对比性风格学习过程。