• 【翻译】Style Transfer by Rigid Alignment in Neural Net Feature Space


    在这里插入图片描述

    Abstract

    任意风格转移是计算机视觉中的一个重要问题,其目的是将风格模式从任意风格图像转移到给定的内容图像。然而,目前的方法要么依赖于缓慢的迭代优化,要么依赖于快速的预设特征转换,但代价是损害了风格图像的视觉质量;尤其是扭曲的内容结构。在这项工作中,我们提出了一种有效和高效的任意风格转换方法,它可以无缝转移风格模式,并在风格化图像中保持内容结构的完整。我们通过使用刚性对齐方式将风格特征与内容特征对齐来实现这一点;从而修改了风格特征,而不像现有的方法那样做相反的事情。我们通过生成高质量的风格化图像来证明所提出的方法的有效性,并将其结果与目前最先进的任意风格转移技术进行比较。

    1、介绍

    给定一对风格和目标图像,风格转移是一个将风格图像的纹理转移到目标图像的过程,保持目标图像的结构不变。最近在神经风格转移方面的大部分工作都是基于一个隐含的假设,即在深度神经网络特征空间中工作可以将纹理和其他高级信息从一个图像转移到另一个图像,而不会对图像结构造成很大的改变。Gatys等人最近的工作[10](神经风格转移(NST))显示了卷积神经网络(CNN)在风格转移中的力量。

    在短短几年内,人们为改善NST做出了巨大的努力,无论是基于迭代优化的方法[18, 22, 23]还是前馈网络近似[16, 28, 27, 19, 6, 4, 20, 24, 30, 29]。基于优化的方法[10, 18, 22, 23],在视觉上取得了很好的结果,但以效率为代价,因为每一种风格的转换都需要多个优化步骤。另一方面,基于前馈网络的风格转移方法[16, 28, 27, 19, 6, 4, 20, 24, 30, 29]提供了效率和质量,但代价是泛化。这些网络被限制在一个固定的风格数量上。

    任意的风格转换可以同时实现泛化、质量和效率。我们的目标是找到一种转换,它可以把风格和内容特征作为输入,并产生一个风格化的特征,而不影响重建的风格化的图像质量。

    然而,目前这方面的工作[14, 21, 5, 25]在生成结果的质量上是失败的。其中[14, 5]使用外部风格信号来监督前馈网络上的内容修改。该网络是通过使用永久损失[16]来训练的,众所周知,永久损失是不稳定的,并产生不令人满意的风格转移结果[13, 23]。

    相反,[21, 5, 25]在一个共享的高级特征空间中,在风格特征的指导下对内容图象进行操作。通过用风格无关的图像解码器将被操纵的图像解码回图像空间,重建的图像将被风格化,与风格模式无缝整合。然而,这些技术过度扭曲了内容,或者未能平衡低层次和整体风格模式。

    在这项工作中,我们通过在风格转换过程中修改风格特征而不是内容特征来解决上述问题。我们的假设是,如果我们把图像看作是特征空间中的点的集合,其中每个点代表一些空间信息,如果我们用刚性对齐的方式来对齐这些点云,我们可以在不引入任何扭曲的情况下对这些点进行转换。通过这样做,我们解决了内容过度失真的问题,因为对齐并不操作内容特征。与[21, 25]类似,我们的方法不需要任何训练,可以实时应用于任何风格的图像。我们还提供了全面的评估,与之前的任意风格转换方法[10, 14, 21, 25]进行比较,以表明我们的方法达到了最先进的性能。

    我们在本文中的贡献有三个方面:
    1)我们通过使用刚性对齐来实现风格转移,这与依赖特征统计匹配的传统风格转移方法是不同的。刚性对齐在计算机视觉领域已经研究了很多年,并且在图像注册和许多这类问题上非常成功。我们表明,通过以特定的方式重新排列内容和风格特征(每个通道(C)作为RHW空间的一个点,其中H是高度,W是特征的宽度),它们可以被视为C点的点云。
    2)我们提供了风格转移问题的闭合式解决方案。
    3)所提出的方法在不引入内容失真的情况下实现了实时的风格转移效果。

    2、相关工作

    由于应用的广泛性,风格转换问题在计算机视觉中已经被研究了很长时间。在Gatys等人的开创性工作[10]之前,风格转移的问题一直被关注为非逼真渲染(NPR)[17],并与纹理合成[7, 8]密切相关。早期的方法依赖于寻找低层次的图像对应关系,不能很好地捕捉高层次的语义形成。如上所述,在风格转换中使用CNN的特征已经大大改善了结果。我们可以把目前的神经风格转换文献分为四个部分。

    • 基于慢速优化的方法。Gatys等人[10]介绍了第一个用于风格转移的NST方法。作者通过使用格拉姆矩阵匹配从预先训练的图像分类CNN(VGG[26])中提取的内容和风格图像的多层次特征统计,创造了艺术风格的转移。在这之后不久,其他的变化被引入以实现更好的风格转移[18, 22, 23],用户控制如空间控制和颜色保留[11, 23]或包括语义的形成[9, 3]。然而,这些方法需要对图像进行迭代优化,这使得它无法实时应用。
    • 单一风格的前馈网络。最近,[16, 28, 27, 19]通过将迭代反向传播程序近似于前馈神经网络,通过感知损失[16, 28]或马尔科夫生成对抗损失[19]进行训练来解决实时问题。尽管这些方法实现了风格的实时转移,但它们需要为每种风格训练一个新的模型。这使得它们很难用于多种风格,因为每一种风格都需要进行数小时的训练。
    • 多种风格的单一网络。后来[6, 4, 20, 24]试图通过为每一种新的风格训练少量的参数来解决多种风格的问题,同时保持网络的其他部分不变。条件实例规范化[6]通过训练与每种风格相对应的通道统计来实现。Stylebank[4]为每种风格学习卷积滤波器,[20]通过二进制选择单元转移风格,[24]训练一个元网络,为每个内容和风格图像对生成一个14层网络。另一方面,[30]训练了一个权重矩阵来组合风格和内容特征。主要的缺点是模型的大小与风格图像的数量成比例增长。此外,不同风格之间存在干扰[15],这影响了风格化的质量
    • 任意风格的单一网络。最近的一些工作[14, 21, 5, 25, 12]集中在为任意风格创建一个单一的模型,即为任何风格创建一个模型。Gu等人[12]将风格特征补丁与内容特征补丁重新排列。然而,这需要解决一个优化问题来寻找最近的邻居,这很慢,因此不适合实时使用。Chen等人[5]用最接近的风格特征补丁交换内容特征补丁,但如果内容和风格之间的领域差距很大,就会失败。Sheng等人[25]通过首先将特征归一化,然后应用补丁交换来解决这个问题。尽管这提高了风格化的质量,但它仍然产生了内容失真和错过了全局风格模式,如图1所示。WCT[21]通过递归地将增白和着色变换(WCT)应用于一组具有不同级别的训练有素的自动编码器,来转移多级风格模式。然而,与[25]类似,WCT也会产生内容失真;此外,这在风格化的图像中引入了一些不需要的模式[15]。自适应实例归一化(AdaIN)[14]将内容特征的信道统计(平均值和方差)与风格特征相匹配,但这种匹配只发生在一层,作者试图通过训练一个永久损失的网络来进行补偿[16]。虽然这没有引入内容失真,但它未能捕捉到风格模式。

    在这里插入图片描述
    图 1. 风格转换过程中的内容失真。由边界框标记的区域被放大以获得更好的可视化效果。

    现有的任意风格转换方法的共同点是,它们都试图在风格转换过程中修改内容特征,这最终会造成内容失真。与现有的方法不同,我们的方法在风格转换过程中对风格特征进行操作。 我们通过两个步骤实现这一点:

    • 首先,我们在内容和风格特征之间应用通道式矩匹配(平均值和方差),就像AdaIN[14]一样。
    • 其次,我们使用刚性对齐(Procrustes分析[2]),将风格特征与内容特征对齐。这种对齐方式修改了风格特征以适应内容结构,从而避免了任何内容上的扭曲,同时保持了其风格信息的完整。

    在接下来的章节中,我们将描述我们完整的方法。

    3、神经网络特征空间中的风格转移

    一般说来风格转移如下:让zc∈RC×H×W是当内容图像通过网络时从预训练的CNN的某一层提取的特征。这里,H是高度,W是宽度,C是特征zc的通道数量。同样,对于样式图像zs∈RC×H×W表示相应的特征。

    对于任何任意的风格转换方法,我们将ZS和ZC传递给一个转换函数T,该函数输出风格化的图像ZCS,如公式(1)中所述。
    在这里插入图片描述
    将zcs重构到图像空间,就得到了风格化的图像。困难的部分是找到像[25, 5, 21]那样与风格无关的变换函数T,但与这些不同的是,它能在不扭曲内容的情况下捕捉局部和全局风格信息,并且不需要迭代优化。

    4、建议的方法

    尽管 AdaIN[14]不具有风格无关性,但它涉及一种完全与风格无关的转换:通道方面的矩匹配。这涉及将内容特征的通道均值和方差与样式特征的均值和方差进行匹配,如下所示:
    在这里插入图片描述
    这里,Fμ(.)和Fσ(.)分别是通道的平均值和方差。尽管这种通道式匹配产生了不尽如人意的风格化结果,但它能够在不扭曲内容结构的情况下转移风格图像的大致模式,如图1所示。矩量匹配不能提供风格和内容特征通道之间的完美对齐,这导致了全局风格模式的缺失,从而导致了不令人满意的风格化结果。其他方法通过WCT转换[21]或补丁重新放置[25, 5]来实现这一目标,但这需要对内容特征进行修改,导致内容失真。我们通过将风格特征与内容特征对齐来解决这个问题。通过这种方式,风格特征得到了内容的结构,同时保持了它们的全局模式。

    一种防止失真的简单对齐方式是刚性对齐[2]和(缩放)。这涉及到要移动的点(样式特征)相对于目标点(矩量匹配【类似AdaIN】后的内容特征)的移动、缩放和最后的旋转。为此,我们把两个特征都看作是大小为C的点云,每个点都在RHW空间,即zc, zs∈RC×HW(关于在RHW空间而不是RC空间选择每个点的原因,见补充章节4)。现在,我们按以下步骤应用刚性转换。

    • 第一步:移位。首先,我们需要将两个点云zc和zs转移到RHW空间的一个共同点上。我们将这些点云以原点为中心,如下所示:
      在这里插入图片描述
      这里,μc和μs∈RHW分别是zc和zs点云的平均值。
    • 第二步:缩放。两个点云在对齐之前需要有相同的比例。为此,我们使每个点云都具有单位Frobenius规范:
      在这里插入图片描述
      这里,‖.‖F 代表 Frobenius 范数。
    • 第三步:旋转。下一步是对ˆzs进行旋转,使其与ˆzc完全对齐。为此,我们将ˆzs与旋转矩阵相乘,旋转矩阵可按以下方式创建:
      在这里插入图片描述
      虽然这是一个优化问题,但它可以按以下方式解决:
      在这里插入图片描述
      由于tr(ˆzTs ˆzs + ˆzTc ˆzc)项与Q无关,所以公式(5)变为:
      在这里插入图片描述
      利用ˆzTc的奇异值分解ˆzs=USVT和迹线的循环特性,我们可以得到:
      在这里插入图片描述
      这里,H=VT QU是一个正交矩阵,因为它是正交矩阵的产物。由于S是一个对角线矩阵,所以为了使tr(SH)最大化,H的对角线值需要等于1。现在,我们有:
      在这里插入图片描述
    • 第四步:对齐。在获得旋转矩阵Q后,我们以如下方式对原始内容特征进行缩放和移动风格点云:
      在这里插入图片描述
      zsc是最终的风格特征。

    这种排列方式使风格特征适应内容结构,同时保持其局部和全局模式。

    :以上我们假设zc和zs都是等大的,以便于解释。在zc∈RC×HcWc和zs∈RC×HsWs的情况下,唯一的变化是在公式(5)中,正交矩阵Q是矩形的,满足QT Q = I(即Q∈RHsWs×HcWc)。

    4.1. 多层次的风格转移

    如[10]所示,不同层的特征在样式转移过程中提供了不同的细节。低层的特征(relu 1和relu 2)提供颜色和纹理信息,而来自高层的特征(relu 3和relu 4)提供普通图案细节(见补充材料中的图1)。与WCT[21]类似,我们也是通过将图像逐级通过不同的自动编码器来实现的。然而,与WCT[21]不同的是,我们不需要在每一级都进行第4节所述的对齐。我们只在最深的一层(relu4 1)应用对齐

    在每一层或只在最深的一层做对齐(relu4 1)产生相同的结果,如图2所示。这也表明风格特征与内容的刚性对齐是完美的。
    在这里插入图片描述

    图 2. 样式转换结果之间的比较,仅在最深层(relu 4)而不是每一层应用刚性对齐。第三张图显示了通过在每一层({relu 1,relu 2,relu 3,relu 4})应用对齐的样式转换结果。另一方面,最后一列显示了仅在最深层(relu 4)应用对齐的样式转换结果。两者产生几乎相同的结果。

    一旦特征被对齐,我们只需要照顾到其他层的局部纹理。我们通过在低层应用矩量匹配(公式(2))来做到这一点。完整的管道显示在补充材料的图1中。

    5、实验

    5.1. 解码器训练

    我们使用来自[21]的预训练的自动编码器网络。这个自动编码器网络已经被训练为一般的图像重建。该网络的编码器部分是预先训练好的VGG-19[26],它已经被固定了,而解码器网络被训练成将VGG特征反转到图像空间。[21]中的作者训练了五个解码器,用于从VGG-19网络的不同层中提取的特征来重构图像。这些层是relu5 1、relu4 1、relu3 1、relu2 1和relu1 1。然而,与[21]不同的是,我们在实验中只使用了四个解码器进行多级风格转换这些解码器对应于VGG-19网络的relu4 1、relu3 1、relu2 1和relu1 1层。关于解码器的更多细节在补充材料的第二部分提供。

    5.2. 与先前的风格转移方法的比较

    为了显示所提出的方法的有效性,我们将我们的结果与两种类型的任意风格转换方法进行比较。第一种是基于迭代优化的方法[10],第二种是快速任意风格转换方法[21, 24, 14]。我们在图4中展示了这些风格化的结果。

    尽管基于优化的方法[10]可以进行任意风格的转移,但它需要缓慢的优化。此外,它还受到卡在一个糟糕的局部最小值的影响。这导致了视觉上不满意的风格转移结果,如第三行和第四行所示。AdaIN[14]解决了局部最小值和效率的问题,但未能捕捉到风格模式。例如,在第三行,风格化的图像包含来自内容的颜色,如嘴唇上的红色。与此相反,WCT[21]和Avatar-Net[24]通过匹配二阶统计量和后一方法通过归一化补丁交换,在捕捉风格模式方面表现非常好。然而,这两种方法都不能保持风格化结果中的内容结构。例如,在第一行,WCT[21]完全破坏了内容结构:山和云是无法区分的。同样,在第二行和第五行中,内容图像的细节也被扭曲了。尽管Avatar- Net[24]比WCT[21]在第一行和第五行的表现更好,但它在保持内容信息方面也失败了,如第二行和第六行所示。在第二行中,风格化的图像甚至没有任何内容信息。

    另一方面,所提出的方法不仅能捕捉到与WCT[21]和Avatar-Net[24]类似的风格模式,而且还能完美地保持内容结构,如第一、第二和第五行所示,而其他两种方法则失败了。

    我们还在图1中提供了一个特写。如图所示,WCT[21]和Avatar-Net[24]扭曲了内容图像结构。造型图像中的鼻子被扭曲得太厉害,使得这些方法难以用于人脸。与此相反,AdaIN[14]和提议的方法保持了内容信息的完整性,如第二行最后两列所示。然而,AdaIN[14]并不能很好地捕捉到风格模式。另一方面,所提出的方法能很好地捕捉到风格模式,而不会在风格化的图像中出现任何内容失真。

    除了基于图像的风格化之外,所提出的方法还可以进行视频风格化。如图3所示,我们只需进行每帧风格转移就可以实现这一点。风格化的视频在相邻的帧上是一致的,因为风格特征是自己调整的,而不是内容,所以风格转移是空间不变的,对小的内容变化是稳健的。相比之下,Avatar-Net[25]和WCT[21]存在严重的内容失真,其中WCT[21]的失真更为严重。

    在这里插入图片描述
    图3. 使用拟议方法的视频风格化。与WCT[21]和Avatar-Net[25]类似,建议的方法在每一帧中保持风格模式的一致性。然而,与其他两个不同的是,建议的方法不会受到内容失真的影响。在WCT[21]的情况下,失真比Avatar-Net严重得多,特别是动物的脸部。动画片在补充材料中提供。

    5.3. 效率

    我们在表1中比较了所提方法与最先进的任意风格转换方法的执行时间。我们在Tensorflow[1]中实现了所有的方法,以进行公平的比较。Gatys[10]的方法非常缓慢,因为它的迭代优化步骤涉及到通过预训练网络的多次前向和后向传递。相反,其他方法有很好的执行时间,因为这些方法是基于前馈网络的。其中,AdaIN[14]表现最好,因为它只需要在内容和风格特征之间进行矩量匹配。WCT[21]相对较慢,因为它在多层风格转移过程中,每层都需要进行SVD操作。与WCT[21]和我们相比,Avatar-Net[25]的执行时间更好。这是因为基于GPU的风格交换层和小时玻璃多层网络。

    另一方面,我们的方法比AdaIN[14]和Avatar-Net[25]慢,因为我们的方法涉及到SVD操作,在relu 4。此外,它需要通过多个自动编码器进行多层次的风格转换,与WCT[21]类似。然而,与WCT[21]不同的是,所提出的方法只需要一个SVD操作,如图2所示,因此与WCT[21]相比有更好的执行时间。

    5.4. 数值比较

    在表2中,我们显示了不同风格的方法之间的数字比较。我们提供了来自[10]的平均内容损失(Lc)和风格损失(Ls),用于图4中的图像:
    在这里插入图片描述
    在这里插入图片描述

    表2. 图4中风格化图像的平均内容和风格损失。数值越低越好。

    这里,zc是内容特征,zs是风格特征,z是风格化特征,G(.)提供Gram矩阵。如表2所示,WCT[21]和Avatar-Net[25]的风格损失较小,因为这些方法在风格化的结果中更倾向于风格模式。然而,如图1和图4所示,这导致了内容失真。另一方面,AdaIN[14]在内容损失方面表现更好,因为它保持了更多的内容信息,但这产生的结果是较少的风格模式。因此,任何在内容损失或风格损失方面表现最好的方法都会产生不令人满意的风格化结果。一个好的风格转移方法应该在这两者之间,而我们提出的方法做到了这一点。所提出的方法不仅在内容损失方面表现良好,而且在风格损失方面也与WCT[21]和Avatar-Net[25]相当。这证明了我们的直觉,即通过将风格特征与内容特征对齐,我们不仅保留了内容结构,而且有效地转移了风格模式。

    :Gatys的方法[10]应该实现与我们类似的内容和风格的平衡得分,但正如[25]中提到的(也显示在图4的第三和第四行)[10]受到卡在一个糟糕的局部最小值的影响。这导致了较高的风格损失,如表2所示。

    6、消融研究

    6.1. 刚性对齐的重要性

    如上所述,我们的方法通过首先将内容特征的信道统计量与风格特征的信道统计量相匹配来实现风格转移,然后通过刚性对齐将风格特征与内容特征对齐。为了检验刚性对齐的效果,我们进行了以下实验。我们进行的风格转换与4.1节中描述的管道相似,但我们在最深层(relu4 1)中删除了刚性对齐(RA)。如图5所示,矩量匹配(MM)只传递低层次的风格细节(在本例中是颜色),同时保持内容结构的完整。另一方面,如果我们只使用刚性对齐,它主要传递全局风格模式(头发周围的白色笔画,第二列)。最后,当两者一起使用时(亲身经历的方法),产生的图像同时具有全局和局部的风格模式;因此,在不引入内容失真的情况下实现了更好的风格化的结果。
    在这里插入图片描述
    图 5. 第 2 行:仅使用矩匹配(第一列)、仅刚性对齐(第二列)和建议的方法(第三列)的样式转移。

    6.2. 保留内容权重较高的内容的成本

    可以说,内容结构可以通过调整内容权重(α)来预先服务。然而,拥有更多的内容权重是以无效的风格转移为代价的。在图6中,我们展示了一个这样的例子,我们比较了现有工作(我们用WCT作为例子)和提议的方法的这种权衡。在以前的工作中,为了保留内容结构,需要更高的内容权重;但这导致了风格模式的转移不足(第一列)。另一方面,为了充分转移风格模式,需要降低内容权重;但这将在风格化的图像中产生扭曲的内容(最后一行的第三列)。我们的方法有效地解决了这个问题;它不仅转移了足够的风格模式,而且还保留了内容结构(最后一列)。
    在这里插入图片描述
    图 6. 第 2 行:使用 WCT 进行样式转换。第 3 行:使用建议的方法进行样式迁移。

    7、用户控制

    与其他任意风格转移方法一样,我们的方法也很灵活,可以适应不同的用户控制,如风格和内容之间的权衡、风格的插值以及风格转移过程中的空间控制。

    由于我们的方法适用于独立于网络的特征空间的转换,我们可以实现风格和内容之间的权衡,如下所示:
    在这里插入图片描述
    这里,zsc是公式(10)中的转换特征,zc是内容特征,α是权衡参数。图7显示了这样一个内容风格权衡的例子。
    在这里插入图片描述
    图7. 风格转换过程中内容和风格之间的权衡。α的值从0到1增加,从左到右增量为0.1。

    图8显示了一个由拟议方法创建的两种风格之间的线性插值实例。这是通过调整转换输出(T (zc, zs))之间的权重参数(β)来实现的,具体如下:
    在这里插入图片描述
    关于风格转移过程中的空间控制,详见补充材料中的第3节。

    在这里插入图片描述

    图8. 风格之间的内插。β的值从0到1增加,从左到右增量为0.1。

    8、结论

    在这项工作中,我们提出了一种有效的任意风格转移方法,不需要对每一种单独的风格进行学习。通过对风格特征与内容特征的刚性对齐,我们解决了内容失真的问题,而不会牺牲风格化图像中的风格模式。我们的方法可以无缝地适应现有的多层风格化管道,也可以从这些层中捕捉风格信息。我们的方法还可以无缝地执行视频风格化,仅仅是通过每一帧的风格转移。实验结果表明,与最先进的任意风格转移方法相比,所提出的算法取得了良好的性能。作为一个进一步的方向,人们可以通过训练一个类似于Avatar-Net的沙漏结构来取代多个自动编码器进行多层次的风格转换,以获得更好的效率。

  • 相关阅读:
    6.ClickHouse系列之配置分片集群
    Java 数据结构与算法之树(BST)
    多维时序 | Matlab实现CPO-BiTCN-BiGRU冠豪猪优化时间卷积神经网络双向门控循环单元多变量时间序列预测模型
    MySQL 字符集与乱码与collation设置的问题?
    MySQL客户端工具的使用与MySQL SQL语句
    【前端缓存】localStorage是同步还是异步的?为什么?
    sql执行计划需要关注那些内容?
    15套前端经典实战项目大合集,小白练手必备实战项目
    RabbitMQ 高级
    什么是葡萄酒结构,结构型葡萄酒好吗?
  • 原文地址:https://blog.csdn.net/zeroheitao/article/details/126346302