主页:https://www.cs.cornell.edu/projects/arf/
利用了真实场景的预重建辐射场(左),并通过匹配从输入的2D风格图像中提取的特征激活(中)将其转换为艺术辐射场,从而得到高质量的程式化的新颖视图合成(右)。
常用的基于Gram矩阵的损失往往会产生模糊的结果,而没有忠实的笔触,论文引入了一种基于最近邻居的损失,这在捕捉风格细节时非常有效,同时保持多视图的一致性
论文提出新的延迟反向传播方法,利用在全分辨率渲染图像上定义的样式损失来实现内存密集型辐射场的优化
贡献点
首先从多张照片重建一个逼真的亮度场。然后,通过使用最近邻特征匹配(NNFM)样式损失,使用一个范例样式的图像来风式化这种重建。一旦完成了这种风格化,就可以获得一致的自由视点风格化的渲染。
艺术品通常具有独特的视觉细节,例如,梵高的《星夜》的特点是长而弯曲的笔触。通过预先训练的神经网络(如VGG)产生的神经特征可以有效地捕捉这些细节,并已成功用于2D样式转移,这种损失所衡量的样式信息通常是基于全局统计,不一定能以视图一致的方式很好地捕捉局部细节
论文使用最近邻特征匹配(NNFM)损失:将复杂的高频视觉细节从2D风格的图像转移到3D场景(由亮度场参数化),在多个视点上一致
Istyle 表示 样式图像,Irender 表示在选定的视点上从亮度场渲染的图像
为 Istyle 和 Irender 提取VGG特征图 Fstyle 和 Frender
Frender(i, j)表示feature map Frender的像素位置(i, j)处的特征向量
NNFM损失为:
N为Frender中的像素个数,D(v1, v2)计算两个向量v1, v2之间的余弦距离
对于Frender中的每个特征,将其与风格图像的VGG特征空间(Fstyle)中最近邻的余弦距离最小化
损失并不依赖于全球统计数据。这赋予了优化过程更多的灵活性,可以专注于调整局部场景的外观,以感知匹配从给定的训练视点渲染的给定图像中的样式图像
单独使用NNFM损失有时会导致过于强烈的风格化,使内容更难识别。为此添加了一个额外的保留内容的损失,惩罚了呈现的特征图和内容图像之间ℓ2的差异
λ是权重控制的程式化强度,较大的λ保留更多的内容,而较小的λ导致更强的风格化。Frender, Fstyle, Fcontent都是由完全相同的特征提取器提取的
三维隐私重建中,许多方法不是在每次优化迭代时都绘制全分辨率图像,而是随机抽取稀疏的像素集进行绘制,在最小化每个像素独立计算的损失时,如ℓ1/ℓ2损失,它不能用于复杂的基于cnn的损失,如NNFM损失或克矩阵风格的损失,这需要全分辨率的图像,为此论文提出延迟反向传播方法:直接优化全分辨率图像,允许更复杂和强大的图像损失
首先禁用自动区分来渲染全分辨率图像;然后计算图像损耗(例如,NNFM或Gram矩阵定义的样式损耗),并缓存其与全分辨率图像像素值的梯度。然后,将缓存的梯度反向传播到场景参数中,并以补丁的方式进行累积;对于每个patch,重新渲染,并启用了自动区分功能,然后应用链式法则将相应缓存的patch梯度反向传播到场景参数中进行积累。这样,就可以正确地计算出与场景参数相关的全分辨率渲染图像所造成的损失的梯度,并且可以使用相同的GPU内存占用来不同地渲染单个小补丁
风格和内容损失可以在感知上转移风格并保留原始内容,但我们发现它们可能会导致渲染图像和风格图像之间的颜色不匹配
首先,通过样式图像的颜色转移对训练视图重新上色,这些重新着色的图像用于预优化我们的艺术辐射场,作为基于等式4的风格化优化的初始化。这些颜色转移的图像也用于我们的内容保存损失
然后,在3D程式化过程之后,再次对渲染到训练视点的图像执行颜色转移,并将相同的颜色转换直接应用到渲染辐亮度场产生的颜色值
在颜色转移方法中,在RGB空间中采用简单的颜色线性变换,其参数是通过匹配图像集的颜色统计信息来估计的
{ci}^m i=1:待重着色图像集中所有像素颜色的集合
{si}^n i=1:样式图像所有像素颜色的集合
E[Ac] = E[s] Cov[Ac] = Cov[s]
经过颜色变换的图像集的均值和协方差与风格图像的均值和协方差相匹配