• [GAN]老照片修复Bringing Old Photos Back to Life论文总结


    Title

    Title:Bringing Old Photos Back to Life
    Source:CVPR2020
    论文官网
    Code

    1.Summary

    文章提出并解决了两个问题。

    • 问题一 泛化问题(Generalization):目前的老照片修复算法在合成数据集上学习到的模型在真实数据上泛化能力差。(解决方案一 Latent space translation:假设能将合成数据与真实老照片域编码到同一隐空间,实际操作尽可能缩小域间差异Domain Gap,而后学习隐空间映射)
    • 问题二 混合退化问题(Mixed Degradation):空间均匀的非结构化退化,如噪声、模糊、褪色和低分辨率,以及结构化退化,如孔洞、划痕和斑点。 实际待修复老照片存在混合的复杂退化问题。(解决方案二 Partial Nonlocal Block:普通残差块感受野有限,仅能修复局部特征即非结构化退化,结构化退化依赖于全局图像上下文信息进行修复)

    2.Method

    2.1 泛化问题(Generalization)的解决

    Step1 分别训练 V A E 1 {VAE}_1 VAE1 V A E 2 {VAE}_2 VAE2

    在这里插入图片描述

    • 目标是学习R到Y的映射,即给定一个真实老照片r,得到清晰的修复结果。
      在这里插入图片描述
    • 为了解决合成照片与真实照片域间差异导致的泛化性问题,X与R共享同一个VAE1(图中绿色部分domain gap标注有误,应标注在非交集的部分)。其中,VAE比普通自编码器更容易获得密集分布的隐空间表示,这样 Z X Z_X ZX Z R Z_R ZR之间的domain gap会更小。训练一个鉴别器来区分 Z X Z_X ZX Z R Z_R ZR,以进一步缩小domain gap。
      请添加图片描述
      在这里插入图片描述
    • 总目标函数为
      在这里插入图片描述

    Step2 固定 V A E 1 {VAE}_1 VAE1 V A E 2 {VAE}_2 VAE2,独立训练隐空间映射T

    在这里插入图片描述
    在这里插入图片描述
    其中,
    在这里插入图片描述
    在这里插入图片描述

    2.2 多种退化模式问题(Mixed Degradation)的解决

    在这里插入图片描述

    • non-local等注意力机制的本质是re-weighting
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
    • 最后non-local仅作用于corrupted region(即结构化退化,依赖全局信息的部分)
      在这里插入图片描述

    3.Evaluation

    3.1 Setup

    • 训练集:1. Pascal VOC+渲染上结构化与非结构化退化。2. 5718张真实老照片
    • 划痕检测:训练了一个U-net+focal loss(正负样本均衡),除了利用Pascal VOC训练以外,还对收集到的783张有划痕的真实老照片进行标注,并使用400张图片进行fine-tune。(目的是在partial non-local处获得mask)
    • 训练细节:优化器Adam solver( β 1 \beta_1 β1为0.5, β 2 \beta_2 β2为0.999);学习率为前100epoch=0.0002,而后线性衰减到0;训练时图片随机裁剪到256x256;公式2、5中的超参数设定为 α = 10 , λ 1 = 60 , λ 2 = 10 \alpha=10,\lambda_1=60,\lambda_2=10 α=10,λ1=60,λ2=10

    3.2 Analysis

    • 定量
      在这里插入图片描述
    • 定性
      在这里插入图片描述
    • User-study
      在这里插入图片描述

    3.3 Ablation Study

    Latent translation with VAEs

    • 目的是为了更容易缩小domain gap。其中从左往右逐渐增加组件。1)Pix2Pix:translation in image-level 2)two VAEs with an additional KL loss to penalize the latent space 3)两阶段训练,VAEs权重不固定 4)完整模型,采用了latent adversarial loss。
      在这里插入图片描述
    • Wassestein距离越小,latent space越compact;BRISQUE越低,修复后的图片质量越高。
      在这里插入图片描述

    Partial nonlocal block

    在这里插入图片描述

    4.Conclusion

    Strong conclusions:
    We propose a novel triplet domain translation network to restore the mixed degradation in old photos. The domain gap is reduced between old photos and synthetic images, and the translation to clean images is learned in latent space. Our method suffers less from generalization issue compared with prior methods.

    • 三个域之间的图像转换网络
    • 缩小隐空间domain gap,并在隐空间学习到更佳的图像转换结果
    • 泛化性更强

    Weak conclusions:
    We propose a partial nonlocal block which restores the latent features by leveraging the global context, so the scratches can be inpainted with better structural consistency.

    • partial nonlocal。消融实验仅定性,效果一般,方法简单,创意不足。

    仍存在的问题:complex shading artifacts上效果不佳,原因可能是数据集中具有复杂缺陷的老照片不多。
    在这里插入图片描述

    5.Reference

    • Track五篇对比方法
    1. M. Suganuma, X. Liu, and T. Okatani, “Attention-based adaptive selection of operations for image restoration in the presence of unknown combined distortions,” arXiv preprint arXiv:1812.00733, 2018.
    2. D. Ulyanov, A. Vedaldi, and V. Lempitsky, “Deep image prior,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 9446–9454.
    3. T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, A. Tao, J. Kautz, and B. Catanzaro, “High-resolution image synthesis and semantic manipulation with conditional gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8798–8807.
    4. J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2223–2232.
    5. K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian, “Bm3d image denoising with shape-adaptive principal component analysis,” 2009.
    6. K. Nazeri, E. Ng, T. Joseph, F. Qureshi, and M. Ebrahimi, “Edgeconnect: Generative image inpainting with adversarial edge learning,” 2019.

    Attention-based Adaptive Selection of Operations for Image Restoration in the Presence of Unknown Combined Distortions(CVPR2019)

    • image-to-image translation图像转换
    • Deal with multiple combined distortions with unknown mixture ratios
    • 并行执行多个操作,这些操作由注意力机制加权,根据输入选择适当的操作。
      在这里插入图片描述

    在这里插入图片描述

    Deep Image Prior(CVPR2018)

    • Standard inverse problems such as denoising, super-resolution, and inpainting。一系列image restoration问题都是Standard inverse problems。

    • image restoration分为learning-based和learning-free。该方法利用一张受损图片,在深度神经网络中直接迭代来进行修复。

    在这里插入图片描述

    • 神经网络的躁声阻抗性high noise impedance。神经网络天生具有对自然信号的低阻抗性和对噪声的高阻抗性。

    在这里插入图片描述

    • 由于网络学信号学得快,学噪声学得慢,所以要利用这一点控制好迭代次数:不能太少,否则学不到位,输出结果结构模糊;也不能太多,否则学的太好,跟 x 0 x_0 x0过于相似,把噪声也一起学了。其中 x 0 x_0 x0为corrupted image。

    High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs(CVPR2018)

    • image-to-image translation, whose goal is to translate an input image from one domain to another domain given input-output image pairs as training data

    • pix2pix framework

    • coarse-to-fine generator
      在这里插入图片描述

    • multi-scale discriminator architecture, and a robust adversarial learning objective function。判别器有三个,针对不同尺寸图像。三个尺寸分别是原尺寸,二分之一,四分之一。receptive field大小的问题。

    6.Arouse for me

    口碑好的AI图片修复网站
    论文作者网站,老照片修复
    发现对图像进行处理(结构化、非结构化缺陷)均隶属于Image Restoration领域。GAN、VAE是经常出现的。

  • 相关阅读:
    简单基础入门理解Denoising Diffusion Probabilistic Model,DDPM扩散模型
    【今日文章】:Web端常用的Observer监听器
    6.Docker网络
    【C++】递归,搜索与回溯算法入门介绍和专题一讲解
    git switch 命令详解
    设计模式:策略模式
    OSG学习笔记
    基于springboot在线玩具商城交易平台的设计与实现
    大学生HTML期末作业, JavaScript期末大作业
    嵌入式面试常见问题(一)
  • 原文地址:https://blog.csdn.net/weixin_44145782/article/details/125948112