• 【RealFill】一种新的用于图像补全的生成式模型


    RealFill

    论文链接:https://arxiv.org/abs/2309.16668

    项目地址:https://realfill.github.io/

    代码仓库:https://github.com/thuanz123/realfill 截止国庆假期前夕,代码尚未公开完整。

    1. 背景

    虽然模型可以在未知区域生成高质量、合理的图像内容,但由于缺乏真实场景的上下文信息,这些模型幻觉出的内容必然是不真实的。只依赖于prompts,缺乏参考图像。比如说衣服变了,类似于生成视频中的一致性不好等问题。

    本文定义了一个全新的问题:「真实图像补全」Authentic Image Completion

    RealFill 是首个通过在过程中添加更多的条件(即添加参考图像)来扩展生成型图像修复模型表达力的方法。

    RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置,而这些参考图像无须与目标图像对齐,甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。一旦完成个性化设置,RealFill 就能够以忠实于原始场景的方式,用视觉上引人入胜的内容来补全目标图像。

    2. 模型结构

    在这里插入图片描述
    I r e f I_{ref} Iref:输入的参考图像。
    I t g t I_{tgt} Itgt:输入的目标图像。
    I o u t I_{out} Iout:Training阶段的输出,通常为一个集合,进行筛选。
    I g e n I_{gen} Igen:Inference阶段的输出。

    2.1 Training 流程

    • 输入:3~5张 reference images & target images & prompt
    • 输出:output images
    • Loss:
      在这里插入图片描述

    对于reference images:

    • 随机进行mask
    • 训练lora
    • 放入diffusion model

    模型仅仅对mask掉的部分进行loss计算。

    最终生成的 I o u t {I_{out}} Iout集合,如果生成的图像与参考图像之间的对应关系较差或不够准确,它们就会被筛选掉,不会被包含在最终的生成结果中。

    2.2 Inference 阶段

    为了保证非生成部分能够更好的还原,对 I t g t I_{tgt} Itgt的非mask区域,设置 α \alpha α通道,保证 I t g t I_{tgt} Itgt的还原性良好。

    3. 应用场景

    3.1 outpainting

    在这里插入图片描述
    给定左侧的参考图像,RealFill 能够在右侧绘制相应的目标图像。将白盒内的区域作为已知像素提供给网络,并生成白盒外的区域。结果表明,RealFill 产生高质量的图像忠实于参考,即使参考和目标之间存在显着差异,包括视点、光圈、照明、图像风格和物体运动的变化。

    3.2 Inpainting

    在这里插入图片描述
    给定左边的参考图像,RealFill不仅能够去除目标图像中不希望看到的物体,忠实地揭示遮挡的内容(左列),而且还能够在场景中插入对象,尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中,参考图像和目标图像之间的孔径也不同,RealFill不仅恢复了杯子后面的建筑物,而且保持了目标图像中看到的适当数量的模糊。

    4. 局限性

    在这里插入图片描述

    RealFill 无法恢复精确的 3D 场景结构;RealFill 无法处理对基本 T2I 模型(例如文本)也具有挑战性的情况。

  • 相关阅读:
    SP1557 GSS2 - Can you answer these queries II【线段树】
    C++中地递增递减运算符和指针
    Promise(微任务)- 让你看完就懂
    静态双位置继电器XJLS-8G/220
    CSS主题切换方案说明
    个推「数据驱动运营增长」上海专场:携程智行火车票分享OTA行业的智能用户运营实践
    SHELL脚本编程基础,bilibili王晓春老师课程个人笔记(写比较简单,仅供参考)
    isa-l 中 ec_init_tables() 的用途
    若依框架的暴力破解漏洞
    (四)Shell编程之算数运算
  • 原文地址:https://blog.csdn.net/qq_44824148/article/details/133577619