码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【RealFill】一种新的用于图像补全的生成式模型


    文章目录

    • RealFill
      • 1. 背景
      • 2. 模型结构
        • 2.1 Training 流程
        • 2.2 Inference 阶段
      • 3. 应用场景
        • 3.1 outpainting
        • 3.2 Inpainting
      • 4. 局限性

    RealFill

    论文链接:https://arxiv.org/abs/2309.16668

    项目地址:https://realfill.github.io/

    代码仓库:https://github.com/thuanz123/realfill 截止国庆假期前夕,代码尚未公开完整。

    1. 背景

    虽然模型可以在未知区域生成高质量、合理的图像内容,但由于缺乏真实场景的上下文信息,这些模型幻觉出的内容必然是不真实的。只依赖于prompts,缺乏参考图像。比如说衣服变了,类似于生成视频中的一致性不好等问题。

    本文定义了一个全新的问题:「真实图像补全」Authentic Image Completion。

    RealFill 是首个通过在过程中添加更多的条件(即添加参考图像)来扩展生成型图像修复模型表达力的方法。

    RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置,而这些参考图像无须与目标图像对齐,甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。一旦完成个性化设置,RealFill 就能够以忠实于原始场景的方式,用视觉上引人入胜的内容来补全目标图像。

    2. 模型结构

    在这里插入图片描述
    I r e f I_{ref} Iref​:输入的参考图像。
    I t g t I_{tgt} Itgt​:输入的目标图像。
    I o u t I_{out} Iout​:Training阶段的输出,通常为一个集合,进行筛选。
    I g e n I_{gen} Igen​:Inference阶段的输出。

    2.1 Training 流程

    • 输入:3~5张 reference images & target images & prompt
    • 输出:output images
    • Loss:
      在这里插入图片描述

    对于reference images:

    • 随机进行mask
    • 训练lora
    • 放入diffusion model

    模型仅仅对mask掉的部分进行loss计算。

    最终生成的 I o u t {I_{out}} Iout​集合,如果生成的图像与参考图像之间的对应关系较差或不够准确,它们就会被筛选掉,不会被包含在最终的生成结果中。

    2.2 Inference 阶段

    为了保证非生成部分能够更好的还原,对 I t g t I_{tgt} Itgt​的非mask区域,设置 α \alpha α通道,保证 I t g t I_{tgt} Itgt​的还原性良好。

    3. 应用场景

    3.1 outpainting

    在这里插入图片描述
    给定左侧的参考图像,RealFill 能够在右侧绘制相应的目标图像。将白盒内的区域作为已知像素提供给网络,并生成白盒外的区域。结果表明,RealFill 产生高质量的图像忠实于参考,即使参考和目标之间存在显着差异,包括视点、光圈、照明、图像风格和物体运动的变化。

    3.2 Inpainting

    在这里插入图片描述
    给定左边的参考图像,RealFill不仅能够去除目标图像中不希望看到的物体,忠实地揭示遮挡的内容(左列),而且还能够在场景中插入对象,尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中,参考图像和目标图像之间的孔径也不同,RealFill不仅恢复了杯子后面的建筑物,而且保持了目标图像中看到的适当数量的模糊。

    4. 局限性

    在这里插入图片描述

    RealFill 无法恢复精确的 3D 场景结构;RealFill 无法处理对基本 T2I 模型(例如文本)也具有挑战性的情况。

  • 相关阅读:
    网络编程入门
    阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
    Qt设计一个自定义的登录框窗口
    FPGA_探针(ISSP)调试工具
    【零基础学QT】第九章 窗口美化QSS的使用
    Vue3 环境变量
    MySQL-约束,子查询,常用函数
    【科学文献计量】将Web of Science中的非核心合集的纯文本格式导入到endnote的文献数据转化为pandas中的DataFrame类型数据
    【ARM Coresight 系列文章19.2 -- Cortex-A720 AMU 详细介绍】
    华为外包测试2年,不甘被替换,168天的学习转岗成正式员工
  • 原文地址:https://blog.csdn.net/qq_44824148/article/details/133577619
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号