论文链接:https://arxiv.org/abs/2309.16668
项目地址:https://realfill.github.io/
代码仓库:https://github.com/thuanz123/realfill 截止国庆假期前夕,代码尚未公开完整。
虽然模型可以在未知区域生成高质量、合理的图像内容,但由于缺乏真实场景的上下文信息,这些模型幻觉出的内容必然是不真实的。只依赖于prompts,缺乏参考图像。比如说衣服变了,类似于生成视频中的一致性不好等问题。
本文定义了一个全新的问题:「真实图像补全」Authentic Image Completion。
RealFill 是首个通过在过程中添加更多的条件(即添加参考图像)来扩展生成型图像修复模型表达力的方法。
RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置,而这些参考图像无须与目标图像对齐,甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。一旦完成个性化设置,RealFill 就能够以忠实于原始场景的方式,用视觉上引人入胜的内容来补全目标图像。
I
r
e
f
I_{ref}
Iref:输入的参考图像。
I
t
g
t
I_{tgt}
Itgt:输入的目标图像。
I
o
u
t
I_{out}
Iout:Training阶段的输出,通常为一个集合,进行筛选。
I
g
e
n
I_{gen}
Igen:Inference阶段的输出。
对于reference images:
模型仅仅对mask掉的部分进行loss计算。
最终生成的 I o u t {I_{out}} Iout集合,如果生成的图像与参考图像之间的对应关系较差或不够准确,它们就会被筛选掉,不会被包含在最终的生成结果中。
为了保证非生成部分能够更好的还原,对 I t g t I_{tgt} Itgt的非mask区域,设置 α \alpha α通道,保证 I t g t I_{tgt} Itgt的还原性良好。
给定左侧的参考图像,RealFill 能够在右侧绘制相应的目标图像。将白盒内的区域作为已知像素提供给网络,并生成白盒外的区域。结果表明,RealFill 产生高质量的图像忠实于参考,即使参考和目标之间存在显着差异,包括视点、光圈、照明、图像风格和物体运动的变化。
给定左边的参考图像,RealFill不仅能够去除目标图像中不希望看到的物体,忠实地揭示遮挡的内容(左列),而且还能够在场景中插入对象,尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中,参考图像和目标图像之间的孔径也不同,RealFill不仅恢复了杯子后面的建筑物,而且保持了目标图像中看到的适当数量的模糊。
RealFill 无法恢复精确的 3D 场景结构;RealFill 无法处理对基本 T2I 模型(例如文本)也具有挑战性的情况。