在人工智能领域,文本到图像生成(Text-to-Image Generation,简称T2I)技术近年来取得了显著进展,特别是在身份保持的图像生成方面,即生成与特定人物参考图像相匹配的新图像。这一技术在AI肖像、广告、动画和虚拟试穿等领域具有广泛的应用前景。然而,现有方法在保持参考肖像的身份特征、提升生成图像的美学吸引力,以及与不同的生成模型兼容方面仍面临挑战。 为了解决这些问题,中山大学和字节跳动公司的研究人员联合提出了一种名为ID-Aligner的新框架。ID-Aligner通过奖励反馈学习机制,旨在提升身份保持文本到图像生成的性能。该框架引入了两种关键的奖励机制:身份一致性奖励和身份美学奖励,以增强生成角色的身份保持和视觉吸引力。可轻松应用于 LoRA 和 Adapter 模型,实现一致的性能提升。
ID-Aligner的核心方法是一种新颖的反馈学习框架,旨在增强身份保持文本到图像生成(ID-T2I)的性能。该方法通过两个关键的奖励机制——身份一致性奖励和身份美学奖励——来提升生成图像在身份保持和视觉吸引力方面的表现。以下是ID-Aligner方法的详细说明:
身份一致性奖励的目的是确保生成的图像在视觉上与参考肖像保持高度一致性。为了实现这一点,ID-Aligner采用了面部检测和面部识别技术来评估和提供反馈。
身份美学奖励关注生成图像的美学质量,包括人类对图像吸引力的偏好和角色结构的合理性。
在反馈学习阶段,ID-Aligner利用上述两种奖励模型来微调扩散模型,以更精确地匹配身份保持和美学偏好。
ID-Aligner为适配器(Adapter)模型和LoRA模型提供了两种不同的算法实现,以适应不同的文本到图像生成框架。
通过这些方法,ID-Aligner不仅提升了生成图像的身份保持度,还增强了图像的美学吸引力,实现了在不同身份保持文本到图像生成任务中的卓越性能。
实验设计部分旨在验证ID-Aligner框架在身份保持文本到图像生成(ID-T2I)任务中的有效性。以下是实验设计的关键方面:
实验结果表明,ID-Aligner在多种评估指标上均优于现有方法,包括面部相似度、DINO分数、CLIP-I分数和LAION-Aesthetics分数。这些指标分别衡量了生成图像与参考图像之间的面部相似度、整体主题一致性、语义相似度和美学质量。此外,ID-Aligner还展现出了良好的泛化能力,能够在不同的基础T2I模型上实现性能提升。
为了全面评估ID-Aligner,研究者们还开展了用户研究,邀请用户根据文本忠实度、图像质量和面部相似度等标准对生成的图像进行投票。结果显示,尽管InstantID在面部相似度方面得分最高,ID-Aligner在图像质量和文本图像一致性方面获得了更高的评价,展现了均衡的性能。
ID-Aligner的提出,不仅在学术上为扩散模型与其他专家模型(如面部识别模型)的整合提供了基础框架,而且在实际应用中也具有巨大的变革潜力。其生成的高保真度人物图像为娱乐、肖像、广告等行业带来了创新的机遇。然而,研究者们也指出了技术的潜在伦理问题,包括隐私保护、技术滥用和虚假信息的传播等,强调了制定和遵守严格的伦理准则的重要性。
ID-Aligner通过其创新的奖励反馈学习机制,成功提升了身份保持文本到图像生成的性能,为未来相关技术的发展和应用奠定了坚实的基础。
论文链接:https://arxiv.org/abs/2404.15449
项目地址:https://idaligner.github.io/