Title:《Similarity Reasoning and Filtration for Image-Text Matching》
Published:2021AAAI
code:https://github.com/Paranioar/SGRAF
这篇论文提出的模型SGRAF是当前跨模态检索SOTA,属于跨模态相似性度量方法一类。
Abstract:图像-⽂本匹配在连接视觉和语⾔⽅⾯起着⾄关重要的作⽤,并且通过利⽤图像和句⼦之间的全局对⻬或区域和单 词之间的局部对⻬已经取得了很⼤进展。然⽽,如何充分利⽤这些⽐对来推断出更准确的匹配分数仍然没有得到充 分探索。在本⽂中,我们提出了⼀种新颖的相似图推理和注意⼒过滤 (SGRAF) ⽹络,⽤于图像-⽂本匹配。具体来说,⾸先学习基于向量的相似性表⽰以更全⾯的⽅式表征局部和全局对⻬,然后引⼊依赖于⼀个图卷积神经⽹络的相似图推理(SGR)模块来推断与两者的关系感知与局部和全局对⻬的相似性。进⼀步开发了相似性注意过滤 (SAF) 模块,通过选择性地关注重要且具有代表性的对⻬⽅式,同时排除⽆意义对⻬⽅式的⼲扰,从⽽有效地整合这些对⻬⽅式。我们通过⼴泛的定性实验和分析证明了所提出的⽅法在 Flickr30K 和 MSCOCO 数据集上实现最先进性能的优越性,以及 SGR 和 SAF 模块的良好可解释性。
创新点:
图文匹配是指测量图像和文本之间的视觉语义相似性,这在各种视觉和语言任务中变得越来越重要,如跨模态检索、图像字幕、文本到图像合成和多模态神经机器翻译。尽管近年来已经取得了很大的进展,但由于图像和文本之间的复杂匹配模式和较大的语义差异,图像-文本匹配仍然是一个挑战性的问题。
为了准确地建立视觉和文本观察之间的关联,大部分方法利用深度神经网络首先将图像和文本编码为紧凑的表示,然后学习在匹配标准的指导下测量它们的相似性。例如,将整个图像和整个句子映射到一个公共向量空间中,并计算全局表示之间的余弦相似度。
为了提高统一嵌入的判别能力,开发了许多策略,例如语义概念学习和区域关系推理,通过结合局部区域来增强视觉特征 区域语义。
然而,这些方法无法捕捉图像区域和句子片段之间的局部交互,导致可解释性和性能提升有限。 为了解决这个问题,提出发现图像区域和句子片段之间所有可能的对齐方式,这会产生令人印象深刻的检索结果并激发大量工作探索更准确的细粒度对应。 尽管通过设计各种机制来编码更强大的特征或捕获更准确的对齐方式已经取得了显着的进步,但这些方法忽略了相似度计算的重要性,而相似度计算是探索图像和文本之间复杂匹配模式的关键。
更具体地说,以前的⽅法存在三个缺陷。
SGRAF ⽰意图。红⾊和其他颜⾊的节点分别编码图 像-⽂本和区域-单词对⻬。SGR模块捕获它们的关系以实 现全⾯的相似性推理,SAF模块减少⽆意义对⻬的⼲扰
为了解决这些问题,在本⽂中,我们提出了⼀种新颖的 相似图推理和注意过滤(SGRAF)⽹络,⽤于图像-⽂本 匹配。具体来说,我们⾸先捕获整个图像和完整句⼦之间 的全局对⻬,以及图像区域和句⼦⽚段之间的局部对⻬。 我们建议学习基于向量的相似性表⽰来更有效地建模跨模 态关联,⽽不是⽤基于标量的余弦相似度来表征这些对 ⻬。然后我们介绍了相似图推理 (SGR) 模块,该模块依赖 于图卷积神经⽹络 (GCNN) 通过捕获局部和全局对⻬之间 的关系来推理更准确的图⽂相似度。此外,我们开发了相 似性注意过滤(SAF)模块来聚合所有具有不同显着性分 数的对⻬,从⽽减少了⽆意义对⻬的⼲扰并获得更准确的 跨模态匹配结果。
许多先前的⽅法专注于跨模态检索的特征提取和优化。
对于⽂本特征:
对于视觉特征:
本文利用自注意力在区域或单词特征上获得图像或文本的表示,专注于对全局图像文本和局部区域-单词对齐进行全面的建模的相似性编码机制,并充分编码图像和文本之间的细粒度关系。
现在对于图像和文本匹配的大多数工作学习了联合嵌入和跨模态匹配的相似性度量 。
对于全局对齐:
对于局部对齐:
例如:研究区域和词对之间的潜在语义对齐,并通过平均值或LogSumExp集成了局部余弦对齐。
不同的是,本文的网络探索基于向量的对齐之间的全局-局部关系来减少意义不大的对齐的干扰来聚合相似性。
基于 Graph 的研究建模了概念之间的依赖关系并促进了图推理,例如 GCNN和⻔控图神经⽹络 (GGNN) 。 这些图神经⽹络已⼴泛应⽤于各种视觉语义任务,例如图 像字幕, VQA和基础引⽤表达式 。
近年来,有⼏种⽅法可以利⽤图结构来增强参考图像-⽂本匹配的单 ⼀视觉或⽂本特征。
他们都通过学习单模态上下⽂表⽰来关注“特征编码”.
本文的 SGR 以“相似性推理”为⽬标,并通过全局和局部 跨模态对⻬探索更复杂的匹配模式。
注意机制已应⽤于⾃然语⾔处理中的⾃适应过滤和聚合信息。在图像-⽂本匹配⽅⾯,它旨在关注视觉和⽂本数据 的某些部分。
我们采⽤ text-to-visual attention 使⽤ 区域-单词对并计算⽂本参与对⻬。 在本⽂中,我们的 SAF 旨在丢弃语义较少的对⻬,⽽不是利⽤精确的跨模态注意⼒。
在本节中,专注于通过捕获局部和全局对⻬之间的关 系来改进视觉语义相似性学习,并抑制不太有意义的对⻬的⼲扰。
如图所⽰2,我们⾸先介绍如何对视觉和⽂本观 察进⾏编码,然后计算所有局部和全局表⽰对的相似性表 ⽰。
然后,我们详细阐述了⽤于关系感知相似性推理的相 似图推理(SGR)模块和⽤于代表性相似性聚合的相似性 注意过滤(SAF)模块。
最后,我们介绍了 SGR 和 SAF 模块的训练⽬标和推理策略的详细实现。
⽤于图像⽂本匹配的 SGRAF ⽹络。图像和句⼦⾸先被编码为局部和全局特征表⽰,然后是相似度表⽰计算模块来 捕获所有局部和全局跨模态对之间的对应关系。Similarity Graph Reasoning (SGR) 模块通过考虑所有对⻬之间的关系来推理相似性,Similarity Attention Filtration (SAF) 模块关注更多信息的对⻬,以实现更准确的相似性预测
对于每一个输入的图像,Faster R-CNN模型在Visual Genomes上的预训练 用于提取K个区域视觉特征;经过全连接,转换为d维向量作为局部区域表示;利用自注意力机制以图像区域的平均特征作为query,聚合所有区域获得全局表示
给定一个句子,我们用标记化技术分成L个单词,将单词嵌⼊顺序馈送到双向 GRU;每个词的表⽰是 通过平均每个时间步的前向和后向隐藏状态获得;同样全局文本表示是通过自注意力方法在所有单词特征上计算出来的。
以往的⽅法⼤多利⽤余弦或欧⼏⾥得距离 来表⽰两个特征向量之间的相似性,可以在⼀定程度上捕 捉到相关性,但缺乏详细的对应关系。
在本⽂中,我们计算了⼀个相似度表⽰,它是⼀个相似度向量⽽不是⼀个相似度标量,以捕获来⾃不同模态的特征表⽰之间的更详细 的关联。
任意两个向量x和y之间的相似度函数为:
我们用全局图像特征v和句子特征t和等式来计算相似性表示。
捕捉一个特定单词与其对应的图像区域之间的关联,从而利用局部的细粒度的视觉-语义对齐来提高相似度预测。
利用文本与区域之间的注意力机制得到每个局部特征的权重,c_ij是指第i个图像区域vi与文本单词tj之间的相似度。
a_jv表示对于特定单词j的图像表示。
为了实现更全⾯的相似性推理,我们构建了⼀个相似性图来在局部和全局级别的可能对⻬之间传播相似 性消息。更具体地说,我们采⽤所有单词参与的相似 性表⽰和全局相似性最为图节点
图的构建:节点即为相似性向量,边的计算方式如下,S代表节点,Win, W out代表入度出度学习参数:
我们用相似图推理来更新节点和边:
迭代推理N步的相似度,并将最后一步的全局节点的输出作为相似度推理的表示,然后将其输入全连接层以推断最终的相似度得分。SGR模块支持局部和全局对齐之间的信息传播,可以捕获更全面的交互以促进相似性推理。
尽管利⽤局部对⻬可以通过发现图像区域和句⼦⽚段之间 更细粒度的对应关系来提⾼匹配性能,但我们注意到,当 以未区分的⽅式聚合所有可能的对⻬时,意义较⼩的对⻬ 会阻碍区分能⼒。因此,我们提出了⼀个相似性注意过滤 (SAF)模块来增强重要的对⻬,以及抑制⽆效的对⻬。
在做匹配的时候每个文本单词给相似度的贡献应该是不一样的,应该给无意义单词匹配(eg:the\be等)分配较低权重。
权重计算方式如下,BN表示batch normalize,激活函数是sigmoid:
最后将权重与对应相似度向量加权求和得到SAF这一路的相似度。
本文分为两个模块,作者制定了两种训练方式。第一种是联合训练,即将SGR和SAF的损失函数加和一起训练模型。第二种是分开训练,即分别训练两个模块。验证阶段的相似度是这两个模块得到的相似度进行平均。实验发现,分开训练效果更好。
我们利用双向排序损失来训练SGR模块和SAF模块。给定一个匹配的图像-文本对(v,t)和对应的最难负图像v-和最难负文本t-在一个minbatch中 ,r是边缘参数,Sr( ,)表示用SGR实现的相似性预测函数,将SAF模块的训练目标定义为Lf。
推理阶段:对SGR和SAF模块预测的相似度进行平均,以进行检索评估。
为了验证模型的有效性,在本节中,在两个基准数据集上进行了广泛的实验。 还介绍了所提出的 SGRAF 模型的详细实现和训练策略。
数据集。在 MSCOCO 上评估我们的模型和 Flickr30K数据集。MSCOCO 数 据集包含 123,287 张图像,每张图像都带有 5 个带注释的 标题。该数据集分为 113,287 张⽤于训练的图像、5000 张⽤于验证的图像和 5000 张⽤于测试的图像。我们通过 平均超过 5 倍的 1K 测试图像并测试完整的 5K 图像来报告 结果。Flickr30K 数据集包含 31,783 张图⽚,每张图⽚有 5 个对应的标题。在分裂之后(弗罗姆等⼈。2013),使⽤ 1000 张图像进⾏验证,1000 张图像⽤于测试,其余⽤于训练。
表 1:MSCOCO 1K 测试集和 Flickr30K 测试集的双向检索结果⽐较(R@K (%))。VSRN* 表⽰与 SGR 进⾏公平⽐较的单 个模型。SGRAF 表⽰具有独⽴训练的整个框架
表 2:在 MSCOCO 5K 测试集上的双向检索结果对⽐ (R@K (%))
表 3:SGR 配置的影响。GLO 和 LOC 分别表⽰使⽤全局 对⻬和局部对⻬,Step 表⽰图推理步骤
GLO、LOC代表在构图过程中有无全局、局部相似度向量。Step表示图更新次数。Joint,Split表示联合训练还是模块分开地训练。从实验结果来看,同时考虑全局和局部相似度能够更全面得到相似度信息,提升模型效果。在SGR模块中,图的更新需要4次。
表 4:相似性配置的影响。I2T 和 T2I 表⽰视觉到⽂本和 ⽂本到视觉的注意⼒,分别⽣成局部相似性表⽰。SS 表 ⽰基于标量的余弦相似度,SV 表⽰基于向量的相似度, AA 表⽰所有对⻬的平均聚合
表 5:训练配置对 MSCOCO 1K 测试集和 Flickr30K 测试 集的影响。Split and Joint表⽰两个模块的独⽴联合训练
SGR和SAF并不兼容,独立训练比联合训练效果好。SGR 模块通过在局部和全局对齐之间传播信息来捕获几个关键线索,也会得到一些相对不重要的交互。SAF 模块尝试收集所有有意义的对齐并消除完全不相关的交互。
在这项工作中,提出了一个由相似图推理(SGR)和相似注意过滤(SAF)模块组成的 SGRAF 网络。 SGR 模块基于全局和局部相似性节点执行多步推理,并通过信息传播捕获它们的关系,而 SAF 模块更多地关注用于相似性聚合的判别性和有意义的对齐。 我们证明了利用局部和全局对齐之间的关系并抑制不太有意义的对齐的干扰是很重要的。 在基准数据集上的大量实验表明,SGR 和 SAF 模块都可以有效地发现图像和文本之间的关联,并在相互配合时取得进一步的改进。