本文在文本到视频检索的新背景下,作者重新探讨了特征融合这一古老的课题。与以往的研究只考虑视频或文本一端的特征融合不同,本文的目标是在一个统一的框架内实现两端的特征融合。作者假设优化特征的凸组合比通过计算繁重的多头自注意建模它们的相关性更可取。作者提出轻量级注意特征融合(LAFF)。LAFF在早期和后期以及在视频和文本末端都进行特征融合,使其成为利用各种特征的强大方法。LAFF的可解释性可用于特征选择。在五个公共基准集(MSR-VTT、MSVD、TGIF、V ATEX和TRECVID A VS 2016-2020)上的广泛实验证明LAFF是文本到视频检索的新基准。
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
论文地址:https://arxiv.org/abs/2112.01832
代码地址:https://github.com/ruc-aimc-lab/laff
文本到视频检索是用一个特别的文本查询从很多未标记视频中检索对应视频的任务。视频和文本都必须嵌入到一个或多个跨模态的公共空间中,以便进行文本到视频的匹配。他的技术水平以不同的方法解决了这项任务,包括用于查询表示学习的新型网络,用于视频表示学习的多模态Transformer,用于可解释的跨模态匹配的混合空间学习,以及最近的以端到端方式学习文本和视频表示的CLIP2Video。另外,作者还研究了特征融合,这是文本到视频检索中一个重要但尚未充分开发的主题。
在给定以不同特征为代表的视频/文本样本的情况下,特征融合的目的是回答一个基本的研究问题,即**结合这些特征的最优方式是什么?**本文所说的最优是指融合将使检索性能最大化。同时对融合过程进行解释,解释个体特征的重要性。随着每一个特征的使用而引入额外的计算和存储开销,可解释性对聚合过程的选择至关重要,以平衡性能和成本。
特征融合本身并不新鲜。事实上,该主题已在多媒体内容分析和多模态或多视图图像分类等不同背景下进行了广泛研究。这些早期的努力集中在结合手工制作的特征上,因为已知这类特征是特定于领域的,存在语义差距问题,因此单独使用时不足以表示内容。虽然当前的深度学习特征已经比它们的前辈更强大,但似乎没有一个特征可以统治一切。关于物体和场景的黑暗知识在预训练的 2D 卷积神经网络(2D-CNN)中更好地承载,而 3D-CNN 更适合表示动作和动作。对于文本到视频的检索,在结合各种深度视频特征方面有一些初步努力,例如JE 、CE 和 MMT ,而 W2VV++ 和 SEA 显示了组合不同文本特征以获得更好查询表示的潜力。最近的 CLIP 系列,由于其端到端的学习范式,实际上缺乏利用现有特征的能力。因此,即使在深度学习时代,特征融合的需求依然强烈。
作为特征融合的一种方法,向量连接通常在早期组合特征时使用 。至于后期融合,并行学习多个特定于特征的公共空间,通过平均、经验加权 或专家混合 (MoE) 集成组合得到的相似性。随着特征数量的增加,向量连接会受到维度灾难的影响,而为每个特征构建公共空间缺乏特征间的交互。此外,之前的作品要么侧重于视频端,要么侧重于文本端。目前没有尝试开发一种统一的基于学习的方法,在文本到视频检索的上下文中对两端都有效,如下表。
人们可能会考虑通过多头自注意力(MHSA)进行特征融合,这是 Transformers 的基石。如下图(a) 所示,MHSA 通过将特定特征与来自所有其他特征的信息混合来转换特定特征,混合权重由称为 QKV 的自注意机制产生。请注意,该模块最初是为 NLP 任务开发的,其中利用元素相关性对于解决语义歧义至关重要。然而,由于由不同的 2D-CNN 和 3D-CNN 提取的视频特征是为了从不同方面描述视频内容,作者推测优化它们的组合优于对它们的相关性进行建模。此外,由 Softmax ( ( Q K T d v ) V ) \operatorname{Softmax}\left(\left(\frac{Q K^{T}}{\sqrt{d_{v}}}\right) V\right) Softmax((dvQKT)V)计算的 MHSA 中的 self-attention 在很大程度上取决于特征间的相关性。因此,它往往会产生一种群体效应,即彼此相关的特征将受到更多关注。因此,相关但相对较弱的特征将被过分强调。因此,尽管 MHSA 在不同环境中的流行率很高,但作者认为 MHSA 对于当前任务来说不是最佳的。
作者在本文中提出了一个非常简化的特征融合块,称为轻量级注意力特征融合(LAFF),见上图(c)。LAFF 是通用的,适用于视频和文本端。视频/文本特征用凸方式组合在一个特定的 LAFF 块中,学习组合权重以优化跨模态文本到视频的匹配。在特征层面进行融合,LAFF因此可以被视为一种早期的融合方法。同时,通过 MHSA 中使用的多头技巧,可以在单个网络中部署多个 LAFF,并以后期融合的方式组合它们的相似性。在早期和后期以及视频和文本结束时执行特征融合的能力使 LAFF 成为利用文本到视频检索的多样化、多层次(现成的)特征的强大方法。总之,本文的主要贡献如下:
本文是第一个研究用于文本到视频检索的视频端和文本端特征融合的工作。鉴于用于特征提取的深度视觉/语言模型的可用性越来越高,本文提出了一种有效的方法来利用这些黑暗知识来解决任务。
作者提出了 LAFF,一种轻量级的特征融合块,能够在早期和晚期进行融合。与 MHSA 相比,LAFF 更紧凑但更有效。它的注意力权重也可用于选择较少的特征,而检索性能大部分保持不变。
在 MSR-VTT、MSVD、TGIF、V ATEX 和 TRECVID A VS 2016-2020 五个基准上的实验表明,基于 LAFF 的视频检索模型(上图 )与最先进的模型相比具有优势,为文本到视频的检索提供了强大的基线。
作者提出了针对视频和文本端的可训练特征融合。具体地,假设具有由一组K1个视频级特征 { f v , 1 ( x ) , … , f v , k 1 ( x ) } \left\{f_{v, 1}(x), \ldots, f_{v, k_{1}}(x)\right\} {fv,1(x),…,fv,k1(x)},以及由一组K2个句子级特征 { f t , 1 ( q ) , … , f t , k 2 ( q ) } \left\{f_{t, 1}(q), \ldots, f_{t, k_{2}}(q)\right\} {ft,1(q),…,ft,k2(q)}。将构造两个特征融合块来分别将视频和查询编码到它们的d维跨模态嵌入 e ( x ) e(x) e(x)和 e ( q ) e(q) e(q)中。它们的语义相似度s(x,q)相应地根据两个嵌入来衡量,即:
{
e
(
x
)
:
=
fusion
v
(
{
f
v
,
1
(
x
)
,
…
,
f
v
,
k
1
(
x
)
}
)
e
(
q
)
:
=
fusion
t
(
{
f
t
,
1
(
q
)
,
…
,
f
t
,
k
2
(
q
)
}
)
s
(
x
,
q
)
:
=
similarity
(
e
(
x
)
,
e
(
q
)
)
.
\left\{
这样,针对给定查询Q的文本到视频检索是通过按照它们的s(x,q)以降序对测试集合中的所有视频进行分类来实现的。在下文中,作者将提出的LAFF描述为上面等式中融合块的统一实现。然后详细介绍了它在文本到视频检索中的使用方法。
在不失去一般性的情况下,作者提供了一组不同的k个不同的特征 { f 1 , … , f k } \left\{f_{1}, \ldots, f_{k}\right\} {f1,…,fk},大小如 d 1 , … , d k d_{1}, \ldots, d_{k} d1,…,dk。由于特征是由不同的抽取器获得的,因此不兼容,作者将使用特征转换层来校正不同的特征以使其具有相同的长度。要将第i个特征转换为新的d维特征,作者使用:
f i ′ = σ ( L i n e a r d i × d ( f i ) ) f_{i}^{\prime}=\sigma\left(\right. Linear \left._{d_{i} \times d}\left(f_{i}\right)\right) fi′=σ(Lineardi×d(fi))
其中σ是非线性激活函数。由于 LAFF 中非线性激活的输出是计算余弦相似度,在这项工作中使用 tanh。
L
i
n
e
a
r
d
i
×
d
Linear _{d_{i} \times d}
Lineardi×d表示一个全连接层,输入大小为 di,输出大小为 d。每个输入特征都有自己的Linear,当 di 等于 d 时Linear是可选的。
尽管转换后的特征
{
f
i
′
}
\left\{f_{i}^{\prime}\right\}
{fi′}现在是可比较的,但它们对于表示视频/文本内容并不同样重要。因此,作者考虑加权融合,即:
f ˉ = ∑ i k a i f i ′ \bar{f}=\sum_{i}^{k} a_{i} f_{i}^{\prime} fˉ=i∑kaifi′
权重 {a1, . . . , ak} 由轻量级注意力层计算如下:
{ a 1 , … , a k } = softmax ( L i n e a r d × 1 ( { f 1 ′ , … , f k ′ } ) ) \left\{a_{1}, \ldots, a_{k}\right\}=\operatorname{softmax}\left(\right. Linear \left._{d \times 1}\left(\left\{f_{1}^{\prime}, \ldots, f_{k}^{\prime}\right\}\right)\right) {a1,…,ak}=softmax(Lineard×1({f1′,…,fk′}))
如上图(b) 所示,在执行等式中的权重时,无注意特征融合块是 LAFF 的一种特殊情况,即 a i = 1 k a_{i}=\frac{1}{k} ai=k1。与 Attention-free 相比,LAFF 有更多的参数需要学习,见下表。正如消融研究将表明的那样,如此少量的额外参数对于提高特征融合的有效性很重要。与 MHSA 相比,LAFF 的可训练参数要少得多,因此数据效率更高。此外,由于 LAFF 的注意力权重直接用于特征的凸组合,因此 LAFF 比 MHSA 更具可解释性。
现在详细介绍 LAFF 在文本到视频检索中的用法。一个直接的解决方案是用 LAFF 代替方程式中的融合函数。因此,作者对视频/文本特征的组合方式进行了单一配置。然而,由于视频和文本内容的高度复杂性,作者假设单一配置对于跨模态表示和匹配来说不是最优的。借用MHSA的多头思想,作者考虑多头LAFF。特别是,作者部署了 h 对 LAFF,其中每对 LAFF 共同确定了用于视频-文本匹配的潜在公共空间。特别是,一对特定的 LAFF,表示为
<
L
A
F
F
v
,
i
,
L
A
F
F
t
,
i
>
{
e
i
(
x
)
=
L
A
F
F
v
,
i
(
x
)
e
i
(
q
)
=
L
A
F
F
t
,
i
(
q
)
s
i
(
x
,
q
)
=
similarity
(
e
i
(
x
)
,
e
i
(
q
)
)
\left\{
其中相似度是广泛使用的余弦相似度。因此,作者将最终的视频文本相似度计算为 h 个个体相似度的平均值,
s ( x , q ) = 1 h ∑ i = 1 h s i ( x , q ) s(x, q)=\frac{1}{h} \sum_{i=1}^{h} s_{i}(x, q) s(x,q)=h1i=1∑hsi(x,q)
整体架构如下图所示。为了使可训练参数的数量相对于 h 保持不变,作者设置 d = d 0 h d=\frac{d_{0}}{h} d=hd0,其中 d 0 d_0 d0是根据实验设置为 2,048 的常数。因此,多头版本的 LAFF 不是一个合奏。作者使用 h = 8,除非另有说明。
到目前为止,作者假设要融合的特征已经在视频级别。事实上,由于其高度的灵活性,LAFF 可以轻松扩展为多级变体,以应对不同帧级和视频级特征共存的情况。上图显示了这种变体,称之为 LAFF-ml。 LAFF-ml 以自下而上的方式工作,其中一组特定的帧级特征通过特定的 LAFF 块聚合以产生视频级特征。假设有两个不同的帧级特征,例如CLIP和rx101。每个都有自己的 LAFF 块。然后通过视频级 LAFF 块融合(结果)不同的视频特征。
遵循先前工作的良好实践,作者采用难负例挖掘的三重排序损失作为基本损失函数。对于给定训练batch中的特定句子 q, x+ 和 x− 表示视频相关和不相关的, x − ∗ x_{-}^{*} x−∗ 是最违反排名约束的难负例:
{
x
−
∗
=
argmax
x
−
(
s
(
x
−
,
q
)
−
s
(
x
+
,
q
)
)
loss
(
q
)
=
max
(
0
,
α
+
s
(
x
−
∗
,
q
)
−
s
(
x
+
,
q
)
)
,
\left\{
其中 α 是控制排名损失边际的正超参数。
在训练产生多个相似性的跨模态网络时,将每个相似性的损失组合起来比使用单个损失和组合的相似性得到更好的结果。因此,作者遵循这个策略,计算 loss i ( q ) \operatorname{loss}_{i}(q) lossi(q),即通过用 si 代替等式中的 s 在第 i 个空间中的损失。网络经过训练以最小化组合损失 ∑ i = 1 h loss i ( q ) \sum_{i=1}^{h} \operatorname{loss}_{i}(q) ∑i=1hlossi(q)。
上图展示了三种不同融合模型的性能曲线,即 W2VV++、SEA 和 LAFF。
上表比较了特征融合块。 W2VV++ 使用的简单特征连接作为基线。LAFF 表现最好,其次是 Attention-free、串联基线和 MHSA。 Attention-free 虽然非常简单,但在组合越来越多的文本特征方面比 MHSA 更有效。
每个特征的 LAFF 权重的可视化结果。
如上表所示,与单一损失对应物相比,使用组合损失训练的 LAFF 在 mAP 方面产生了超过 10% 的相对改进。
关于公共空间 h 的数量,作者尝试不同的值,即 {1, 2, 4, 8, 16}。如上表所示,性能随着 h 的增加而提高,在 h = 8 时性能达到峰值。
上表展示了在4个benchmark上和SOTA结果的对比。
上表展示了TRECVID A VS 2016–2020 的最先进性能。
对于文本视频检索,作者提出了 LAFF,一个非常简单的特征融合块。 LAFF 比 Multi-head Self-Attention 更有效,但参数要少得多。此外,LAFF 产生的注意力权重可用于解释单个视频/文本特征对跨模态匹配的贡献。因此,权重可用于特征选择,以构建更紧凑的视频检索模型。基于 LAFF 的视频检索模型超越了 MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID A VS 2016-2020 上的最新技术。
面向小白的顶会论文核心代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch
面向小白的YOLO目标检测库:https://github.com/iscyy/yoloair
面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
“点个在看,月薪十万!”
“学会点赞,身价千万!”