• 【CVPR2023】DetCLIPv2:通过单词-区域对齐实现可扩展的开放词汇目标检测预训练...


    3ef64e52d8a9f46a40f32416316e6aaf.png

    论文题目:DetCLIPv2:Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

    代码:未开源

    导读

    本文提出了一个创新性的开放词汇目标检测框架DetCLIPv2,这篇论文的工作为开放词汇目标检测领域带来了新的突破。传统目标检测方法通常需要预先定义目标类别,但在现实应用中,我们常常需要检测未知类别的目标,这就是所谓的开放词汇目标检测(OVD)。

    DetCLIPv2的独特之处在于,它不依赖于教师模型提供的伪标签,而是通过联合训练多源数据,包括检测、定位和图像文本对,从而实现了定位能力和广泛概念的知识的同时学习。此外,它采用了对比学习来引导图像文本对数据的检测学习,进一步提高了性能。为了应对大规模图像文本对数据的计算复杂性,DetCLIPv2采用了低分辨率输入,从而在保持性能的同时提高了训练效率。实验证明,DetCLIPv2在LVIS基准测试中取得了显著的性能提升。

    本文贡献

    • DetCLIPv2框架:本文引入了DetCLIPv2,一个端到端的开放词汇目标检测预训练框架。这个框架允许模型识别未知类别的目标,而无需预定义的目标类别列表,从而满足了多种实际应用场景的需求。

    • 不依赖教师模型:与其他方法不同,DetCLIPv2不依赖教师模型来提供伪标签或引导训练过程。它通过联合训练多源数据,包括检测、定位和图像文本对,从而同时学习了定位能力和广泛概念的知识。

    • 对比学习引导:为了有效地利用图像文本对数据进行检测学习,DetCLIPv2采用了一种基于最优匹配的集合相似度方法,以指导对比学习,从而提高性能。

    • 低分辨率输入:为了减轻大规模图像文本对数据带来的计算负担,DetCLIPv2采用了低分辨率输入,从而提高了训练效率。

    相关工作

    视觉-语言预训练(VLP):传统的视觉-语言模型通常设计用于特定任务,如视觉问答(VQA)和图像字幕生成等。最近的一个趋势是通过利用大规模低成本的图像文本对来开发通用的视觉-语言表示学习系统。例如,CLIP和ALIGN执行跨模态对比学习,利用数百万的图像文本对,取得了令人印象深刻的零样本图像分类性能。

    与DetCLIPv2相关的工作:最相关的工作是FILIP,它提出了一种基于词-图像块相似度的跨模态后期交互机制,以更好地促进图像-文本对齐。然而,将这个思想应用于构建开放词汇检测系统并不简单,而我们提出的方法提供了一个解决方案。

    开放词汇目标检测(OVD):OVD近年来作为一种更通用且实际的目标检测范式出现,用于检测无限概念的对象。受到视觉-语言预训练成功的启发,最近的研究提出了将预训练的视觉-语言模型的知识转移到检测器中的方法。还有一种有效的思路是利用更广泛的训练数据源,例如低成本的图像文本对,通过伪标注过程扩展领域覆盖范围。

    半监督目标检测(SSOD)弱监督目标检测(WSOD):这些方法旨在通过利用可用标记数据的基础上的未标记数据来改进目标检测系统。然而,它们通常假设了一个封闭的领域设置,其中未标记数据中的类别应该被标记数据覆盖。与这些领域的方法不同,DetCLIPv2考虑了一个更具挑战性的开放领域设置,通过从大规模图像文本对中学习无限概念来建立一个开放世界的目标检测器。

    本文方法

    7ba9386c91b2db9ccd7b7496f50c9721.png

    本文提出的方法如图 3 所示。DetCLIPv2以端到端的方式执行检测、定位和图像对数据的联合训练。该架构包括以下主要组件:

    • 图像编码器:用于从输入图像中提取区域嵌入(region embeddings)f P。这个组件有助于模型理解图像中的视觉信息。

    • 文本编码器:用于计算输入名词短语的单词嵌入(word embeddings)f T。这个组件有助于模型理解文本信息。

    为构建一个强大的开放世界目标检测系统,DetCLIPv2将来自不同数据源的数据,即检测、定位和图像文本对,用于预训练。以下是方法的主要步骤:

    • 统一的数据制定(Sec. 3.1)

    • 细粒度对比学习(Sec. 3.2)

    • 模型架构和训练目标(Sec. 3.3)

    • 联合训练细节(Sec. 3.4)

    1. 统一的数据制定

    首先,文章使用了一个并行的formulation来统一来自不同来源的数据格式,该格式是一个三元组的形式:

    746264a088c20e7f24cf96a76bee4273.png

    其中 x 是图像,bi 和 tj 分别表示一组边界框注释和概念名称。这个三元组的构建方式因不同类型的数据而异:

    检测数据(Detection):T是由数据集中采样的类别名称构建的,由图像中出现的类别和其他随机采样的负例类别组成。为了明确提供各种概念之间的关系,文章在训练和测试阶段都应用了概念丰富化技术,即每个tj通过将其类别名称与相应的定义进行连接而获得。

    定位数据(Grounding):首先从原始标题中提取名词短语(提供在注释中),形成一个正概念集

    f6e9f7ea6878c122c0fc7cec933d5178.png
    。为了提供足够多的负概念用于学习,还从构建的概念字典中随机采样一个不包含在标题中的负概念集 597abcd464c0b032737b92d69e573423.png
    。最终的类别名称集合由T = Tpos ∪ Tneg组成。

    图像文本对数据(Image-text pairs):由于不存在实例级别的注释,因此

    fe4619cb8c615dfe4395e5aff5484acb.png
    。T由原始标题和从标题中提取的名词短语组成。

    对于检测和定位数据,每个bi都标记有一个概念tj,从而实现了开放词汇的目标检测学习。

    文章采用的架构包括图像编码器和文本编码器,用于执行开放词汇目标检测。图像编码器是一个任意形式的对象检测器,接受图像 x 作为输入,并输出一组区域提议 P 以及它们的分类特征

    1f4c665b3be0d78ef1eb19b3d5234952.png
    。文本编码器将每个概念名称 tj 视为一个句子,将所有 tj 分别发送到文本编码器以获得句子嵌入 8aad755c68dbf99bfedfeba9d2842387.png

    当需要增加负样本数量时,文章收集全局批次中的

    19f5b2e7dd1d690b089366e3601639b2.png
    并去除批次中不同样本中包含的重复概念,得到了一个汇总的文本嵌入 ad3c038c20597fff4a1af38370de8d9f.png

    然后,通过计算

    3cb7765a4db61c133ccbfaeb2a23c5d3.png
    d1a9bbc370bed44b6f614c69d77eece9.png
    之间的相似性矩阵S ∈ R K×MB来获得相似性矩阵,其计算方式如下: 821b9809494b147992f38e31125cd335.png

    当实例级注释可用时,例如,对于检测和grounding数据,我们可以根据传统目标检测框架[41,48,58]中的gt分配过程构建目标矩阵

    685f1bb78eba8903cbba1cb119fb58f9.png
    ,然后可以计算对齐损失
    (详见3.3节);而对于实例级注释不可用的图像-文本对数据,我们将在第3.2节详细说明我们的方法。
    2. 细粒度对比学习

    在本节中,介绍了DetCLIPv2如何从大规模图像文本对数据中学习,以实现细粒度的词-区域对应,而不依赖于实例级别的注释。这一学习方法包括以下几个关键步骤:

    词-区域对齐相似性:给定一个图像文本对

    04bd746519f103590c98eea1066947f3.png
    ,从xT 中提取一组名词短语,并将 b1333980b8b1b17259bac3e828cbab56.png
    作为模型的输入。

    图像编码器生成一组proposal

    0c9e418ffb052349122d8164b7922ca6.png
    ,文本编码器提取名词短语 dc7f87d4cbe8449d25b62c4245a3c0c2.png
    的文本嵌入 def725ebd889cb649b39622ccca0861f.png

    词-区域对齐的对比学习是基于P和T之间的集合相似性构建的。对于T中的第j个概念tj,我们通过计算以下公式来找到其在 P 中的最佳匹配:

    130b1692923edddd1473452389403e4a.png

    然后,通过聚合所有词-区域相似性来计算文本与图像之间的相似性

    1ee70eb4256cae207bd5c0b89ac7eb3a.png
    ,如下所示: e4389e89dbdedbd6d417a68ef59f6d5d.png

    另一个合理的考虑因素是,每个文本概念都应该对应于多个区域。这种设计可以通过使用文本概念和所有视觉区域之间的软最大加权和相似度来建模,即:

    01206aa2bb0b842d393906d7b4e9a404.png

    图像-文本对比损失:基于引入的词-区域对齐相似性,我们可以执行图像-文本对之间的标准对比学习。具体来说,对于一个批次B的图像-文本对

    299a48a11de7feb73e70d62b9973ce7c.png
    ,对比损失可以表示为: db73e180dbbce2f083e0e498131a10f3.png

    值得注意的是,DetCLIPv2只考虑了文本到图像的对比损失,而不考虑图像到文本的对比损失,因为从互联网爬取的图像文本对数据存在着部分标记的问题,大多数情况下,文本仅描述了图像中的一小部分对象。对于绝大多数数据,文本只描述了图像中出现的物体的一小部分,即大多数区域建议无法在标题文本中找到它们的对应匹配。包括图像到文本的匹配可能会导致明显的性能下降。

    Proposal 选择:为了选择最具代表性的图像区域以计算与文本概念的相似性,也即,我们希望选择与文本描述最相关的区域,以便模型能够更好地学习文本和图像之间的关联。DetCLIPv2采用了一种 Proposal 选择策略。对于每个候选区域,模型计算其与本地批次中所有文本概念的相似性,并使用最大相似性作为其 objectness score 。

    这个设计的好处有两个方面:首先,它选择与文本描述最相关的区域;其次,它选择了其他文本中描述的困难负概念,这有助于对比学习。根据 objectness score ,DetCLIPv2在NMS操作后选择了前k个Proposal 。

    3. 模型架构和训练目标

    模型架构:DetCLIPv2使用了基于vanilla ATSS检测器的架构,同时配备了基于Transformer的文本编码器。DetCLIP 的一个特殊的设计是在分类头部的开头插入了轻量级的可变形卷积 [61]。

    通过在分类头中引入可变形卷积层,模型的分类头和回归头之间建立了一种关联,使得梯度信号能够从分类头流回回归头。这样,即使在没有监督信号的情况下进行训练(如图像-文本对训练),模型的回归头也可以从大规模图像-文本对的训练中受益。这种设计的关键在于,通过学习更好的骨干特征的空间聚合,回归头能够获得更好的目标定位能力,从而提高了整个模型在目标检测任务中的性能。

    训练目标:DetCLIPv2的总体目标可以表述为:

    3621da409afe029ae756d2ac6d6c92a2.png

    Lalign:对齐损失,用于衡量模型的对齐能力。

    Lcts:对比损失,用于学习图像和文本之间的关联。

    Lreg:回归损失,用于定位目标。

    Lcenter:中心度损失,用于帮助模型更好地定位目标中心。

    4. 联合训练

    DetCLIPv2在训练过程中执行与异构数据集的联合训练。在训练期间,将属于同一类型的数据分组为一个全局批次。在每次迭代中,选择一种类型的数据进行训练。不同类型的数据使用不同的输入分辨率和批次大小进行训练。具体来说:

    • 对于检测(detection)和定位(grounding)数据,使用高分辨率的输入和较小的批次大小进行训练。这有助于提高对目标的精确定位。

    • 对于图像-文本对数据(image-text pairs),采用低分辨率的输入和较大的批次大小。这有助于增加对比学习中的负样本数量,并显著降低大规模图像-文本对的训练成本。

    实验

    实验结果

    LVIS数据集上的零样本性能:

    2a6195e70453fd6af6eec0eed17d4cce.png

    值得注意的是,DetCLIPv2的模型在零样本模式下击败了其完全监督的对应模型

    迁移性能 with Fine-tuning:

    885085edb9b20a82ae13479b57c37b5b.png

    可视化分析

    在CC12M等图像文本对数据上的词-区域对齐学习效果:

    9d7a21f02ae715525327aea3e895cd4f.png
    消融实验

    Proposal选择策略

    7a49049edf792ab5ebd6ac7e72a782dc.png

    词-区域对齐策略:

    43cfef7af78ad28ca81da8c0cb97e444.png

    Proposal数量k:

    d2bdb9ef90c8b60b460e37f69b10c21d.png

    对比损失设计:

    c01c4462c5bdda27d16c0be67641425d.png

    温度和损失权重:

    0f0f9114394af83df4958141f3b09134.png

    可变形模块的有效性:

    a008b96807a2bc04fc016ef80e5768d9.png

    融合更多数据有助于学习:

    c1ea07b92e028983827e13890779ddb4.png

    DetCLIPv2与GLIP和DetCLIP的训练效率:

    9359db834620d40c5bf849b2a9564c7c.png

    结论

    这篇论文提出了了DetCLIPv2,这是一个面向开放词汇目标检测的统一端到端预训练框架。通过使用区域和单词之间的最佳匹配集相似性来引导对比目标,我们有效地利用了大规模的图像文本对来执行目标检测任务。实验表明DetCLIPv2在开放词汇性能和广泛领域覆盖方面表现出优越性。我们的方法提供了一种通过进一步扩大图像文本对规模来实现开放式检测的可能途径,这个方向可以留给未来的工作。

    局限性

    我们的方法提供了一种通过扩大图像文本对来实现开放世界检测的可能途径。然而,其定位能力仍然严重依赖于检测数据中提供的边界框注释。为了改善定位的泛化性能,设计像[26]那样的用于强大的开放世界区域提议的架构是未来工作的有前途的方向。此外,从互联网上爬取的图像文本对存在噪声,并且受到严重不完整描述的影响,这会损害单词-区域对齐的学习效率,需要进一步的设计来改善数据质量,就像[28]中提到的那样。当进一步扩大图像文本对以超过检测数据时,训练不平衡有可能损害性能,这也需要在未来进行探索。

    ☆ END ☆

    如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

    扫描二维码添加小编↓

    7f748a643f7a6487d511171a73f45d81.jpeg

  • 相关阅读:
    PyQt5 基础知识(六):展示控件
    Web安全技能树-资源汇总
    C++-容器-string:返回string最后一个字符【char c=str.back();】
    【WebGIS实例】(11)Cesium自定义区域裁剪(挖除&挖出)
    数字孪生3D可视化,人员定位系统助力企业数字化转型
    软考 系统架构设计师系列知识点之软件可靠性基础知识(4)
    LeetCode / Scala - 无重复字符最长子串 ,最长回文子串
    【JS面试题】面试官:“[1,2,3].map(parseInt)“ 输出结果是什么?答上来就算你通过面试
    matlab相机标定求得相机内参
    牛客 HJ18 识别有效的IP地址和掩码并进行分类统计
  • 原文地址:https://blog.csdn.net/woshicver/article/details/133565275