• 无需人工先验!港大&同济&LunarAI&旷视提出基于语义分组的自监督视觉表征学习,显著提升目标检测、实例分割和语义分割任务!...


    关注公众号,发现CV技术之美

    本文分享论文『Self-Supervised Visual Representation Learning with Semantic Grouping』,无需人工先验!港大&同济&LunarAI&旷视(张祥雨团队)提出基于语义分组的自监督视觉表征学习,显著提升目标检测、实例分割和语义分割任务!

    详细信息如下:

    60f6661c8f133f444bef4fa70dbb8dec.png

    • 论文链接:https://arxiv.org/abs/2205.15288


          01      

    摘要

    在本文中,作者解决了从未标记的以场景为中心的数据中学习视觉表示的问题。现有工作已经证明了在以场景为中心的数据中利用底层复杂结构的潜力;尽管如此,他们通常依靠手工制作的对象性先验或专门的借口任务来构建学习框架,这可能会损害普遍性。

    相反,作者提出从数据驱动的语义槽进行对比学习,即SlotCon,用于联合语义分组和表示学习。语义分组是通过将像素分配给一组可学习的原型来执行的,这些原型可以通过集中特征来适应每个样本,并形成新的槽(slot)。基于学习到的数据相关的槽,采用对比目标进行表示学习,增强了特征的可分辨性,反过来也有利于语义相关像素的分组。

    与之前的工作相比,通过同时优化语义分组和对比学习这两个耦合目标,本文的方法绕过了手工先验的缺点,能够从以场景为中心的图像中学习对象/组级别的表示。实验表明,该方法能有效地将复杂场景分解为语义组进行特征学习,并对下游任务(包括目标检测、实例分割和语义分割)有显著的帮助。

          02      

    Motivation

    现有的自监督方法已经证明,可以通过构造变换预测、实例判别和mask图像建模等借口从未标记数据中学习视觉表征。其中,基于实例判别的方法,将每个图像视为一个单独的类,并采用对比学习目标进行训练,取得了显著的成功,有利于提高许多下游任务的表现。

    然而,这一成功在很大程度上是建立在精心策划的以对象为中心的数据集ImageNet上的,ImageNet与下游应用程序(如城市场景或人群场景)的真实数据有很大差距。通过简单地将场景视为一个整体,直接将实例区分借口任务应用于这些真实世界的数据,会忽略其固有结构(例如,多个对象和复杂布局),从而限制以场景为中心的数据进行预训练的可能性。

    这就引出了本文的重点:从未标记的以场景为中心的数据中学习视觉表示。最近解决这一问题的努力大致可分为两类研究:一类将实例判别任务扩展到像素级,用于密集表示学习,这在下游密集预测任务中表现出很强的性能。然而,这些方法仍然缺乏对以场景为中心的数据中呈现的对象级关系建模的能力,这对于学习表示至关重要。另一类尝试进行对象级别的表示学习 ,其中大多数仍然严重依赖特定域的先验知识来发现对象,包括显著性估计器、无监督的对象proposal算法、手工分割算法或无监督聚类。然而,如果表示由手工制作的对象性先验值进行监督,则会阻止它从数据本身学习对象性,并且容易从先验值中出错。因此,表示的能力和通用性将受到限制。

    在这项工作中,目标是提出一种完全可学习和数据驱动的方法,以便能够从以场景为中心的数据中学习表示,从而提高效率、可迁移性和可泛化性。具体来说,作者提出了基于数据驱动语义槽的对比学习,即SlotCon,用于联合语义分组和表示学习。语义分组被描述为一个特征空间像素级的深度聚类问题,其中聚类中心被初始化为数据集共享的一组可学习的语义原型,分组是通过将像素分配给聚类来实现的。然后,通过将像素柔和地分配到聚类中心,并以加权的方式聚集其特征,形成新的特征,也被称为插槽,可以为每个样本更新聚类中心。

    此外,基于从一幅图像的两个随机视图中学习到的数据相关的槽,使用对比目标来进行表征学习,该目标试图将正槽(即来自同一原型和样本的槽)拉到一起,并推开负槽。优化的表示将增强特征、原型和槽的可分辨性,这反过来有助于将语义一致的像素分组在一起。与之前的工作相比,通过同时优化语义分组和对比表征学习这两个耦合目标,本文的方法绕过了手工先验的缺点,能够从以场景为中心的图像中学习对象/组级别的表征。

    作者通过对目标检测、实例分割、语义分割进行迁移学习评估,广泛评估了本文模型的表征学习能力。本文的方法在COCO预训练和ImageNet-1K预训练中都显示了良好的效果,弥补了以场景为中心和以对象为中心的预训练之间的差距。此外,本文的方法在无监督分割方面也取得了显著的性能,显示出很强的语义概念发现能力。

    综上所述,作者在本文中的主要贡献是:1)作者表明,自然场景的分解(语义分组)可以以一种可学习的方式进行,并且可以从头开始使用表示进行联合优化。2) 作者证明了语义分组对于从以场景为中心的数据中学习良好的表示至关重要。3) 结合语义分组和表示学习,作者释放了以场景为中心的预训练的潜力,在很大程度上弥补了其与以对象为中心的预训练的差距,并在各种下游任务中取得了最先进的结果。


          03      

    方法

    3.1 Semantic grouping with pixel-level deep clustering

    给定一个未标记图像的数据集D,本文的目标是学习一组原型,将每个像素分类为一个有意义的组,以便同一组中的像素具有语义一致性(具有相似的特征表示),而不同组之间的像素具有语义不一致性。作者发现这个问题可以看作是无监督的语义分割,并通过像素级深度聚类来解决。

    直观地说,语义有意义的分组应该对数据增强保持不变。因此,对于同一图像的不同增强,作者强制位于同一位置的像素对于相同的聚类中心集(原型)应该具有相似的分配分数。除了一致的分组之外,这些组还应该彼此不同,以确保学习到的表示具有区分性,并避免琐碎的解决方案。再加上自监督学习中使用的常见技术(如非线性投影和动量教师等),这就形成了本文的框架。

    7d1d7f2bdc88565f5669330d726ac4f4.png

    具体来说,如上图所示,本文的方法包含两个神经网络:学生网络由参数化,包括编码器、投影和一组K可学习原型

    402 Payment Required

    ;教师网络与学生具有相同的结构,但使用不同的权重集 ,该权重更新为θ的指数移动平均。

    给定一个输入图像x,应用两个随机增强以生成两个增强视图和。每个增强视图然后用编码器f编码到隐藏的特征映射中,然后用多层感知机(MLP)g进行变换,得到。然后,作者用相应的原型计算投影的分配(assignment),并强制它与教师网络生成的另一视图的分配t相匹配:

    6b0248f8cff0b885d89d6587d0a40343.png

    a24f5495cec26faf02fc8e93a47d4370.png

    86c33899c2df80b0635eed8a2bfae249.png

    其中是控制两个网络输出分布的温度参数。由于几何图像增强,例如随机裁剪、缩放或翻转,两个特征图和的比例或布局可能不一致,所以作者执行逆增强过程,在预测的指定上对齐其空间位置:。注意,是对分配Q而不是投影z执行逆增强,以将上下文信息保留在重叠区域之外,以便生成槽。

    基于对齐的分配,作者应用了交叉熵损失

    402 Payment Required

    ,以加强来自不同视图的空间对齐像素之间的分配分数的一致性。对所有空间位置的交叉熵损失进行平均,以产生分组损失:

    5cac4846f79abfb64f761e8287e1dcc1.png

    直接优化上述目标类似于普通教师的无监督变体。为了避免崩溃,保持平均logit,并在生成教师分配时减少它。平均logit存储了教师网络生成的所有logit的指数移动平均值:

    cc439fce470e3f748266d1d39f05821c.png

    其中B代表Batch大小。直观地说,减少平均logit会放大不同像素之间的分配差异,从而避免将所有像素分配给同一原型。此外,将教师温度设置为小于学生温度,以产生更清晰的目标并避免统一的分配。这两种操作都有助于避免崩溃,并强制网络学习有意义的语义分组。

    3.2 Group-level representation learning by contrasting slots

    受时Slot Attention的启发,作者重用了语义分组模块计算的分配,在密集投影z上执行注意池化,以生成组级别的特征向量,如上图所示。因此,密集投影z对相应的原型S的soft assignments A也可以被视为注意力系数,描述原型如何将密集投影分解为非重叠组。这激发了作者对密集投影的分解。具体而言,对于view 生成的密集投影,作者提取K个槽:

    dbd9ea53c4a0ecc836a6e65b143f7c09.png

    其中表示Hadamard乘积,类似操作适用于教师网络以生成。注意,由于初始槽由整个数据集共享,因此特定视图中可能缺少相应的语义,从而产生冗余槽。因此,作者计算以下binary指示符,以mask无法占据主导像素的槽:

    5e69c54c6c4751c88c93b22015d52257.png

    的计算方法类似。然后应用对比学习目标,区分在视图中具有相同语义的槽与分散注意力的槽:

    b50cb472d335f467722b0709e15df173.png

    此目标有助于最大化同一槽的不同视图之间的相似性,同时最大限度地减少另一个具有不同语义的视图中的槽与其他图像中的所有槽之间的相似性。此处将与投影具有相同架构的附加预测器应用于槽,因为根据经验,它可以产生更强的性能。由此产生的槽级对比损失也遵循对称设计:

    03c6c2c9b9b0eb88abfb4543a1edcb1e.png

    3.3 The overall optimization objective

    作者联合优化语义分组目标和组级对比学习目标,并用平衡因子控制:

    a390fa682797e02102de1d1ac24a1522.png

    在每个训练步骤中,使用总体损失函数的梯度优化学生网络,其中η表示学习率;教师网络更新为学生网络的指数移动平均,表示动量值。训练后,仅保留教师编码器用于下游任务。


          04      

    实验

    6dfa321f2b283db041d429e8507caac0.png

    上表展示了用于预训练的数据集的详细信息。

    66c2f83b37f7aac0ada56e372d176d1c.png

    上表显示了COCO预训练的主要结果。COCO在对象级预训练方面有了稳步的改进,其中性能最好的方法是DetCon和ORL,它们仍然依赖于对象性先验,但无法击败像素级最先进的PixPro方法。

    本文的方法减轻了这些限制,并在所有任务中大大改进了当前的对象级方法,与以前的方法相比实现了一致的改进。值得注意的是,本文的方法可以在最大且最具挑战性的分割数据集ADE20K上实现更好的性能,这增加了这项工作的重要性。

    7614fbd795302df318b622b81cb5eca3.png

    上表显示了ImageNet1K预训练的主要结果。本文的方法没有对目标proposal进行选择性搜索,也没有对FPN head进行预训练和迁移,仍然优于当前的大多数工作,并在很大程度上缩小了与SoCo的差距。

    a851d48fe481291e011a03e76d40f799.png

    在上表中,作者报告了COCO+预训练的结果。COCO+是COCO train2017 +unlabeled2017集合,这大约是训练图像数量的两倍,并大大增加了数据的多样性。本文的方法在所有使用扩展COCO+数据的任务中都有显著的改进,甚至显示出与在ImageNet-1K(COCO+的5倍大)上预训练的性能最好的模型相当的结果,显示了以场景为中心的预训练的巨大潜力。

    f5fa84191ce12331a22d2cb0ec460ab4.png

    上表展示了无监督语义分割的结果,如上表所示,本文的方法可以超过之前的PiCIE和SegDiscover,mIoU提高4个百分点。同时,由于本文以较低的分辨率(7×7 v.s.80×80特征图)训练模型,pAcc较低。作者还描述了可视化结果,其中本文的方法区分了混淆的对象(第4列),并成功地定位了小对象(第5列)。由于本文的方法只需要在同一幅图像中分离具有不同语义的像素,因此可以忽略类别预测中的错误。

    90b3a57c1bb3867be1210056470b67e0.png

    上表列出了原型的数量,作者观察到最适合COCO检测的K为256,这接近其实际语义类编号172(thing+stuff)。此外,Cityscapes和PASCAL VOC的性能有持续下降的趋势,而当K足够大时,ADE20K的性能始终良好。

    289c56bbd94be2b4d0c779cf52e0ca82.png

    上表展示了语义分组损失和组级对比损失之间的平衡,在这两种损失同等对待的情况下,实现了最佳平衡。值得注意的是,当λg=1.0时,仅应用语义分组损失,性能显著下降,表明本文的组级对比损失对于学习良好表征的重要性。

    2d6598672e2a4fafe1558deeb65b974b.png

    上表列出了教师模型的温度参数,表明的soft教师分布有助于实现更好的性能。

    b279d7d6c6fa45ed287f1fa4b030d7ce.png

    最后,作者分析了在COCO val2017 split中,原型是否通过可视化其最近的邻居来学习语义。首先对每幅图像进行语义分组,将其划分为不重叠的组,然后将每组合并到一个特征向量中,并根据余弦相似度检索每个原型的前5个最近邻段。如上图所示,原型很好地绑定到语义,这些语义涵盖了从动物、食物和运动到家具、建筑等各种场景和语义粒度,无论对象大小和遮挡程度如何,都能很好地定位它们;值得注意的是,没有任何人类注释。

          05      

     总结

    这项工作提出了一个统一的框架,用于从未标记的以场景为中心的图像中进行联合语义分组和表示学习。语义分组是通过将像素分配给一组可学习的原型来执行的,这些原型可以通过在特征图上注意力池化来适应每个样本,并形成新的槽。基于学习到的数据相关的槽,采用对比目标进行表示学习,增强特征的可分辨性,并便于语义相关像素的分组。通过同时优化语义分组和对比学习这两个耦合目标,该方法绕过了手工先验的缺点,可以从以场景为中心的图像中学习对象/组级别的表示。实验表明,该方法能有效地将复杂场景分解为语义组进行特征学习,并显著简化了后续任务,包括目标检测、实例分割和语义分割。


    参考资料

    [1]https://arxiv.org/abs/2205.15288

    915467254f0ce9cc2e49ea0f6a7c2c39.png

    END

    欢迎加入「自监督交流群👇备注:SSL

    e30a7f17edb7286bbade64751069284d.png

  • 相关阅读:
    Spark on k8s 在阿里云 EMR 的优化实践
    【IOS】applicationDidBecomeActive和applicationWillEnterForeground场景梳理
    Llama改进之——RoPE旋转位置编码
    ArrayList常用Api分析及注意事项
    [附源码]Python计算机毕业设计SSM久宠宠物店管理系统(程序+LW)
    springcloudalibaba架构(31):SpringCloud实现用户信息在微服务之间传递
    基于AM335X开发板 (ARM Cortex-A8)——Linux系统使用手册 (下)
    oculus 有线/无线 串流到 macbook pro mac m1
    骨传导耳机用久了伤耳朵吗?骨传导耳机有什么优势
    数据库索引详解
  • 原文地址:https://blog.csdn.net/moxibingdao/article/details/125466131