本周介绍了 5 个计算机视觉领域的 SoTA 模型,均于最近发表于全球顶会 ECCV 2022: AVS 提出新颖的视听分割任务,kMaX 有效利用经典聚类算法进行全景分割,WSG-VQA 用弱监督学习 Transformer 突破视觉问答 grounding任务,COST 理解视频内容实现 AI 对话,HorNet 将新型视觉骨干插入卷积和 Transformer 架构
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。 https://github.com/towhee-io/towhee/tree/main/towhee/models
出品人:Towhee 技术团队 王翔宇、顾梦佳
什么是视听分割 Audio-Visual Segmentation (AVS)?AVS 的论文被收录于 ECCV 2022,提出基于声音的图像分割,根据音频找出图像中对应的发声对象。同时,AVS 还发布了第一个音频-视觉的分割数据集(AVSBench)。这项全新的研究设计了一个时序像素级别的音频-视觉交互模块,注入音频语义为视觉分割做了引导。
Overview of the AVS baseline.
AVS 使用了一种层次编解码的结构。编码器将视频帧以及整段的音频作为输入,输出视觉和音频的特征。每一个阶段的视觉特征图之后送入了 ASPP 模块,然后传递到 TPAVI 模块。ASPP 为模型提供了不同的感受野去识别物体,TPAVI 则专注于时序的像素级别的音频-视觉交互。解码器逐步的扩大特征图最后生成掩码。模型训练过程中,AVS 设计并使用了一种正则化损失函数,用于提供音频-视觉的映射。
更多资料:
出品人:Towhee 技术团队 何俊辰、顾梦佳
谷歌与约翰霍普金斯大学合作,在 ECCV 2022 的论文中提出 kMaX (k-means Mask Transformer),重新探索了视觉 Transformer 的内部运行机制,分析了现有结构在图像识别任务上的弊端。同时该模型也提出从聚类的角度重新思考像素特征与目标 query 之间的关系,结合 k-means 聚类构建一种端到端的全景分割模型。kMaX-DeepLab 使用 k-means 解码器来替换多头注意力模块,在简化结构的同时也提升了分割效果。对比实验选择了具有代表性的骨干网络,包括 ResNet-50、MaX-S、Swin Transformer、ConvNeXt 等。结果表明,kMaX-DeepLab 使用轻量骨干就能够超过目前其他 SOTA 模型,甚至优于很多更为复杂的模型。
Convert to kMaX decoder
kMaX-DeepLab 主要由三个组件构成,包含像素编码器、增强像素编码器、kMaX 解码器。像素编码器可以使用任意的 CNN 或者 ViT backbone 来提取视觉特征,增强像素编码器负责将得到的特征图进行上采样恢复到输入图像的高分辨率,同时根据 transformer 编码器计算自注意力特征,最后 kMaX 解码器从 k-means 聚类的角度将目标 query 向量(或者理解为聚类中心)转换为 mask 嵌入向量。
更多资料:
出品人:Towhee 技术团队 张晨、顾梦佳
用于视觉语言表征学习的 Transformer 已经得到了很多人的关注,并在视觉问题回答(visual question answering, VQA)和 grounding 任务表现出优秀的性能。然而,在这些任务中表现出良好的大多数系统在训练过程中仍然依赖预先训练好的目标检测模型,这使得适配系统的物体类别受制于其他目标检测框架。为了缓解这一局限性,WSG-VQA 在视觉问答 Transformer 的基础上提出弱监督 grounding。作者在具有挑战性的 GQA 以及 VQA-HAT 视觉问答数据集上,通过 VQA grounding 任务对该策略进行评估。
WSG-VQA: Proposed Architecture & Attention
WSG-VQA 首次在 VQA grounding 任务中,将胶囊(Capsule)的概念与 Transformer 架构结合。给定一对问题和图像,胶囊编码层首先提取出网格特征,用于获得视觉胶囊。然后 CLS token 通过文本 transformer 得到向量后,进行胶囊特征选择。选定的胶囊编码会带着位置信息进入视觉编码器。句子文本经过文本 transformer 后,为每个视觉 transformer 层的选择胶囊。选定的胶囊会在视觉 transformers 中层层传递,最终在一个跨注意力模块中与文本特征进行细粒度交互,从而预测问题的答案。虽然从标准的 Transformer 架构中移除被遮蔽物体的信息会导致模型性能下降,但与视觉问答领域的其他方法相比,capsules 的整合大大改善了此类系统的 grounding 能力,并提供了新的 SoTA 的结果。该方法通过在视觉编码器中对每个视觉 token 进行分组来利用 capsules,并使用来自语言自我注意层的激活作为文本指导的选择模块,在这些 capsules 被转发到下一个层之前对其进行屏蔽。
更多资料:
出品人:Towhee 技术团队 顾梦佳
在视频对话任务中,系统会根据视频内容生成自然语言回答相关问题。面对该任务带来的视觉、语言、推理挑战,COST 提出了一个新的视频对话框架,以对象为中心,支持神经推理。该框架通过在音频视觉场景感知对话数据集 AVSD 上的测试,用最先进的性能展示了它的竞争力。
COST: Visualization of the question-specific interaction matrices between objects
COST 首先将视频中的动态时空视觉内容解析为对象轨迹。在此基础上,框架会维护和跟踪与对象相关的对话状态,这些状态会在收到新问题时更新。这种对象交互是针对每个问题推断出来的,这个过程是动态并有条件的,形成了互相之间关系推理的基础。 COST 还会保留答案的历史记录,这能够在之后的问答中检索以对象为中心的相关信息,以丰富答案形成的过程。然后,框架会考虑当前话语、现有对话、当前问题的上下文,逐步生成自然语言形式的答案。
更多资料:
出品人:Towhee 技术团队 顾梦佳
HorNet 是一种新型的视觉骨干,其论文被收录于 ECCV 2022。它提出递归门控卷积,并且将其插入各种视觉 Transformer 和基于卷积的模型。通过在 ImageNet 图像分类、COCO 目标检测、 ADE20K 语义分割上的实验对比,HorNet 的性能明显优于 Swin Transformers 和 ConvNeXt 网络。
Overview of the basic building block in HorNet with g^n Conv
HorNet 展示了视觉 Transformer 背后的关键要素,即输入自适应、远程和高阶空间交互,也可以通过基于卷积的框架有效实现。该结构具有高度的灵活性和可定制性,兼容各种卷积变体,并将自注意力中的二阶交互扩展到任意阶,却不会引入大量额外的计算。它提出了递归门控卷积 (g^n Conv),通过门控卷积和递归设计执行高效、可扩展和平移等变的高阶空间交互。
更多资料:
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些鼓励:点赞、喜欢或者分享给你的小伙伴!
活动信息、技术分享和招聘速递请关注:你好👋,数据探索者
如果你对我们的项目感兴趣请关注: