你还在为你的检测模型只能检测固定类别的物体而烦恼吗?你还在为添加新的检测类别后需要从头开始训练模型而烦恼吗?你还在为标注目标检测模型的数据而烦恼吗?这说明你应该换一套思路来做目标检测啦!既然我们人类能从生活和书本中不断学习知识,那为什么模型就不可以呢?今天推荐一篇来自联汇科技首席科学家赵天成博士的最新研究成果,一起看看如何让目标检测模型像人类一样持续终生学习吧!
不知不觉,目标检测这一任务已经历了多年的发展。从传统手工设计特征,到 CNN 时代,然后再到 Transformer 时代,目前的目标检测方法能够以非常简单的范式实现超高的性能,这意味着目标检测这一任务已经发展到尽头了吗?当然不!!!相比于高精度,将目标检测任务推进到开放词汇和少样本迁移场景下,能够使得目标检测在更多的实际应用中发挥作用。那么问题来了,怎么才能实现这样一个检测开放词汇的目标和仅需少量样本就实现高性能的模型呢?
今天介绍的文章就巧妙的解决了这个问题,思路也非常简单。具体来说,这项工作探索了一种持续学习方法,使检测器能够通过多数据集视觉语言预训练来扩展其零/少样本能力。也就是说,作者使用自然语言作为知识表示,从不同训练数据集中积累“视觉词汇”并将任务统一为语言条件下的目标检测。所提出的多模态检测网络可以解决多数据集联合训练中的技术挑战,它可以推广到任意数量的训练数据集,而不需要手动标签分类合并。那么,只要不断的有新的数据集,我们就能实现一个检测万物的目标检测模型啦~
说了这么多,文章提出的训练模型效果到底如何呢?COCO、Pascal VOC 和 Wider Face/Pedestrian 的实验结果证实了联合训练的效果,与单独训练相比,联合训练的得分持平或更高。此外,作者用 400 万个对象词汇对超过 2000 万张图像进行了预训练,并在 ODinW 的 35 个下游任务上对生成的模型进行了评估。结果表明,OmDet 能够在 ODinW 上实现最先进的微调性能。此外,通过扩大所提出的预训练方法,OmDet 继续提高其零/少样本调整性能。
论文和代码地址
论文题目:
OmDet: Language-Aware Object Detection with Large-scale Vision-Language Multi-dataset Pre-training
论文地址:
https://arxiv.org/abs/2209.05946
动机
目标检测(OD)是计算机视觉(CV)中的一项重大任务。经典的 OD 研究一直专注于改进检测器网络,以使用固定输出标签集(例如 COCO 中的 80 个类)实现更高的准确度和更低的延迟。但是,更高的准确度和更低的延迟真的是目标检测任务的尽头了吗?目标检测任务是否还有可能往其他方向发展呢?
最近,基于视觉语言预训练(VLP)的新兴研究方向一直在升级 OD 模型以解决更具挑战性的开放词汇设置,在这个设置中检测器可以通过零/少样本适应泛化到新的视觉概念。一些基于 VLP 的方法利用大规模 visual grounding 数据集进行预训练,一些工作将类别不可知区域建议网络(RPN)与零样本图像文本分类器相结合,分别用于定位和分类。这些方法都促进了开放词汇下目标检测的发展。
与以往基于 VLP 的方法利用一个大型视