DiffusionEngine:扩散模型是可扩展的目标检测数据引擎
https://arxiv.org/abs/2309.03893
数据是深度学习的基石。本文揭示了最近开发的扩散模型是一个可扩展的数据引擎的对象检测。用于按比例放大面向检测的数据的现有方法通常需要手动收集或生成模型以获得目标图像,随后是数据增强和标记以产生训练对,这是昂贵的、复杂的或缺乏多样性的。为了解决这些问题,我们提出了扩散引擎(DE),一个数据放大引擎,提供高质量的检测为导向的训练对在一个单一的阶段。DE由一个预先训练的扩散模型和一个有效的检测适配器,有助于生成可扩展的,多样的和通用的检测数据,在一个即插即用的方式。检测适配器被学习对齐隐含的语义和位置知识在现成的扩散模型与检测感知信号,使更好的边界框预测。此外,我们贡献了两个数据集,即,COCO-DE和VOC-DE,以扩大现有的检测基准,以促进后续研究。大量的实验表明,通过DE的数据放大可以实现显着的改进,在不同的场景,如各种检测算法,自监督预训练,数据稀疏,标签稀缺,跨域和半监督学习。例如,当使用DE和基于DINO的适配器来放大数据时,mAP在COCO上提高了3.1%,在VOC上提高了7.6%,在Clipart上提高了11.5%。
集群融合:利用雷达空间特征检测自主车辆中的雷达-摄像机3D目标
https://arxiv.org/abs/2309.03734
由于毫米波雷达和相机的互补性,基于深度学习的雷达相机3D物体检测方法即使在低能见度条件下也可以可靠地产生准确的检测。这使得它们更适合用于自动驾驶汽车的感知系统,特别是因为两种传感器的综合成本比激光雷达的成本更便宜。最近的雷达相机方法通常执行特征级融合,其通常涉及将雷达点投影到与图像特征相同的平面上,并融合从两种模态提取的特征。虽然在图像平面上执行融合通常更简单和更快,但是将雷达点投影到图像平面上会使点云的深度维度变平,这可能导致信息丢失并且使得提取点云的空间特征更困难。我们提出了ClusterFusion,一个架构,利用雷达点云的局部空间特征,通过聚类的点云和执行特征提取直接对点云集群投影到图像平面上的功能之前。ClusterFusion在nuScenes数据集的测试切片上实现了所有雷达单目相机方法中最先进的性能,具有48.7%的nuScenes检测得分(NDS)。我们还研究了点云集群上不同雷达特征提取策略的性能:一个手工制作的策略,一个基于学习的策略,以及两者的组合,并发现手工制作的策略产生了最好的性能。这项工作的主要目标是探索使用雷达的局部空间和逐点的功能,通过提取它们直接从雷达点云集群的雷达单目相机3D物体检测方法,执行跨模态特征融合的图像平面上。
基于概念引导记忆的高效自适应人-物交互检测
https://arxiv.org/abs/2309.03696
人类对象交互(HOI)检测旨在定位和推断人与对象之间的关系。可以说,从零开始训练用于该任务的监督模型提出了挑战,这是由于性能下降的罕见类和高计算成本和时间,以处理复杂的HOI场景中的HOI的长尾分布在现实的设置。这一观察促使我们设计一个HOI检测器,即使用长尾标记数据也可以训练,并且可以利用来自预训练模型的现有知识。受大型视觉语言模型(VLM)在分类和检索任务上的强大泛化能力的启发,我们提出了一种高效的自适应HOI检测器与概念引导记忆(ADA-CM)。ADA-CM有两种工作模式。第一种模式使其可调,而无需学习新的参数在一个无训练范式。它的第二种模式结合了一个实例感知适配器机制,如果能够更新一组轻量级参数,则可以进一步有效地提高性能。我们提出的方法在HICO-DET和V-COCO数据集上实现了具有竞争力的结果,并且训练时间要少得多。代码可在https://github.com/ltttpku/ADA-CM上找到。
车联网中目标检测的稀疏联合训练
https://arxiv.org/abs/2309.03569
作为智能交通系统(ITS)的重要组成部分,车联网(IoV)在缓解交通问题方面起着至关重要的作用。目标检测是车联网的关键技术之一,通过分析及时、敏感的车辆相关信息,为交通管理提供服务。然而,目前的对象检测方法大多基于集中式深度训练,即边缘设备获取的敏感数据需要上传到服务器,这引发了隐私问题。为了减轻这种隐私泄露,我们首先提出了一个基于联邦学习的框架,在中央服务器中共享经过良好训练的本地模型。然而,由于边缘设备通常具有有限的计算能力,加上IoV对低延迟的严格要求,我们进一步提出了边缘设备上的稀疏训练过程,可以有效地减轻模型,并确保其在边缘设备上的训练效率,从而减少通信开销。此外,由于不同的计算能力和动态环境,不同的稀疏率被应用于边缘设备。为了进一步保证性能,我们提出,FedWeg,一个改进的聚合方案的基础上FedAvg,这是设计的稀疏率的反比。在实际数据集上进行的实验表明,该算法在达到目标检测率要求的同时,节省了大量的通信开销。
垃圾到宝藏:基于分解和聚合的微光目标检测
https://arxiv.org/abs/2309.03548
在过去的几年中,低光场景中的目标检测引起了人们的广泛关注。一个主流的和有代表性的方案引入增强器作为常规检测器的预处理。然而,由于增强器和检测器之间的任务目标的差异,这种范式不能发挥其最佳能力。在这项工作中,我们试图激发增强子+检测器的潜力。与现有的作品不同,我们扩展了基于光照的增强器(我们新设计的或现有的)作为场景分解模块,其去除的光照被利用作为辅助检测器中提取检测友好的功能。进一步建立语义聚合模块,用于在上下文空间中集成多尺度场景相关语义信息。实际上,我们构建的方案成功地将“垃圾”(即,探测器中被忽略的照明)进入探测器的“宝藏”中。大量的实验进行,以揭示我们的优越性与其他国家的最先进的方法。如果代码被接受,它将是公开的。
适用于水下环境的YOLO系列目标检测算法
https://arxiv.org/abs/2309.03539
You Only Look Once(YOLO)算法是2016年兴起的代表性目标检测算法,以计算速度和精度的平衡著称,如今在人类生产生活的各个领域发挥着重要作用。但由于光线昏暗、水体浑浊等问题,YOLO算法在水下环境中的应用仍存在诸多局限性。由于陆地面积资源有限,海洋必须具有未来人类发展的巨大潜力。本文从海洋工程应用的实际需求出发,以水下结构健康监测(SHM)和水下生物探测为例,针对水下YOLO算法的应用提出改进方法,并指出仍存在的问题。
基于早期退出增强型高精度CNN的图像块单目标检测
https://arxiv.org/abs/2309.03530
本文提出了一种新的方法,在RoboCup标准平台联盟的上下文中使用移动机器人检测对象,主要侧重于检测球。挑战在于检测动态对象在变化的照明条件和由快速运动引起的模糊图像。为了解决这一挑战,本文提出了一种专门为计算受限的机器人平台设计的卷积神经网络架构。所提出的CNN训练,以实现高精度的分类单个对象的图像补丁,并确定其精确的空间位置。本文进一步将早期退出集成到现有的高精度CNN架构中,以减少背景类中容易拒绝的情况下的计算成本。训练过程涉及基于置信度和位置损失的复合损失函数,动态加权和数据增强。所提出的方法实现了100%的验证数据集和召回率几乎87%的精度,同时保持了每假设170 μ \mu μs左右的执行时间。通过将所提出的方法与早期退出相结合,平均而言,与原始CNN相比,可以实现超过28%的运行时间优化。总的来说,本文提供了一个有效的解决方案,增强检测的对象,特别是球,在计算受限的机器人平台。
长序列中合理的异常检测
https://arxiv.org/abs/2309.03401
视频异常检测是一项具有挑战性的任务,由于缺乏用于表示样本的方法。大多数现有的方法的视觉表示是有限的短期序列的观察,不能提供足够的线索,实现合理的检测。在本文中,我们提出了完整的表示对象的运动模式,从长期序列的学习。首先,一个堆叠状态机(SSM)模型提出来表示的时间依赖性,这是一致的跨长期的观察。然后SSM模型功能预测未来的状态的基础上,与固有的正常模式的预测和观察的预测之间的分歧确定违反正常运动模式的异常。进行了大量的实验,以评估所提出的方法上的数据集和现有的。可以观察到对现有技术方法的改进。我们的代码可在https://github.com/AllenYLJiang/Anomaly-Detection-in-Sequences上获得。
利用补充合成数据的主动枪手检测和稳健跟踪
https://arxiv.org/abs/2309.03381
围绕美国枪支暴力的日益关注导致人们关注发展改善公共安全的系统。开发此类系统的一种方法是检测和跟踪枪手,这将有助于防止或减轻暴力事件的影响。在本文中,我们提出了将射击者作为一个整体来检测,而不仅仅是枪支,这将提高跟踪的鲁棒性,因为模糊枪支将不再导致系统看不到威胁。然而,关于射手的公开数据比单独创建枪支数据集要有限得多,也更具挑战性。因此,我们探索使用域随机化和迁移学习,以提高从虚幻引擎环境中获得的合成数据训练的有效性。这使得模型能够在更广泛的数据上进行训练,从而提高其推广到不同情况的能力。使用YOLOv 8和Deep OC-SORT的这些技术,我们实现了能够在边缘硬件上运行的射手跟踪系统的初始版本,包括Raspberry Pi和Jetson Nano。
基于盲取证的数字视频源摄像机识别与检测
https://arxiv.org/abs/2309.03353
数字视频中的源摄像机识别是在可能设备的封闭集合内将未知数字视频与其源设备相关联的问题。数字视频的源检测中的现有技术试图以PRNU(光响应非均匀性)的形式找到视频中的实际源的指纹,并将其与每个可能设备的SPN(传感器模式噪声)进行匹配。最高相关性指示正确的源。我们调查的问题,通过基于特征的方法,使用机器学习识别视频源。本文提出了一种基于特征提取、特征选择和后续源分类的视频源认证与识别盲取证技术。主要目的是确定视频的声明源是否实际上是其原始源。如果没有,我们就确定它的原始来源。我们的实验结果证明了所提出的方法的效率相比,传统的基于指纹的技术。
可解释可信的安全自动驾驶交通标志检测:一种归纳逻辑编程方法
https://arxiv.org/abs/2309.03215
交通标志检测是自动驾驶汽车(AV)运行中的一项关键任务,因为它可以确保所有道路使用者的安全。当前基于DNN的标志分类系统依赖于像素级特征来检测交通标志,并且可能容易受到对抗性攻击。这些攻击涉及对符号的小的、难以察觉的改变,这可能导致传统分类器错误地识别符号。我们提出了一种基于归纳逻辑编程(ILP)的方法,在自动驾驶汽车停止标志检测,以解决这个问题。该方法利用标志的高级特征,如其形状,颜色和文本,检测交通标志的类别。这种方法对对抗性攻击更鲁棒,因为它模仿了类似人类的感知,并且不太容易受到当前DNN分类器的限制。我们考虑两种对抗性攻击方法来评估我们的方法:鲁棒物理扰动(PR2)和对抗伪装(AdvCam)。这些攻击能够欺骗DNN分类器,导致它们以高置信度将停止标志误认为其他标志。结果表明,所提出的基于ILP的技术是能够正确地识别所有有针对性的停止标志,即使在存在PR2和ADvCam攻击。所提出的学习方法也是有效的,因为它需要最少的训练数据。此外,它是完全可解释的,使得调试AV成为可能。
基于标签高效对比学习的三维心血管免疫荧光图像核检测与分类模型
https://arxiv.org/abs/2309.03744
最近,基于深度学习的方法在细胞核检测和分类应用中取得了令人满意的性能。然而,训练基于深度学习的方法需要大量的逐像素注释数据,这是耗时且劳动密集型的,特别是在3D图像中。另一种方法是采用弱注释方法,例如用点标记每个细胞核,但这种方法不会从2D组织病理学图像(最初开发的)扩展到3D免疫荧光图像。原因是3D图像包含分别用于细胞核和不同标记的多个通道(z轴),这使得使用点注释进行训练变得困难。为了应对这一挑战,我们提出了基于标签效率对比学习(LECL)模型来检测和分类3D免疫荧光图像中的各种类型的细胞核。先前的方法使用最大强度投影(MIP)将具有多个切片的免疫荧光图像转换为2D图像,这可能导致来自不同z堆叠的信号错误地表现为彼此相关联。为了克服这一点,我们设计了一种扩展的最大强度投影(EMIP)的方法,解决了使用MIP的问题。此外,我们进行了监督对比学习(SCL)的弱监督设置的方法。我们在心血管数据集上进行了实验,发现我们提出的框架在3D免疫荧光图像中检测和分类各种类型的细胞核方面是有效和高效的。
用于增强前列腺癌检测的解剖学信息数据增强
https://arxiv.org/abs/2309.03652
数据增强(DA)是医学图像分析中的关键因素,诸如在磁共振图像上的前列腺癌(PCa)检测中。最先进的计算机辅助诊断系统仍然依赖于简单的空间变换来保留变换后的病理标记。然而,这样的增强并没有实质上增加训练集中的器官以及肿瘤形状的可变性,限制了模型推广到具有更多样化的局部软组织变形的看不见的病例的能力。我们提出了一种新的解剖信息转换,利用来自相邻器官的信息来模拟前列腺的典型生理变形,并生成独特的病变形状,而不改变其标签。由于其轻量级的计算要求,它可以很容易地集成到常见的DA框架。我们证明了我们的增强774活检确认的检查数据集的有效性,通过评估一个国家的最先进的方法PCa检测与不同的增强设置