


模型概述:由主干、混合编码器和带辅助预测头的变换解码器组成。
利用骨干{S3,S4,S5}的最后三个阶段的输出特征作为编码器的输入。混合编码器通过尺度内交互(AIFI)和跨尺度融合(CCFM)将多尺度特征转换为一系列图像特征。随后,采用IoU感知查询选择从编码器输出序列中选择固定数量的图像特征,作为解码器的初始对象查询。最后,具有辅助预测头的解码器迭代地优化对象查询以生成框和置信度得分。

高效混合编码器:优化了Deformable-DETR中多尺度transformer编码器中的计算冗余,连接的多尺度之间进行特征交互是多余的,并设计了ABCDE一系列的编码器变体进行实验验证;证明多尺度特征交互解耦为尺度内交互和跨尺度融合后提高了模型准确性并显著降低了计算成本


混合编码器结构: 基于注意力的AIFI和基于CNN的CCFM;AIFI仅在S5上执行尺度交互;CCFM在融合路径中插入了几个由卷积层组成的融合块,融合块将相邻特征合并为一个新特征;

RepBlock是什么?
IoU-aware Query Selection:DETR中的object queries ,难以解释和优化;后续工作对其初始化进行改进,增加了内容查询和位置查询。查询选择方案:利用分类得分从编码器中选择前K个特征来初始化object queries,但由于分类分数和位置置信度分布不一致,导致了高分类分数和低IOU分数的框;本文提出的IoU-aware Query Selection,在训练过程中约束模型为具有高IOU分数的特征产生高分类分数,为具有低IOU得分的特征产生低分类分数。因此选出的前K个预测框具有高分类得分和高IOU得分。将IOU分数引入分类分支的目标函数中
有效性分析:通过可视化普通选择(红)和IoU-aware Query Selection(蓝),可以发现蓝的更多且质量更好(靠右上)


