卡尔曼滤波:
1、结合已知信息估计最优位置
2、本质是优化估计算法:基于估计值和观测值进行综合
Transformer:
1、q:查询和别人的关系
2、k:被查询的对象
3、v:特征代表
位置编码:
结论:对图片编码是有用的。
VIT中 1D的分类编码有效。
DETR基本思想:
1、先用CNN得到各个Patch作为输入,在套用transformer做编码和解码
2、编码和VIT一样,重点在解码,直接预测100个坐标框。
整体网络架构:
object quries是核心:让它学会怎么从原始特征找到物体的位置。
Encoder完成的任务:得到各个目标注意力结果,准备好特征