BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (readpaper.com) -2022
基于多视角和时序BEV特征迭代优化,获得高精度BEV特征,即作为一个Backbone/neck来使用
简单的说就是提前定义好了 BEV 空间的栅格,然后根据前一时间和多视角图特征填充当前时间栅格,不断微调优化得到当前时刻 BEV 特征图
印象笔记
留坑待填。。。