github
主页
数据集:NuScenes
输入:6个视角的相机图像+内参+外参
模型推断输出示意图:
暂时没有预训练好的模型,但可以可视化其如何如何处理标注
模型推断结果的例子:
BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
paper,github,中文blog,中文论文,测速V100上,R101-DCN,input size 900X1600,大约2FPS
输入:多视角相机图像
输出:3D目标检测/语义分割
论文汇报的与带LiDAR方法对比:与基于lidar的基线性能相当; 对速度有很好的估计结果.
衡量标准:
一些细节: