如有错误,恳请指出。
paper:《Multi-View 3D Object Detection Network for Autonomous Driving》
激光雷达可以提供物体的深度信息,而摄像头可以提供物体的细节语义信息,利用Lidar+Image两种模态理应可以获得更好的检测效果。一般来说,基于LIDAR点云的方法通常可以获得更准确的3D位置,而基于图像的方法在2D框评估方面具有更高的准确性,如何有效的利用来自与Lidar和Imgae两种模态获得更好的3d检测效果设计模型结构是MV3D的出发点,并启发于FractalNet和Deeply-Fused Net两个工作进行网络设计。
此外,在Related Work中有些比较有趣的工作,比如利用体素和点云的多视图表示来进行3d物体分类任务,利用图像和深度信息以及光流的组合进行2d行人检测,不过这种利用多模态进行自动驾驶的研究还比较少。
网络的大体思