
图 1:3D-SIS对RGB-D扫描数据执行3D实例分割,学习将2D RGB输入特征与3D扫描几何特征联合融合。结合能够在测试时对全3D扫描进行推理的全卷积方法,我们实现了对目标边界框、类标签和实例掩码的准确推理。
我们介绍了3D-SIS,这是一种用于在商品RGB-D 扫描中进行3D语义实例分割的新型神经网络架构。我们方法的核心思想是联合学习几何和颜色信号,从而实现准确的实例预测。我们观察到大多数计算机视觉应用程序都有可用的多视图RGB-D输入,而不是仅在2D帧上运行,我们利用它来构建3D实例分割方法,有效地将这些多模式输入融合在一起。我们的网络通过基于3D重建的姿势对齐将2D图像与体积网格相关联来利用高分辨率RGB输入。对于每幅图像,我们首先通过一系列2D卷积为每个像素提取2D特征;然后我们将生成的特征向量反向投影到3D网格中的相关体素。这种2D和3D特征学习的组合允许比最先进的替代方案具有更高的精度目标检测和实例分割。我们在合成和真实世界的公共基准测试中展示了结果,在真实世界数据上实现了超过13的mAP改进。
语义场景理解对许多现实世界的计算机视觉应用至关重要。它是实现交互性的基础,这是室内和室外环境中机器人的核心,如自动驾驶汽车、无人机和辅助机器人,以及即将到来的使用移动和AR/VR设备的场景。在所有这些应用中,我们不仅需要单幅图像的语义推理,更重要的是,还需要理解3D环境中目标空间关系和布局。
随着最近深度学习