图 1:SEGCloud:3D点云被体素化并通过3D全卷积神经网络馈送,以生成粗略的下采样体素标签。三线性插值层将此粗略输出从体素转换回原始3D点表示。获得的3D点分数用于在3D全连接CRF中进行推理以产生最终结果。我们的框架是端到端训练的。
3D语义场景标记是在真实世界中操作的代理的基础。特别是,标记来自传感器的原始3D点集提供了细粒度的语义。最近的工作利用了神经网络(NNs)的能力,但是局限于粗略的体素预测,并且没有明确地实施全局一致性。我们提出了SEGCloud,这是一个端到端的框架,用于获得3D点级分割,它结合了NNs、三线性插值(TI)和全连接条件随机场(FC-CRF)的优点。来自3D完全卷积NN的粗略体素预测通过三线性插值被传递回原始3D点。然后,FC-CRF实施全局一致性,并在点上提供细粒度的语义。我们将后者实现为一个可微分的递归神经网络,以允许联合优化。我们在两个室内和两个室外三维数据集(NYU V2,S3DIS,KITTI,Semantic3D.net)上评估了该框架,并在所有数据集上显示了可媲美或优于最先进水平的性能。
场景理解是计算机视觉中的一个核心问题,是机器人、自动驾驶、增强现实和建筑行业等应用的基础。在各种场景理解问题中,3D语义分割允许在3D空间中找到精确的目标边界及其标签,这对于诸如目标操纵、详细场景建模等细粒度任务是有用的。
3D点集或点云的语义分割已通过利用图