我们引入了一种3D实例表示,称为实例内核,其中实例由一维向量表示,这些向量对3D实例的语义、位置和形状信息进行编码。我们表明,实例内核通过简单地扫描整个内核来实现简单的mask推断场景,避免严重依赖标准3D实例分割管道中的proposals或启发式聚类算法。实例内核的想法受到最近在2D/3D实例分割中动态卷积的成功的启发。然而,由于点云数据的无序和非结构化性质,我们发现表示3D实例并非易事,例如,较差的实例定位会显着降低实例表示。为了解决这个问题,我们构建了一种新颖的3D实例编码范式。首先,潜在的实例质心被定位为候选。然后,设计了一种候选合并方案,以同时聚合重复的候选并收集合并质心周围的上下文以形成实例内核。一旦实例内核可用,就可以通过动态卷积重建实例mask,其权重取决于实例内核。整个管道使用动态内核网络(DKNet)进行实例化。结果表明,DKNet在ScanNetV2和S3DIS数据集上都优于现有技术,具有更好的实例定位。代码可用:https://github.com/W1zheng/DKNet。
关键字:实例内核、点云、实例分割。
3D实例分割旨在预测点级实例标签[8,12]。标准方法严重依赖proposal[28,4,17]或启发式聚类算法[12,2]。在这项工作中,我们展示了可以通过使用实例内核扫描场景来重建实例maks,实例内核是3D实例的表示,它同时编码3D实例的位置、语义和形状信息。
3D实例表示解决了两个基本问题:i)如何精确定位实例,以及ii)如何有效地聚合特征来描述实例。与可以通过网格采样[26] 或动态内核分配[31]直接编码的2D实例不同