Superpoint Transformer for 3D Scene Instance Segmentation¶
论文¶
https://arxiv.org/abs/2211.15766v1
代码¶
https://github.com/sunjiahao1999/spformer
摘要¶
Cite
大多数现有方法通过扩展用于 3D 对象检测或 3D 语义分割的模型来实现 3D 实例分割。然而,这些非直接方法有两个缺点:1)不精确的边界框或不令人满意的语义预测限制了整个 3D 实例分割框架的性能。 2)现有方法需要耗时的聚合中间步骤。为了解决这些问题,本文提出了一种基于Superpoint Transformer的新颖的端到端3D实例分割方法,命名为SPFormer。它将点云中的潜在特征分组为超点, 并通过查询向量直接预测实例,而不依赖于对象检测或语义分割的结果。该框架的关键步骤是一种带有变压器的新型查询解码器,它可以通过超点交叉注意机制捕获实例信息并生成实例的超点掩码。 通过基于超点掩码的二分匹配,SPFormer可以实现无需中间聚合步骤的网络训练,从而加速网络。 ScanNetv2 和 S3DIS 基准的大量实验验证了我们的方法简洁而高效。值得注意的是,SPFormer 在 ScanNetv2 隐藏测试集上的 mAP 超过了最先进的方法 4.3%,同时保持了快速的推理速度(每帧 247 毫秒)。代码可从此 https URL 获取。