跳转至

Mask-Attention-Free Transformer for 3D Instance Segmentation

论文

https://arxiv.org/abs/2309.01692

代码

https://github.com/dvlab-research/Mask-Attention-Free-Transformer

摘要

Cite

最近,基于Transformer的方法主导了3D实例分割,其中通常涉及掩模注意力。具体来说,对象查询由第一个交叉注意力中的初始实例掩码引导,然后以类似的方式迭代地完善自身。 然而,我们观察到,由于初始实例掩码的召回率较低,掩码注意管道通常会导致收敛速度缓慢。因此,我们放弃了掩模注意力设计,转而采用辅助中心回归任务。通过中心回归,我们有效地克服了低召回率问题, 并通过施加位置先验来执行交叉注意。为了实现这一目标,我们开发了一系列位置感知设计。首先,我们学习3D位置的空间分布作为初始位置查询。它们密集地分布在 3D 空间中, 因此可以轻松捕获场景中具有高召回率的对象。此外,我们提出了用于交叉注意力的相对位置编码和迭代细化以实现更准确的位置查询。实验表明,我们的方法比现有工作收敛速度 4×更快, 在ScanNetv2 3D实例分割基准上树立了新的技术水平,并且还在各种数据集上展示了卓越的性能。代码和模型可在 https://github.com/dvlab-research/Mask-Attention-Free-Transformer 获取

回归中心

评论