An End-to-End Transformer Model for 3D Object Detection¶
论文¶
https://arxiv.org/abs/2109.08141
代码¶
https://github.com/facebookresearch/3detr
摘要¶
Cite
我们提出了3DETR,一种基于端到端Transformer的3D点云对象检测模型。与使用大量3D特定归纳偏置的现有检测方法相比,3DETR需要对普通变压器块进行最小的修改。 具体而言,我们发现,具有非参数查询和傅里叶位置嵌入的标准Transformer与使用具有手动调整超参数的3D特定运算符库的专用架构相比具有竞争力。尽管如此, 3DETR在概念上简单且易于实现,通过结合3D领域知识实现了进一步的改进。通过广泛的实验,我们发现3DETR在具有挑战性的ScanNetV2数据集上的性能优于成熟且高度优化的VoteNet基线9.5%。 此外,我们还表明3DETR可应用于无法检测的3D任务,并可作为未来研究的构建块
simple is better than complex,尽可能少的归纳偏置
看这个图第一行,多个凳子之间严重重叠仍然可以检测到,感觉比anchor+nms的方法好很多
方法¶