跳转至

剑楠的笔记本

An End-to-End Transformer Model for 3D Object Detection

An End-to-End Transformer Model for 3D Object Detection¶

论文¶

https://arxiv.org/abs/2109.08141

代码¶

https://github.com/facebookresearch/3detr

摘要¶

Cite

我们提出了3DETR，一种基于端到端Transformer的3D点云对象检测模型。与使用大量3D特定归纳偏置的现有检测方法相比，3DETR需要对普通变压器块进行最小的修改。具体而言，我们发现，具有非参数查询和傅里叶位置嵌入的标准Transformer与使用具有手动调整超参数的3D特定运算符库的专用架构相比具有竞争力。尽管如此， 3DETR在概念上简单且易于实现，通过结合3D领域知识实现了进一步的改进。通过广泛的实验，我们发现3DETR在具有挑战性的ScanNetV2数据集上的性能优于成熟且高度优化的VoteNet基线9.5%。此外，我们还表明3DETR可应用于无法检测的3D任务，并可作为未来研究的构建块

simple is better than complex，尽可能少的归纳偏置

看这个图第一行，多个凳子之间严重重叠仍然可以检测到，感觉比anchor+nms的方法好很多

方法¶

评论