跳转至

End-to-End Object Detection with Transformers

论文

https://arxiv.org/abs/2005.12872

代码

https://github.com/facebookresearch/detr

摘要

Cite

我们提出了一种将目标检测视为直接集预测问题的新方法。我们的方法简化了检测流程,有效地消除了对许多手动设计组件的需求,如非最大抑制程序或明确编码我们对任务的先验知识的锚点生成。 新框架的主要组成部分,称为DEtection TRansformer或DETR,是一种基于集合的全局损失,通过双部分匹配强制进行唯一预测,以及一种变压器编码器-解码器架构。 给定一组固定的小的学习对象查询,DETR解释了对象和全局图像上下文的关系,以直接并行输出最终的预测集。与许多其他现代探测器不同,新模型概念简单, 不需要专门的库。DETR在具有挑战性的COCO对象检测数据集上展示了与成熟且高度优化的Faster R-CNN基线相当的准确性和运行时性能。此外,DETR可以很容易地推广, 以统一的方式产生全景分割。我们表明,它显著优于竞争性基线。培训代码和预训练模型可在https://github.com/facebookresearch/detr.

基于Transformer的目标检测方法,把框的预测任务通过Transformer的查询来实现

介绍



思路借鉴了DETR,针对3D数据进行了一些修改,保持simple的良好性质。

总结

Cite

我们提出了DETR,这是一种基于变换器和用于直接集预测的二分匹配损失的目标检测系统的新设计。该方法在长度有限的COCO数据集上实现了与优化的Faster R-CNN基线相当的结果。 DETR易于实现,并且具有灵活的架构,可轻松扩展到全景分割,具有竞争性的结果。此外,与Faster R-CNN相比,它在大型物体上的性能明显更好,这可能得益于对自我关注形成的全局信息的处理。 探测器的这种新设计也带来了新的挑战,特别是在小物体的训练、优化和性能方面。目前的探测器需要几年的改进才能解决类似问题,我们预计未来的工作将成功解决DETR中的问题

拓展阅读

  1. 二分图的最大匹配、完美匹配和匈牙利算法
  2. 3D目标检测最新排行榜
  3. DETR 论文精读【论文精读】

评论