Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation¶
论文地址¶
https://arxiv.org/abs/2206.02777
代码¶
https://github.com/IDEA-Research/MaskDINO
摘要¶
Cite
在本文中,我们提出了Mask DINO,一个统一的对象检测和分割框架。掩码DINO通过添加掩码预测分支来扩展DINO(具有改进的去噪锚框的DETR), 该分支支持所有图像分割任务(例如,全景和语义)。它利用DINO的查询嵌入来点积高分辨率像素嵌入图,以预测一组二进制掩码。 DINO中的一些关键组件通过共享的体系结构和培训过程进行了扩展以进行细分。Mask DINO简单、高效且可扩展,可从联合大规模检测和分割数据集中获益。 我们的实验表明,无论是在ResNet-50主干上还是在带有SwinL主干的预训练模型上,Mask DINO都显著优于所有现有的专用分割方法。值得注意的是, Mask DINO在10亿个参数下的模型中,在实例分割(COCO上54.5 AP)、全景分割(COCO上59.4 PQ)和语义分割(ADE20K上60.8 mIoU)方面建立了迄今为止的最佳结果。 代码位于https://github.com/IDEA-Research/MaskDINO。
统一的基于Transformer的目标检测和分割框架
总结¶
Cite
在本文中,我们提出了Mask DINO作为一个统一的基于Transformer的框架,用于对象检测和图像分割。从概念上讲,Mask DINO是DINO从检测到分割的自然扩展,
对一些关键组件进行了最小的修改。Mask DINO优于以前的专门模型,在10亿个参数下的模型中,在所有三个分割任务(例如,全景和语义)上都取得了最好的结果。
此外,Mask DINO表明,在基于查询的模型中,检测和分割可以相互帮助。特别是,Mask DINO使语义和全景分割能够受益于在大规模检测数据集上预训练的更好的视觉表示。
我们希望Mask DINO能够为实现任务合作和数据合作提供见解,以设计通用模型更多视觉任务。
局限性:不同的分割任务无法在COCO全景分割中实现Mask DINO的互助。例如,在COCO全景分割中,掩模AP仍然落后于仅用实例训练的模型。此外,在大规模设置下,
我们没有实现新的SOTA检测性能,因为分割头需要额外的GPU内存。为了适应这种内存限制,对于大规模设置,与DINO相比,我们必须使用更小的图像大小和更少的查询数量,
这会影响对象检测的最终性能。未来,我们将进一步优化实施,以开发更普遍、更高效的模式,促进任务合作