跳转至

Masked attention Mask Transformer for Universal Image Segmentation

论文地址

https://arxiv.org/abs/2112.01527

代码

https://github.com/facebookresearch/Mask2Former

摘要

Cite

图像分割将具有不同语义的像素分组,例如类别或实例成员资格。每个语义选择都定义了一个任务。虽然只有每个任务的语义不同, 但当前的研究重点是为每个任务设计特定的架构。我们提出了掩蔽注意力掩蔽变换器(Mask2Former),这是一种新的架构,能够处理任何图像分割任务 (全景、实例或语义)。它的关键组成部分包括掩蔽注意力,它通过将交叉注意力限制在预测的掩蔽区域内来提取局部特征。除了将研究工作量减少至少三倍之外, 它在四个流行数据集上以显著的优势超过了最好的专用架构。最不寻常的是,Mask2Former为全景分割(COCO上的57.8 PQ)、实例分割(COCO上的50.1 AP) 和语义分割(ADE20K上的57.7 mIoU)设置了新的最先进技术

格式越统一越好,形式越简单越好

这个图直观看起来统一架构而且效果好

总结

Cite

我们提出了用于通用图像分割的Mask2Former。Mask2Former基于一个简单的元框架和一个新的Transformer解码器,使用所提出的掩码算法, 在四个流行数据集上的所有三个主要图像分割任务(全景、实例和语义)中获得了最好的结果,甚至超过了为每个基准设计的最佳专用模型,同时仍然易于训练。 与为每项任务设计专用模型相比,Mask2Former节省了3倍的研究工作量,并且它可供计算资源有限的用户使用。我们希望吸引对通用模型设计的兴趣

评论