Per-Pixel Classification is Not All You Need for Semantic Segmentation¶
论文¶
https://arxiv.org/abs/2107.06278
代码¶
https://github.com/facebookresearch/MaskFormer
摘要¶
Cite
现代方法通常将语义分割制定为每像素分类任务,而实例级分割则通过替代掩模分类来处理。我们的主要见解:掩模分类足够通用, 可以使用完全相同的模型、损失和训练过程以统一的方式解决语义级和实例级分割任务。根据这一观察,我们提出了 MaskFormer, 这是一个简单的掩模分类模型,它预测一组二进制掩模,每个掩模与单个全局类标签预测相关联。总体而言,所提出的基于掩模分类的方法简化了语义和全景分割任务的有效方法, 并显示出出色的实证结果。特别是,我们观察到当类数量很大时,MaskFormer 的性能优于每像素分类基线。我们基于掩模分类的方法优于当前最先进的语义(ADE20K 上为 55.6 mIoU) 和全景分割(COCO 上为 52.7 PQ)模型。 1
参考2中的介绍