OneFormer: One Transformer to Rule Universal Image Segmentation¶
论文地址¶
https://arxiv.org/abs/2211.06220
代码¶
https://github.com/SHI-Labs/OneFormer
摘要¶
Cite
通用图像分割不是一个新概念。过去几十年中统一图像分割的尝试包括场景解析、全景分割,以及最近的新全景架构。然而,这种全景架构并没有真正统一图像分割, 因为它们需要在语义、实例或全景分割上单独训练,以获得最佳性能。理想情况下,真正通用的框架应该只训练一次,并在所有三个图像分割任务中实现SOTA性能。 为此,我们提出了OneFormer,这是一种通用的图像分割框架,它将分割与一次多任务训练设计相结合。我们首先提出了一种基于任务的联合训练策略, 该策略能够在单个多任务训练过程中对每个领域(语义、实例和全景分割)的地面真相进行训练。其次,我们引入了一个任务令牌来根据手头的任务调整我们的模型, 使我们的模型任务动态,以支持多任务训练和推理。第三,我们提出在训练过程中使用查询文本对比损失,以建立更好的任务间和班级间差异。毫无疑问, 我们的单一OneFormer模型在ADE20k、Cityscapes和COCO上的所有三个细分任务中都优于专门的Mask2Former模型,尽管后者在这三个任务中的每一个任务上都单独训练了三倍的资源。 使用新的ConvNeXt和DiNAT骨干,我们观察到了更多的性能改进。我们认为OneFormer是使图像分割更加普遍和可访问的重要一步。为了支持进一步的研究, 我们在https://github.com/SHI-Labs/OneFormer.
通用分割架构,一次训练多个SOTA
a)原图 b)语义分割 c)实例分割 d)全景分割
方法¶
总结¶
Cite
在这项工作中,我们提出了OneFormer,这是一个新的多任务通用图像分割框架,具有变换器和任务引导查询,以统一语义、实例和全景分割,并在单个数据集上使用单个通用架构、 单个模型和训练。我们联合训练的单一OneFormer模型在跨主要数据集的所有三个细分任务上优于单独训练的专用Mask2Former模型,这是以前单一架构的最新技术。 因此,OneFormer可以将训练时间、权重存储和推理托管需求减少到三分之一,使图像分割更容易实现。我们相信OneFormer是使图像分割更加普遍和可访问的重要一步, 并将通过开源代码和模型支持这一方向的进一步研究