跳转至

Swin Transformer:Hierarchical Vision Transformer using Shifted Windows

论文

https://arxiv.org/abs/2103.14030

代码

https://github.com/microsoft/Swin-Transformer

视频解析

Swin Transformer论文精读【论文精读】

摘要

Cite

本文介绍了一种新的视觉转换器,称为Swin Transformer,它可以作为计算机视觉的通用主干。将Transformer从语言转换为视觉的挑战来自于两个领域之间的差异, 例如视觉实体的规模的巨大变化以及图像中像素与文本中的单词相比的高分辨率。为了解决这些差异,我们提出了一种分层变换器,其表示是用移位窗口计算的。 移位加窗方案通过将自关注计算限制到非重叠的局部窗口,同时允许跨窗口连接,从而提高了效率。这种分层结构具有在各种尺度上建模的灵活性, 并且相对于图像大小具有线性计算复杂性。Swin Transformer的这些特性使其与广泛的视觉任务兼容,包括图像分类(ImageNet-1K上的87.3 top-1精度) 和密集预测任务,如对象检测(COCO测试开发上的58.7盒AP和51.1掩模AP)和语义分割(ADE20K值上的53.5 mIoU)。它的性能大大超过了以前的技术水平, COCO上的+2.7盒AP和+2.6掩模AP,ADE20K上的+3.2 mIoU,显示了基于Transformer的模型作为视觉主干的潜力。分层设计和移位窗口方法也证明对所有MLP架构都是有益的

微软出品,主要亮点就是基于窗口的计算,窗口直接可以通信保持数据交换,极大的降低了运算复杂度的同时甚至取得了更好的效果

工作


将整张图片分割成若干不重叠的window(红框),自注意力只在各个框内计算,不同框直接可以通信,使得计算量随图片尺寸增大线性增长。

总结

Cite

本文介绍了一种新的视觉变换器Swin Transformer,它产生了一个层次特征表示并具有线性计算复杂性,考虑到输入图像大小。 Swin Transformer在COCO对象检测和ADE20K语义分割方面达到了最先进的性能,大大超过了以前的最佳方法。 我们希望Swin Transformer在各种视觉问题上的强大表现将促进视觉和语言信号的统一建模。作为Swin Transformer的一个关键元素, 基于移动的window的自我关注被证明在视觉问题上是有效的,我们也期待着研究它在自然语言处理中的应用

CVer和NLPer的统一梦

评论