跳转至

Swin-Unet:Unet-like Pure Transformer for Medical Image Segmentation.md

论文

https://arxiv.org/abs/2105.05537

代码

https://github.com/HuCaoFighting/Swin-Unet

摘要

Cite

在过去几年中,卷积神经网络(CNN)在医学图像分析中取得了里程碑式的成就。特别是,基于U形结构和跳跃连接的深度神经网络已广泛应用于各种医学图像任务。 然而,尽管CNN取得了优异的性能,但由于卷积运算的局部性,它无法很好地学习全局和远程语义信息交互。在本文中,我们提出了Swin-Unet, 这是一种用于医学图像分割的类似Unet的纯变压器。标记化的图像块被馈送到基于Transformer的U形编码器-解码器架构中,该架构具有用于局部-全局语义特征学习的跳过连接。 具体来说,我们使用具有移位窗口的分层Swin Transformer作为编码器来提取上下文特征。并设计了一个具有补丁扩展层的对称Swin Transformer解码器来执行上采样操作, 以重新存储特征图的空间分辨率。在输入和输出直接下采样和上采样4×的情况下,多器官和心脏分割任务的实验表明, 纯基于Transformer的U形编码器-解码器网络形成了具有全卷积或变换器和卷积组合的方法。代码和经过培训的模型将在https://github.com/HuCaoFighting/Swin-Unet

感觉思路和动机和UNETR很像,两篇工作的时间也很接近,差了两个月。 几篇看下来基本思路就是

  1. 纯CNN
  2. 纯Transformer(这篇)
  3. 先CNN提底层特征,再Transformer融合高层特征
  4. 先Transformer提底层特征,再CNN融合高层特征(UNETR)

文中的相关工作部分也专门有一部分讲得是CNN和Transformer结合的工作。这篇论文是做2D医学图像分割,主要贡献点是

  • 基于Swin Transformer块,我们构建了一个具有跳跃连接的对称编码器-解码器架构。在编码器中,实现了从局部到全局的自我关注;在解码器中,全局特征被上采样到输入分辨率,用于相应的像素级分割预测
  • 在不使用卷积或插值操作的情况下,开发了一个面片扩展层来实现上采样和特征维数的增加
  • 在实验中发现,跳跃连接对Transformer也是有效的,因此最终构建了一个基于Transformer的具有跳跃连接的纯U形编码器-解码器架构,名为Swin-Unet

工作


UNETR那里说错了,这篇才是真正的U-Transformer。

讨论

Cite

众所周知,模型预训练严重影响了基于transformer模型的性能。在本工作中,作者直接使用Swin-transformer在ImageNet上的训练权值来初始化网络编码器和解码器, 这可能是一个次优方案。这种初始化方法是一种简单的方法,在未来作者表示将探索如何预处理Transformer端到端的医学图像分割。此外, 由于本文输入的图像是二维的,而大部分医学图像数据是三维的,因此我们将在接下来的研究中探讨swin-unet在三维医学图像分割中的应用

众所周知,模型预训练严重影响了基于transformer模型的性能

总结

Cite

在本文中,我们介绍了一种用于医学图像分割的新型基于纯变压器的U形编码器-解码器。为了充分利用Transformer的功能, 我们将Swin Transformer块作为特征表示和远程语义信息交互学习的基本单元。在多器官和心脏分割任务上的大量实验表明, 所提出的Swin Unet具有优异的性能和泛化能力。

评论