TransUNet:Transformers Make Strong Encoders for Medical Image Segmentation
论文地址¶
https://arxiv.org/abs/2102.04306
代码¶
https://github.com/Beckschen/TransUNet
摘要¶
Cite
医学图像分割是开发医疗保健系统,特别是疾病诊断和治疗计划的必要前提。在各种医学图像分割任务中,u形架构(也称为u-Net) 已成为事实上的标准,并取得了巨大的成功。然而,由于卷积运算的内在局部性,U-Net通常在显式建模长程依赖性方面表现出局限性。 Transformer是为序列间预测而设计的,它已经成为具有天生的全局自我关注机制的替代架构,但由于低级细节不足,其定位能力有限。 在本文中,我们提出TransUNet作为医学图像分割的有力替代方案,它既有Transformers的优点,也有U-Net的优点。一方面, Transformer将来自卷积神经网络(CNN)特征图的标记化图像块编码为提取全局上下文的输入序列。另一方面,解码器对编码特征进行上采样, 然后将其与高分辨率CNN特征图相结合,以实现精确定位。我们认为Transformer可以作为医学图像分割任务的强大编码器, 结合U-Net通过恢复局部空间信息来增强更精细的细节。TransUNet在不同的医疗应用(包括多器官分割和心脏分割)上实现了优于各种竞争方法的性能。 代码和模型可在https://github.com/Beckschen/TransUNet。
很朴素的想法,CNN提低层次特征,Transformer生成远程的特征,属于CNN和Transformer的优点结合,想起了Unetr
方法¶
作者表示直接用Transformer来分割效果不好,因为Transformer将数据看作是1D序列,这会丧失位置信息,所以作者顺势提出解决方案,即用CNN来提取低层次的 包括位置信息的特征,然后使用Transformer来提取远程的特征。但是后面也出现了用纯Transformer来做的方法,好像是SwinUnet,效果其实也挺好,应该是 加入了position embedding,这样Transformer就可以看到位置信息了。
结论¶
Cite
Transformer被称为具有强大内在自我关注机制的架构。在本文中,我们提出了第一项研究,以研究Transformer在普通医学图像分割中的应用。 为了充分利用Transformer的力量,提出了TransUNet,它不仅通过将图像特征视为序列来编码强大的全局上下文, 还通过u形混合架构设计来充分利用低级别的CNN特征。作为基于FCN的医学图像分割方法的替代框架,TransUNet实现了优于各种竞争方法的性能, 包括基于CNN的自我关注方法。
主要卖点是第一篇研究Transformer在医学图像分割中的应用,看论文时间应该2021年,感觉已经发表的很晚了。 主要做的工作就是在编码器路径的,从UNet的全CNN提特征改成了先CNN+Transformer,理由是Transformer更善于编码远程特征,但是实际上多次卷积之后 CNN也有了较大的感受野,所以个人感觉区别就是CNN和Transformer特征提取能力的对比了,好在提供了代码,可以跑一下看看效果