Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis¶
论文地址¶
https://arxiv.org/abs/2111.14791
代码¶
https://github.com/Project-MONAI/research-contributions/tree/main/SwinUNETR
摘要¶
Cite
视觉变换器(ViT)在可转移到下游应用的全局和局部表示的自监督学习方面表现出了优异的性能。受这些结果的启发,我们引入了一种新颖的自我监督学习框架, 该框架具有针对医学图像分析的定制代理任务。具体而言,我们提出:(i)一种新的基于3D变换器的模型,称为Swin UNEt变换器(Swin UNETR), 具有用于自我监督预训练的分层编码器;(ii)定制的代理任务,用于学习人体解剖的基本模式。我们在来自各种身体器官的5050张公开可用的计算机断层扫描 (CT)图像上演示了所提出的模型的成功预训练。我们的方法的有效性通过微调“超越颅库”(BTCV)分割挑战中的预训练模型以及来自医学分割十项全能(MSD) 数据集的13个腹部器官和分割任务来验证。我们的模型目前在MSD和BTCV数据集的公共测试排行榜上都是最先进的
VIT,预训练,未标注的数据,可太适合医学图像分析了,主要贡献是
- 我们引入了一种新的自我监督学习框架,该框架具有定制的代理任务,用于在CT图像数据集上进行预训练。为此,我们提出了一种新的基于3D变换器的架构, 称为Swin UNETR,由一个编码器组成,该编码器以多分辨率提取特征表示,并用于预训练。
- 我们使用所提出的编码器和代理任务,对来自各种应用的5050张公开可用CT图像进行了成功的预训练。这产生了一个强大的预训练模型,具有稳健的特征表示,可用于各种医学图像分析下游任务。
- 我们通过在MSD和BTCV两个公共基准上微调预先训练的Swin UNETR,验证了所提出框架的有效性,并在两个数据集的测试排行榜上达到了最先进水平。
方法¶
主要工作是大规模的医学图像预训练,预训练的任务有三个
- 擦除一部分让网络尝试恢复
- 调整对比度,学习参数
- 随机旋转一定角度,让网络推理学习出旋转的角度
这俩图和结构和位置跟UNETR那篇好像,都是英伟达的工作。
代码跑过,论文中说的是用5000多进行预训练,我用了1000多,没感觉到有明显效果,而且官方权重加载那里好像还有点BUG
总结¶
Cite
在这项工作中,我们提出了一种用于3D医学图像的自我监督预训练的新框架。受按比例合并特征图的启发, 我们通过将变换器编码的空间表示转化为基于卷积的解码器来构建Swin UNETR。通过提出第一个基于变换器的3D医学图像预训练,我们利用Swin transformer 编码器的能力来微调分割任务。具有自我监督预训练的Swin UNETR在BTCV多器官分割挑战和MSD挑战中取得了最先进的性能。特别是, 我们通过结合多个公开可用的数据集和解剖ROI的多样性,展示了5050卷的大规模CT预训练