Masked Autoencoders Are Scalable Vision Learners
论文地址¶
https://arxiv.org/abs/2111.06377
代码¶
https://github.com/facebookresearch/mae
摘要¶
Cite
本文表明,屏蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器。我们的 MAE 方法很简单:我们屏蔽输入图像的随机补丁并重建丢失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器-解码器架构, 其中的编码器仅对补丁的可见子集(没有掩码标记)进行操作,以及轻量级解码器,可根据潜在表示和掩码标记重建原始图像。其次,我们发现屏蔽高比例的输入图像(例如 75%)会产生一项不平凡且有意义的自我监督任务。 将这两种设计结合起来使我们能够高效且有效地训练大型模型:我们加速训练(3 倍或更多)并提高准确性。我们的可扩展方法允许学习泛化良好的高容量模型:例如,在仅使用 ImageNet-1K 数据的方法中, 普通 ViT-Huge 模型实现了最佳准确率 (87.8%)。下游任务中的传输性能优于监督预训练,并显示出有希望的扩展行为。