跳转至

Masked Autoencoders As Spatiotemporal Learners

论文地址

https://arxiv.org/abs/2205.09113

代码

https://github.com/facebookresearch/mae_st

摘要

Cite

本文研究了掩模自动编码器(MAE)在概念上的简单扩展,以从视频中进行时空表示学习。我们随机屏蔽视频中的时空补丁,并学习自动编码器以像素为单位重建它们。有趣的是,我们表明我们的 MAE 方法可以学习强表示, 而对时空几乎没有归纳偏差(仅除了补丁和位置嵌入),并且与时空无关的随机掩蔽表现最好。我们观察到最佳掩蔽率高达 90%(图像上为 75%),支持了该比率与数据的信息冗余相关的假设。高掩蔽比会带来很大的加速, 例如挂钟时间 > 4 倍甚至更多。我们使用 vanilla Vision Transformers 报告了几个具有挑战性的视频数据集的竞争结果。我们观察到 MAE 可以大幅优于监督预训练。我们进一步报告了对真实世界、 未经整理的 Instagram 数据进行训练的令人鼓舞的结果。我们的研究表明,屏蔽自动编码的通用框架(BERT、MAE 等)可以成为使用最少领域知识进行表示学习的统一方法。

MAE拓展到视频领域。

评论