Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders¶
论文地址¶
https://arxiv.org/abs/2212.06785
代码¶
https://github.com/ZrrSkywalker/I2P-MAE
摘要¶
Cite
通过大量图像数据进行预训练已经成为稳健的2D表示的事实上。相比之下,由于数据采集和标注成本高昂,大规模 3D 数据集的缺乏严重阻碍了高质量 3D 特征的学习。在本文中,我们提出了一种通过图像到点掩码自动编码器 从 2D 预训练模型获得卓越 3D 表示的替代方案,称为I2P-MAE。通过自监督预训练,我们利用充分学习的 2D 知识来指导 3D 屏蔽自动编码,从而使用编码器-解码器架构重建屏蔽点标记。具体来说,我们首先利用现成的2D模型来提取输入点云的多视图视觉特征, 然后在此基础上进行两种类型的图像到点学习方案。首先,我们引入了一种 2D 引导屏蔽策略,该策略保持语义上重要的点标记对编码器可见。与随机屏蔽相比,网络可以更好地专注于重要的 3D 结构,并从关键空间线索中恢复屏蔽标记。 另一方面,我们强制这些可见标记在解码器之后重建相应的多视图 2D 特征。这使得网络能够有效地继承从丰富的图像数据中学习到的高级 2D 语义,以进行判别性 3D 建模。在我们的图像到点预训练的帮助下, 冻结的 I2P-MAE 在没有任何微调的情况下,在 ModelNet40 上实现了 93.4% 的线性 SVM 准确率,与现有方法的完全训练结果相媲美。通过对 ScanObjectNN 最难的分割进行进一步微调,I2P-MAE 达到了最先进的 90.11% 准确率,比第二好的准确率高出 3.68%,展示了卓越的可转移能力。代码将在此 https URL 中提供。