Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders¶

论文地址¶

代码¶

摘要¶

Cite

通过大量图像数据进行预训练已经成为稳健的2D表示的事实上。相比之下，由于数据采集和标注成本高昂，大规模 3D 数据集的缺乏严重阻碍了高质量 3D 特征的学习。在本文中，我们提出了一种通过图像到点掩码自动编码器从 2D 预训练模型获得卓越 3D 表示的替代方案，称为I2P-MAE。通过自监督预训练，我们利用充分学习的 2D 知识来指导 3D 屏蔽自动编码，从而使用编码器-解码器架构重建屏蔽点标记。具体来说，我们首先利用现成的2D模型来提取输入点云的多视图视觉特征，然后在此基础上进行两种类型的图像到点学习方案。首先，我们引入了一种 2D 引导屏蔽策略，该策略保持语义上重要的点标记对编码器可见。与随机屏蔽相比，网络可以更好地专注于重要的 3D 结构，并从关键空间线索中恢复屏蔽标记。另一方面，我们强制这些可见标记在解码器之后重建相应的多视图 2D 特征。这使得网络能够有效地继承从丰富的图像数据中学习到的高级 2D 语义，以进行判别性 3D 建模。在我们的图像到点预训练的帮助下，冻结的 I2P-MAE 在没有任何微调的情况下，在 ModelNet40 上实现了 93.4% 的线性 SVM 准确率，与现有方法的完全训练结果相媲美。通过对 ScanObjectNN 最难的分割进行进一步微调，I2P-MAE 达到了最先进的 90.11% 准确率，比第二好的准确率高出 3.68%，展示了卓越的可转移能力。代码将在此 https URL 中提供。

Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders¶

论文地址¶

代码¶

摘要¶

评论