跳转至

3D Bounding Box Estimation Using Deep Learning and Geometry

论文地址

https://arxiv.org/abs/1612.00496

摘要

Cite

我们提出了一种从单个图像进行 3D 对象检测和姿态估计的方法。与目前仅回归对象 3D 方向的技术相比,我们的方法首先使用深度卷积神经网络回归相对稳定的 3D 对象属性, 然后将这些估计与 2D 对象边界框提供的几何约束结合起来生成一个完整的 3D 边界框。第一个网络输出使用一种新颖的混合离散-连续损失来估计 3D 对象方向, 该损失明显优于 L2 损失。第二个输出回归 3D 对象尺寸,与替代方案相比,其方差相对较小,并且通常可以针对许多对象类型进行预测。 这些估计与 2D 边界框对平移施加的几何约束相结合,使我们能够恢复稳定且准确的 3D 对象姿态。我们在具有挑战性的 KITTI 对象检测基准 [2] 上评估我们的方法, 既根据 3D 方向估计的官方指标,也根据获得的 3D 边界框的准确性。尽管概念上很简单,但我们的方法优于更复杂且计算量大的方法,这些方法利用语义分割、 实例级分割和平坦地面先验 [4] 和子类别检测 [23] [24]。我们的离散连续损失也为 Pascal 3D+ 数据集 [26] 上的 3D 视点估计产生了最先进的结果

终于找到回归角度分bin的操作来源了,文中叫MultiBin,但是这个工作是单张2D图片的,所以搞了这么一个花里胡哨的操作,严重怀疑在3D点云上这么做的必要性

方法

总结

Cite

在这项工作中,我们展示了如何从单个视图中恢复已知对象类别的 3D 边界框。使用新颖的 MultiBin 损失进行方向预测和框尺寸的有效选择作为回归参数, 我们的方法估计稳定和准确的 3D 边界框,无需额外的 3D 形状模型,或具有复杂预处理管道的采样策略。 未来的一个方向是探索在我们的方法中使用立体计算的单独深度通道来增强 RGB 图像输入的好处。另一个是探索视频中的 3D 框估计, 这需要使用有效地获取真实信息,可以预测未来物体的位置和速度

评论