DirectPose:Direct End-to-End Multi-Person Pose Estimation¶
论文¶
https://arxiv.org/abs/1911.07451
摘要¶
Cite
我们提出了第一个直接端到端多人姿态估计框架,称为DirectPose。受直接回归目标边界框的两个角的无锚对象检测器的启发,所提出的框架直接从原始输入图像中预测所有实例的实例感知关键点, 消除了自下而上方法中的启发式分组或自上而下方法中的边界框检测和RoI操作的需要。我们还提出了一种新的关键点对齐(KPAlign)机制, 该机制克服了这种端到端框架中卷积特征和预判词之间的特征失准这一主要困难。KPAlign在很大程度上提高了框架的性能,同时仍然保持了框架端到端的可培训性。 通过唯一的后处理非最大抑制(NMS),我们提出的框架可以在一次拍摄中检测具有或不具有边界框的多人关键点。实验表明,端到端的模式可以实现与以前的自下而上和自上而下方法相比具有竞争力或更好的性能。 我们希望我们的端到端方法能够为人类姿态估计任务提供新的视角
不用考虑自下而上还是自上而下了,直接端到端,而且好像不是用的Transformer。
方法¶
受anchor-free的检测算法(主要是FCOS)启发,检测算法是回归bbox的两个顶点,那么关键点就可以看做是一种特殊的bbox(多个关键点对应bbox的多个角点)
Cite
2DirectPose是在anchor-free目标检测算法FCOS的基础上,将每个像素回归的数量从4增加到2K,其中K是每个人体实例的关键点数量。换句话说,算法把关键点看作一个特殊的有K个角点的边界盒。将FCOS作上述简单的替换,就形成了DirectPose这个算法。且在保留原有的边界框分支的情况下,得到的算法可以同时进行关键点和边界框检测
总结¶
Cite
我们提出了第一个直接端到端人体姿态估计框架,称为DirectPose。我们提出的模型是端到端可训练的,可以在恒定的推理时间内将原始输入图像直接映射到所需的实例感知关键点检测, 消除了自下而上方法中的分组后处理或自上而下方法中的边界框检测和RoI操作的需要。我们还提出了一个关键点对齐(KPAlign)模块,以克服端到端模型中卷积特征和预测之间缺乏对齐的主要困难, 显著提高了关键点检测性能。此外,我们通过与基于热图的任务联合学习,进一步提高了基于回归的任务的性能。实验表明,新的端到端方法可以获得比以前的自下而上和自上而下方法更具竞争力或更好的性能