Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation¶
论文¶
https://arxiv.org/abs/2302.01593
代码¶
https://github.com/IDEA-Research/ED-Pose
摘要¶
Cite
本文提出了一种用于多人姿态估计的具有显式盒检测的新型端到端框架,称为ED姿态,它统一了人级(全局)和关键点级(局部)信息之间的上下文学习。与以前的单阶段方法不同, ED Pose将此任务重新视为两个具有统一表示和重新划分监督的显式盒检测过程。首先,我们从编码令牌中引入人类检测解码器以提取全局特征。它可以为后面的关键点检测提供良好的初始化, 使训练过程快速收敛。其次,为了在关键点附近引入上下文信息,我们将姿态估计视为关键点盒检测问题,以学习每个关键点的盒位置和内容。 人到关键点检测解码器采用人和关键点特征之间的交互式学习策略,以进一步增强全局和局部特征聚合。一般来说,ED姿势在概念上是简单的,没有后期处理和密集的热图监督。 与两阶段和一阶段方法相比,它证明了其有效性和效率。值得注意的是,扩展盒检测将COCO上的姿态估计性能提高了4.5 AP,CrowdPose上的姿态预测性能提高了9.9 AP。 作为一个具有L1回归损失的完全端到端框架,ED Pose首次在COCO上以1.2 AP的速度超越了基于热图的自顶向下方法,并在CrowdPose上以76.6 AP的速度达到了最先进水平。