跳转至

Deep High-Resolution Representation Learning for Visual Recognition

论文地址

https://arxiv.org/abs/1908.07919

代码

https://github.com/HRNet 是一系列的HR工作,包括人脸关键点、人体关键点、分割等工作

摘要

Cite

高分辨率表示对于位置敏感的视觉问题至关重要,例如人类姿态估计、语义分割和对象检测。现有的最先进的框架首先通过子网络将输入图像编码为低分辨率表示, 该子网络通过串联连接高分辨率到低分辨率卷积(例如,ResNet、VGGNet)而形成,然后从编码的低分辨率表示中恢复高分辨率表示。相反, 我们提出的网络称为高分辨率网络(HRNet),在整个过程中保持高分辨率表示。有两个关键特征:(i)并行连接高分辨率到低分辨率卷积流; (ii)在不同决议之间反复交换信息。这样做的好处是得到的表示在语义上更丰富,在空间上更精确。我们展示了所提出的HRNet在广泛的应用中的优势, 包括人类姿态估计、语义分割和对象检测,这表明HRNet是计算机视觉问题的强大支柱。所有代码可在https://github.com/HRNet.

保持高分辨率表示,但是会不会影响提取高层次的语义特征呢

方法


高分辨率和低分辨率的特征并行连接,全程都有一条高分辨率的特征。

总结

Cite

在本文中,我们提出了一种用于视觉识别问题的高分辨率网络。与现有的低分辨率分类网络和高分辨率表示学习网络有三个基本区别: (i)并行而非串行连接高分辨率和低分辨率卷积;(ii)在整个过程中保持高分辨率,而不是从低分辨率恢复高分辨率;以及(iii)反复融合多分辨率表示, 以强大的位置敏感性呈现丰富的高分辨率表示。在广泛的视觉识别问题上取得的优异结果表明,我们提出的HRNet是解决计算机视觉问题的有力支柱。 我们的研究还鼓励更多的研究工作,直接为特定的视觉问题设计网络架构而不是从低分辨率网络中学习。

评论