YOLO9000:Better, Faster, Stronger¶
论文¶
https://arxiv.org/abs/1612.08242
项目¶
https://pjreddie.com/darknet/yolo/
摘要¶
Cite
我们介绍YOLO9000,这是一种先进的实时物体检测系统,可检测9000多个物体类别。首先,我们对YOLO检测方法提出了各种改进,既新颖又借鉴了先前的工作。 改进型YOLOv2在PASCAL VOC和COCO等标准检测任务上是最先进的。使用一种新颖的多尺度训练方法,相同的YOLOv2模型可以在不同的大小下运行, 从而在速度和精度之间提供了一种简单的权衡。YOLOv2以67 FPS的速度在VOC 2007上获得76.8 mAP。YOLOv2的帧速率为40 FPS,达到78.6 mAP, 超过了最先进的方法,如Faster R-CNN、ResNet和SSD,同时运行速度明显更快。最后,我们提出了一种联合训练目标检测和分类的方法。使用该方法, 我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练使YOLO9000能够预测没有标记检测数据的对象类的检测。 我们在ImageNet检测任务中验证了我们的方法。YOLO9000在ImageNet检测验证集上获得19.7mAP,尽管200个类别中只有44个类别的检测数据。 在不在COCO的156个班级中,YOLO9000获得16.0mAP。但YOLO可以检测到200多个类;它预测了9000多种不同物体类别的检测。它仍然实时运行。
总结¶
Cite
我们介绍了YOLOv2和YOLO9000实时检测系统。YOLOv2是最先进的,在各种检测数据集上比其他检测系统更快。此外,它可以在各种图像大小下运行, 以在速度和准确性之间提供平滑的折衷。YOLO9000是一个实时框架,通过联合优化检测和分类来检测9000多个对象类别。 我们使用WordTree组合来自不同来源的数据,并使用联合优化技术在ImageNet和COCO上同时训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步。 我们的许多技术都是在对象保护之外推广的。ImageNet的WordTree表示为图像分类提供了更丰富、更详细的输出空间。使用分层分类的数据集组合在分类和分割领域中很有用。 多尺度训练等训练技术可以在各种视觉任务中提供益处。对于未来的工作,我们希望将类似的技术用于弱监督图像分割。我们还计划使用更强大的匹配策略来改进我们的检测结果, 以便在训练期间为分类数据分配弱标签。计算机视觉有大量的标记数据。我们将继续寻找将不同的数据来源和结构结合在一起的方法,以构建更强大的视觉世界模型