YOLO9000：Better, Faster, Stronger¶

论文¶

项目¶

摘要¶

Cite

我们介绍YOLO9000，这是一种先进的实时物体检测系统，可检测9000多个物体类别。首先，我们对YOLO检测方法提出了各种改进，既新颖又借鉴了先前的工作。改进型YOLOv2在PASCAL VOC和COCO等标准检测任务上是最先进的。使用一种新颖的多尺度训练方法，相同的YOLOv2模型可以在不同的大小下运行，从而在速度和精度之间提供了一种简单的权衡。YOLOv2以67 FPS的速度在VOC 2007上获得76.8 mAP。YOLOv2的帧速率为40 FPS，达到78.6 mAP，超过了最先进的方法，如Faster R-CNN、ResNet和SSD，同时运行速度明显更快。最后，我们提出了一种联合训练目标检测和分类的方法。使用该方法，我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练使YOLO9000能够预测没有标记检测数据的对象类的检测。我们在ImageNet检测任务中验证了我们的方法。YOLO9000在ImageNet检测验证集上获得19.7mAP，尽管200个类别中只有44个类别的检测数据。在不在COCO的156个班级中，YOLO9000获得16.0mAP。但YOLO可以检测到200多个类；它预测了9000多种不同物体类别的检测。它仍然实时运行。

总结¶

Cite

我们介绍了YOLOv2和YOLO9000实时检测系统。YOLOv2是最先进的，在各种检测数据集上比其他检测系统更快。此外，它可以在各种图像大小下运行，以在速度和准确性之间提供平滑的折衷。YOLO9000是一个实时框架，通过联合优化检测和分类来检测9000多个对象类别。我们使用WordTree组合来自不同来源的数据，并使用联合优化技术在ImageNet和COCO上同时训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步。我们的许多技术都是在对象保护之外推广的。ImageNet的WordTree表示为图像分类提供了更丰富、更详细的输出空间。使用分层分类的数据集组合在分类和分割领域中很有用。多尺度训练等训练技术可以在各种视觉任务中提供益处。对于未来的工作，我们希望将类似的技术用于弱监督图像分割。我们还计划使用更强大的匹配策略来改进我们的检测结果，以便在训练期间为分类数据分配弱标签。计算机视觉有大量的标记数据。我们将继续寻找将不同的数据来源和结构结合在一起的方法，以构建更强大的视觉世界模型

YOLOv2 论文笔记 ↩

YOLO9000：Better, Faster, Stronger¶

论文¶

项目¶

摘要¶

总结¶

评论