R-CNN

R-CNN是早期最先在目标检测领域中使用卷积神经网络的模型之一,实现了很好的检测效果

原文:Rich feature hierarchies for accurate object detection and semantic segmentation

译文:[译]Rich feature hierarchies for accurate object detection and semantic segmentation

模型结构

目标检测系统由3部分组成:

  1. 区域建议:使用选择性搜索(selective search)方式检测区域建议

  2. 特征提取:使用AlexNet实现特征提取,输入图像为零均值的227x227 RGB图像,输出为4096维特征向量。需要将区域建议进行图像转换,使用最简单的仿射图像扭曲方法

  3. 分类:线性SVM分类器计算成绩,并使用贪婪非最大抑制过滤冗余边界框

论文最后还提出了使用边界框回归算法提高候选建议与标注边界框的IoU

论文结果

  1. 将大容量卷积神经网络应用于自下而上的区域建议,以便对对象进行定位和分割。
  2. 在一个大的辅助数据集(ILSVRC)上进行监督预训练,然后在特定的小数据集(PASCAL)上进行特定领域的微调,是在数据稀少的情况下学习高容量CNN的有效范例
  3. 更多的CNN表示能力来自于卷积层而不是更大的全连接层

论文实现

参考:zjZSTU/R-CNN

算法问题

  1. 测试时速度慢:需要对每个候选建议运行R-CNN完整的前向计算
  2. 卷积特征的训练与SVMs和边界框回归器无关
  3. 复杂的多级训练流水线