论文研读:SPP-net

论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks 摘要 问题引入 我们先回顾一下 R-CNN 的基本步骤: 1. 使用 seletive search 从输入图片中提取大约 2k 个候选区域。 2. 对所有候选区域进行 warp 到固定尺度(227 × 227),也就是使得不同尺度和长宽比的区域被变换到相同大小,然后将其送入 CNN 网络,提取出 feature maps 。 3. 使用 SVM 进行分类,并做边框回归。 我们再来看一张时间复杂度上的统计分析图 由图可看,除了CNN网络提取特征耗时(需要对每一张图片的2000个窗口进行卷积网络计算),其中的warp操作(Cropping & resizing )也是挺费时间的。 另外我们从下图进行分析warp这种操作对信息可能造成的影响:…