论文研读： Faster R-CNN

0.1 摘要

1 引入
- 1.1 RPN如何工作的？
- 1.2 Faster R-CNN
2 算法流程
3 两种 Faster R-CNN 训练过程
- 3.1 四步交替训练法
- 3.2 end-to-end训练法
4 实验结果
5 结论
6 参考链接

[TOC]

摘要

代码：https://github.com/rbgirshick/py-faster-rcnn

论文：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
（https://arxiv.org/pdf/1506.01497.pdf）

引入

我们首先回顾一下 Fast R-CNN 的主要步骤：

特征提取：输入整张图片，利用 CNN 提取图片的特征。
提取候选区域：使用 selective search 从原始图片中提取出区域候选框，并把这些候选框一一投影到最后的特征层。
进行分类和回归：通过两个全连接层，分别用 softmax 进行目标分类识别和用回归模型进行边框位置和大小的微调。

Fast R-CNN 虽然比 R-CNN 和 SPP-net 都快,但是速度也依然不够快，因为使用 selective search 进行候选区域提名是个耗时的过程。论文中指出使用 Selective Search 在 CPU 上执行每张图需要2s,即便是使用另一个候选窗口提取模块：EdgeBoxes，也需要0.2s。而Faster R-CNN 去掉了 Selective search, 通过引入 RPN (Region Proposal Networks) 来提取候选窗口，使得区域提名、分类、回归能共享卷积层，节约了计算时间，进一步提高了检测速度，实现了端到端的训练。

RPN如何工作的？

输入图片经过CNN基础网络，在最后一个卷积层输出一系列 feature maps.
在这些 feature maps 上运行滑动窗口，滑动窗口的大小为 n × n ( 论文中使用的是 3 ×3)，输出指定通道数(256维)的响应图。对feature map 里的每个像素点，预设生成 k (这里为9)个 anchor box, 它们都具有相同的中心，但是有3种不同尺寸和3种不同长宽比。
将从卷积特征图中提取的3×3空间特征送到较小的网络，该网络具有两个任务：分类（cls）和回归（reg）。回归量输出确定预测物体边界框（x，y，w，h），也就是坐标和大小；分类子网输出指示预测框是否包含检测对象。因此这里要求每个 anhcor 要分 foreground 和 background，且每个 anchor 都有 (x, y, w, h) 对应4个偏移量，假设有 k 个 anchor boxes, 那么预测框是否包含检测对象的输出 scores 就有 2k 个，预测物体框的坐标和大小就有 4k 个。至此，RPN 就生成了尺度和长宽比不一样的Region Proposal。

RPN 网络结构: