Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

region proposals과 CNN을 결합하여 object detection network인 R-CNN을 제안합니다.

Object detection은 영상 내부의 모든 객체를 localization해야 한다.

Sliding window 방식은 두가지 문제가 있다고 언급한다.

첫 번째 Receptive Field 문제, CNN 네트워크의 상위 layer에서 window 크기가 너무 커, sliding window를 적용하기 어렵다.
두 번쨰 Stride 크기 문제, 변칙적인 window 크기는 stride를 결정하기 어렵게한다.

본 논문은 recognition using regions 방식을 object detection과 sementic segmentation에 적용하여 높은 성능을 보여주었다.

R-CNN은 세 가지 모듈로 구성된다.