CV Paper List

Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

region proposals과 CNN을 결합하여 object detection network인 R-CNN을 제안합니다.

1. Introduction

Object detection은 영상 내부의 모든 객체를 localization해야 한다.

Sliding window 방식은 두가지 문제가 있다고 언급한다.

  • 첫 번째 Receptive Field 문제, CNN 네트워크의 상위 layer에서 window 크기가 너무 커, sliding window를 적용하기 어렵다.
  • 두 번쨰 Stride 크기 문제, 변칙적인 window 크기는 stride를 결정하기 어렵게한다.

본 논문은 recognition using regions 방식을 object detection과 sementic segmentation에 적용하여 높은 성능을 보여주었다.

2. Object detection with R-CNN

R-CNN은 세 가지 모듈로 구성된다.

  1. 영상 내부 object의 예측 영역을 생성한다. (최대 2,000개)
  2. 예측된 영역을 CNN을 사용하여 특징을 추출한다.
  3. SVMs을 사용하여 예측된 영역의 객체를 추정한다.