Abstract

Object Detection 분야는 region-base ConvNet의 wave에 탑승해 엄청난 진보를 이루었습니다. 그러나 그것들의 학습 절차는 여전히 많은 heuristics과 연구진들이 직접 튜닝한 하이퍼파라미터를 포함하고 있습니다. 이에 본 연구진은 간단하나 놀랍게도 효율적인 region-based ConvNet 감지기인 OHEM 알고리즘을 발표합니다. 우리의 동기부여는 항상 감지 데이터셋들이 압도적으로 많은 쉬운 예의 수와 어려운 예의 적은 수였습니다. 이 어려운 예들의 자동적인 선택은 학습을 좀 더 효율적이고 효과적으로 작동되게 만들었습니다. OHEM은 간단하며 직관적인 알고리즘이며 몇몇의 heuristic함과 공통으로 사용되는 하이퍼파라미터들을 제거했습니다. 그러나 더 중요한것으로, PASCAL VOC 2007, 2012에서 OHEM은 일관되고 엄청난 detection 성능을 자랑합니다. 이 효율성은 MS COCO 데이터셋과 같이 데이터셋이 크고 더 어려운 것일수록 증가합니다. 게다가 OHEM은 SOTA 결과 PASCAL VOC 2007, 2012데이터셋에서 78.9%, mAP 76.3%를 기록합니다.

Introduction

이미지 분류와 객체 탐지는 근본적인 Computer Vision task입니다. 객체탐지는 종종 객체탐지를 이미지분류로 문제로 변환한 축소(reduction)를 통해 학습됩니다. 이 축소는 새로운 도전을 소개합니다. 이 challenge는 자연스러운 이미지 분류 task에서 찾을 수 없습니다. 학습셋은 큰 imbalance한 주석을 단 객체의 수와 배경의 수와 함께 구별되어집니다(어떠한 객체 class의 관심에 속하지 않는 이미지 영역).

DPM과 같은 Sliding Window를 가지는 객체 탐지기의 경우에 이 불균형함은 모든 example에서 10만개가 모두 background가 되는 극단적인 경우일 수 있습니다. 최근 object-proposal-based 감지기로 향한 트렌드는 크기에 대한 이슈를 완화시켰습니다. 그러나 불균형비는 아마 꽤나 높을것입니다.(e.g., 70:1). 이 과제는 빠른 학습, 높은 정확도를 산출해내며 데이터의 불균형에 잘 대처하는 학습 기술을 공개할 것입니다.

이는 새로운 과제가 아니며 standard solution도 아닙니다, 원래 ‘bootstrapping’(현재는 hard negative mining이라고 불림)이라는 말로 불린 이것은 최소 20년동안 존재해왔습니다. 이는 Training set을 샘플링할때 모델이 잘 예측하지 못하는 false positive 위주로 데이터를 샘플링하는 것입니다.

##

Reference