반응형

R-CNN 3

OHEM (Training Region-based Object Detectors with Online Hard Example Mining)

Object Detection을 위한 모델을 학습시킬 때 모델에게 Positive sample(객체가 있는 영역과 클래스를 올바르게 분류한 bounding box), Negative sample(그렇지 못한 bounding box)를 제공해야 한다. 문제는 대부분의 이미지에서 객체를 포함하고 있는 영역은 일부이고 대부분은 탐지의 대상이 아닌 '배경'으로 이루어져 있다. 따라서 객체를 올바르게 감싸고 있는 Positive sample에 비해 Negative sample의 숫자가 훨씬 많다. 뿐만 아니라 대부분의 Negative Sample들은 학습에 크게 도움이 되지 않고, 실제로 모델의 성능을 좌우하는 Sample들(물체의 일부만 포함한 box, 서로 겹치는 물체, 배경과 유사한 물체)의 비중은 적다...

컴퓨터 비전 2026.02.15

Fast R-CNN 과 Faster R-CNN

R-CNN은 Object Detection Task 에서 CNN을 도입해 뛰어난 성능의 발전을 보여줬지만, 한계점이 명확했다.이미지 하나당 2000개의 Region Proposal을 받고 각 영역에 대해서 CNN에 개별적으로 입력해 CNN 연산량이 너무 많았다.학습 단계에서 ImageNet으로 CNN Pre-training, Detection 데이터로 CNN Fine-tuning, 클래스별 SVM학습, Bounding Box Regressor 학습 등을 모두 따로 진행해야 했다. 이 때문에 메모리 문제, 지나치게 많은 연산량과 오랜 연산시간 문제등이 있었다. Fast R-CNN과 Faster R-CNN은 R-CNN의 한계점을 보완해 연산량을 줄이는 동시에 Precision 역시 향상시켰다. Fas..

컴퓨터 비전 2026.02.12

R-CNN (Regions with CNN features)

컴퓨터비전의 대표적 테스크인 Object Detection(객체 탐지)는 이미지 내에 존재하는 객체는 무엇이 있는지, 그 객체의 위치는 어디인지 찾아내는 것이다. 이태까지 살펴본 AlexNet, Vgg-Net, ResNet 등은 모두 이미지가 내에 무엇이 있는지 분류하는 Classification 을 위한 모델이었다. Object Detection은 여기에 추가적으로 객체의 위치까지 특정할 수 있어야 하니 더 복잡하다고 볼 수 있다. 기존의 객체 담지 모델들 중 가장 좋은 성능을 보인 것은 SIFT, HOG 같은 고전적인 알고리즘들 기반 + SVM 이었다고 한다. 2014년에 CNN을 도입한 객체 탐지 모델이 나와 훨씬 뛰어난 성능을 보여주는데, 이것이 바로 R-CNN 이다. R-CNN의 구조를 살펴..

컴퓨터 비전 2026.02.10