반응형

2026/02 6

Fast Learning of Dynamic Hand Gesture Recognition with Few-Shot Learning Models 논문 리뷰: 적은 수의 영상으로 제스처 학습시키기

https://arxiv.org/pdf/2212.08363https://github.com/nielsschluesener/Fast-Learning-Hand-Gesture-Recognition GitHub - nielsschluesener/Fast-Learning-Hand-Gesture-Recognition: Few Shot Learning Models for Hand Gesture RecognitionFew Shot Learning Models for Hand Gesture Recognition - nielsschluesener/Fast-Learning-Hand-Gesture-Recognitiongithub.com Introduction동적 손동작 인식 (Dynamic Hand Gesture Recogn..

컴퓨터 비전 2026.02.28

EgoX: Egocentric Video Generation from a Single Exocentric Video 논문 리뷰 - 3인칭 시점 영상 기반으로 1인칭 시점 영상 생성하기

만약 영상 속에 있는 인물의 시점으로 영상을 재구성할 수 있다면 어떨까? 이 논문에서는 그 작업을 잘 수행해내는 모델을 제시한다. EgoX는 하나의 Exocentric 비디오만을 입력하여, 영상 속 인물의 눈으로 보는 듯한 현실적인 Egocentric 비디오를 생성하는 프레임워크이다. https://arxiv.org/pdf/2512.08269https://keh0t0.github.io/EgoX/ 첨부한 이미지들의 출처는 모두 위 논문이다. Introduction 이 주제는 Exocentric (3인칭) 비디오를 Egocentric (1인칭) 비디오로 변환하여 영상 속 인물에 몰입하는 듯한 경험을 가능하게 하지만, 모델은 보이는 영역을 재구성하고 보이지 않는 영역은 사실적으로 합성해내야 하기 때문에 매우 ..

Diffusion 2026.02.27

YOLO v1(You Only Look Once) 모델의 구조와 특징

오늘은 Object Detection 분야에서 중요한 전환점을 만든 1-stage detector의 시초격 모델인 YOLO v1을 살펴보겠다. 기존의 R-CNN, Fast R-CNN, Faster R-CNN과 같은 모델들은 모두 2-stage detector 구조를 따랐다. 이들 모델은 먼저 객체가 존재할 가능성이 있는 영역을 제안한 뒤, 해당 영역에 대해 분류와 박스 회귀를 수행하는 두 단계의 과정을 거친다. Faster R-CNN은 RPN을 도입하여 이 과정을 CNN 기반으로 통합했지만, 여전히 제안 영역 생성과 최종 분류·회귀 단계가 구조적으로 분리되어 있었다. 반면 YOLO 모델은 객체가 존재할 영역 탐지와 분류를 하나의 단계로 통합한 1-stage detector이다. 입력 이미지를 한 번의 ..

컴퓨터 비전 2026.02.18

OHEM (Training Region-based Object Detectors with Online Hard Example Mining)

Object Detection을 위한 모델을 학습시킬 때 모델에게 Positive sample(객체가 있는 영역과 클래스를 올바르게 분류한 bounding box), Negative sample(그렇지 못한 bounding box)를 제공해야 한다. 문제는 대부분의 이미지에서 객체를 포함하고 있는 영역은 일부이고 대부분은 탐지의 대상이 아닌 '배경'으로 이루어져 있다. 따라서 객체를 올바르게 감싸고 있는 Positive sample에 비해 Negative sample의 숫자가 훨씬 많다. 뿐만 아니라 대부분의 Negative Sample들은 학습에 크게 도움이 되지 않고, 실제로 모델의 성능을 좌우하는 Sample들(물체의 일부만 포함한 box, 서로 겹치는 물체, 배경과 유사한 물체)의 비중은 적다...

컴퓨터 비전 2026.02.15

Fast R-CNN 과 Faster R-CNN

R-CNN은 Object Detection Task 에서 CNN을 도입해 뛰어난 성능의 발전을 보여줬지만, 한계점이 명확했다.이미지 하나당 2000개의 Region Proposal을 받고 각 영역에 대해서 CNN에 개별적으로 입력해 CNN 연산량이 너무 많았다.학습 단계에서 ImageNet으로 CNN Pre-training, Detection 데이터로 CNN Fine-tuning, 클래스별 SVM학습, Bounding Box Regressor 학습 등을 모두 따로 진행해야 했다. 이 때문에 메모리 문제, 지나치게 많은 연산량과 오랜 연산시간 문제등이 있었다. Fast R-CNN과 Faster R-CNN은 R-CNN의 한계점을 보완해 연산량을 줄이는 동시에 Precision 역시 향상시켰다. Fas..

컴퓨터 비전 2026.02.12

R-CNN (Regions with CNN features)

컴퓨터비전의 대표적 테스크인 Object Detection(객체 탐지)는 이미지 내에 존재하는 객체는 무엇이 있는지, 그 객체의 위치는 어디인지 찾아내는 것이다. 이태까지 살펴본 AlexNet, Vgg-Net, ResNet 등은 모두 이미지가 내에 무엇이 있는지 분류하는 Classification 을 위한 모델이었다. Object Detection은 여기에 추가적으로 객체의 위치까지 특정할 수 있어야 하니 더 복잡하다고 볼 수 있다. 기존의 객체 담지 모델들 중 가장 좋은 성능을 보인 것은 SIFT, HOG 같은 고전적인 알고리즘들 기반 + SVM 이었다고 한다. 2014년에 CNN을 도입한 객체 탐지 모델이 나와 훨씬 뛰어난 성능을 보여주는데, 이것이 바로 R-CNN 이다. R-CNN의 구조를 살펴..

컴퓨터 비전 2026.02.10