반응형

전체 글 24

Fast Learning of Dynamic Hand Gesture Recognition with Few-Shot Learning Models 논문 리뷰: 적은 수의 영상으로 제스처 학습시키기

https://arxiv.org/pdf/2212.08363https://github.com/nielsschluesener/Fast-Learning-Hand-Gesture-Recognition GitHub - nielsschluesener/Fast-Learning-Hand-Gesture-Recognition: Few Shot Learning Models for Hand Gesture RecognitionFew Shot Learning Models for Hand Gesture Recognition - nielsschluesener/Fast-Learning-Hand-Gesture-Recognitiongithub.com Introduction동적 손동작 인식 (Dynamic Hand Gesture Recogn..

컴퓨터 비전 2026.02.28

EgoX: Egocentric Video Generation from a Single Exocentric Video 논문 리뷰 - 3인칭 시점 영상 기반으로 1인칭 시점 영상 생성하기

만약 영상 속에 있는 인물의 시점으로 영상을 재구성할 수 있다면 어떨까? 이 논문에서는 그 작업을 잘 수행해내는 모델을 제시한다. EgoX는 하나의 Exocentric 비디오만을 입력하여, 영상 속 인물의 눈으로 보는 듯한 현실적인 Egocentric 비디오를 생성하는 프레임워크이다. https://arxiv.org/pdf/2512.08269https://keh0t0.github.io/EgoX/ 첨부한 이미지들의 출처는 모두 위 논문이다. Introduction 이 주제는 Exocentric (3인칭) 비디오를 Egocentric (1인칭) 비디오로 변환하여 영상 속 인물에 몰입하는 듯한 경험을 가능하게 하지만, 모델은 보이는 영역을 재구성하고 보이지 않는 영역은 사실적으로 합성해내야 하기 때문에 매우 ..

Diffusion 2026.02.27

YOLO v1(You Only Look Once) 모델의 구조와 특징

오늘은 Object Detection 분야에서 중요한 전환점을 만든 1-stage detector의 시초격 모델인 YOLO v1을 살펴보겠다. 기존의 R-CNN, Fast R-CNN, Faster R-CNN과 같은 모델들은 모두 2-stage detector 구조를 따랐다. 이들 모델은 먼저 객체가 존재할 가능성이 있는 영역을 제안한 뒤, 해당 영역에 대해 분류와 박스 회귀를 수행하는 두 단계의 과정을 거친다. Faster R-CNN은 RPN을 도입하여 이 과정을 CNN 기반으로 통합했지만, 여전히 제안 영역 생성과 최종 분류·회귀 단계가 구조적으로 분리되어 있었다. 반면 YOLO 모델은 객체가 존재할 영역 탐지와 분류를 하나의 단계로 통합한 1-stage detector이다. 입력 이미지를 한 번의 ..

컴퓨터 비전 2026.02.18

OHEM (Training Region-based Object Detectors with Online Hard Example Mining)

Object Detection을 위한 모델을 학습시킬 때 모델에게 Positive sample(객체가 있는 영역과 클래스를 올바르게 분류한 bounding box), Negative sample(그렇지 못한 bounding box)를 제공해야 한다. 문제는 대부분의 이미지에서 객체를 포함하고 있는 영역은 일부이고 대부분은 탐지의 대상이 아닌 '배경'으로 이루어져 있다. 따라서 객체를 올바르게 감싸고 있는 Positive sample에 비해 Negative sample의 숫자가 훨씬 많다. 뿐만 아니라 대부분의 Negative Sample들은 학습에 크게 도움이 되지 않고, 실제로 모델의 성능을 좌우하는 Sample들(물체의 일부만 포함한 box, 서로 겹치는 물체, 배경과 유사한 물체)의 비중은 적다...

컴퓨터 비전 2026.02.15

Fast R-CNN 과 Faster R-CNN

R-CNN은 Object Detection Task 에서 CNN을 도입해 뛰어난 성능의 발전을 보여줬지만, 한계점이 명확했다.이미지 하나당 2000개의 Region Proposal을 받고 각 영역에 대해서 CNN에 개별적으로 입력해 CNN 연산량이 너무 많았다.학습 단계에서 ImageNet으로 CNN Pre-training, Detection 데이터로 CNN Fine-tuning, 클래스별 SVM학습, Bounding Box Regressor 학습 등을 모두 따로 진행해야 했다. 이 때문에 메모리 문제, 지나치게 많은 연산량과 오랜 연산시간 문제등이 있었다. Fast R-CNN과 Faster R-CNN은 R-CNN의 한계점을 보완해 연산량을 줄이는 동시에 Precision 역시 향상시켰다. Fas..

컴퓨터 비전 2026.02.12

R-CNN (Regions with CNN features)

컴퓨터비전의 대표적 테스크인 Object Detection(객체 탐지)는 이미지 내에 존재하는 객체는 무엇이 있는지, 그 객체의 위치는 어디인지 찾아내는 것이다. 이태까지 살펴본 AlexNet, Vgg-Net, ResNet 등은 모두 이미지가 내에 무엇이 있는지 분류하는 Classification 을 위한 모델이었다. Object Detection은 여기에 추가적으로 객체의 위치까지 특정할 수 있어야 하니 더 복잡하다고 볼 수 있다. 기존의 객체 담지 모델들 중 가장 좋은 성능을 보인 것은 SIFT, HOG 같은 고전적인 알고리즘들 기반 + SVM 이었다고 한다. 2014년에 CNN을 도입한 객체 탐지 모델이 나와 훨씬 뛰어난 성능을 보여주는데, 이것이 바로 R-CNN 이다. R-CNN의 구조를 살펴..

컴퓨터 비전 2026.02.10

ResNet의 구조

VGGNet, GoogLeNet 등 레이어를 깊게 쌓아 성능을 향상시킨 CNN 모델들이 나온 이후로 모델의 레이어를 더 깊게 쌓아 정확한모델을 만드려는 노력들이 이어졌다. 하지만 레이어 수의 증가가 곧대로 성능의 향상으로 이어지지 않았다. 위는 CNN 레이어를 20개, 56개씩 단순히 쌓았을 떄 각 모델의 CIFAR-10 이미지셋 분류 성능이다. 56개의 레이어를 쌓은 모델이 20개의 레이어를 쌓은 모델보다 에러가 높게 나온다. 이는 단순히 Gradient Vanishing/Exploding 혹은 Overfitting으로 설명할 수 없는 문제였다. Gradient Vanishing 문제를 Normalization layer 과 ReLU 사용 등으로 어느정도 해결했음에도 깊게 쌓은 모델들이 상대적으로..

컴퓨터 비전 2026.01.30

VGG-Net 구조와 구현

VGG-Net은 2014년에 ILSVRC에서 GoogleNet 다음으로 우수한 성능을 보인 CNN 아키텍쳐이다. 이전에 Convolution에서 사용된 필터들보다 작은 3x3 필터를 여러번 사용하는 방식을 채택했고, 레이어를 여러개 쌓아 분류 성능을 높였다. 논문의 내용을 토대로 VGG-Net 의 구조를 더 자세하게 살펴보도록 하겠다. 논문 링크 https://arxiv.org/abs/1409.1556 Very Deep Convolutional Networks for Large-Scale Image RecognitionIn this work we investigate the effect of the convolutional network depth on its accuracy in the large-sc..

컴퓨터 비전 2026.01.29

AlexNet 구현, CIFAR-10 이미지 분류하기

(지난 글) https://bedlocked.tistory.com/19 AlexNet의 구조와 구현AlexNet은 2012년에 발표된 이미지 분류 CNN 아키텍쳐이고, 그 당시에 타 모델들에 비해 뛰어난 성능으로 이미지 객체 인식 대회인 ImageNet Large Scale Visual Recognition Challenge에서 우승을 했다. 처음으로 Cbedlocked.tistory.com 지난번 게시물에서는 AlexNet이 어떠한 구조를 가지고 있는지, 왜 당시의 타 모델들에 비해 뛰어난 성능을 가질 수 있었는지 살펴보았다. 이번에는 CIFAR-10 데이터셋을 이용해 AlexNet 모델을 학습시키고 이미지를 분류해보겠다. device = torch.device("cuda" if torch.cuda..

컴퓨터 비전 2026.01.14

AlexNet의 구조와 구현

AlexNet은 2012년에 발표된 이미지 분류 CNN 아키텍쳐이고, 그 당시에 타 모델들에 비해 뛰어난 성능으로 이미지 객체 인식 대회인 ImageNet Large Scale Visual Recognition Challenge에서 우승을 했다. 처음으로 CNN 기반 딥러닝 모델이 고전적 이미지 분류 모델들의 성능을 앞지른 사례로 딥러닝이 많은 주목을 받기 시작하는 계기가 됐다고 한다. 오늘은 AlexNet의 어떠한 구조적 특징들이 큰 성능 향상으로 이어질 수 있었는지 논문의 내용을 토대로 살펴보고 신경망을 pytorch로 구현해보겠다. 논문 링크: https://papers.nips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Pap..

컴퓨터 비전 2026.01.10