반응형

2026/01 5

ResNet의 구조

VGGNet, GoogLeNet 등 레이어를 깊게 쌓아 성능을 향상시킨 CNN 모델들이 나온 이후로 모델의 레이어를 더 깊게 쌓아 정확한모델을 만드려는 노력들이 이어졌다. 하지만 레이어 수의 증가가 곧대로 성능의 향상으로 이어지지 않았다. 위는 CNN 레이어를 20개, 56개씩 단순히 쌓았을 떄 각 모델의 CIFAR-10 이미지셋 분류 성능이다. 56개의 레이어를 쌓은 모델이 20개의 레이어를 쌓은 모델보다 에러가 높게 나온다. 이는 단순히 Gradient Vanishing/Exploding 혹은 Overfitting으로 설명할 수 없는 문제였다. Gradient Vanishing 문제를 Normalization layer 과 ReLU 사용 등으로 어느정도 해결했음에도 깊게 쌓은 모델들이 상대적으로..

컴퓨터 비전 2026.01.30

VGG-Net 구조와 구현

VGG-Net은 2014년에 ILSVRC에서 GoogleNet 다음으로 우수한 성능을 보인 CNN 아키텍쳐이다. 이전에 Convolution에서 사용된 필터들보다 작은 3x3 필터를 여러번 사용하는 방식을 채택했고, 레이어를 여러개 쌓아 분류 성능을 높였다. 논문의 내용을 토대로 VGG-Net 의 구조를 더 자세하게 살펴보도록 하겠다. 논문 링크 https://arxiv.org/abs/1409.1556 Very Deep Convolutional Networks for Large-Scale Image RecognitionIn this work we investigate the effect of the convolutional network depth on its accuracy in the large-sc..

컴퓨터 비전 2026.01.29

AlexNet 구현, CIFAR-10 이미지 분류하기

(지난 글) https://bedlocked.tistory.com/19 AlexNet의 구조와 구현AlexNet은 2012년에 발표된 이미지 분류 CNN 아키텍쳐이고, 그 당시에 타 모델들에 비해 뛰어난 성능으로 이미지 객체 인식 대회인 ImageNet Large Scale Visual Recognition Challenge에서 우승을 했다. 처음으로 Cbedlocked.tistory.com 지난번 게시물에서는 AlexNet이 어떠한 구조를 가지고 있는지, 왜 당시의 타 모델들에 비해 뛰어난 성능을 가질 수 있었는지 살펴보았다. 이번에는 CIFAR-10 데이터셋을 이용해 AlexNet 모델을 학습시키고 이미지를 분류해보겠다. device = torch.device("cuda" if torch.cuda..

컴퓨터 비전 2026.01.14

AlexNet의 구조와 구현

AlexNet은 2012년에 발표된 이미지 분류 CNN 아키텍쳐이고, 그 당시에 타 모델들에 비해 뛰어난 성능으로 이미지 객체 인식 대회인 ImageNet Large Scale Visual Recognition Challenge에서 우승을 했다. 처음으로 CNN 기반 딥러닝 모델이 고전적 이미지 분류 모델들의 성능을 앞지른 사례로 딥러닝이 많은 주목을 받기 시작하는 계기가 됐다고 한다. 오늘은 AlexNet의 어떠한 구조적 특징들이 큰 성능 향상으로 이어질 수 있었는지 논문의 내용을 토대로 살펴보고 신경망을 pytorch로 구현해보겠다. 논문 링크: https://papers.nips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Pap..

컴퓨터 비전 2026.01.10

이미지에서의 Edge Detection (First Derivative, Laplacian, Canny Edge Detection)

오늘은 Edge Detection 을 하는 방법에 대해서 정리해보겠다. 우선 이미지의 엣지를 어떻게 정의할 수 있을까? 바로 이미지에서 픽셀들의 Intensity가 급격하게 변화하는 부분이다. 픽셀값이 이미지의 어떤 부분에서 급격하게 변하는지는 인접한 픽셀들의 값을 비교해보면 구할 수 있다. 만약 픽셀값들이 연속적이라고 가정한다면 미분을 통해 각 픽셀에서의 Intensity 변화량을 계산할 수 있을 것이다. 이미지는 2D로 x, y 성분이 있으므로 Gradient ∇를 계산하면 된다. 엣지의 강도는 Gradient의 크기로 생각할 수 있다. 마지막으로 엣지의 방향은 다음과 같다. 하지만 이미지 픽셀값들은 연속적이지 않기 때문에 실제로 미분 계산을 할 수는 없고(실제 이미지의 Intensity 값은 ..

컴퓨터 비전 2026.01.04