VGGNet, GoogLeNet 등 레이어를 깊게 쌓아 성능을 향상시킨 CNN 모델들이 나온 이후로 모델의 레이어를 더 깊게 쌓아 정확한모델을 만드려는 노력들이 이어졌다. 하지만 레이어 수의 증가가 곧대로 성능의 향상으로 이어지지 않았다. 위는 CNN 레이어를 20개, 56개씩 단순히 쌓았을 떄 각 모델의 CIFAR-10 이미지셋 분류 성능이다. 56개의 레이어를 쌓은 모델이 20개의 레이어를 쌓은 모델보다 에러가 높게 나온다. 이는 단순히 Gradient Vanishing/Exploding 혹은 Overfitting으로 설명할 수 없는 문제였다. Gradient Vanishing 문제를 Normalization layer 과 ReLU 사용 등으로 어느정도 해결했음에도 깊게 쌓은 모델들이 상대적으로..