VGG Net (2014.09)

AI\ML\DL/논문 리뷰 2023. 9. 16. 14:25

* * *

VGGNet은 2014년도 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)에서 준우승한 CNN 네트워크이다. VGGNet의 논문 제목은 "Very deep convolutional networks for large-scale image recognition"으로, 네트워크 깊이를 깊게 만드는 것이 성능에 어떤 영향을 미치는 지 확인하는 목적을 가진다. VGGNet에는 A, A-LRN, B, C, D, E가 있는데 본 포스팅은 16개의 layer 를 가진 D에 대해서 정리한다.

D부분과 아래의 MLP를 합쳐 그림으로 나타낸 것은 아래와 같다.

표 1의 D 모델을 통과한 output의 shape을 계산해보았다. conv3 를 반복하면서 채널 수를 깊게 만들고 max pooling을 통해서 spatial size를 절반으로 줄여가는 것을 볼 수 있다. 그리고 padding과 stride를 각각 1로 주어서 spatial size를 유지한다.

마지막 conv3-512 를 통해 7x7까지 사이즈를 줄여서 FC layer를 통과하는 이유는 7x7 의 feature map에서 픽셀 각각이 가지는 receptive field는 이미지의 전체를 포함하지는 못하고 일부를 보고 있을 것이기 때문에 이를 FC layer로 다 연결해주어서 모든 영역을 고려해 주는 것이다.

VGG Net에서 끝까지 conv + maxpooling 를 해서 1x1까지 줄이지 못한 이유를 생각해보면,

*loss landscape가 꼬불해지는 문제가 발생하는 등의 문제가 발생하기 때문에 레이어를 너무 깊게 만들면 underfitting이 발생하는 문제 발생
*Li, Hao, et al. "Visualizing the loss landscape of neural nets." 62 Advances in neural information processing systems 31 (2018).
Max-pooling을 너무 많이 한다면 공간적인 정보를 너무 잃는다! 어디에 특징이 위치하는지의 정보가 너무 뭉뚱그려짐..

FC layer를 통과하면 모델의 가중치의 개수가 매우 늘어나게 되는데, 실제로 vgg16의 전체 레이어의 가중치 중 80%의 비중을 FC layer 단에서 차지 하고 있다.

VGG Net보다 월등히 성능이 좋은 Inception Net, ResNet은 conv layer 마지막에 1x1이 되도록 GAP를 해버리는데, 이는

7x7로 줄인 다음 conv 몇 번 더 거쳐서 1x1까지 줄이면 픽셀 하나의 receptive field가 거의 이미지 전체 정보를 담게 된다.
모델 자체가 훨씬 깊다.

따라서 GAP하더라도 굉장히 유의미한 특징들을 담을 수 있게 된다.

그래서 GAP 이후 fc 만 통과해도 충분하다. 즉, MLP에 의존하지 않고 CNN의 효과를 최대로 볼 수 있다.

모델 구현

1. import 하기

import torch
from torch import nn
!pip install torchinfo
from torchinfo import summary

2. D 부분을 dictionary로 저장하기

cfgs = {"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"]}

표 1의 D (ConvNet).

int 형은 output_channel을 의미하고, "M" (str형)은 Max pooling을 의미한다.

3. VGG 모델 클래스 정의

1) 클래스 정의

ConvNet 부분은 make_layers 함수를 따로 정의하여 레이어를 cfg의 요소에 맞게 append 시켜줄 것이다.
ConvNet 이후에 Adaptive average pooling을 적용해주는 이유: 에러 방지용
마지막 Max-pooling 을 하면 512x7x7 가 되어야 하는데 입력 이미지로 224x224 크기를 안주고
64x64 를 준다면 에러가 발생할 것이다 (Max-pooling 다섯번 하면 7x7이 아니라 2x2 가 남으니까).
이런 에러를 방지하기 위해서 복제를 해서라도 ConvNet 이후에 7x7로 늘려주는 역할을 하는
Adaptive average pooling을 적용해준다.

classifier 부분은 fc layer 중간중간에 relu, dropout을 적용해주었다.

2) 가중치 초기화

init_weights가 True일 경우, 가중치 초기화를 해주는 부분이다. nn.modules()를 해주면 모델의 모든 모듈들 (레이어)를 불러온다. nn.Conv2d 레이어에 대해서는 Kaiming He 방식으로 weight initialization을 해주고,
nn.Linear 레이어에 대해서는 해당 레이어의 가중치를 평균 0, 표준편차 0.01인 정규분포를 따르도록 초기화 해준다. 두 가지 종류 레이어에 모두 적용된 nn.init.constant_()는 bias를 0으로 설정해준다.

3) 레이어 통과

입력 이미지를 모든 레이어에 통과시켜준다.

4) ConvNet 레이어 정의

ConvNet 의 레이어를 append 해주는 함수이다. 이는 표 1의 D 말고도 다른 유형을 구현할 때도 똑같이 적용할 수 있어서 유용하다.

초기의 layers 는 빈 리스트로 저장해주고 맨 처음 in_channels 는 RGB 이미지니까 3으로 설정해준다.

model 불러올 때 VGG(cfgs["D"]) 이렇게 인자를 넣어주기 때문에 int형과 str 형이 모두 포함된 D 에 해당하는 리스트에서,

리스트 요소가 int 형이라면 nn.Conv2d 레이어를 쌓아준다.

리스트 요소가 str 형이라면 nn.MaxPool2d 레이어를 쌓아준다.

리스트에 포함된 숫자들은 out_channels를 의미하고, 이 숫자는 다음 레이어의 in_channel이 때문에

in_channels = v 로 업데이트 해준다.

마지막으로 모든 레이어를 nn.Sequential 로 묶어준다. (이때 리스트로 들어갈 수 없어서 *을 꼭! 붙여준다.)

5) model summary

model = VGG(cfgs["D"], batch_norm=False)
summary(model, input_size=(2, 3, 224, 224), device='cpu')

torchinfo의 summary 함수를 사용하면 모델의 구조와 파라미터 크기를 보기 좋게 표현해준다.

output shape을 확인해보자!

code: https://github.com/jeongin7103/VGGNet/blob/main/vggnet.ipynb

Receptive field of 3x3

https://deep-learning-basics.tistory.com/58

Receptive field

In the context of artificial neural networks, the receptive field is defined as the size of the region in the input that produces the featres. Wikipedia CNN은 local operation(i.e., convolution, pooling)을 통해 여러 번 레이어를 거치면서 원

deep-learning-basics.tistory.com

앞선 포스트 내용을 공부하면 3x3 Conv 를 두 번 하면 5x5 크기의 receptive field를 얻을 수 있다는 것을 확인할 수 있다.

VGGNet 에서도 3x3 conv 를 두 번해서 5x5 receptive field를 얻었다.

3x3 두번으로 5x5의 receptive field를 얻은 VGGNet

그런데 왜 3x3 를 굳이 2번 할까? 그냥 5x5 conv 한 번 하면 한 번에 바로 receptive field 5x5를 얻을 수 있을 텐데..

이유는 바로 파라미터 수를 줄일 수 있다는 데 있다.

3x3 conv 를 두 번 하면 파라미터 개수가 9+9 개만큼 필요하다.

그런데 5x5 conv를 한 번 하면 파라미터 개수가 바로 25개 만큼 생긴다.

똑같은 receptive field를 얻는데 3x3 conv를 두 번 하는 것이 더 효율적으로 (파라미터 수를 더 적게) 얻을 수 있다는 것이다.

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

Evaluation for Weakly Supervised Object Localization: Protocol, Metrics, and Datasets (0)	2023.10.03
Inception Net (2014.09) (2)	2023.09.17
SSD: Single-Shot Multibox Detector (2)	2023.08.24
cyclic ordinal regression 학습법 (2)	2023.07.28

ABOUT ME

𝄢 𝄢

* * *

모델 구현

Receptive field of 3x3

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

티스토리툴바

ABOUT ME

* * *

모델 구현

Receptive field of 3x3

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바