2D convolution (Conv2d) 과정의 이해

AI\ML\DL/Deep learning theory 2023. 5. 28. 14:33

* * *

RGB 3개 채널을 가진 입력 컬러 사진이 있을 때,

입력의 크기를 3x7x7 이라고 하자. (3은 채널 개수)

이때 필터 (커널) 의 크기가 3x5x5 이면 필터 종류 2가지를 통과했을 때 output feature map 이 나오는 과정은 아래 그림과 같다.

커널을 통해 입력 이미지를 쭉 스캔하면서 패턴을 나타내는 feature map 을 출력한다.

(커널 속의 값은 weight와 bias 이고 학습 파라미터이다.)

이때 커널의 (채널)개수는 항상 스캔하는 입력 이미지의 채널 개수를 똑같이 따라가야 하므로 고정이다.

출력되는 feature map의 spatial한 크기는 커널이 이동하는 칸수인 stride 에 따라 달라지므로, 커널 사이즈와 stride 에 의존한다.

만약 stride가 (1,1) 이고 padding=0이라면

feature map의 spatial한 크기는 3x3이다.

위의 gif처럼 필터의 종류가 2가지라면 feature map의 shape은 2x3x3이 된다.

필터의 채널 수는 입력(필터에 들어오는것) 의 채널 수와 같다.
Output으로 생성하고 싶은 feature map의 개수만큼 필터를 통과시킨다.
즉, feature map의 채널 수는 kernel의 종류의 수다.

<torch.nn.Conv2d 로 확인>

이미지와 같은 2차원 입력에 사용되는 2d convolution (Conv2d) 함수를 사용해

CNN 레이어를 하나 만들고 랜덤 데이터를 통과시켜 출력과 가중치의 shape을 확인해보려고 한다.

2D convolution은 수평과 수직 방향으로 stride 크기 만큼씩 이동하면서 입력 데이터를 슬라이딩한다.

torch.nn.Conv2d(in_channels=3, out_channels=5, kernel_size=3, stride=1, padding=1)

레이어의 입력 채널 수는 3이고, 출력 채널 수는 5이다. 즉, 이 레이어를 통과하면 5개의 feature map이 depth로 (뒤로 뒤로) 형성된다는 뜻이다.

커널(필터)의 크기는 3으로, 이는 3x3 픽셀을 의미한다.

이 레이어에 입력 데이터로 4x4 픽셀을 패딩=1 만큼 넣어서 집어넣으면 (총 32개중) 데이터 1개당 output feature map을 형성하는 과정을 그림으로 나타내면 다음과 같다.

지정한 Kernel 의 output channel 수만큼 output되는 feature map의 depth가 하나씩 뒤로 쌓이는 것이다.
필터의 종류가 늘어날수록 feature map 의 depth(깊이, 채널)가 하나씩 더 깊게 쌓인다.

위 그림에서는 input data 한 '개' 에 대한 feature map 형성과정을 나타낸 것이고, 실제로 코드에서는 32개의 데이터에 대해서 실행했으니 실제로는 위 그림이 32개만큼 아래로 더 있다고 보면 될 것 같다.

따라서 output의 shape 은 [torch.size(32,5,4,4)] 가 된다.

<Weight의 크기>

weight는 커널의 각 픽셀 안에 들어있는 숫자를 나타내며 마찬가지로 (개,채,행,열)로 나타낼 수 있다.

0번째 요소 5는 output channel의 수를 의미하고 1번째 요소 3은 들어오는 input의 channel수를 말한다.

예를 들어 RGB이미지에 필터를 통과시키려면 in_channel 수는 당연히 3이어야 한다.

Receptive field (0)	2023.09.15
Insights for CNN (0)	2023.09.13
Batch Normalization (0)	2023.05.11
이진분류에서 Maximum Likelihood Estimation (MLE) (1)	2023.05.10