SSD: Single-Shot Multibox Detector

AI\ML\DL/논문 리뷰 2023. 8. 24. 23:30

﹡

<Motivation>

R-CNN 계열의 2-stage detector는 region proposal 과 같은 다양한 view를 모델에 제공하여 높은 정확도를 보여주었다.

하지만 region proposal을 추출하고 이를 처리하는 과정에서 많은 시간이 걸려 detection 속도가 느리다는 단점이 있다.

YOLO v1 은 원본 이미지 전체를 통합된 네트워크로 처리하기 때문에 detection 속도가 매우 빠르다. 하지만 grid cell 별로 2개의 bounding box 만을 선택하여 상대적으로 적은 view 를 모델에 제공하여 정확도가 떨어진다.

이러한 정확도와 detection 속도의 trade-off 관계를 완화한 모델이 SSD 이다.

SSD 는 다양한 view를 활용하면서 통합된 single deep neural network 구조를 가진 1-stage detector로서 높은 정확도와 빠른 속도를 가진다.

Abstract

SSD discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location(multiple feature map).

SSD 알고리즘을 한 문장으로 정리하면 위와 같다.

SSD는 여러 개의 feature map 을 통해 default bounding box를 출력한다.
(default box 는 YOLO의 Anchor box와 비슷한 개념)

각 Feature map은 서로 다른 비율과 크기를 가진 Default box를 생성하고, 이를 활용하여 모델은 bounding box의 위치와 클래스를 예측한다. 이를 통해 다양한 크기와 비율을 가진 객체들을 효과적으로 검출할 수 있게 된다.

feature map 마다 생성되는 서로 다른 크기와 ratio (종횡비)의 default bounding box 들. 학습 과정에서 default boxes 를 ground truth boxes 에 매칭시킨다. 비교적으로 큰 강아지는 뒤에 있는 작은 feature map 에서 뽑고, 비교적으로 작은 크기의 고양이는 앞쪽에 있는 큰 feature map 에서 뽑는다.

Yolo v1 와 같은 경우 최종 output으로 하나의 feature map 을 출력하고, feature map의 각 grid cell 당 2개의 bounding box를 예측하는데 비해, SSD 는 output 으로 여러가지의 feature map을 출력하고, 각 grid cell 당 6개 혹은 4개의 의 bounding box를 예측한다.

실험 결과는 걸린 시간과 정확도에 대한 분석을 했을 때, PASCAL VOC, COCO, ILSVRC 데이터셋으로 Faster R-CNN, YOLO 대비 제일 성능이 좋았다.

Model

논문에 나와있는 모델 구조는 다음으로 구성된다.

1. Base convolution network

2. Auxiliary convolution network

전체 네트워크는 pretrained 된 VGG16을 base network로 사용하고, 이후 보조(auxiliary) network 를 추가한 구조를 가지고 있다.

Base Convolution Network

SSD는 Base network 로서 ImageNet 데이터셋에 사전학습된 VGG-16 네트워크를 사용한다.

이후에 나오는 auxiliary convolution network와 연결할 때는 VGG16 후반부에 등장하는 fc layer (FC6, FC7) 를 conv layer로 바꿔준다. 이 과정에서 fc layer 가 제거되면서 detection 속도가 향상되는 이점이 있다.

Auxiliary Convolution Network

추가적인 convolution layer를 적용시켜주는 보조 네트워크에서는 계속 pooling과 필터를 거치면서 채널 수를 절반으로 줄여나간다.

이와 동시에 중간 중간의 feature map 에서 계속 bounding box 를 뽑아내는데, 이것이 SSD 의 중요한 특징 중 하나이다.

바로 다양한 크기의 Feature map들 에서 서로 다른 비율(ratio) 와 크기(scale)을 가진 bounding box를 여러 개 생성해 낸다는 점이다.

이 모든 bounding box 의 후보들을 'default boxes'라고도 한다.

최종적으로 나오는 bounding box의 개수는 300x300 입력 이미지 기준으로 8732 개라고 나와있다. (위의 모델 그림 참조)

BBox 를 생성하는 Feature map 은 6개가 있는데, 38x38, 19x19, 10x10, 5x5, 3x3, 1x1 이 있다.

각 feature map 으로부터 conv 연산을 하여 우리가 예측하고자 하는 bounding box 의 class 점수들과, offset 을 얻게 된다.

class score: default box 내에 각 class 가 존재하는 확률
offset: default box의 x, y, w, h (총 4개)

이때 컨볼루션 kernel_size는 3x3 이고, 필터 채널의 크기는 생성할 BBox의 개수 $\times$ (class 개수 + offset 개수) 이다.

따라서 각 feature map에 컨볼루션 연산을 할 필터 크기를 정리하면 아래와 같다.

$$ 3\times 3\times (\textrm{the number of bounding box}\times (\textrm{class score}+\textrm{offset}))$$

각 feature map (=location) 에서는 $k$ 개의 bounding box 를 생성하고,

각 bounding box는 $c$개의 class 에 대한 softmax 확률값과, default bounding box 에서 조정할 위치값인 offset (x, y, width, height) 값 4개를 예측할 수 있게 된다.

Q. 그렇다면 19x19x1024 feature map 으로부터 생성되는 bounding box 의 개수는 총 몇 개일까?

19x19의 행열 크기를 가지는 feature map 에서는 grid cell마다 6개의 bounding box 가 생성되므로,

19x19x1024 feature map 으로부터 19x19x6(=2166) 개의 default box가 생길 것이다.

(하나의 bounding box 마다 21(VOC2007 기준)+4=25 개의 값이 예측된다고 했으니, 25 자체는 하나의 bounding box가 포함하고 있는파라미터 개수로, 생성되는 bounding box 개수와는 관련이 없다.)

따라서 38x38, 19x19, 10x10, 5x5, 3x3, 1x1 이 6개의 feature map 각각에서 예측된 바운딩박스의 총 합은 8732가 되는 것이다.

이제는 앞서 초반에 abstract 에서 설명했던 Multiple feature map (location) 에서 서로 다른 ratio 와 scale을 가지는 default bounding box 를 생성한다는 것의 의미를 이해할 수 있을 것이다.

NMS (Non-Maximum suppression)

여러 feature map 에서 생성된 default box에 대해 NMS를 시행하여 최종 결과를 도출한다.

Matching strategy

During training we need to determine which default boxes correspond to a ground truth detection and train the network accordingly. We begin by matching each ground truth box to the default box with the best jaccard overlap (=IoU). Unlike MultiBox, We then match default boxes to any ground truth with jaccard overlap higher than a thereshold (0.5).

Ground truth 와 'default box'를 매칭 시킴
두 영역의 IoU가 0.5 이상인 것들만 매칭 시킴

Training objective

SSD의 loss 함수는 classification을 위한 loss 인 confidence loss (conf) 와, BBox의 위치를 regression 시키는 localization loss (loc) 의 합으로 구성된다.

$$L(x,c,l,g)=\frac{1}{n}(L_{conf}(x,c)+\alpha L_{loc}(x,l,g))$$

(★작성중)

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

Inception Net (2014.09) (2)	2023.09.17
VGG Net (2014.09) (0)	2023.09.16
cyclic ordinal regression 학습법 (2)	2023.07.28
Super resolution (SR) technique (2)	2023.06.17

ABOUT ME

𝄢 𝄢

﹡

Model

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

티스토리툴바

ABOUT ME

﹡

Model

'AI\ML\DL > 논문 리뷰' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바