-
Batch NormalizationAI\ML\DL/Deep learning theory 2023. 5. 11. 23:09๋ฐ์ํ
ํ์ฑํ ํจ์ ReLU ๋ Sigmoid ํจ์์ ๋ฏธ๋ถ๊ฐ์ด ์์์ gradient ๊ฐ์ด ์ ์ฐจ ์๋ฉธํ๋ vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด
sigmoid ๋ฅผ ๋์ฒดํ ํจ์์ด๋ค.
ํ์ง๋ง ReLU ๋ฅผ ์ฌ์ฉํด๋ ํญ์ vanishing gradient๊ฐ ํด๊ฒฐ๋๋ ๊ฒ์ ์๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ๋ถ์ฐ๊ณผ ๊ด๋ จ์ด ์๋ค.
Batch-size๋ฅผ 5๋ผ๊ณ ํ๊ณ ํน์ ๋ ธ๋์ ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋ค๊ณ ํ์๋,
Activation Function์ผ๋ก ๋น์ ํ ํจ์์ธ ReLU ํจ์๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ์.
๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด?
Linear activation ์ฒ๋ผ ๋ณด์ฌ์ non-linearlity๋ฅผ ๋ชป์ด๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์๋ค. (vanishing gradient๋ ํด๊ฒฐํ๋ค๊ณ ํด๋)
๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด?
๋ฏธ๋ถ๊ฐ์ด ๋ค 0์ด ๋์ด์ vanishing gradient๊ฐ ๋ฐ์ํ๊ณ ํ๋ผ๋ฏธํฐ๊ฐ ์ ๋ฐ์ดํธ ๋์ง ์๋๋ค.
๋ฐ๋ผ์ ์ด๋ค node์ ๋ํด ์ ์ ํ๊ฒ nonlinearlity๋ฅผ ์ด๋ฆฌ๋ฉด์ vanishing gradient๋ฅผ ๋ฐฉ์งํ ์ ์๋ ํ๋ผ๋ฏธํฐ๋ฅผ AI๋ฅผ ํตํด์ ํ์ต์ํฌ ์ ์๋ค. ๋ค๋ฅธ ๋ง๋ก non-linearity์ vanishing gradient ์ฌ์ด์ trade-off๋ฅผ ํ๊ณ ์ ํจ์ด batch normalization์ ์ฌ์ฉํ๋ ์ด์ ์ด๋ค.
batch norm์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ๊ท 0 ๋ถ์ฐ 1์ด ๋๋๋ก batch๋ฅผ normalization (์ ๊ทํ)๋ฅผ ํด์ค๋ค.
๏นก
๋, ๋ฐฐ์น ์ ๊ทํ ๊ณ์ธต๋ง๋ค ์ด ์ ๊ทํ๋ ๋ฐ์ดํฐ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ํ๋(scaling) ๋ฐ ์ด๋(shift) ๋ณํ์ ์ํํ ์ ์๋๋ฐ,
์๋ฅผ ๋ค์ด ํ์ดํ ์น์ nn.BatchNorm2d ์ ๊ฐ์ ๋ฐฐ์น ์ ๊ทํ ์ธต์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ a์ b๋ฅผ ๋ด๋ถ์ ์ผ๋ก ๊ฐ์ง๊ณ ์๋ค. ์ด ํ๋ผ๋ฏธํฐ๋ค์ ๋คํธ์ํฌ์ ํ์ต ๊ณผ์ ์ค์ ์ญ์ ํ๋ฅผ ํตํด ์ต์ ํ๋๋ฉฐ, ๋ฐ์ดํฐ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ํฅ์ ๋ฏธ์น๊ฒ ๋๋ค.
$$BN(x)=a(\frac{X-\bar{X}}{\sigma _{x}+\sqrt{\varepsilon }})$$
- $X$ ๋ ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์ ์ฉํ๊ณ ์ ํ๋ ์ ๋ ฅ
- $\bar{X}$๋ ์ ๋ ฅ $X$ ์ ํ๊ท
- $\sigma _{x}$ ๋ ์ ๋ ฅ $X$ ์ ํ์คํธ์ฐจ
- $\varepsilon $๋ ๋ถ๋ชจ์ ์ถ๊ฐ๋๋ ์์ ๊ฐ(๋ถ์ฐ์ด 0์ ๊ฐ๊น์ด ๊ฐ์ด ๋์ด ๋ถ์๊ฐ 0์ด ๋๋๊ฒ์ ๋ฐฉ์ง)
- a์ b๋ ๋ฐฐ์น ์ ๊ทํ์ ํ์ต ๊ฐ๋ฅํ ์ค์ผ์ผ๊ณผ ์ํํธ ํ๋ผ๋ฏธํฐ
๋ณํ๋ ํ๊ท ๊ณผ ๋ถ์ฐ:
- ํ๊ท : b
- ๋ถ์ฐ: $a^{2}$
์ฆ, ์ฒ์์๋ ํ๊ท 0, ๋ถ์ฐ 1์์ ์์ํด์ ํ์ต์ ํตํด ์ ํฉํ ๊ฐ์ผ๋ก ์กฐ์ ์ ํ๊ฒ ๋๋ค.
๋ํ ๋ฐฐ์น ์ ๊ทํ์ ๊ฒฝ์ฐ, ๊ฐ ๋ ์ด์ด ๋ด์ ๋ ธ๋๋ง๋ค learnable ํ๋ผ๋ฏธํฐ a์ b๋ฅผ ์ฌ์ฉํ๋ค. ๊ฐ ๋ ธ๋์์ a์ b๋ฅผ ๋ฐ๋ก๋ฐ๋ก ํ์ต์์ผ์ฃผ๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ตญ ๋ ์ด์ด์ ๋ ธ๋ ์์ 2๋ฐฐ๋งํผ ํ๋ผ๋ฏธํฐ๊ฐ ์ถ๊ฐ๋๋ ์ ์ด๋ค.
๋ ์ด์ด ๋ด์ ๋ ธ๋๊ฐ 3๊ฐ์ธ ๊ฒฝ์ฐ, ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์ํด ํ์ํ ์ด ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ 6๊ฐ์ด๋ค.
โ
*
*
*
- C: ์ฑ๋
- N: ๋ฐฐ์น ์ฌ์ด์ฆ
- H, W: ํ๊ณผ ์ด
Batch normalization์ ๋ฐฐ์น๋ง๋ค ํ์คํ๋ฅผ ํด์ฃผ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ํํ๋ ์ ์๋ค. ์ด๋ ํ๋์ ๋ฐ์ดํฐ์ ๋ํด์ ๋ ธ๋ ๋ณ๋ก(์ฑ๋ ๋ณ๋ก) ํ์คํ๋ฅผ ํด์ฃผ๋ Layer normalization๊ณผ ๋ค๋ฅด๋ค.
'AI\ML\DL > Deep learning theory' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Insights for CNN (0) 2023.09.13 2D convolution (Conv2d) ๊ณผ์ ์ ์ดํด (0) 2023.05.28 ์ด์ง๋ถ๋ฅ์์ Maximum Likelihood Estimation (MLE) (1) 2023.05.10 Logistic Regression (0) 2023.05.08