ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Batch Normalization
    AI\ML\DL/Deep learning theory 2023. 5. 11. 23:09
    ๋ฐ˜์‘ํ˜•

     

     

    ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ReLU ๋Š” Sigmoid ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„๊ฐ’์ด ์ž‘์•„์„œ gradient ๊ฐ’์ด ์ ์ฐจ ์†Œ๋ฉธํ•˜๋Š” vanishing gradient ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด

    sigmoid ๋ฅผ ๋Œ€์ฒดํ•œ ํ•จ์ˆ˜์ด๋‹ค.

    ํ•˜์ง€๋งŒ ReLU ๋ฅผ ์‚ฌ์šฉํ•ด๋„ ํ•ญ์ƒ vanishing gradient๊ฐ€ ํ•ด๊ฒฐ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ๊ณผ ๊ด€๋ จ์ด ์žˆ๋‹ค.

     

    Batch-size๋ฅผ 5๋ผ๊ณ  ํ•˜๊ณ  ํŠน์ • ๋…ธ๋“œ์— ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค๊ณ  ํ–ˆ์„๋•Œ, 

    Activation Function์œผ๋กœ ๋น„์„ ํ˜• ํ•จ์ˆ˜์ธ ReLU ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•˜์ž.

    ๋ฐ์ดํ„ฐ๊ฐ€ ์ „๋ถ€ ์–‘์ˆ˜๋กœ ๋“ค์–ด๊ฐ„๋‹ค๋ฉด?

    Linear activation ์ฒ˜๋Ÿผ ๋ณด์—ฌ์„œ non-linearlity๋ฅผ ๋ชป์‚ด๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. (vanishing gradient๋Š” ํ•ด๊ฒฐํ•œ๋‹ค๊ณ  ํ•ด๋„)

    ๋ฐ์ดํ„ฐ๊ฐ€ ์ „๋ถ€ ์Œ์ˆ˜๋กœ ๋“ค์–ด๊ฐ„๋‹ค๋ฉด?

    ๋ฏธ๋ถ„๊ฐ’์ด ๋‹ค 0์ด ๋˜์–ด์„œ vanishing gradient๊ฐ€ ๋ฐœ์ƒํ•˜๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์—…๋ฐ์ดํŠธ ๋˜์ง€ ์•Š๋Š”๋‹ค.

     

    ๋”ฐ๋ผ์„œ ์–ด๋–ค node์— ๋Œ€ํ•ด ์ ์ ˆํ•˜๊ฒŒ nonlinearlity๋ฅผ ์‚ด๋ฆฌ๋ฉด์„œ vanishing gradient๋ฅผ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ AI๋ฅผ ํ†ตํ•ด์„œ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋ฅธ ๋ง๋กœ non-linearity์™€ vanishing gradient ์‚ฌ์ด์˜ trade-off๋ฅผ ํ•˜๊ณ ์ž ํ•จ์ด batch normalization์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ์ด๋‹ค.

    batch norm์€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ํ‰๊ท  0 ๋ถ„์‚ฐ 1์ด ๋˜๋„๋ก batch๋ฅผ normalization (์ •๊ทœํ™”)๋ฅผ ํ•ด์ค€๋‹ค.

    ๏นก

    ๋˜, ๋ฐฐ์น˜ ์ •๊ทœํ™” ๊ณ„์ธต๋งˆ๋‹ค ์ด ์ •๊ทœํ™”๋œ ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ํ™•๋Œ€(scaling) ๋ฐ ์ด๋™(shift) ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ,

    ์˜ˆ๋ฅผ ๋“ค์–ด ํŒŒ์ดํ† ์น˜์˜ nn.BatchNorm2d ์™€ ๊ฐ™์€ ๋ฐฐ์น˜ ์ •๊ทœํ™” ์ธต์€ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ a์™€ b๋ฅผ ๋‚ด๋ถ€์ ์œผ๋กœ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์€ ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต ๊ณผ์ • ์ค‘์— ์—ญ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ์ตœ์ ํ™”๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ฒŒ ๋œ๋‹ค. 

    $$BN(x)=a(\frac{X-\bar{X}}{\sigma _{x}+\sqrt{\varepsilon }})$$

    • $X$ ๋Š” ๋ฐฐ์น˜ ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ•˜๊ณ ์ž ํ•˜๋Š” ์ž…๋ ฅ
    • $\bar{X}$๋Š” ์ž…๋ ฅ $X$ ์˜ ํ‰๊ท 
    • $\sigma _{x}$ ๋Š” ์ž…๋ ฅ $X$ ์˜ ํ‘œ์ค€ํŽธ์ฐจ
    • $\varepsilon $๋Š” ๋ถ„๋ชจ์— ์ถ”๊ฐ€๋˜๋Š” ์ž‘์€ ๊ฐ’(๋ถ„์‚ฐ์ด 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์ด ๋˜์–ด ๋ถ„์ž๊ฐ€ 0์ด ๋˜๋Š”๊ฒƒ์„ ๋ฐฉ์ง€)
    • a์™€ b๋Š” ๋ฐฐ์น˜ ์ •๊ทœํ™”์˜ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์Šค์ผ€์ผ๊ณผ ์‹œํ”„ํŠธ ํŒŒ๋ผ๋ฏธํ„ฐ

     

    ๋ณ€ํ™”๋œ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ:

    • ํ‰๊ท : b
    • ๋ถ„์‚ฐ: $a^{2}$

     

    ์ฆ‰, ์ฒ˜์Œ์—๋Š” ํ‰๊ท  0, ๋ถ„์‚ฐ 1์—์„œ ์‹œ์ž‘ํ•ด์„œ ํ•™์Šต์„ ํ†ตํ•ด ์ ํ•ฉํ•œ ๊ฐ’์œผ๋กœ ์กฐ์ •์„ ํ•˜๊ฒŒ ๋œ๋‹ค. 

     

    ๋˜ํ•œ ๋ฐฐ์น˜ ์ •๊ทœํ™”์˜ ๊ฒฝ์šฐ, ๊ฐ ๋ ˆ์ด์–ด ๋‚ด์˜ ๋…ธ๋“œ๋งˆ๋‹ค learnable ํŒŒ๋ผ๋ฏธํ„ฐ a์™€ b๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ฐ ๋…ธ๋“œ์—์„œ a์™€ b๋ฅผ ๋”ฐ๋กœ๋”ฐ๋กœ ํ•™์Šต์‹œ์ผœ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ตญ ๋ ˆ์ด์–ด์˜ ๋…ธ๋“œ ์ˆ˜์˜ 2๋ฐฐ๋งŒํผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋˜๋Š” ์…ˆ์ด๋‹ค. 

    ๋ ˆ์ด์–ด ๋‚ด์˜ ๋…ธ๋“œ๊ฐ€ 3๊ฐœ์ธ ๊ฒฝ์šฐ, ๋ฐฐ์น˜ ์ •๊ทœํ™”๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•œ ์ด ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋Š” 6๊ฐœ์ด๋‹ค. 

     

     

    โœ›

    *

    *

    *

     

     

    • C: ์ฑ„๋„
    • N: ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ
    • H, W: ํ–‰๊ณผ ์—ด

    Batch normalization์€ ๋ฐฐ์น˜๋งˆ๋‹ค ํ‘œ์ค€ํ™”๋ฅผ ํ•ด์ฃผ๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ๋…ธ๋“œ ๋ณ„๋กœ(์ฑ„๋„ ๋ณ„๋กœ) ํ‘œ์ค€ํ™”๋ฅผ ํ•ด์ฃผ๋Š” Layer normalization๊ณผ ๋‹ค๋ฅด๋‹ค.

    'AI\ML\DL > Deep learning theory' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

    Insights for CNN  (0) 2023.09.13
    2D convolution (Conv2d) ๊ณผ์ •์˜ ์ดํ•ด  (0) 2023.05.28
    ์ด์ง„๋ถ„๋ฅ˜์—์„œ Maximum Likelihood Estimation (MLE)  (1) 2023.05.10
    Logistic Regression  (0) 2023.05.08
Designed by Tistory.