ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Momentum, RMSProp Optimizer
    AI\ML\DL/Deep learning theory 2023. 5. 6. 23:33
    ๋ฐ˜์‘ํ˜•

    Momentum

    Momentum ๊ธฐ๋ฒ•์€ gradient๋ฅผ ๋ˆ„์ ํ•จ์œผ๋กœ์จ ๊ด€์„ฑ์„ ๊ฐ€์ง€๊ฒŒ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

    ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋ ค๋Š” ํž˜์ด ๋‚จ์•„์žˆ์–ด์„œ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐˆ๋•Œ๋„ ์กฐ๊ธˆ ๋œ ๊ฐ€๊ฒŒ ๋œ๋‹ค. 

    ๋‹ค๋ฅธ ๋ง๋กœ, ์ด์ „ ๊ฒƒ๋“ค์„ ๊ธฐ์–ตํ•˜๋Š” ๊ด€์„ฑ์ด ๋‚จ์•„์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์–ด๋Š์ •๋„ ์œ ์ง€ํ•˜์—ฌ (mini-batch) SGD๋ณด๋‹ค ๋ณ€๋™์„ฑ์„ ์ค„์ด๊ณ , ์†์‹ค ํ•จ์ˆ˜์˜ local minimum ์—์„œ ๋น ์ ธ๋‚˜์˜ค๊ธฐ ์‰ฌ์›Œ์ง„๋‹ค. ์ด ๋ฐฉ์‹์œผ๋กœ ์ธํ•ด ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ข€ ๋” ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ด์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. 

    ํ˜„์žฌ์˜ ์†๋„๋Š” ๊ณผ๊ฑฐ์˜ ์†๋„๋“ค์— ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋ฐ, ํ˜„์žฌ iteration ์— ์ตœ๊ทผ์˜ ์†๋„๊ฐ’๋“ค์ด ๋” ํฐ ์˜ํ–ฅ์„ ์ค€๋‹ค. 

    (mini-batch) SGD vs momentum

    RMSProp (Root mean squrare propagation)

    RMSProp์€ Momentum ๊ณผ ๊ฑฐ์˜ ์œ ์‚ฌํ•œ๋ฐ, Gradient์˜ ๋ฐฉํ–ฅ์„ ์ด์šฉํ•˜์ง€ ์•Š๊ณ  ํฌ๊ธฐ๋งŒ์„ ์ด์šฉํ•˜์—ฌ ์—…๋ฐ์ดํŠธ ํ•ด์ฃผ๊ณ ์ž ํ•˜๋Š” ๊ฐ  parameter์— ๋Œ€ํ•œ ํ•™์Šต ์†๋„๋ฅผ ์กฐ์ ˆํ•œ๋‹ค.

    ์ด๋•Œ ํ‰์ค€ํ™”๋ฅผ ํ†ตํ•ด ๋งŽ์ด ํ›‘์€ ์ถ•์œผ๋กœ๋Š” ์ ๊ฒŒ, ์ ๊ฒŒ ํ›‘์€ ์ถ•์œผ๋กœ๋Š” ๋งŽ์ด ํƒ์ƒ‰ํ•œ๋‹ค. 

    Learning rate๋ฅผ ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋ณ„๋กœ ๋‹ค๋ฅด๊ฒŒ ์ค€ ์…ˆ์ด๋‹ค. (๊ฒฝ์‚ฌ ๋ณด๊ณ  ๋„ˆ๋ฌด ๊ฐ€ํŒŒ๋ฅธ ์ชฝ์€ ์ข€ ์กฐ์‹ฌ์กฐ์‹ฌ... ์™„๋งŒํ•œ ์ชฝ์€ ๊ณผ๊ฐํ•˜๊ฒŒ!)

     

    Adam (Adaptive moment estimation)

    Adam์€ momentum ๊ณผ RMSProp์˜ ์•„์ด๋””์–ด๋ฅผ ์„ž์€ ์˜ตํ‹ฐ๋งˆ์ด์ €์ด๋‹ค.

    Adam ์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค.

    $$ \theta _{t}=\theta _{t-1}-\alpha \frac{\hat{m_{t}}}{\sqrt{(\hat{v_{t}}+\epsilon)}}$$

    ์—ฌ๊ธฐ์„œ $\hat{m_{t}}$๋Š” ๋ฐฉํ–ฅ์ด ๊ด€์„ฑ์„ ๊ฐ€์ง€๊ฒŒ ํ•˜๋Š” momentum ์—ญํ• ์„ ํ•˜๊ณ , $\hat{v_{t}}$๋Š” ๋ณดํญ์ด ๊ฐ€ํŒŒ๋ฅธ ์ชฝ์€ ์กฐ์‹ฌํ•˜๊ณ  ์™„๋งŒํ•œ ์ชฝ์€ ๊ณผ๊ฐํ•˜๊ฒŒ ์ด๋™ํ•˜๊ฒŒ ํ•˜๋Š” RMSProp์˜ ์—ญํ• ์„ ํ•œ๋‹ค. 

     

    'AI\ML\DL > Deep learning theory' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

    Logistic Regression  (0) 2023.05.08
    Backpropagation  (0) 2023.05.07
    Stochastic Gradient Descent  (1) 2023.05.06
    Gradient descent  (0) 2023.05.06
Designed by Tistory.