-
Momentum, RMSProp OptimizerAI\ML\DL/Deep learning theory 2023. 5. 6. 23:33๋ฐ์ํ
Momentum
Momentum ๊ธฐ๋ฒ์ gradient๋ฅผ ๋์ ํจ์ผ๋ก์จ ๊ด์ฑ์ ๊ฐ์ง๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
ํน์ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ค๋ ํ์ด ๋จ์์์ด์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋๋ ์กฐ๊ธ ๋ ๊ฐ๊ฒ ๋๋ค.
๋ค๋ฅธ ๋ง๋ก, ์ด์ ๊ฒ๋ค์ ๊ธฐ์ตํ๋ ๊ด์ฑ์ด ๋จ์์๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ์ ๋ฐฉํฅ์ฑ์ ์ด๋์ ๋ ์ ์งํ์ฌ (mini-batch) SGD๋ณด๋ค ๋ณ๋์ฑ์ ์ค์ด๊ณ , ์์ค ํจ์์ local minimum ์์ ๋น ์ ธ๋์ค๊ธฐ ์ฌ์์ง๋ค. ์ด ๋ฐฉ์์ผ๋ก ์ธํด ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ์ข ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์๋ ด์ํฌ ์ ์๋ค.
ํ์ฌ์ ์๋๋ ๊ณผ๊ฑฐ์ ์๋๋ค์ ์ํฅ์ ๋ฐ๋๋ฐ, ํ์ฌ iteration ์ ์ต๊ทผ์ ์๋๊ฐ๋ค์ด ๋ ํฐ ์ํฅ์ ์ค๋ค.
(mini-batch) SGD vs momentum RMSProp (Root mean squrare propagation)
RMSProp์ Momentum ๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ฐ, Gradient์ ๋ฐฉํฅ์ ์ด์ฉํ์ง ์๊ณ ํฌ๊ธฐ๋ง์ ์ด์ฉํ์ฌ ์ ๋ฐ์ดํธ ํด์ฃผ๊ณ ์ ํ๋ ๊ฐ parameter์ ๋ํ ํ์ต ์๋๋ฅผ ์กฐ์ ํ๋ค.
์ด๋ ํ์คํ๋ฅผ ํตํด ๋ง์ด ํ์ ์ถ์ผ๋ก๋ ์ ๊ฒ, ์ ๊ฒ ํ์ ์ถ์ผ๋ก๋ ๋ง์ด ํ์ํ๋ค.
Learning rate๋ฅผ ๊ฐ ํ๋ผ๋ฏธํฐ๋ณ๋ก ๋ค๋ฅด๊ฒ ์ค ์ ์ด๋ค. (๊ฒฝ์ฌ ๋ณด๊ณ ๋๋ฌด ๊ฐํ๋ฅธ ์ชฝ์ ์ข ์กฐ์ฌ์กฐ์ฌ... ์๋งํ ์ชฝ์ ๊ณผ๊ฐํ๊ฒ!)
Adam (Adaptive moment estimation)
Adam์ momentum ๊ณผ RMSProp์ ์์ด๋์ด๋ฅผ ์์ ์ตํฐ๋ง์ด์ ์ด๋ค.
Adam ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ ํ๋ ์์์ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.
$$ \theta _{t}=\theta _{t-1}-\alpha \frac{\hat{m_{t}}}{\sqrt{(\hat{v_{t}}+\epsilon)}}$$
์ฌ๊ธฐ์ $\hat{m_{t}}$๋ ๋ฐฉํฅ์ด ๊ด์ฑ์ ๊ฐ์ง๊ฒ ํ๋ momentum ์ญํ ์ ํ๊ณ , $\hat{v_{t}}$๋ ๋ณดํญ์ด ๊ฐํ๋ฅธ ์ชฝ์ ์กฐ์ฌํ๊ณ ์๋งํ ์ชฝ์ ๊ณผ๊ฐํ๊ฒ ์ด๋ํ๊ฒ ํ๋ RMSProp์ ์ญํ ์ ํ๋ค.
'AI\ML\DL > Deep learning theory' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Logistic Regression (0) 2023.05.08 Backpropagation (0) 2023.05.07 Stochastic Gradient Descent (1) 2023.05.06 Gradient descent (0) 2023.05.06