AI\ML\DL
-
BackpropagationAI\ML\DL/Deep learning theory 2023. 5. 7. 19:38
Backpropagation ์ฌ์ธต ์ ๊ฒฝ๋ง์์๋ 1. ํน์ ํ๋ผ๋ฏธํฐ(weight/bias) ์ ๋ํ Loss function์ ํธ๋ฏธ๋ถ ๊ฐ์ธ ๊ทธ๋๋์ธํธ๋ฅผ ๊ตฌํ๊ณ , 2. SGD (Stochastic gradient descent) ๋ฑ์ Optimizer ๋ก ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค. 1๋ฒ์์ ์ ๊ฒฝ๋ง์ ๊น์ ๊ณณ์ ์๋ weight ์ ๋ํ ํธ๋ฏธ๋ถ์ ๊ตฌํ๊ธฐ ์ํด์๋ Chain rule ์ ํ์ฉํด์ผ ํ๋๋ฐ, Chain rule์ ๋ฏธ๋ถ์ ๋ค๋ก ์ ๋ฌํ๋ฉด์ ๊ณฑํ๋ ๊ฑฐ๋๊น ์ด ๋ฐฉ๋ฒ์ Backpropagation์ด๋ผ๊ณ ํ๋ค. ๋ค์๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์์ Backpropagation์ ํตํด ํ๋ ฌ๋ก ํํ๋ weight ์ ๋ํด loss function ์ ๋ฏธ๋ถํด๋ณด์. ๊ทธ๋ฆผ์ ๊ฐ ๋ ธ๋์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์์ ์ธ ์ ์๋ค. $$..
-
Momentum, RMSProp OptimizerAI\ML\DL/Deep learning theory 2023. 5. 6. 23:33
Momentum Momentum ๊ธฐ๋ฒ์ gradient๋ฅผ ๋์ ํจ์ผ๋ก์จ ๊ด์ฑ์ ๊ฐ์ง๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ํน์ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ค๋ ํ์ด ๋จ์์์ด์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋๋ ์กฐ๊ธ ๋ ๊ฐ๊ฒ ๋๋ค. ๋ค๋ฅธ ๋ง๋ก, ์ด์ ๊ฒ๋ค์ ๊ธฐ์ตํ๋ ๊ด์ฑ์ด ๋จ์์๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ์ ๋ฐฉํฅ์ฑ์ ์ด๋์ ๋ ์ ์งํ์ฌ (mini-batch) SGD๋ณด๋ค ๋ณ๋์ฑ์ ์ค์ด๊ณ , ์์ค ํจ์์ local minimum ์์ ๋น ์ ธ๋์ค๊ธฐ ์ฌ์์ง๋ค. ์ด ๋ฐฉ์์ผ๋ก ์ธํด ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ์ข ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์๋ ด์ํฌ ์ ์๋ค. ํ์ฌ์ ์๋๋ ๊ณผ๊ฑฐ์ ์๋๋ค์ ์ํฅ์ ๋ฐ๋๋ฐ, ํ์ฌ iteration ์ ์ต๊ทผ์ ์๋๊ฐ๋ค์ด ๋ ํฐ ์ํฅ์ ์ค๋ค. RMSProp (Root mean squrare propagation) RMSProp์ Momentum ๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ฐ..
-
Stochastic Gradient DescentAI\ML\DL/Deep learning theory 2023. 5. 6. 22:17
Vanilla GD vs. SGD Gradient descent๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ต์๋ฅผ ํฅํ๋ ์๋ฒฝํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ค. ํ์ง๋ง, ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์๊ฐ์ด ๋๋ฌด ๋๋ฆฌ๋ค. Stochastic gradient descent (SGD)๋ GD์ ๋ฌ๋ฆฌ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ ๋ ฅํ์ง ์๊ณ ๋๋คํ๊ฒ ์ถ์ถํ ๋ฐ์ดํฐ๋ฅผ ํ๋์ฉ ์ ๋ ฅํด์ loss function๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. SGD๋ฅผ ์ฌ์ฉํ๋ฉด GD์์ ๋ฐ์ํ๋ ๊ณ์ฐ ์๋ ๋ฌธ์ ์ local minimum์ ๋น ์ง๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋ค. SGD์ ํน์ง 1. ๋๋คํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋น๋ณต์์ถ์ถ๋ก ํ๋์ฉ ๋ฝ์์ loss๋ฅผ ๋ง๋ค๊ณ gradient๋ฅผ ๊ณ์ฐํ๋ค. (๋๋ค์ด๋ผ stochastic์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์๋ค.) ์ฆ, ๋ฐ์ดํฐ ํ๋๋ง ๋ณด๊ณ ๊ทธ๋๋์ธํธ..
-
Gradient descentAI\ML\DL/Deep learning theory 2023. 5. 6. 21:34
Gradient descent๋ loss function ์ ์ต์๋ก ํ๋ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ฅผ๋ค์ด loss function์ด $y=x^{2}$ ๋ผ๋ 2์ฐจํจ์๋ผ๊ณ ํ์. ์ด๋ ์์คํจ์๊ฐ ์ต์๊ฐ์ ๊ฐ๊ฒ ํ๋ ์ ์ x=0 ์ด๋ผ๋ ํฌ์ธํธ์ด๋ค. 0์ด๋ผ๋ ์์น๋ฅผ ์ฐพ๊ธฐ ์ํด์๋ ์ด๋ป๊ฒ ํด์ผํ ๊น? ์ฐ์ ์ฒ์์ ์์์ ์ ์ ์ฐ์ด์ ๊ทธ ์ ์ ์ ์ ์ ๋ฐ์ดํธํด๋๊ฐ๋ฉด์ ์ต์์ ์ผ๋ก ํ๊ทํด์ผํ๋ค. ์ด๋, ์ต์๊ฐ์ ๊ฐ๋ ์ ์ผ๋ก ๋ค๊ฐ๊ฐ๊ธฐ ์ํด์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ด์ฉํ ์ ์๋ค. ์๋ํ๋ฉด ํน์ ์ ์์์ ๊ธฐ์ธ๊ธฐ๋ ํจ์์ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ฐฉํฅ์ ํฅํ๊ณ ์ด ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ฐฉํฅ์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ฉด ์ต์๊ฐ์ผ๋ก ํฅํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฒ์ ์์น๊ฐ $x=1$ ์ด๋ผ๊ณ ํ๋ฉด ์ด ์์น์์์ ๊ธฐ์ธ๊ธฐ๋ $y^{'}(1)=2$ ์ด๋๊น $1-2=-2$ ์ ๊ฒฐ..