-
Gradient descentAI\ML\DL/Deep learning theory 2023. 5. 6. 21:34๋ฐ์ํ
Gradient descent๋ loss function ์ ์ต์๋ก ํ๋ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค.
์๋ฅผ๋ค์ด loss function์ด $y=x^{2}$ ๋ผ๋ 2์ฐจํจ์๋ผ๊ณ ํ์.
์ด๋ ์์คํจ์๊ฐ ์ต์๊ฐ์ ๊ฐ๊ฒ ํ๋ ์ ์ x=0 ์ด๋ผ๋ ํฌ์ธํธ์ด๋ค. 0์ด๋ผ๋ ์์น๋ฅผ ์ฐพ๊ธฐ ์ํด์๋ ์ด๋ป๊ฒ ํด์ผํ ๊น?
์ฐ์ ์ฒ์์ ์์์ ์ ์ ์ฐ์ด์ ๊ทธ ์ ์ ์ ์ ์ ๋ฐ์ดํธํด๋๊ฐ๋ฉด์ ์ต์์ ์ผ๋ก ํ๊ทํด์ผํ๋ค.
์ด๋, ์ต์๊ฐ์ ๊ฐ๋ ์ ์ผ๋ก ๋ค๊ฐ๊ฐ๊ธฐ ์ํด์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ด์ฉํ ์ ์๋ค. ์๋ํ๋ฉด ํน์ ์ ์์์ ๊ธฐ์ธ๊ธฐ๋ ํจ์์ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ฐฉํฅ์ ํฅํ๊ณ ์ด ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ฐฉํฅ์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ฉด ์ต์๊ฐ์ผ๋ก ํฅํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ฒ์ ์์น๊ฐ $x=1$ ์ด๋ผ๊ณ ํ๋ฉด ์ด ์์น์์์ ๊ธฐ์ธ๊ธฐ๋ $y^{'}(1)=2$ ์ด๋๊น $1-2=-2$ ์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋๋ค.
์ด๋ ๊ธฐ์ธ๊ธฐ ๊ฐ์ด ๋๋ฌด ์ปค์ ์ต์์ ์ธ 0์ ์ง๋์น๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๋ฐฉํฅ์ ์ ์งํ ์ฑ ํฌ๊ธฐ๋ง ์กฐ์ ํ๊ธฐ ์ํด learning rate๋ฅผ ๋์ ํ๋ค. learning rate๋ฅผ 0.1๋ก ์ค์ ํ๋ฉด $1-(0.1)(2)=0.8$ ์ด๋ ๊ฒ ๋๋ฌด ํฌ๊ฒ ์ด๋ํ์ง ์์ผ๋ฉด์ 0์ผ๋ก ํฅํ๊ฒ ํ ์ ์๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ด Gradient descent(๊ฒฝ์ฌํ๊ฐ๋ฒ) ์ด๊ณ , ์ค์ ๋ฅ๋ฌ๋์์๋ ์์คํจ์์ ๋ณ์๊ฐ weight ์ bias ์ด๋ฏ๋ก ์์คํจ์๋ 3์ฐจ์์ ๊ณต๊ฐ์์ ๊ทธ๋ ค์ง๋ค. ์ด๋๋ ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก gradient descent ๋ฅผ ์ ์ฉํ์ฌ ์์คํจ์์ ์ต์๊ฐ์ ๊ฐ์ง๋ ์์น๋ฅผ ์ ์ ์๋ค. Gradient descent ์ ์ผ๋ฐ์ ์ธ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ์ด๊ธฐ ์์น ์ค์ (Weight initialization)
2. Gradient (๊ฐ ๋ณ์์ ๋ํ ํธ๋ฏธ๋ถ์ ๋ฒกํฐ๋ก ํํํ ๊ฒ) ๊ณ์ฐ
3. Learning rate ์ค์
4. ์์น ์ ๋ฐ์ดํธ: ์๋ก์ด ์์น๋ (ํ์ฌ ์์น) - (ํ์ต๋ฅ )$\times$(ํ์ฌ ์์น์์์ Gradient) ๋ก ์ ๋ฐ์ดํธ ํ ์ ์๋ค.
5. ๋ฐ๋ณต: ์์ ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์ต์์ ์ ์ ์ฐจ ์๋ ดํ๋ค. ์ฆ, ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์์ง ๋๊น์ง ์์น๋ฅผ ์ ๋ํ๋ค.
Gradient descent ๋ฐฉ๋ฒ์ ๋จ์
1. ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ํ ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๊ณ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ์ฌ, ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ ์๊ฐ์ด ์ค๋๊ฑธ๋ฆฐ๋ค. (Batch gradient descent๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.)
** ์ฌ๊ธฐ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ณ ๋ คํ๋ค๋ ๋ง์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ํ๋ฒ์ ๊ณ์ฐํ๊ณ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ๋ค๋ ์๋ฏธ์ด๋ค. ์ฆ, ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ๋ฒ์ ์ ๊ฒฝ๋ง์ ์ ๋ ฅํ์ฌ ๊ฐ์ค์น๋ฅผ ๊ณฑํ๊ณ ์ถ๋ ฅ์ ์์ธกํด์ ์ด ์ถ๋ ฅ์ ์ค์ ๊ฐ๊ณผ ๋น๊ตํด์ ์์คํจ์๋ฅผ ๊ตฌํ ํ ์ด ์์คํจ์์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ฐ์ดํฐ๊ฐ ํด ๋ ์๊ฐ์ด ์ค๋๊ฑธ๋ฆฐ๋ค๋ ๋จ์ ์ด ์๋ค.
2. Local minimum ์ ๋น ์ง ์ ์๋ค.
Gradient๋ ์์คํจ์์ ๊ฐ์ฅ ๊ฐํ๋ฅธ ํ๊ฐ ๋ฐฉํฅ์ ๋ฐ๋ผ ์ด๋ํ๊ธฐ ๋๋ฌธ์ local minimum ๊ทผ์ฒ์์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์์ง๊ฒ ๋๋ฉด ๊ฒฝ์ฌํ๊ฐ๋ฒ์ด ๊ทธ ์ง์ ์์ ๋ฉ์ถ๊ฒ ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด global minimum์ด ์๋ local minimum ์ ์๋ ดํ๊ฒ ๋์ด ์ต์ ์ ๊ฐ์ค์น๋ฅผ ์ฐพ์ง ๋ชปํ๊ฒ ๋๋ ์ํ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Stochastic gradient descent ๊ฐ ํด๊ฒฐ์ฑ ์ด ๋๊ธฐ๋ ํ๋ค.
์๋ ์ ๋๋ฉ์ด์ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉํด 3์ฐจ์ ์์คํจ์์ ์ต์๊ฐ์ ๊ฐ์ง๋ ์์น๋ฅผ ์ฐพ์๋ด๋ visualization์ด๋ค.
Gradient-descent algorithm Stanford CS229, Andrew Ng 'AI\ML\DL > Deep learning theory' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Logistic Regression (0) 2023.05.08 Backpropagation (0) 2023.05.07 Momentum, RMSProp Optimizer (0) 2023.05.06 Stochastic Gradient Descent (1) 2023.05.06