ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Gradient descent
    AI\ML\DL/Deep learning theory 2023. 5. 6. 21:34
    ๋ฐ˜์‘ํ˜•

    Gradient descent๋Š” loss function ์„ ์ตœ์†Œ๋กœ ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 

    ์˜ˆ๋ฅผ๋“ค์–ด loss function์ด $y=x^{2}$ ๋ผ๋Š” 2์ฐจํ•จ์ˆ˜๋ผ๊ณ  ํ•˜์ž. 

    ์ด๋•Œ ์†์‹คํ•จ์ˆ˜๊ฐ€ ์ตœ์†Œ๊ฐ’์„ ๊ฐ–๊ฒŒ ํ•˜๋Š” ์ ์€ x=0 ์ด๋ผ๋Š” ํฌ์ธํŠธ์ด๋‹ค. 0์ด๋ผ๋Š” ์œ„์น˜๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ๊นŒ?

    ์šฐ์„  ์ฒ˜์Œ์— ์ž„์˜์˜ ์ ์„ ์ฐ์–ด์„œ ๊ทธ ์ ์„ ์ ์  ์—…๋ฐ์ดํŠธํ•ด๋‚˜๊ฐ€๋ฉด์„œ ์ตœ์†Œ์ ์œผ๋กœ ํšŒ๊ท€ํ•ด์•ผํ•œ๋‹ค. 

    ์ด๋•Œ, ์ตœ์†Œ๊ฐ’์„ ๊ฐ–๋Š” ์ ์œผ๋กœ ๋‹ค๊ฐ€๊ฐ€๊ธฐ ์œ„ํ•ด์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ด์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ํŠน์ • ์ ์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋Š” ํ•จ์ˆ˜์˜ ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๋ฐฉํ–ฅ์„ ํ–ฅํ•˜๊ณ  ์ด ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๋ฐฉํ–ฅ์˜ ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋ฉด ์ตœ์†Œ๊ฐ’์œผ๋กœ ํ–ฅํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. 

     

    ์ฒ˜์Œ ์œ„์น˜๊ฐ€ $x=1$ ์ด๋ผ๊ณ  ํ•˜๋ฉด ์ด ์œ„์น˜์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋Š” $y^{'}(1)=2$ ์ด๋‹ˆ๊นŒ $1-2=-2$ ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ฒŒ ๋œ๋‹ค. 

    ์ด๋•Œ ๊ธฐ์šธ๊ธฐ ๊ฐ’์ด ๋„ˆ๋ฌด ์ปค์„œ ์ตœ์†Œ์ ์ธ 0์„ ์ง€๋‚˜์น˜๊ฒŒ ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฐฉํ–ฅ์„ ์œ ์ง€ํ•œ ์ฑ„ ํฌ๊ธฐ๋งŒ ์กฐ์ ˆํ•˜๊ธฐ ์œ„ํ•ด learning rate๋ฅผ ๋„์ž…ํ•œ๋‹ค. learning rate๋ฅผ 0.1๋กœ ์„ค์ •ํ•˜๋ฉด $1-(0.1)(2)=0.8$ ์ด๋ ‡๊ฒŒ ๋„ˆ๋ฌด ํฌ๊ฒŒ ์ด๋™ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ 0์œผ๋กœ ํ–ฅํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค. 

     

    ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์ด Gradient descent(๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•) ์ด๊ณ , ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ์†์‹คํ•จ์ˆ˜์˜ ๋ณ€์ˆ˜๊ฐ€ weight ์™€ bias ์ด๋ฏ€๋กœ ์†์‹คํ•จ์ˆ˜๋Š” 3์ฐจ์›์˜ ๊ณต๊ฐ„์—์„œ ๊ทธ๋ ค์ง„๋‹ค. ์ด๋•Œ๋„ ๋™์ผํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ gradient descent ๋ฅผ ์ ์šฉํ•˜์—ฌ ์†์‹คํ•จ์ˆ˜์˜ ์ตœ์†Œ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์œ„์น˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Gradient descent ์˜ ์ผ๋ฐ˜์ ์ธ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

    1. ์ดˆ๊ธฐ ์œ„์น˜ ์„ค์ • (Weight initialization)

    2. Gradient (๊ฐ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํŽธ๋ฏธ๋ถ„์„ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ) ๊ณ„์‚ฐ

    3. Learning rate ์„ค์ •

    4. ์œ„์น˜ ์—…๋ฐ์ดํŠธ: ์ƒˆ๋กœ์šด ์œ„์น˜๋Š” (ํ˜„์žฌ ์œ„์น˜) - (ํ•™์Šต๋ฅ )$\times$(ํ˜„์žฌ ์œ„์น˜์—์„œ์˜ Gradient) ๋กœ ์—…๋ฐ์ดํŠธ ํ•  ์ˆ˜ ์žˆ๋‹ค. 

    5. ๋ฐ˜๋ณต: ์œ„์˜ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜์—ฌ ์ตœ์†Œ์ ์— ์ ์ฐจ ์ˆ˜๋ ดํ•œ๋‹ค. ์ฆ‰, ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ๊ฐ€๊นŒ์›Œ์งˆ ๋•Œ๊นŒ์ง€ ์œ„์น˜๋ฅผ ์—…๋Žƒํ•œ๋‹ค. 

     

    Gradient descent ๋ฐฉ๋ฒ•์˜ ๋‹จ์ 

    1. ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ๋ฒˆ์— ์‚ฌ์šฉํ•˜์—ฌ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ, ๋งค์šฐ ํฐ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฝ์šฐ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’๊ณ  ์‹œ๊ฐ„์ด ์˜ค๋ž˜๊ฑธ๋ฆฐ๋‹ค. (Batch gradient descent๋ผ๊ณ ๋„ ๋ถ€๋ฅธ๋‹ค.)

    ** ์—ฌ๊ธฐ์„œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ๊ณ ๋ คํ•œ๋‹ค๋Š” ๋ง์€ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ํ•œ๋ฒˆ์— ๊ณ„์‚ฐํ•˜๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธ ํ•œ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ์ฆ‰, ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ๋ฒˆ์— ์‹ ๊ฒฝ๋ง์— ์ž…๋ ฅํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•˜๊ณ  ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•ด์„œ ์ด ์ถœ๋ ฅ์„ ์‹ค์ œ๊ฐ’๊ณผ ๋น„๊ตํ•ด์„œ ์†์‹คํ•จ์ˆ˜๋ฅผ ๊ตฌํ•œ ํ›„ ์ด ์†์‹คํ•จ์ˆ˜์—์„œ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ํด ๋•Œ ์‹œ๊ฐ„์ด ์˜ค๋ž˜๊ฑธ๋ฆฐ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. 

    2. Local minimum ์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค. 

    Gradient๋Š” ์†์‹คํ•จ์ˆ˜์˜ ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ํ•˜๊ฐ• ๋ฐฉํ–ฅ์„ ๋”ฐ๋ผ ์ด๋™ํ•˜๊ธฐ ๋•Œ๋ฌธ์— local minimum ๊ทผ์ฒ˜์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ๊ฐ€๊นŒ์›Œ์ง€๊ฒŒ ๋˜๋ฉด ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด ๊ทธ ์ง€์ ์—์„œ ๋ฉˆ์ถ”๊ฒŒ ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด global minimum์ด ์•„๋‹Œ local minimum ์— ์ˆ˜๋ ดํ•˜๊ฒŒ ๋˜์–ด ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ์ง€ ๋ชปํ•˜๊ฒŒ ๋˜๋Š” ์œ„ํ—˜์ด ์žˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Stochastic gradient descent ๊ฐ€ ํ•ด๊ฒฐ์ฑ…์ด ๋˜๊ธฐ๋„ ํ•œ๋‹ค. 

     

    ์•„๋ž˜ ์• ๋‹ˆ๋ฉ”์ด์…˜์€ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•ด 3์ฐจ์› ์†์‹คํ•จ์ˆ˜์˜ ์ตœ์†Œ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์œ„์น˜๋ฅผ ์ฐพ์•„๋‚ด๋Š” visualization์ด๋‹ค. 

    ์ถœ์ฒ˜: https://towardsdatascience.com/a-visual-explanation-of-gradient-descent-methods-momentum-adagrad-rmsprop-adam-f898b102325c

    Gradient-descent algorithm

    Stanford CS229, Andrew Ng

    'AI\ML\DL > Deep learning theory' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

    Logistic Regression  (0) 2023.05.08
    Backpropagation  (0) 2023.05.07
    Momentum, RMSProp Optimizer  (0) 2023.05.06
    Stochastic Gradient Descent  (1) 2023.05.06
Designed by Tistory.