๋ถ๋ฅ ์ ์ฒด๋ณด๊ธฐ
-
2D convolution (Conv2d) ๊ณผ์ ์ ์ดํดAI\ML\DL/Deep learning theory 2023. 5. 28. 14:33
* * * RGB 3๊ฐ ์ฑ๋์ ๊ฐ์ง ์ ๋ ฅ ์ปฌ๋ฌ ์ฌ์ง์ด ์์ ๋, ์ ๋ ฅ์ ํฌ๊ธฐ๋ฅผ 3x7x7 ์ด๋ผ๊ณ ํ์. (3์ ์ฑ๋ ๊ฐ์) ์ด๋ ํํฐ (์ปค๋) ์ ํฌ๊ธฐ๊ฐ 3x5x5 ์ด๋ฉด ํํฐ ์ข ๋ฅ 2๊ฐ์ง๋ฅผ ํต๊ณผํ์ ๋ output feature map ์ด ๋์ค๋ ๊ณผ์ ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. ์ปค๋์ ํตํด ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ญ ์ค์บํ๋ฉด์ ํจํด์ ๋ํ๋ด๋ feature map ์ ์ถ๋ ฅํ๋ค. (์ปค๋ ์์ ๊ฐ์ weight์ bias ์ด๊ณ ํ์ต ํ๋ผ๋ฏธํฐ์ด๋ค.) ์ด๋ ์ปค๋์ (์ฑ๋)๊ฐ์๋ ํญ์ ์ค์บํ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ฑ๋ ๊ฐ์๋ฅผ ๋๊ฐ์ด ๋ฐ๋ผ๊ฐ์ผ ํ๋ฏ๋ก ๊ณ ์ ์ด๋ค. ์ถ๋ ฅ๋๋ feature map์ spatialํ ํฌ๊ธฐ๋ ์ปค๋์ด ์ด๋ํ๋ ์นธ์์ธ stride ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฏ๋ก, ์ปค๋ ์ฌ์ด์ฆ์ stride ์ ์์กดํ๋ค. ๋ง์ฝ stride๊ฐ (..
-
๊ฐ์ญํ๋ ฌ ์ ๋ฆฌMathematics/Linear algebra 2023. 5. 14. 19:38
์๋์ ๋ด์ฉ์ Dacid C.Lay et al. ์ Linear Algebra and Its Application ์ ์๋ ๋ชจ๋ ๊ฐ์ญํ๋ ฌ theorem ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค. ๊ฐ์ญํ๋ ฌ ์ ๋ฆฌ A๋ฅผ nxn ์ ๋ฐฉํ๋ ฌ์ด๋ผ ํ๋ฉด, ์๋ ๊ฐ ๋ช ์ ๋ ๋ชจ๋ A๊ฐ ๊ฐ์ญํ๋ ฌ์ด๋ผ๋ ๋ช ์ ์ ๋์น์ด๋ค. a. A๋ nxn ๋จ์ํ๋ ฌ๊ณผ ํ ๋์น์ด๋ค. (**๊ฐ์ฐ์ค ์กฐ๋ ์๊ฑฐ๋ฒ์ ํตํด ๋จ์ํ๋ ฌ๋ก ๋๊ฐํํ ์ ์๋ค๋ ๊ฒ) b. A๋ n๊ฐ์ ์ถ์ถ์์น๋ฅผ ๊ฐ๋๋ค. (**n๊ฐ์ pivot ์์๋ฅผ ๊ฐ์ง๋ค, Full-rank ํ๋ ฌ, ๋ชจ๋ ํ๊ณผ ์ด์ด ์ ํ ๋ ๋ฆฝ) c. ๋ฐฉ์ ์ $A\textbf{x}=\textbf{0}$ ์ ํด๋ ์๋ช ํ ํด๋ฟ์ด๋ค. (**์ ์ผํ ํด๊ฐ ์ ๋ก ๋ฒกํฐ๋ก ์๋ช ํ๋ค) d. ์ ํ๋ณํ $\textbf{x}\mapsto A\textbf{x}..
-
Batch NormalizationAI\ML\DL/Deep learning theory 2023. 5. 11. 23:09
ํ์ฑํ ํจ์ ReLU ๋ Sigmoid ํจ์์ ๋ฏธ๋ถ๊ฐ์ด ์์์ gradient ๊ฐ์ด ์ ์ฐจ ์๋ฉธํ๋ vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด sigmoid ๋ฅผ ๋์ฒดํ ํจ์์ด๋ค. ํ์ง๋ง ReLU ๋ฅผ ์ฌ์ฉํด๋ ํญ์ vanishing gradient๊ฐ ํด๊ฒฐ๋๋ ๊ฒ์ ์๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ๋ถ์ฐ๊ณผ ๊ด๋ จ์ด ์๋ค. Batch-size๋ฅผ 5๋ผ๊ณ ํ๊ณ ํน์ ๋ ธ๋์ ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋ค๊ณ ํ์๋, Activation Function์ผ๋ก ๋น์ ํ ํจ์์ธ ReLU ํจ์๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ์. ๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด? Linear activation ์ฒ๋ผ ๋ณด์ฌ์ non-linearlity๋ฅผ ๋ชป์ด๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์๋ค. (vanishing gradient๋ ํด๊ฒฐํ๋ค๊ณ ํด๋) ๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด? ๋ฏธ๋ถ๊ฐ..
-
์ด์ง๋ถ๋ฅ์์ Maximum Likelihood Estimation (MLE)AI\ML\DL/Deep learning theory 2023. 5. 10. 17:24
[์ด์ง ๋ถ๋ฅ๋ฌธ์ ์์ MLE ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ] ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์์ 0๊ณผ 1์ฌ์ด์ ํ๋ฅ ($q$) ์ ์์ธกํ์ฌ ๊ฐ์์ง์ ๊ณ ์์ด๋ฅผ ๋ถ๋ฅ๋ฅผ ํ๋ค๊ณ ํ์. ์๋ฅผ ๋ค์ด ๋ชจ๋ธ์ด ๊ฐ์์ง๋ฅผ ์์ธกํ๋๋ก ํ๋ ค๊ณ ํ๋ค๋ฉด, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ธ ๊ฐ์์ง์ผ ํ๋ฅ $q$ ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ํ์ต์ ๋ชฉ์ ์ด๋ค. ๋ฐ๋๋ก ๊ณ ์์ด๋ฅผ ์์ธกํ๋ ค๋ฉด, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๊ณ ์์ด์ผ ํ๋ฅ $1-q$ ๋ฅผ ํค์ฐ๋ ค๊ณ ํ ๊ฒ์ด๋ค. ํ๋ฅ ๊ฐ q๋ ์ ๋ ฅ๊ฐ$\times $๊ฐ์ค์น์ ์๊ทธ๋ชจ์ด๋๋ฅผ ๊ฑฐ์ณ ๊ณ์ฐ๋ ๊ฐ์ด๋ฏ๋ก ๊ฐ์ค์น w์ ๋ํ ํจ์๋ก๋ ๋ณผ ์ ์๋ค. ์ด๋ ๋ชจ๋ธ์ ๊ฐ์ค์น w๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ ์ต๋์ฐ๋์ถ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค. ์ฆ, q ๋๋ 1-q๋ฅผ ์ต๋๋ก ๋ง๋๋ ๊ฐ์ค์น w๋ฅผ ์ฐพ๊ณ ์ ํ๋ ๊ฒ์ด MLE ๊ธฐ๋ฒ์ด๋ค. (๊ฐ์์ง๋ฉด $q$ , ๊ณ ์์ด๋ฉด $1-q$ ๋ฅผ ..
-
Logistic RegressionAI\ML\DL/Deep learning theory 2023. 5. 8. 18:33
Logistic Regression Sigmoid๋ฅผ ์ด์ฉํ ์ด์ง๋ถ๋ฅ๋ฅผ ์ํํ๊ธฐ ์ํด Logistic regression์ ๊ฐ๋ ์ ๋ํด ์์๋ณด์. Logistic Regression์ ์ ํํจ์์์ logit์ ํ๊ทํ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ Logit์, log-odds ๋ก odds๋ ์ฑ๊ณต ํ๋ฅ ๊ณผ ์คํจ ํ๋ฅ ์ ๋น์จ (์น์ฐ) ์ ๋งํ๊ณ , logit์ odds ์ log ๊ฐ์ ์ทจํ ๊ฒ์ ๋งํ๋ค. $$logit=\mathrm{log}\frac{q}{1-q}$$ ๋ก์ง์คํฑ ํ๊ท์์๋ ์ฐ์ ๋ชจ๋ธ์ ์ ๋ ฅ ๋ณ์์ ๊ฐ์ค์น์ ์ ํ์กฐํฉ์ผ๋ก ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ๋ค. ์ ๋ ฅ๊ณผ ํน์ ๋ ์ด๋ธ์ ์ํ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ๋์ ํ๋ ํจ์๊ฐ logit ํจ์๋ค. ๊ทธ ๋ค์ logit์ Sigmoid ํจ์์ ํต๊ณผ์์ผ์ q๋ฅผ ์ป๊ณ Los..
-
BackpropagationAI\ML\DL/Deep learning theory 2023. 5. 7. 19:38
Backpropagation ์ฌ์ธต ์ ๊ฒฝ๋ง์์๋ 1. ํน์ ํ๋ผ๋ฏธํฐ(weight/bias) ์ ๋ํ Loss function์ ํธ๋ฏธ๋ถ ๊ฐ์ธ ๊ทธ๋๋์ธํธ๋ฅผ ๊ตฌํ๊ณ , 2. SGD (Stochastic gradient descent) ๋ฑ์ Optimizer ๋ก ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค. 1๋ฒ์์ ์ ๊ฒฝ๋ง์ ๊น์ ๊ณณ์ ์๋ weight ์ ๋ํ ํธ๋ฏธ๋ถ์ ๊ตฌํ๊ธฐ ์ํด์๋ Chain rule ์ ํ์ฉํด์ผ ํ๋๋ฐ, Chain rule์ ๋ฏธ๋ถ์ ๋ค๋ก ์ ๋ฌํ๋ฉด์ ๊ณฑํ๋ ๊ฑฐ๋๊น ์ด ๋ฐฉ๋ฒ์ Backpropagation์ด๋ผ๊ณ ํ๋ค. ๋ค์๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์์ Backpropagation์ ํตํด ํ๋ ฌ๋ก ํํ๋ weight ์ ๋ํด loss function ์ ๋ฏธ๋ถํด๋ณด์. ๊ทธ๋ฆผ์ ๊ฐ ๋ ธ๋์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์์ ์ธ ์ ์๋ค. $$..
-
Momentum, RMSProp OptimizerAI\ML\DL/Deep learning theory 2023. 5. 6. 23:33
Momentum Momentum ๊ธฐ๋ฒ์ gradient๋ฅผ ๋์ ํจ์ผ๋ก์จ ๊ด์ฑ์ ๊ฐ์ง๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ํน์ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ค๋ ํ์ด ๋จ์์์ด์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋๋ ์กฐ๊ธ ๋ ๊ฐ๊ฒ ๋๋ค. ๋ค๋ฅธ ๋ง๋ก, ์ด์ ๊ฒ๋ค์ ๊ธฐ์ตํ๋ ๊ด์ฑ์ด ๋จ์์๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ์ ๋ฐฉํฅ์ฑ์ ์ด๋์ ๋ ์ ์งํ์ฌ (mini-batch) SGD๋ณด๋ค ๋ณ๋์ฑ์ ์ค์ด๊ณ , ์์ค ํจ์์ local minimum ์์ ๋น ์ ธ๋์ค๊ธฐ ์ฌ์์ง๋ค. ์ด ๋ฐฉ์์ผ๋ก ์ธํด ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ์ข ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์๋ ด์ํฌ ์ ์๋ค. ํ์ฌ์ ์๋๋ ๊ณผ๊ฑฐ์ ์๋๋ค์ ์ํฅ์ ๋ฐ๋๋ฐ, ํ์ฌ iteration ์ ์ต๊ทผ์ ์๋๊ฐ๋ค์ด ๋ ํฐ ์ํฅ์ ์ค๋ค. RMSProp (Root mean squrare propagation) RMSProp์ Momentum ๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ฐ..
-
Stochastic Gradient DescentAI\ML\DL/Deep learning theory 2023. 5. 6. 22:17
Vanilla GD vs. SGD Gradient descent๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ต์๋ฅผ ํฅํ๋ ์๋ฒฝํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ค. ํ์ง๋ง, ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์๊ฐ์ด ๋๋ฌด ๋๋ฆฌ๋ค. Stochastic gradient descent (SGD)๋ GD์ ๋ฌ๋ฆฌ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ ๋ ฅํ์ง ์๊ณ ๋๋คํ๊ฒ ์ถ์ถํ ๋ฐ์ดํฐ๋ฅผ ํ๋์ฉ ์ ๋ ฅํด์ loss function๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. SGD๋ฅผ ์ฌ์ฉํ๋ฉด GD์์ ๋ฐ์ํ๋ ๊ณ์ฐ ์๋ ๋ฌธ์ ์ local minimum์ ๋น ์ง๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋ค. SGD์ ํน์ง 1. ๋๋คํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋น๋ณต์์ถ์ถ๋ก ํ๋์ฉ ๋ฝ์์ loss๋ฅผ ๋ง๋ค๊ณ gradient๋ฅผ ๊ณ์ฐํ๋ค. (๋๋ค์ด๋ผ stochastic์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์๋ค.) ์ฆ, ๋ฐ์ดํฐ ํ๋๋ง ๋ณด๊ณ ๊ทธ๋๋์ธํธ..