AI\ML\DL/Deep learning theory
-
Stochastic differential equation(SDE)AI\ML\DL/Deep learning theory 2023. 12. 5. 14:52
ํ๋ฅ ๋ฏธ๋ถ๋ฐฉ์ ์ (Stochastic differential equation) SDE๋ ์ผ๋ฐ ๋ฏธ๋ถ ๋ฐฉ์ ์๊ณผ ํธ๋ฏธ๋ถ ๋ฐฉ์ ์ ์ฌ์ด์ connection์ ์ ๊ณตํ๋ค. ์ผ๋ฐ ๋ฏธ๋ถ ๋ฐฉ์ ์(ODE)๊ณผ ์ ์ฌํ๋, ํ๋ฅ ์ ์์๋ฅผ ์ถ๊ฐํ์ฌ ๋ ๋ณต์กํ ์์คํ ์ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. 1) ODE ์ผ๋ฐ๋ฏธ๋ถ๋ฐฉ์ ์์ ๋ณ์์ ๋ณํ๋ฅผ ์๊ฐ์ ๋ํด ์ค๋ช ํ๋ ๋ฐฉ์ ์์ด๋ค. $$ \frac{dx}{dt}=f(x,t)$$ ODE๋ ๋์ผํ ์ด๊ธฐ๋ณ์์ ๋งค๊ฐ๋ณ์ ํ์ ํด๊ฐ ํญ์ ๋์ผํ์ฌ deterministicํ๋ค. randomness ๋ฅผ ๊ณ ๋ คํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. 2) SDE ๋ฐ๋ฉด ํ๋ฅ ๋ฏธ๋ถ๋ฐฉ์ ์์ ODE์ ํ๋ฅ ์ฑ ๋๋ ๋ ธ์ด์ฆ๋ฅผ ํตํฉํ์ฌ ๋ถํ์ค์ฑ์ ๊ฐ์ง ์์คํ ์ ๋ชจ๋ธ๋งํ๋ค. $$ dx=f(x,t)dt+g(x,t)\cdot dB(t)$$ ์ด๋ $B..
-
Receptive fieldAI\ML\DL/Deep learning theory 2023. 9. 15. 14:57
In the context of artificial neural networks, the receptive field is defined as the size of the region in the input that produces the featres. Wikipedia CNN์ local operation(i.e., convolution, pooling)์ ํตํด ์ฌ๋ฌ ๋ฒ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น๋ฉด์ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ ์ถ์์ ์ธ ํน์ง์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์๊ฐ์ ํจํด์ ์ธ์ํ๋ ๋ฐ ๋ค๋ฅธ ์ ํ์ ์ ๊ฒฝ๋ง๊ณผ ๋น๊ตํ์ ๋ ์ฑ๋ฅ์ด ์ข๋ค. ํ๋ฐ์ ๋ ์ด์ด๋ ์ด๋ฐ์ ๋ ์ด์ด๋ณด๋ค ์ด๋ฏธ์ง์ ๋ ๋์ ๋ถ๋ถ์ ๋ณด๊ฒ ๋๋ค. ์ด์ ๋ถํฐ ํ๋ฐ๋ถ์ ๋ ์ด์ด๋ฅผ Higher layer, ์ด๋ฐ์ ๋ ์ด์ด๋ฅผ Lower layer๋ผ๊ณ ํ๊ฒ ๋ค. lower lay..
-
Insights for CNNAI\ML\DL/Deep learning theory 2023. 9. 13. 15:35
* * * CNN์ ์ปจ๋ณผ๋ฃจ์ ์ ์์น๋ณ ํจํด์ ์ฐพ๋ ์ฐ์ฐ์ด๋ค. ์ปจ๋ณผ๋ฃจ์ ์ ์ ๊ฒฝ๋ง์ ์ ์ฉํ๋ค๋ ๊ฒ์ "๋ด๊ฐ ์ง๊ธ๋ถํฐ ๋ณด์ฌ์ค ์ ๋ ฅ ์ซ์๋ค(์ฌ์ง)์๋ ์ด๋ค ์์น๋ณ ํจํด์ด ์๋ค" ๋ผ๋ ์ฌ์ ์ ๋ณด(Inductive bias) ๋ฅผ ์ ์ค ๊ฒ์ด๋ค. ํน์ง 1. ์ ๊ฒฝ ๋ค๋ฐ connection์ ์ ๋์ด๋ - ์ธ๊ฐ์ ๋๋ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ๋ ๋์ ์ผ๋ถ๋ถ๋ง ํ์ฑํ ์ํจ๋ค. Fully connected layer์ฒ๋ผ ์ฒซ layer์์ ๋ชจ๋ ํฝ์ ์ ๊ฐ์ ํ๊บผ๋ฒ์ ๋ชจ๋ ๋ค ๋ณด๋ ค๋ ๊ฒ์ ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์์ด ์๋๋ผ๋ ๊ฒ์ด๋ค. ์ด๋ฏธ์ง๋ฅผ FC layer์ ๋ฃ๋๋ค๋ฉด ๋ชจ๋ ํฝ์ ์ ํ ๋ฒ์ ๋ฃ์ด์ ์ ๊ฒฝ๋ง์ ํต๊ณผ์ํค๊ธฐ ๋๋ฌธ์ ์ด๊ฑด ๋ญ ์๋ ๊ทธ๋ฆผ ์ฒ๋ผ ์ด๋ฏธ์ง์ ํฝ์ ๋ค ์์น๋ฅผ ์๋ก ๋ง ๋ฐ๊ฟ weight๋ฅผ ํ์ตํ๋ ๊ฒ๊ณผ ๋ค๋ฅผ ๋ฐ๊ฐ ์๋ค. Fully c..
-
2D convolution (Conv2d) ๊ณผ์ ์ ์ดํดAI\ML\DL/Deep learning theory 2023. 5. 28. 14:33
* * * RGB 3๊ฐ ์ฑ๋์ ๊ฐ์ง ์ ๋ ฅ ์ปฌ๋ฌ ์ฌ์ง์ด ์์ ๋, ์ ๋ ฅ์ ํฌ๊ธฐ๋ฅผ 3x7x7 ์ด๋ผ๊ณ ํ์. (3์ ์ฑ๋ ๊ฐ์) ์ด๋ ํํฐ (์ปค๋) ์ ํฌ๊ธฐ๊ฐ 3x5x5 ์ด๋ฉด ํํฐ ์ข ๋ฅ 2๊ฐ์ง๋ฅผ ํต๊ณผํ์ ๋ output feature map ์ด ๋์ค๋ ๊ณผ์ ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. ์ปค๋์ ํตํด ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ญ ์ค์บํ๋ฉด์ ํจํด์ ๋ํ๋ด๋ feature map ์ ์ถ๋ ฅํ๋ค. (์ปค๋ ์์ ๊ฐ์ weight์ bias ์ด๊ณ ํ์ต ํ๋ผ๋ฏธํฐ์ด๋ค.) ์ด๋ ์ปค๋์ (์ฑ๋)๊ฐ์๋ ํญ์ ์ค์บํ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ฑ๋ ๊ฐ์๋ฅผ ๋๊ฐ์ด ๋ฐ๋ผ๊ฐ์ผ ํ๋ฏ๋ก ๊ณ ์ ์ด๋ค. ์ถ๋ ฅ๋๋ feature map์ spatialํ ํฌ๊ธฐ๋ ์ปค๋์ด ์ด๋ํ๋ ์นธ์์ธ stride ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฏ๋ก, ์ปค๋ ์ฌ์ด์ฆ์ stride ์ ์์กดํ๋ค. ๋ง์ฝ stride๊ฐ (..
-
Batch NormalizationAI\ML\DL/Deep learning theory 2023. 5. 11. 23:09
ํ์ฑํ ํจ์ ReLU ๋ Sigmoid ํจ์์ ๋ฏธ๋ถ๊ฐ์ด ์์์ gradient ๊ฐ์ด ์ ์ฐจ ์๋ฉธํ๋ vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด sigmoid ๋ฅผ ๋์ฒดํ ํจ์์ด๋ค. ํ์ง๋ง ReLU ๋ฅผ ์ฌ์ฉํด๋ ํญ์ vanishing gradient๊ฐ ํด๊ฒฐ๋๋ ๊ฒ์ ์๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ๋ถ์ฐ๊ณผ ๊ด๋ จ์ด ์๋ค. Batch-size๋ฅผ 5๋ผ๊ณ ํ๊ณ ํน์ ๋ ธ๋์ ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋ค๊ณ ํ์๋, Activation Function์ผ๋ก ๋น์ ํ ํจ์์ธ ReLU ํจ์๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ์. ๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด? Linear activation ์ฒ๋ผ ๋ณด์ฌ์ non-linearlity๋ฅผ ๋ชป์ด๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์๋ค. (vanishing gradient๋ ํด๊ฒฐํ๋ค๊ณ ํด๋) ๋ฐ์ดํฐ๊ฐ ์ ๋ถ ์์๋ก ๋ค์ด๊ฐ๋ค๋ฉด? ๋ฏธ๋ถ๊ฐ..
-
์ด์ง๋ถ๋ฅ์์ Maximum Likelihood Estimation (MLE)AI\ML\DL/Deep learning theory 2023. 5. 10. 17:24
[์ด์ง ๋ถ๋ฅ๋ฌธ์ ์์ MLE ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ] ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์์ 0๊ณผ 1์ฌ์ด์ ํ๋ฅ ($q$) ์ ์์ธกํ์ฌ ๊ฐ์์ง์ ๊ณ ์์ด๋ฅผ ๋ถ๋ฅ๋ฅผ ํ๋ค๊ณ ํ์. ์๋ฅผ ๋ค์ด ๋ชจ๋ธ์ด ๊ฐ์์ง๋ฅผ ์์ธกํ๋๋ก ํ๋ ค๊ณ ํ๋ค๋ฉด, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ธ ๊ฐ์์ง์ผ ํ๋ฅ $q$ ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ํ์ต์ ๋ชฉ์ ์ด๋ค. ๋ฐ๋๋ก ๊ณ ์์ด๋ฅผ ์์ธกํ๋ ค๋ฉด, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๊ณ ์์ด์ผ ํ๋ฅ $1-q$ ๋ฅผ ํค์ฐ๋ ค๊ณ ํ ๊ฒ์ด๋ค. ํ๋ฅ ๊ฐ q๋ ์ ๋ ฅ๊ฐ$\times $๊ฐ์ค์น์ ์๊ทธ๋ชจ์ด๋๋ฅผ ๊ฑฐ์ณ ๊ณ์ฐ๋ ๊ฐ์ด๋ฏ๋ก ๊ฐ์ค์น w์ ๋ํ ํจ์๋ก๋ ๋ณผ ์ ์๋ค. ์ด๋ ๋ชจ๋ธ์ ๊ฐ์ค์น w๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ ์ต๋์ฐ๋์ถ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค. ์ฆ, q ๋๋ 1-q๋ฅผ ์ต๋๋ก ๋ง๋๋ ๊ฐ์ค์น w๋ฅผ ์ฐพ๊ณ ์ ํ๋ ๊ฒ์ด MLE ๊ธฐ๋ฒ์ด๋ค. (๊ฐ์์ง๋ฉด $q$ , ๊ณ ์์ด๋ฉด $1-q$ ๋ฅผ ..
-
Logistic RegressionAI\ML\DL/Deep learning theory 2023. 5. 8. 18:33
Logistic Regression Sigmoid๋ฅผ ์ด์ฉํ ์ด์ง๋ถ๋ฅ๋ฅผ ์ํํ๊ธฐ ์ํด Logistic regression์ ๊ฐ๋ ์ ๋ํด ์์๋ณด์. Logistic Regression์ ์ ํํจ์์์ logit์ ํ๊ทํ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ Logit์, log-odds ๋ก odds๋ ์ฑ๊ณต ํ๋ฅ ๊ณผ ์คํจ ํ๋ฅ ์ ๋น์จ (์น์ฐ) ์ ๋งํ๊ณ , logit์ odds ์ log ๊ฐ์ ์ทจํ ๊ฒ์ ๋งํ๋ค. $$logit=\mathrm{log}\frac{q}{1-q}$$ ๋ก์ง์คํฑ ํ๊ท์์๋ ์ฐ์ ๋ชจ๋ธ์ ์ ๋ ฅ ๋ณ์์ ๊ฐ์ค์น์ ์ ํ์กฐํฉ์ผ๋ก ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ๋ค. ์ ๋ ฅ๊ณผ ํน์ ๋ ์ด๋ธ์ ์ํ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ๋์ ํ๋ ํจ์๊ฐ logit ํจ์๋ค. ๊ทธ ๋ค์ logit์ Sigmoid ํจ์์ ํต๊ณผ์์ผ์ q๋ฅผ ์ป๊ณ Los..
-
BackpropagationAI\ML\DL/Deep learning theory 2023. 5. 7. 19:38
Backpropagation ์ฌ์ธต ์ ๊ฒฝ๋ง์์๋ 1. ํน์ ํ๋ผ๋ฏธํฐ(weight/bias) ์ ๋ํ Loss function์ ํธ๋ฏธ๋ถ ๊ฐ์ธ ๊ทธ๋๋์ธํธ๋ฅผ ๊ตฌํ๊ณ , 2. SGD (Stochastic gradient descent) ๋ฑ์ Optimizer ๋ก ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค. 1๋ฒ์์ ์ ๊ฒฝ๋ง์ ๊น์ ๊ณณ์ ์๋ weight ์ ๋ํ ํธ๋ฏธ๋ถ์ ๊ตฌํ๊ธฐ ์ํด์๋ Chain rule ์ ํ์ฉํด์ผ ํ๋๋ฐ, Chain rule์ ๋ฏธ๋ถ์ ๋ค๋ก ์ ๋ฌํ๋ฉด์ ๊ณฑํ๋ ๊ฑฐ๋๊น ์ด ๋ฐฉ๋ฒ์ Backpropagation์ด๋ผ๊ณ ํ๋ค. ๋ค์๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์์ Backpropagation์ ํตํด ํ๋ ฌ๋ก ํํ๋ weight ์ ๋ํด loss function ์ ๋ฏธ๋ถํด๋ณด์. ๊ทธ๋ฆผ์ ๊ฐ ๋ ธ๋์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์์ ์ธ ์ ์๋ค. $$..