-
์ด์ง๋ถ๋ฅ์์ Maximum Likelihood Estimation (MLE)AI\ML\DL/Deep learning theory 2023. 5. 10. 17:24๋ฐ์ํ
[์ด์ง ๋ถ๋ฅ๋ฌธ์ ์์ MLE ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ]
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์์ 0๊ณผ 1์ฌ์ด์ ํ๋ฅ ($q$) ์ ์์ธกํ์ฌ ๊ฐ์์ง์ ๊ณ ์์ด๋ฅผ ๋ถ๋ฅ๋ฅผ ํ๋ค๊ณ ํ์.
์๋ฅผ ๋ค์ด ๋ชจ๋ธ์ด ๊ฐ์์ง๋ฅผ ์์ธกํ๋๋ก ํ๋ ค๊ณ ํ๋ค๋ฉด,
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ธ ๊ฐ์์ง์ผ ํ๋ฅ $q$ ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ํ์ต์ ๋ชฉ์ ์ด๋ค.
๋ฐ๋๋ก ๊ณ ์์ด๋ฅผ ์์ธกํ๋ ค๋ฉด, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๊ณ ์์ด์ผ ํ๋ฅ $1-q$ ๋ฅผ ํค์ฐ๋ ค๊ณ ํ ๊ฒ์ด๋ค.
ํ๋ฅ ๊ฐ q๋ ์ ๋ ฅ๊ฐ$\times $๊ฐ์ค์น์ ์๊ทธ๋ชจ์ด๋๋ฅผ ๊ฑฐ์ณ ๊ณ์ฐ๋ ๊ฐ์ด๋ฏ๋ก ๊ฐ์ค์น w์ ๋ํ ํจ์๋ก๋ ๋ณผ ์ ์๋ค.
์ด๋ ๋ชจ๋ธ์ ๊ฐ์ค์น w๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ ์ต๋์ฐ๋์ถ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
์ฆ, q ๋๋ 1-q๋ฅผ ์ต๋๋ก ๋ง๋๋ ๊ฐ์ค์น w๋ฅผ ์ฐพ๊ณ ์ ํ๋ ๊ฒ์ด MLE ๊ธฐ๋ฒ์ด๋ค.
(๊ฐ์์ง๋ฉด $q$ , ๊ณ ์์ด๋ฉด $1-q$ ๋ฅผ ์ต๋ํ)
๊ฐ์์ง ํน์ ๊ณ ์์ด ์ ๋ ฅ ์ฌ์ง $x_{i}$ ์ ๋ํด ๋ชจ๋ธ์ด ์์ธกํ ๋๋ฌผ์ ๋ํ ํด๋น ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
$$P(y|q=f_{w}(x_{i}))=p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}} \\\\\ (y_{i}=0 \ or\ 1)$$
์ ์์ i ๋ฒ์งธ ์ ๋ ฅ ๋ฐ์ดํฐ $x_{i}$ ์ ๋ํ ๋จธ์ ์ ์ถ๋ ฅ๊ฐ์ด $f_{w}(x_{i})$๋ก ์ฃผ์ด์ ธ ์์ ๋์ ์ ๋ต $y_{i}$ ์ ๋ถํฌ์ ๋ํ ์์ด๋ค.
๋ก์ง์คํฑ ํ๊ท์ Y๊ฐ ์ด์ง ๋ถ๋ฅ๋ฅผ ํ๋ฏ๋ก ๋ฒ ๋ฅด๋์ด ์ํ์ ๋ฐ๋ฅธ๋ค.
$$P(y|q=f_{w}(x_{i}))$$ ์ด๋ฅผ Likelihood๋ก ์ผ๊ณ ์ด ๊ฐ์ ํค์ฐ๋ฉด ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ์ ํ๋ฅ (either $q$ or $1-q$ ) ์ ๋์ผ ์ ์๋ค.
์ธ๊ณต์ ๊ฒฝ๋ง์์ likelihood๋
w๊ฐ ์ฃผ์ด์ก์ ๋ y์ ํ๋ฅ ๋ถํฌ๋ฅผ w์ ํจ์๋ก ๋ฐ๋ผ๋ณธ ํจ์์ด๋ค.[์ง๊ด์ ์ธ ์ดํด]
์์ Likelihood ์์์ y=0 ์ผ๋, 1-q ๋ง ๋จ๋๋ค.
๋ชจ๋ธ์ ์์ธก๊ฐ q๊ฐ ์ ๋ต 0๊ณผ ์ ์ฌํ ์๋ก likelihood ๊ฐ์ด 1์ ๊ฐ๊น์์ง๋ค
๋ฐ๋๋ก q๊ฐ ์ ๋ต 0๊ณผ ์์ธก์ด ๋ค๋ฅธ ๊ฒฝ์ฐ likelihood๊ฐ 0์ ๊ฐ๊น์์ง๋ค.
y=1 ์ผ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ค.
์ค์ ์ ๋ต ๋ ์ด๋ธ์ด y=1 ์ผ๋, likelihood ๋ q๋ง ๋จ๋๋ค.
q๊ฐ ์ ๋ต 1์ ๊ฐ๊น์์ง ์๋ก likelihood ๊ฐ์ 1๊ณผ ๊ฐ๊น์์ง๋ค.
๋ฐ๋๋ก q๊ฐ ์ ๋ต 0๊ณผ ์์ธก์ด ๋ฌ๋ผ์ง๋ฉด likelihood ๊ฐ 0์ ๊ฐ๊น์์ง๋ค.
์ด์ฒ๋ผ ์ด๋ฏธ ์ ํด์ ธ์๋ ์์ธก๊ฐ๊ณผ ์ ๋ต์ ์ ์ฌํ๊ฒ ๋ง๋ค์๋ก likelihood๊ฐ 1์ ๊ฐ๊น์์ง๋ฏ๋ก (์ปค์ง๋ฏ๋ก),
Likelihood ๋ฅผ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ์งํํ ์ ์๋ค.
์ฆ, likelihood๋ ์ ๋ต ๋ผ๋ฒจ๊ณผ ์์ธก๋ ํ๋ฅ ๊ฐ์ ๋น๊ตํจ์ผ๋ก์จ ์์ธก์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ค๊ณ ๋ณผ ์ ์๋ค.
Likelihood๋ฅผ ์ต๋ํํ๋ ๊ฒ์ Likelihood์ ๋ง์ด๋์ค๋ฅผ ๋ถ์ด๊ณ ์ด๋ฅผ ์ต์ํํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
์ด Negative (log) likelihood ๋ ์ด์ง๋ถ๋ฅ์ loss ํจ์์ธ Binary cross entropy๊ฐ ๋๋ค.
๋จผ์ ์ ๋ ฅ ์ฌ์ง n๊ฐ์ ๋ํ Likelihood ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$$L=\prod_{i}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}$$
์๋ฅผ ๋ค์ด, ์ ๋ ฅ ์ฌ์ง์ด 2๊ฐ๋ผ๋ฉด ๊ฐ ์ํ์ ๋ํด ๋ ๋ฆฝ์ด๋ฏ๋ก Likelihood๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
$$L=p_{1}^{y_{1}}(1-p_{1})^{1-y_{1}}\times p_{2}^{y_{2}}(1-p_{2})^{1-y_{2}}$$
๊ณฑ ์ฐ์ฐ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด log scaling ์ ํด์ฃผ๋ฉด Log Likelihood (LL) ๊ฐ ๋๋ค.
์ด๋ log๋ฅผ ์ทจํ ์ ์๋ ์ด์ ๋ ๋ ๋ฆฝ ๋ณ์์ ๊ฐ์ด ์ฆ๊ฐํ ๋ ํจ์์ ๊ฐ๋ ๊ฐ์ด ์ฆ๊ฐํ๋ ๋จ์กฐ์ฆ๊ฐ (monotonically increasing) ์ ํน์ฑ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
$$LL=y_{1}\textrm{log}p_{1}+(1-y_{1})\textrm{log}(1-p_{1})+y_{2}\textrm{log}p_{2}+(1-y_{2})\textrm{log}(1-p_{2})$$
์ฌ๊ธฐ์ ๋ง์ด๋์ค๋ฅผ ๋ถ์ธ ๊ฒ์ด Negative Log likelihood (NLL) ์ด ๋๋ค.
$$NLL=-\left\{y_{1}\textrm{log}p_{1}+(1-y_{1})\textrm{log}(1-p_{1})+y_{2}\textrm{log}p_{2}+(1-y_{2})\textrm{log}(1-p_{2})) \right\}$$
์ด๋ ์์ธกํ ํ๋ฅ ์ $p=\sigma (w^{T}x)$๋ก ์ด๋ฏ๋ก, NLL ์ ๊ฐ์ค์น w ์ ๋ํ ํจ์๋ก ๋ํ๋ผ ์ ์๋ค.
NLL์ ์ต์ํํด์ผ ๋ ํจ์์ด๋ฏ๋ก ์ด๋ฅผ Loss function ์ผ๋ก ๋ ์ ์๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ต์ ํตํด ๊ฐ์ค์น w ์ ๋ํ MLE ๋ฅผ ์ํํ๋ค๊ณ ๋ณผ ์ ์๋ค.
i ๋ฒ์งธ ๋ฐ์ดํฐ $(x_{i},y_{i})$์ ๋ํ์ฌ ๋ชจ๋ธ์ ๋ค์ Likelihood์ ์ต๋ํํ๋ ๊ฐ์ค์น๋ฅผ ์ฐพ์๋๊ฐ๋ค.
Cross-Entropy vs. Negative log likelihood
discrete ํ๊ฒฝ์์, ๋ ํ๋ฅ ๋ถํฌ p์ q๊ฐ ์ฃผ์ด์ก์๋, cross-entropy ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$\textrm{H(p,q)}=-\sum_{x\in \chi }^{} p(x)\textrm{log}(q(x))$
Cross-Entropy์ p๋ฅผ ์ ๋ต ๋ถํฌ, q๋ฅผ ๋ชจ๋ธ์ ์์ธก ๋ถํฌ๋ผ๊ณ ๊ฐ์ ํ๋ค๋ฉด Negative-log likelihood ์๊ณผ ๋งค์ฐ ์ ์ฌํ๋ค.
๋ฐ๋ผ์ ๋ก์ง์คํฑ ํ๊ท์ ์์คํจ์๋ฅผ binary cross entropy๋ผ๊ณ ๋ ํ๋ค.
BCE vs. MSE
BCE ๋์ MSE (Mean squared error) ๋ฅผ ์ด์ง๋ถ๋ฅ์ ์์คํจ์๋ก ์ฌ์ฉํ๋ฉด ์ด๋จ๊น?
์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์ ์์ ์ ํํ๊ท์์ ์ฌ์ฉํ๋
MSE ๋ฅผ ๋ก์ง์คํฑ ํ๊ท์ ๊ทธ๋๋ก ์ ์ฉํด๋ณด๋ ์๊ฐ์ ํด๋ณผ ์ ์๋ค.
๋ ๊ฐ์ง ์์คํจ์๋ฅผ ๋ก์ง์คํฑ ํ๊ท์ ๋์ ํด ๋ณด์์ ๋ 2๊ฐ์ง ๊ด์ ์์ BCE ๊ฐ ๋ ์ข์ ์ ์ ์ฐพ์๋ณผ ์ ์๋ค.
1) ์์คํจ์์ ๋ฏผ๊ฐ๋
๊ฐ์์ง/๊ณ ์์ด๋ฅผ ๋ถ๋ฅํ๋ ๋ฌธ์ ์์, ๊ฐ์์ง ์ฌ์ง์ด๋ฉด ์์ธก ํ๋ฅ q๋ฅผ ํค์ด๋ค๊ณ ํ๋ค.
์ด๋ MSE ๋ฅผ ์ฌ์ฉํ๋ฉด $(q-1)^{2}$ ๋ฅผ ์ต์ํํ๋ฉด ๋๋ค.
์ด๋ NLL ์์คํจ์๋ $-\textrm{log}{q}$ ์ด๋ค.
์ค์ ๋ ์ด๋ธ์ด 1 ์ผ ๋, ๋ชจ๋ธ์ด ํ๋ฅ ๊ฐ์ 0์ผ๋ก ์๋ชป ์์ธกํ๋ค๋ฉด
MSE์ NLL ๊ฐ๊ฐ์ ์์คํจ์ ๊ฒฐ๊ณผ๊ฐ์ $1$, $\infty $ ์ด๋ค.
์ฆ, $-\textrm{log}{q}$ ๊ฐ ํจ์ฌ ๋ ์ค๋ฅ์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ค.
๋ฐ๋ผ์ MSE ๋ณด๋ค ์ค๋ฅ์ ๋ ๋ฏผ๊ฐํ NLL์ ์ด์ง๋ถ๋ฅ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ์ ํฉํ๋ค.
2) Convexity
์ด๋ค ์์คํจ์๋ฅผ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ ์์คํจ์ ๊ทธ๋ํ์ ๊ฐํ์ด ๋ฌ๋ผ์ง๋ค.
๊ทธ๋ํ์ ๊ฐํ์ด Convex ํ ๊ฒ์ด Non-Convex ํ ๊ทธ๋ํ๋ณด๋ค global minimum ์ ์ฐพ๋ ๋ฐ ๋ ์ ๋ฆฌํ ๊ฒ์ด๋ค.
์์์ ๊ฐ๋จํ๊ฒ ๋ง๋ค์ด์ฃผ๊ธฐ ์ํด, ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น๊ฐ w ํ๋๋ง ์๊ณ bias๋ 0์ด๋ผ๊ณ ๊ฐ์ ํ์.
๊ทธ๋ฌ๋ฉด sigmoid ๋ฅผ ํต๊ณผํ๊ธฐ ์ง์ ์ w์ ๋ํ loss ํจ์์ ๊ฐํ์ ๋ค์๊ณผ ๊ฐ๋ค.
- MSE: $(\frac{1}{1+e^{-w}}-1)^{2}$
- BCE: $-\textrm{log}\frac{1}{1+e^{-w}}$
๊ฐ๊ฐ์ ๊ทธ๋ํ ๊ฐํ์ ์ดํด๋ณด์.
MSE์ ๊ทธ๋ํ๋ ๋ณ๊ณก์ ์ด ์กด์ฌํ๊ณ Non-convex ํ๋ค.
๋ฐ๋ฉด, BCE์ ๊ทธ๋ํ๋ Convex ํ๋ค.
๋ฐ๋ผ์ MSE ๋ณด๋ค BCE ๊ฐ global minimum์ ์ฐพ๊ธฐ์ ๋์ฑ ์ ํฉํ๋ค๊ณ ๋ณผ ์ ์๋ค.
'AI\ML\DL > Deep learning theory' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
2D convolution (Conv2d) ๊ณผ์ ์ ์ดํด (0) 2023.05.28 Batch Normalization (0) 2023.05.11 Logistic Regression (0) 2023.05.08 Backpropagation (1) 2023.05.07 - MSE: $(\frac{1}{1+e^{-w}}-1)^{2}$