-
Kullback-Leibler (KL) divergenceMathematics/Probability, Information theory 2023. 5. 30. 00:02๋ฐ์ํ
KL Divergence
์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ์ ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ ๋ฐ์ ์ฌ์ฉํ๋ ํจ์๋ก, ์ด๋ค ์ด์์ ์ธ ํ๋ฅ ๋ถํฌ์ ๋ํด, ๊ทธ ๋ถํฌ๋ฅผ ๊ทผ์ฌํ๋ ๋ค๋ฅธ ๋ถํฌ๋ฅผ ์ฌ์ฉํด ์ํ๋ง์ ํ๋ค๋ฉด ๋ฐ์ํ ์ ์๋ ์ ๋ณด ์ํธ๋กํผ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ค.
KL divergence๋ $D_{\textrm{KL}}(P\parallel Q)$ ๋ก ํํ๋๊ณ , ์ด๋ ์๋ก ๋ค๋ฅธ ํ๋ฅ ๋ถํฌ P์ Q์ statiscal distance๋ฅผ ๋ํ๋ธ๋ค.
KL divergence ๊ฐ 0์ธ ๊ฒ์ ์๋ก ๋ค๋ฅธ ๋ถํฌ P์ Q๊ฐ ์์ ํ ๊ฐ์ ๋ถํฌ์ผ ๋๋ง ์ฑ๋ฆฝํ๋ค.
๋จธ์ ๋ฌ๋์ Supervised learning ์ ์ํฉ์ ๋์ ํ๋ฉด
Q๊ฐ model์ prediction ๊ฐ์ด๊ณ P๊ฐ label์ ๋ถํฌ์ผ ๋ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๊ธฐ ์ํด์ KL divergence๋ฅผ metric ์ผ๋ก ์ฌ์ฉํ ์ ์๋ค.
์ด์ง๋ถ๋ฅ๋ฅผ ์ํด ์ฌ์ฉํ๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ธ logistic regression ์ cost function๋ binary cross entropy ๋ฅผ ์ฌ์ฉํ๋ค.
๋จผ์ ์ด ๊ฐ๋ ์ ์ดํดํ๊ธฐ ์ํด ์ ๋ณด๋๊ณผ ์ํธ๋กํผ์ ๊ฐ๋ ์ ์์์ผ ํ๋ค.
์ ๋ณด๋
ํ๋ฅ p๋ฅผ ๊ฐ์ง๋ ์ฌ๊ฑด A์ ์ ๋ณด๋์ self-information (ํน์ surpisal) ์ด๋ผ๊ณ ํ๋ค.
์ ๋ณด์ด๋ก ์ ๋๋ถ Shannon์ ๋ชจ๋ ์ข ๋ฅ์ ๋ฐ์ดํฐ์ ์ ๋ณด๋์ ๋นํธ (0 ๋๋ 1)๋ก ํํํ ์ ์๋ค๊ณ ๋งํ๋ค.
๋ฐ์ดํฐ๋ฅผ ์ธ์ฝ๋ฉํ ์ ๋ณด๋์ ์์ ์๋ก ์ข์๊ฒ์ด๊ณ , ์ด๋ฅผ ์ต์ํ์ผ๋ก ํ๋ ค๋ฉด ํ๋ฅ ์ด ๋์ ๋ฐ์ดํฐ ์ผ์๋ก ์์ ์ ๋ณด๋์ผ๋ก(๊ธธ์ด๊ฐ ์๊ฒ) ์ธ์ฝ๋ฉ์ ํ๊ณ , ํ๋ฅ ์ด ๋ฎ์ ๋ฐ์ดํฐ ์ผ์๋ก ๋์ ์ ๋ณด๋์ผ๋ก(๊ธธ์ด๊ฐ ๊ธธ๊ฒ) ์ธ์ฝ๋ฉ์ ํ๋ฉด ์ ๋ณด๋์ ์ค์ผ ์ ์์ ๊ฒ์ด๋ค.
์ฆ, ์ด์์ ์ธ ์ต์ ์ ๋ณด๋์ ํ๋ฅ ์ ๋ฐ๋น๋กํด์ผ ํ ๊ฒ์ด๋ค. $-\textrm{log}(x)$ ํจ์๋ ๋ํ์ ์ธ ๋ฐ๋น๋ก ํจ์์ด๋ฏ๋ก ์ด๋ฅผ ํ์ฉํ ์ ์๋ค.
์ด๋ค ๋ฉ์ธ์ง m ์ ๋ํ ์ ๋ณด๋์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$$I(m)=\textrm{log}(\frac{1}{p(m)})=-\textrm{log}(p(m))$$
์ฌ๊ธฐ์ log ์ ๋ฐ์ bit(0๋๋ 1)๋ฅผ ๊ณ ๋ คํด์ 2์ด๊ณ , ๊ทธ๋ก ์ธํด ์ ๋ณด๋ $I(m)$์ ๋จ์๋ bit(s) ์ด๋ค.
์๋ฅผ ๋ค์ด ํ๋ฅ $\frac{1}{8}$ ์ ๊ฐ์ง๋ ์ฌ๊ฑด์ ๋ํ ์ ๋ณด๋์ $\textrm{log}(8)=3 bits$ ์ด ๋๋ค.
์ฆ, ์ด ๋ฉ์ธ์ง๋ฅผ ์ ๋ฌํ๊ธฐ ์ํด์๋ 3bit์ ์ ๋ณด๋์ด ํ์ํ๋ค๋ ๊ฒ์ด๋ค.
์ํธ๋กํผ
์ํธ๋กํผ๋ 'Shannon Entropy' ๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ ์ด๋ค ๋ค์์ ๋ฉ์ธ์ง ์งํฉ (M) ์ ๋ํด์ ๊ฐ๊ฐ์ ์ ๋ณด๋์ ํ๊ท ํ ๊ฐ์ ์๋ฏธํ๋ค.
์ํธ๋กํผ๋ ์ ๋ณด๋ฅผ ํํํ๋ ๋ฐ ํ์ํ ์ต์ํ์ ํ๊ท ์์๋์ด๋ค.
๋ฉ์ธ์ง ๊ณต๊ฐ(M) ์ ์ฌ๊ฑด๋ค์ด Discrete ํ ๊ฒฝ์ฐ
$$H(M)=E[I(M)]=\sum_{m\in M}^{}p(m)I(m)=-\sum_{m\in M}^{}p(m)\textrm{log}p(m)$$
๋ฉ์ธ์ง ๊ณต๊ฐ(M) ์ ์ฌ๊ฑด๋ค์ด Continuous ํ ๊ฒฝ์ฐ
$$H(M)=E[I(M)]=\int p(x)I(x) dx=-\int p(x)ln(p(x))dx$$
๋ชจ๋ ๋ณ์ x์ ๋ํ ์ ๋ถ๊ฐ์ผ๋ก ๊ธฐ๋๊ฐ์ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ์ด๋ ๋ก๊ทธ์ ๋ฐ์ด 2์์ 10์ผ๋ก ๋ฐ๋๋ค.
์ํธ๋กํผ๋ p(x) ๋ค์ ๋ํ ํจ์์ด๋ค. ์ด๋ ํ๊ท ์ ์ธ ์ ๋ณด๋์ ๋ํ๋ด๋ ํจ์์ด๋ฉฐ, ๋ฐ์ดํฐ๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ํ๊ท ์ ์ผ๋ก ํ์ํ ์ต์ bit ์๋ฅผ ๋ํ๋ธ๋ค.
Cross Entropy and KL Divergence
๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ source๊ฐ ์ด๋ค ํ๋ฅ ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋์ง ์ ๋ชจ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์.
๋ง์ฝ ์ค์ ๋ก ๋ฐ์ดํฐ๊ฐ ๋ถํฌ p(x) ๋ก๋ถํฐ ์์ฑ๋๋๋ฐ ์ฐ๋ฆฌ๊ฐ p(x)(์ค์ , ground truth) ์ ๋ํด ์ ๋ชฐ๋ผ์ ๋์ q(x)(์์ธกํ ๊ฐ) ๋ผ๋ ์๊ณ ์๋ ๋ถํฌ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ์ด๋ป๊ฒ ๋ ๊น? ์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$$H(p,q)=-\sum_{x}^{}p(x)\textrm{log}(q(x))$$
์์ ์์ ๋ถํฌ q(x)๋ฅผ ์ฌ์ฉํด์ ์ธ์ฝ๋ฉํ์์ง๋ง ์ค์ ๋ก ๋ฐ์ดํฐ๋ p(x) ๋ผ๋ ํ๋ฅ ๋ถํฌ๋ก๋ถํฐ ์ํ๋ง๋๋ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ ํ๊ท ์ ์ธ bit ์๋ฅผ ๋ํ๋ธ๋ค.
์ด๋ฅผ cross entropy๋ผ ํ๋ค.
์ด๋ ๊ฒ ๋ง๋ค์ด์ง ์ฝ๋๋ ์ํธ๋กํผ๋ณด๋ค ๊ธด ์ ๋ณด๋์ ๋ํ๋ผ ๊ฒ์ด๋ค.
์ฆ $H(p)\leq H(p,q)$ ์ด๋ค.
๊ธฐ๊ณํ์ต์์ logistic regression์ ์๋ก ๋ค๋ฉด binary cross entropy๋ฅผ cost function์ผ๋ก ๋๊ณ ์ด๋ฅผ ์ต์ํํ๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํธ๋๋ฐ, ์ด๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๋ณด์ฌ์ฃผ๋ ์ ๋ต ๋ถํฌ(p)์ ๋ชจ๋ธ์ด ์์ธก ๋ถํฌ(q)๊ฐ ๊ฐ์์ง๋๋ก ํ๋ ๊ฒ์ด๋ค.
KL divergence ๋ ์ด์์ ์ธ ์ ๋ณด๋(entropy)์ ๋์ ์์ธก ์ ๋ณด๋(cross entropy) ์ ์ฐจ์ด๋ก, ๊ฐ๋จํ ๋งํด '์๋ชป ์์ธกํ ์ ๋'์ด๋ค.
Cross entropy๋ Entropy ๋ณด๋ค ํญ์ ํฌ๊ณ $p=q$ ์ผ ๋๋ง ๊ฐ์ผ๋ฏ๋ก cross entropy๋ก๋ถํฐ entropy๋ฅผ ๋บ ๊ฐ์ ๋ ๋ถํฌ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ฒ๋ผ ์ฌ์ฉํ ์ ์๋ค. ์ด๋ฅผ Kullback-Leibler divergence, KL Divergence, ํน์ Relative entropy๋ผ ํ๋ค.
<KL Divergence>
$$D_{KL}(p\parallel q)=H(p,q)-H(p)=\sum_{x}^{}(p(x)log\frac{1}{q(x)}-p(x)\textrm{log}\frac{1}{p(x)})=\sum_{x}^{}p(x)\textrm{log}\frac{p(x)}{q(x)}$$
$D_{KL}(p\parallel q)\neq D_{KL}(q\parallel p)$ ์ด๊ธฐ ๋๋ฌธ์ KL Divergence๋ฅผ ์ ํํ ๊ฑฐ๋ฆฌํจ์๋ผ๊ณ ๋ ๋ณผ ์ ์๋ค.
ํ์ง๋ง ๋ ๋ถํฌ๊ฐ ๋ค๋ฅด๋ฉด ๋ค๋ฅผ์๋ก ํฐ ๊ฐ์ ๊ฐ์ง๋ฉฐ ๋์ด ์ผ์นํ ๋๋ง 0์ ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ฑฐ๋ฆฌ์ ๋น์ทํ metric์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค.
๋ฐ๋ผ์ Cross entropy minimization ๋ฌธ์ ๋ ๊ฒฐ๊ตญ KL divergence minimization ๋ฌธ์ ์ ๋์น์์ ์ ์ ์๋ค.
์ถ์ฒ:
https://shurain.net/personal-perspective/information-theory/
https://angeloyeo.github.io/2020/10/27/KL_divergence.html
KL divergence - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ (Angelo's Math Notes)
angeloyeo.github.io
Information Theory — Sungjoo Ha
Information Theory Published on 2017-01-30 Last updated on 2017-01-30 ์ ๋ณด์ด๋ก ์ ๊ธฐ์ด ์๊ฐ. Entropy, KL divergence, cross entropy, conditional entropy, mutual information ์๊ฐ. ์ํธ๋กํผ๋ ์ด๋ค ๋ถํฌ๋ก๋ถํฐ ์์ฑ๋๋ ์ ๋ณด๋ฅผ ์ธ์ฝ
shurain.net