Kullback-Leibler (KL) divergence

Kullback-Leibler (KL) divergence

Mathematics/Probability, Information theory 2023. 5. 30. 00:02

반응형

KL Divergence

쿨백-라이블러 발산은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 확률 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피의 차이를 계산한다.

KL divergence는 $D_{\textrm{KL}}(P\parallel Q)$ 로 표현되고, 이는 서로 다른 확률 분포 P와 Q의 statiscal distance를 나타낸다.

KL divergence 가 0인 것은 서로 다른 분포 P와 Q가 완전히 같은 분포일 때만 성립한다.

머신러닝의 Supervised learning 에 상황을 대입하면

Q가 model의 prediction 값이고 P가 label의 분포일 때 분포의 차이를 측정하기 위해서 KL divergence를 metric 으로 사용할 수 있다.

이진분류를 위해 사용하는 대표적인 방법인 logistic regression 의 cost function도 binary cross entropy 를 사용한다.

먼저 이 개념을 이해하기 위해 정보량과 엔트로피의 개념을 알아야 한다.

정보량

확률 p를 가지는 사건 A의 정보량을 self-information (혹은 surpisal) 이라고 한다.

정보이론의 대부 Shannon은 모든 종류의 데이터의 정보량은 비트 (0 또는 1)로 표현할 수 있다고 말했다.

데이터를 인코딩할 정보량은 작을 수록 좋은것이고, 이를 최소한으로 하려면 확률이 높은 데이터 일수록 작은 정보량으로(길이가 작게) 인코딩을 하고, 확률이 낮은 데이터 일수록 높은 정보량으로(길이가 길게) 인코딩을 하면 정보량을 줄일 수 있을 것이다.

즉, 이상적인 최소 정보량은 확률에 반비례해야 할 것이다. $-\textrm{log}(x)$ 함수는 대표적인 반비례 함수이므로 이를 활용할 수 있다.

어떤 메세지 m 에 대한 정보량은 다음과 같이 정의된다.

$$I(m)=\textrm{log}(\frac{1}{p(m)})=-\textrm{log}(p(m))$$

여기서 log 의 밑은 bit(0또는 1)를 고려해서 2이고, 그로 인해 정보량 $I(m)$의 단위는 bit(s) 이다.

예를 들어 확률 $\frac{1}{8}$ 을 가지는 사건에 대한 정보량은 $\textrm{log}(8)=3 bits$ 이 된다.

즉, 이 메세지를 전달하기 위해서는 3bit의 정보량이 필요하다는 것이다.

엔트로피

엔트로피란 'Shannon Entropy' 라고도 불리며 어떤 다수의 메세지 집합 (M) 에 대해서 각각의 정보량을 평균한 값을 의미한다.

엔트로피는 정보를 표현하는 데 필요한 최소한의 평균 자원량이다.

메세지 공간(M) 의 사건들이 Discrete 한 경우

$$H(M)=E[I(M)]=\sum_{m\in M}^{}p(m)I(m)=-\sum_{m\in M}^{}p(m)\textrm{log}p(m)$$

메세지 공간(M) 의 사건들이 Continuous 한 경우

$$H(M)=E[I(M)]=\int p(x)I(x) dx=-\int p(x)ln(p(x))dx$$

모든 변수 x에 대한 적분값으로 기댓값을 계산하는 것이다. 이때 로그의 밑이 2에서 10으로 바뀐다.

엔트로피는 p(x) 들에 대한 함수이다. 이는 평균적인 정보량을 나타내는 함수이며, 데이터를 인코딩하기 위해 평균적으로 필요한 최소 bit 수를 나타낸다.

Cross Entropy and KL Divergence

데이터를 생성하는 source가 어떤 확률로 데이터를 생성하는지 잘 모른다고 가정하자.

만약 실제로 데이터가 분포 p(x) 로부터 생성되는데 우리가 p(x)(실제, ground truth) 에 대해 잘 몰라서 대신 q(x)(예측한 값) 라는 알고있는 분포의 정보를 활용하면 어떻게 될까? 이를 수식으로 나타내면 다음과 같다.

$$H(p,q)=-\sum_{x}^{}p(x)\textrm{log}(q(x))$$

위의 식은 분포 q(x)를 사용해서 인코딩하였지만 실제로 데이터는 p(x) 라는 확률 분포로부터 샘플링되는 경우 사용하는 평균적인 bit 수를 나타낸다.

이를 cross entropy라 한다.

이렇게 만들어진 코드는 엔트로피보다 긴 정보량을 나타낼 것이다.

즉 $H(p)\leq H(p,q)$ 이다.

기계학습에서 logistic regression을 예로 들면 binary cross entropy를 cost function으로 두고 이를 최소화하는 최적화 문제를 푸는데, 이는 결과적으로 데이터가 보여주는 정답 분포(p)와 모델이 예측 분포(q)가 같아지도록 하는 것이다.

KL divergence 는 이상적인 정보량(entropy)와 나의 예측 정보량(cross entropy) 의 차이로, 간단히 말해 '잘못 예측한 정도'이다.

Cross entropy는 Entropy 보다 항상 크고 $p=q$ 일 때만 같으므로 cross entropy로부터 entropy를 뺀 값을 두 분포 사이의 거리처럼 사용할 수 있다. 이를 Kullback-Leibler divergence, KL Divergence, 혹은 Relative entropy라 한다.

<KL Divergence>

$$D_{KL}(p\parallel q)=H(p,q)-H(p)=\sum_{x}^{}(p(x)log\frac{1}{q(x)}-p(x)\textrm{log}\frac{1}{p(x)})=\sum_{x}^{}p(x)\textrm{log}\frac{p(x)}{q(x)}$$

$D_{KL}(p\parallel q)\neq D_{KL}(q\parallel p)$ 이기 때문에 KL Divergence를 정확한 거리함수라고는 볼 수 없다.

하지만 두 분포가 다르면 다를수록 큰 값을 가지며 둘이 일치할때만 0을 갖기 때문에 거리와 비슷한 metric으로 사용될 수 있다.

따라서 Cross entropy minimization 문제는 결국 KL divergence minimization 문제와 동치임을 알 수 있다.

출처:

https://shurain.net/personal-perspective/information-theory/

https://angeloyeo.github.io/2020/10/27/KL_divergence.html

https://reniew.github.io/17/

KL divergence - 공돌이의 수학정리노트 (Angelo's Math Notes)

angeloyeo.github.io

Information Theory — Sungjoo Ha

Information Theory Published on 2017-01-30 Last updated on 2017-01-30 정보이론의 기초 소개. Entropy, KL divergence, cross entropy, conditional entropy, mutual information 소개. 엔트로피는 어떤 분포로부터 생성되는 정보를 인코

shurain.net

ABOUT ME

𝄢 𝄢

KL Divergence

정보량

엔트로피

티스토리툴바