수학/ Information Criteria - MDL, BIC, AIC, WAIC

The Bayesian information criterion (BIC)

Widely applicable information criterion (WAIC)

Information criteria

•

cross validation의 대안은 학습셋의 NLL에 complexity penaly 항을 사용하여 모델에 점수를 매기는 것이다.

\mathcal{L}(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + C(m)

•

이것을 information criterion이라 부른다. 다른 방법은 다른 복잡성 항 C(m)C(m)C(m)을 사용한다. 

◦

information criteria에서 작업할 때 편차(deviance)를 얻기 위해 NLL을 −2-2−2로 스케일하는 것이 일반적이다.

\text{deviance}(m) = -2\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m)

Minimum description length (MDL)

•

information theory의 측면에서 다양한 모델에 점수를 매기는 것의 문제에 관해 생각할 수 있다. 

◦

이것은 가장 간결한(가장 짧은 설명을 요구하는) 모델이 가장 좋은 모델이라는 아이디어를 기반으로 데이터와 모델을 압축하여 표현하는데 필요한 정보의 양을 최소화하는 모델을 선택한다. 이는 정보 이론 관점에서 통신할 때 비트 수가 적을 수록 좋기 때문이다. 

•

목표는 송신자가 수신자에게 데이터를 커뮤니케이션 하는 것이다. 

◦

우선 송신자는 사용할 모델 mmm을 명시해야 한다. 이것은 C(m)=−log⁡p(m)C(m) = -\log p(m)C(m)=−logp(m) bits를 취한다. 

◦

그러면 수신자는 θ^m\hat{\boldsymbol{\theta}}_mθ^m​을 계산하여 모델을 fit할 수 있고 데이터를 근사로 재구성(reconstruct)할 수 있다. 

◦

데이터를 완벽하게 재구성하기 위해 송신자는 모델에 의해 설명될 수 없는 residual error를 보내야 한다. 다음을 취한다.

-L(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) = -\sum_n \log p(\bold{y}_n|\bold{x}_n,\hat{\boldsymbol{\theta}},m)

•

존재하는 경우 입력 feature xn\bold{x}_nxn​을 보내는 비용은 무시하고 전체 비용은

\mathcal{L}_\text{MLD}(m) = -\log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + C(m)

•

이 비용을 최소화하는 모델을 선택하는 것은 minimum description length(MDL) 원칙이라고 한다. MDL도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다.

◦

MDL의 페널티 항 C(m)C(m)C(m)이 모델의 압축된 비트 수이므로 더 작은 비트 수를 가진 모델이 더 낮은 점수를 갖게 되어 더 간결한 모델이 더 나은 모델이라는 개념을 만족하게 된다.

The Bayesian information criterion (BIC)

•

Bayesian information criterion(BIC)는 MDL과 유사하며 다음 형식을 갖는다.

◦

여기서 DmD_mDm​은 모델 mmm의 자유도(degrees of freedom, dof)이다.

\mathcal{L}_\text{BIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + D_m \log N

•

위 식은 손실함수이기 때문에 값이 작을수록 더 좋은 모델를 의미한다. 그러나 log likelihood −2log⁡p(D∣θ^,m)-2\log p(\mathcal{D}|\hat{\boldsymbol{\theta}}, m)−2logp(D∣θ^,m)를 무작정 작게만 만드는 것을 목표로 하면 과적합이 발생할 수 있기 때문에 Dmlog⁡ND_m \log NDm​logN이라는 페널티 항을 추가하여 과적합을 방지하도록 구성한 것이다.

•

BIC 점수를 다음과 같이 log marginal likelihood의 단순 근사로 유도할 수 있다. (유도 과정 생략)

J_\text{BIC}(m) = \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) - {D_m \over 2} \log N

•

여기에 −2-2−2를 곱해서 최소화하기를 원하는 BIC loss를 정의할 수도 있다.

\mathcal{L}_\text{BIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + D_m \log N

Akaike information criterion

•

Akaike information criterion은 BIC와 가깝게 연관되어 있다. 다음의 형식을 갖는다.

\mathcal{L}_\text{AIC}(m) = -2 \log p(\mathcal{D}|\hat{\boldsymbol{\theta}},m) + 2D_m

•

AIC도 손실 함수이므로 값이 낮을 수록 더 좋은 모델을 의미한다. 

◦

BIC의 Dmlog⁡ND_m \log NDm​logN과 마찬가지로 2D2D2D 항이 손실함수의 과적합을 방지하기 위한 페널티 항으로 사용된다.

•

이 모델은 regularization 항이 NNN에 독립이기 때문에 BIC 보다 덜 무겁다. 

◦

이 추정기는 빈도주의 관점에서 유도될 수 있다.

Widely applicable information criterion (WAIC)

•

MDL, BIC와 AIC의 주요 문제는 대부분 파라미터가 높게 연관되어 있고 likelihood에서 고유하게 식별가능하지 않기 때문에 복잡성 항을 정의하는데 필요한 모델의 자유도를 계산하는데 어렵다는 것이다. 

◦

특히 파라미터를 likelihood로 매핑하는 것이 one-to-one이 아니면 모델은 Fisher information 행렬에 해당하기 때문에 singular statistical model로 부른다. 

◦

따라서 헤시안 H\bold{H}H이 singular(행렬식이 0인)가 될 수 있다. widely applicable information criterion(WAIC) (또는 Watanabe-Akaike information criterion이라 불림)이라 부르는 대안은 singular인 경우에도 작동한다. 

•

WAIC는 더 베이지안이라는 것을 제외하면 다른 정보 기준과 같다. 

◦

우선 파라미터의 점 추정을 사용하는 log likelihood L(m)L(m)L(m)을 파라미터들을 marginalize하는 LPPD로 교체한다. 

◦

복잡성 항의 경우 WAIC는 예측 분포의 분산을 사용한다.

\begin{aligned} C(m) &= \sum_{n=1}^N \mathbb{V}_{\boldsymbol{\theta}|\mathcal{D},m}[\log p(\bold{y}_n|\bold{x}_n,\boldsymbol{\theta},m)] \\&\approx \sum_{n=1}^N \mathbb{V}\{\log p(\bold{y}_n|\bold{x}_n,\boldsymbol{\theta}_s,m):s=1:S\} \end{aligned}

•

이것에 대한 직관은 다음과 같다. 

◦

주어진 데이터 포인트 nnn에 대해 다양한 posterior 샘플 θs\boldsymbol{\theta}_sθs​이 매우 다른 예측을 하는 경우 모델은 불확실하고 너무 유연할 수 있다. 복잡성 항은 근본적으로 이것이 발생하는 것을 센다. 

◦

최종 WAIC 손실은 다음과 같다.

\mathcal{L}_\text{WAIC}(m) = -2\text{LPPD}(m) + 2C(m)

•

흥미롭게도 PSIS LOO 추정은 WAIC와 점근적으로(asymptotically) 동등하다고 볼 수 있다.

참고

•

Probabilistic Machine Learning: An Introduction

•

Probabilistic Machine Learning: Advanced Topics