수학/ Empirical Bayes

Empirical Bayes

•

hierarchical Bayes를 데이터로부터 파라미터를 추론하는 방법에 대한 모델에서 posterior 추론은 계산적으로 도전적일 수 있다. 따라서 다음과 같이 계산적으로 편리한 근사를 할 수 있다. 

◦

우선 하이퍼파라미터 ξ^\hat{\boldsymbol{\xi}}ξ^​의 점추정을 계산한 후에 결합 posterior p(θ,ξ∣D)p(\boldsymbol{\theta},\boldsymbol{\xi}|\mathcal{D})p(θ,ξ∣D) 대신 조건부 posterior p(θ∣ξ^,D)p(\boldsymbol{\theta}|\hat{\boldsymbol{\xi}}, \mathcal{D})p(θ∣ξ^​,D)을 계산한다. 

•

하이퍼파라미터를 추정하기 위해 다음의 marginal likelihood를 최대화할 수 있다.

\hat{\boldsymbol{\xi}}_\text{mml}(\mathcal{D}) = \argmax_{\boldsymbol{\xi}} p(\mathcal{D}|\boldsymbol{\xi}) = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta}|\boldsymbol{\xi})d\boldsymbol{\theta}

•

이 기법은 파라미터가 아니라 하이퍼파라미터를 최적화하기 때문에 type II maximum likelihood라고 한다. (신경망 맥락에서 이것은 evidence procedure라고 부른다). 

◦

ξ^\hat{\boldsymbol{\xi}}ξ^​을 한 번 계산하면 일반적인 방법에서 posterior p(θ∣ξ^,D)p(\boldsymbol{\theta}|\hat{\boldsymbol{\xi}},\mathcal{D})p(θ∣ξ^​,D)를 계산할 수 있다.

•

데이터로부터 prior를 추정하기 때문에 이 접근을 Empirical Bayes(EB)라고 부른다. 

◦

이것은 prior를 데이터와 독립적으로 선택해야 한다는 원칙을 위반하지만 MAP 추정을 단일 레벨 모델 θ→D\boldsymbol{\theta} \to \mathcal{D}θ→D의 추론에 대한 근사로 본 것처럼 전체 계층적 베이지안 모델의 추론에 대한 계산적으로 저렴한 근사로 볼 수 있다. 

◦

더 많은 적분을 수행할 수록 아래와 같은 ‘more Bayesian’이 된다.

Method	Definition
Maximum likelihood	$\hat{\boldsymbol{\theta}} = \argmax_{\boldsymbol{\theta}} p(\mathcal{D}\|\boldsymbol{\theta})$
MAP estimation	$\hat{\boldsymbol{\theta}} = \argmax_{\boldsymbol{\theta}} p(\mathcal{D}\|\boldsymbol{\theta})p(\boldsymbol{\theta}\|\boldsymbol{\xi})$
ML-II (empirical Bayes)	$\hat{\boldsymbol{\xi}} = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}\|\boldsymbol{\theta})p(\boldsymbol{\theta}\|\boldsymbol{\xi})d\boldsymbol{\theta}$
MAP-II	$\hat{\boldsymbol{\xi}} = \argmax_{\boldsymbol{\xi}} \int p(\mathcal{D}\|\boldsymbol{\theta})p(\boldsymbol{\theta}\|\boldsymbol{\xi})p(\boldsymbol{\xi})d\boldsymbol{\theta}$
Full Bayes	$p(\boldsymbol{\theta},\boldsymbol{\xi}\|\mathcal{D}) \propto p(\mathcal{D}\|\boldsymbol{\theta})p(\boldsymbol{\theta}\|\boldsymbol{\xi})p(\boldsymbol{\xi})$

•

ML-II는 일반적으로 파라미터 θ\boldsymbol{\theta}θ 보다 하이퍼파라미터 ξ\boldsymbol{\xi}ξ가 더 적기 때문에 regular maximum likelihood 보다 과적합 되기 쉬움에 유의하라. 

참고

•

Probabilistic Machine Learning: Advanced Topics