수학/ 점 추정(Point Estimate), 신뢰 구간(Credible Interval)

Point Estimate

•

점추정은 표본의 데이터에서 사용할 수 있는 정보를 기반으로 모집단 파라미터의 실제 값에 가까운 단일값을 말한다.

◦

표본 평균, 표본 비율, MLE, MAP 등이 예가 된다.

•

점 추정 자체는 정확성이나 정밀도에 대한 정보를 제공하지 않기 때문에, 점추정의 신뢰성을 측정하기 위해 신뢰 구간 같은 척도가 사용된다.

Credible Interval

•

posterior의 평균이나 최빈값 같은 점 추정치를 계산한 다음 해당 추정치와 관련된 불확실성을 정량화하는 구간. (빈도주의의 confidence interval과는 다르다).

•

100(1−α)100(1-\alpha)100(1−α)%의 신뢰구간을 영역 C=(ℓ,u)C = (\ell, u)C=(ℓ,u)로 정의하고(lower bound, upper bound), 이 영역에 posterior 확률 질량의 1−α1-\alpha1−α가 포함되게 한다.

◦

예컨대 α=0.05\alpha = 0.05α=0.05이면 95%의 신뢰 구간이 되고, 관찰된 데이터와 모델을 고려할 때 이 구간에 95%의 확률로 실제 파라미터 값을 포함하게 된다.

C_\alpha(\mathcal{D}) \triangleq (\ell, u) : P(\ell \leq \theta \leq u|\mathcal{D}) = 1 - \alpha

Central Interval

•

posterior의 평균이나 최빈값 같은 값을 기준으로 대칭적인 배치된 구간 Central Interval이라고 한다. 일반적으로 분포의 각 꼬리에 (1−α)/2(1-\alpha)/2(1−α)/2 질량이 있는 구간이 설정된다.

◦

만일 posterior가 알려진 함수 형식을 갖는 경우 posterior의 중심 구간은 ℓ=F−1(α/2)\ell = F^{-1}(\alpha/2)ℓ=F−1(α/2)와 u=F−1(1−α/2)u = F^{-1}(1-\alpha/2)u=F−1(1−α/2)를 이용해서 계산할 수 있다. 

◦

여기서 FFF는 posterior의 누적 분포 함수(cdf) 이고 F−1F^{-1}F−1는 inverse cdf이다.

•

일반적으로 posterior의 inverse cdf를 계산하는 것이 어렵기 때문에, posteior의 사분위수에 대한 Monte Carlo 근사를 사용한다.

◦

간단하게 SSS 샘플을 정렬하고 정렬된 리스트에서 α/S\alpha / Sα/S의 위치에 나타나는 샘플을 찾는다. S→∞S \to \inftyS→∞에 따라 실제 사분위수에 수렴하게 된다.

Highest Posterior Density Interval

•

HPDI는 어떤 임계 밀도 이상의 확률을 갖는 점들의 집합을 의미한다. 

•

우선 임계 밀도 p∗p^*p∗는 다음처럼 정의 된다.

◦

p∗p^*p∗는 단순 값이 아니라 밀도이기 때문에, 만일 95%라면, 전체 분포의 95%가 모여있는 구간을 의미하게 된다. 

1 - \alpha = \int_{\theta:p(\theta|\mathcal{D}) > p^*} p(\theta|\mathcal{D}) d\theta

•

그 후 위의 임계값을 이용하여 HPDI를 다음처럼 정의한다.

C_\alpha(\mathcal{D}) \triangleq \{ \theta : p(\theta|\mathcal{D}) \geq p^* \}

참고

•

Probabilistic Machine Learning: An Introduction