수학/ NHST, p-values

NHST, p-values

•

hypothesis testing(가설 검증)에 대한 빈도주의 접근은 귀무 가설의 유의 검사(null hypothesis significance testing, NHST)라 부른다. 

◦

이것은 null 모델의 샘플링 분포 하에서 어떤 관찰된 검정(test) 통계 t(D)t(\mathcal{D})t(D)의 가능성 여부에 따라 null 가설 H0H_0H0​를 수용(accept)할지 거절(reject)할지를 결정하는 결정 절차를 정의한다. 

•

null 가설을 수용하거나 거절하는 대신 null 가설이 사실일 가능성과 관련된 수량을 계산할 수 있다. 특히 다음과 같이 정의되는 p-value라는 수량을 계산할 수 있다.

\text{pval}(t(\mathcal{D})) \triangleq \text{Pr}(t(\tilde{\mathcal{D}}) \ge t(\mathcal{D})|\tilde{\mathcal{D}} \sim H_0)

•

여기서 D~∼H0\tilde{\mathcal{D}} \sim H_0D~∼H0​은 가상의 미래 데이터이다. 즉 p-값이 샘플링 분포 아래 t(D)t(\mathcal{D})t(D) 값을 관찰할 수 있는 꼬리 확률이다.

◦

p값은 데이터의 모델에 명시적으로 의존하지 않는다. 그러나 대부분 일반적인 검정 통계량은 암시적으로 모델을 정의한다.

•

p-value는 귀무가설의 검정 통계량 test(D~)\text{test}(\tilde{\mathcal{D}})test(D~) 값이 현재 관찰된 데이터의 검정 통계량 test(D)\text{test}(\mathcal{D})test(D) 값보다 극단적인 값을 가질 확률을 나타낸다.

◦

만약 p-value가 매우 작다면 현재 관찰된 데이터 D\mathcal{D}D가 귀무가설 H0H_0H0​에서 발생할 확률이 매우 낮다는 것을 의미하게 되고, 결국 귀무가설을 기각하게 된다.

◦

일반적으로는 p-value가 α=0.05\alpha=0.05α=0.05보다 작을 때 귀무가설을 기각하며, 이것을 검정의 유의 레벨(significance level)이라고 한다. 

p-values의 문제

•

p값은 종종 null 가설 하의 데이터의 likelihood로 해석된다. 따라서 값이 작으면 H0H_0H0​의 가능성이 낮고 따라서 H1H_1H1​의 가능성이 높다는 의미로 해석된다. 이유는 대략적으로 아래와 같다.

H0H_0H0​이 참이면 검정 통계량은 발생하지 않을 것이다. 그러나 통계가 발생했다. 따라서 H0H_0H0​은 거짓일 가능성이 높다.

•

그러나 잘못된 추론이다. 왜 그런지 보기 위해 다음 예제를 보자.

사람이 미국인이면, 그는 아마도 congress(의회) 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 미국인이 아니다.

•

이것은 명백히 잘못된 추론이다. 대조적으로 다음은 유효한 추론이다.

사람이 화성인이면 congress 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 화성인이 아니다.

•

두 사례의 차이는 화성인 예제는 deduction(연역)을 사용했다는 것이다. 즉, 논리적 정의로부터 결론까지 정방향 추론을 했다. 더 정확하게 이 예제는 modus tollen이라 부르는 논리의 규칙을 사용한다. P⇒QP \Rightarrow QP⇒Q 형식의 정의에서 시작하여 ¬Q\neg Q¬Q를 관찰하면 ¬P\neg P¬P를 결론 내릴 수 있다. 

◦

대조적으로 미국인 예제는 induction(귀납)이다. 즉 논리적 정의가 아니라 통계적 규칙성을 사용하여 관찰된 증거로부터 가능성 있는(반드시 참은 아니지만) 원인으로 역방향 추론이다.

•

연역을 수행하기 위해 확률론적 추론을 사용해야 한다. 특히 null 가설의 확률을 계산하기 위해 다음과 같이 베이즈 룰을 사용해야 한다.

p(H_0|\mathcal{D}) = {p(\mathcal{D}|H_0)p(H_0) \over p(\mathcal{D}|H_0)p(H_0) + p(\mathcal{D}|H_1)p(H_1)}

•

prior가 균등하면 따라서 p(H0)=p(H1)=0.5p(H_0) = p(H_1) = 0.5p(H0​)=p(H1​)=0.5이면 다음과 같이 likelihood ratio LR=p(D∣H0)/p(D∣H1)LR = p(\mathcal{D}|H_0)/p(\mathcal{D}|H_1)LR=p(D∣H0​)/p(D∣H1​)의 형식으로 재작성할 수 있다.

p(H_0|\mathcal{D}) = {LR \over LR+1}

•

미국인 예에서 D\mathcal{D}D는 사람이 congress 멤버인지에 대한 관찰이고 null 가설 H0H_0H0​는 사람이 미국인이라는 것이고 대안 가설 H1H_1H1​은 미국인이 아니라는 것이다. 

◦

대부분의 미국인이 congress 멤버가 아니기 때문에 p(D∣H0)p(\mathcal{D}|H_0)p(D∣H0​)이 낮다고 가정한다. 그러나 p(D∣H1)p(\mathcal{D}|H_1)p(D∣H1​) 또한 낮다. —사실 이 예에서 0이다. 미국인만 congress 멤버가 될 수 있기 때문이다. 따라서 직관적으로 알 수 있듯이 LR=∞LR = \inftyLR=∞ 이므로 p(H0∣D)=1.0p(H_0|\mathcal{D}) = 1.0p(H0​∣D)=1.0이다.

•

이제 NHST는 p(D∣H1)p(\mathcal{D}|H_1)p(D∣H1​) 뿐만 아니라 prior p(H0)p(H_0)p(H0​)도 무시하므로 이 문제 뿐만이 아니라 많은 문제에서 잘못된 결과를 제공한다. 

◦

사실 대부분 과학자들도 p-value를 오해한다. 결과적으로 저널 The Americal Statistication은 p-value와 NHST의 사용을 경고하는 특별호를 발행했으며, 몇몇 저널에서는 p-value를 금지 하기도 했다.

참고

•

Probabilistic Machine Learning: Advanced Topics