Search
Duplicate

확률, 통계/ NHST, p-values

NHST, p-values

hypothesis testing(가설 검증)에 대한 빈도주의 접근은 귀무 가설의 유의 검사(null hypothesis significance testing, NHST)라 부른다.
이것은 null 모델의 샘플링 분포 하에서 어떤 관찰된 검정(test) 통계 t(D)t(\mathcal{D})의 가능성 여부에 따라 null 가설 H0H_0를 수용(accept)할지 거절(reject)할지를 결정하는 결정 절차를 정의한다.
null 가설을 수용하거나 거절하는 대신 null 가설이 사실일 가능성과 관련된 수량을 계산할 수 있다. 특히 다음과 같이 정의되는 p-value라는 수량을 계산할 수 있다.
pval(t(D))Pr(t(D~)t(D)D~H0)\text{pval}(t(\mathcal{D})) \triangleq \text{Pr}(t(\tilde{\mathcal{D}}) \ge t(\mathcal{D})|\tilde{\mathcal{D}} \sim H_0)
여기서 D~H0\tilde{\mathcal{D}} \sim H_0은 가상의 미래 데이터이다. 즉 p-값이 샘플링 분포 아래 t(D)t(\mathcal{D}) 값을 관찰할 수 있는 꼬리 확률이다.
p값은 데이터의 모델에 명시적으로 의존하지 않는다. 그러나 대부분 일반적인 검정 통계량은 암시적으로 모델을 정의한다.
p-value는 귀무가설의 검정 통계량 test(D~)\text{test}(\tilde{\mathcal{D}}) 값이 현재 관찰된 데이터의 검정 통계량 test(D)\text{test}(\mathcal{D}) 값보다 극단적인 값을 가질 확률을 나타낸다.
만약 p-value가 매우 작다면 현재 관찰된 데이터 D\mathcal{D}가 귀무가설 H0H_0에서 발생할 확률이 매우 낮다는 것을 의미하게 되고, 결국 귀무가설을 기각하게 된다.
일반적으로는 p-value가 α=0.05\alpha=0.05보다 작을 때 귀무가설을 기각하며, 이것을 검정의 유의 레벨(significance level)이라고 한다.

p-values의 문제

p값은 종종 null 가설 하의 데이터의 likelihood로 해석된다. 따라서 값이 작으면 H0H_0의 가능성이 낮고 따라서 H1H_1의 가능성이 높다는 의미로 해석된다. 이유는 대략적으로 아래와 같다.
H0H_0이 참이면 검정 통계량은 발생하지 않을 것이다. 그러나 통계가 발생했다. 따라서 H0H_0은 거짓일 가능성이 높다.
그러나 잘못된 추론이다. 왜 그런지 보기 위해 다음 예제를 보자.
사람이 미국인이면, 그는 아마도 congress(의회) 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 미국인이 아니다.
이것은 명백히 잘못된 추론이다. 대조적으로 다음은 유효한 추론이다.
사람이 화성인이면 congress 멤버가 아닐 것이다. 이 사람은 congress 멤버이다. 따라서 그는 화성인이 아니다.
두 사례의 차이는 화성인 예제는 deduction(연역)을 사용했다는 것이다. 즉, 논리적 정의로부터 결론까지 정방향 추론을 했다. 더 정확하게 이 예제는 modus tollen이라 부르는 논리의 규칙을 사용한다. PQP \Rightarrow Q 형식의 정의에서 시작하여 ¬Q\neg Q를 관찰하면 ¬P\neg P를 결론 내릴 수 있다.
대조적으로 미국인 예제는 induction(귀납)이다. 즉 논리적 정의가 아니라 통계적 규칙성을 사용하여 관찰된 증거로부터 가능성 있는(반드시 참은 아니지만) 원인으로 역방향 추론이다.
연역을 수행하기 위해 확률론적 추론을 사용해야 한다. 특히 null 가설의 확률을 계산하기 위해 다음과 같이 베이즈 룰을 사용해야 한다.
p(H0D)=p(DH0)p(H0)p(DH0)p(H0)+p(DH1)p(H1)p(H_0|\mathcal{D}) = {p(\mathcal{D}|H_0)p(H_0) \over p(\mathcal{D}|H_0)p(H_0) + p(\mathcal{D}|H_1)p(H_1)}
prior가 균등하면 따라서 p(H0)=p(H1)=0.5p(H_0) = p(H_1) = 0.5이면 다음과 같이 likelihood ratio LR=p(DH0)/p(DH1)LR = p(\mathcal{D}|H_0)/p(\mathcal{D}|H_1)의 형식으로 재작성할 수 있다.
p(H0D)=LRLR+1p(H_0|\mathcal{D}) = {LR \over LR+1}
미국인 예에서 D\mathcal{D}는 사람이 congress 멤버인지에 대한 관찰이고 null 가설 H0H_0는 사람이 미국인이라는 것이고 대안 가설 H1H_1은 미국인이 아니라는 것이다.
대부분의 미국인이 congress 멤버가 아니기 때문에 p(DH0)p(\mathcal{D}|H_0)이 낮다고 가정한다. 그러나 p(DH1)p(\mathcal{D}|H_1) 또한 낮다. —사실 이 예에서 0이다. 미국인만 congress 멤버가 될 수 있기 때문이다. 따라서 직관적으로 알 수 있듯이 LR=LR = \infty 이므로 p(H0D)=1.0p(H_0|\mathcal{D}) = 1.0이다.
이제 NHST는 p(DH1)p(\mathcal{D}|H_1) 뿐만 아니라 prior p(H0)p(H_0)도 무시하므로 이 문제 뿐만이 아니라 많은 문제에서 잘못된 결과를 제공한다.
사실 대부분 과학자들도 p-value를 오해한다. 결과적으로 저널 The Americal Statistication은 p-value와 NHST의 사용을 경고하는 특별호를 발행했으며, 몇몇 저널에서는 p-value를 금지 하기도 했다.

참고