Search
Duplicate

확률, 통계/ 확률 공간, 확률 공리

확률 공간(Probability space)

확률 공간을 triple (Ω,F,P)(\Omega, \mathcal{F}, \mathbb{P})로 정의한다.
여기서 Ω\Omega는 표본 공간(sample space)라고 하며, 실험으로부터 가능한 결과의 집합을 의미하고,
F\mathcal{F}는 사건 공간(event space)라고 하며, Ω\Omega의 가능한 모든 부분집합의 집합을 의미하고,
P\mathbb{P}는 확률 측정(probability measure)라고 하며, 사건 EΩE \subseteq \Omega을 숫자 [0,1][0,1]로 매핑하는 것을 의미한다. (즉 P:F[0,1]\mathbb{P} : \mathcal{F} \to [0,1])

이산 확률 변수

‘A’,’B’,’C’ 3개 면을 가진 주사위가 있다고 하자. 이 주사위의 표본 공간은 아래와 같고 모든 가능한 ‘실험’ 결과를 표현한다.
Ω={A,B,C}\Omega = \{A,B,C\}
사건 공간은 표본 공간의 부분 집합이므로 아래와 같다.
F={,{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}}\mathcal{F} = \{\empty, \{A\}, \{B\}, \{C\}, \{A,B\},\{A,C\},\{B,C\},\{A,B,C\}\}
사건은 사건 공간의 요소이다.
예컨대 E1={A,B}E_1 = \{A,B\}은 주사위의 면이 AABB가 나타나는 결과를 표현하고 E2={C}E_2 = \{C\}는 주사위 면이 CC가 나타나는 것을 표현한다.
확률 측정은 사건 공간에서 각 집합의 ‘크기’나 ‘가중치’를 계산하는 방법으로 정의할 수 있다. 예컨대 위 주사위에 대해 원자적 사건의 확률을 아래와 같이 정의한다고 하자.
P[{A}]=26, P[{B}]=16, P[{C}]=36\mathbb{P}[\{A\}] = {2\over6}, \ \mathbb{P}[\{B\}] = {1\over6}, \ \mathbb{P}[\{C\}] = {3\over6}
그러면 다른 사건의 확률에 대한 측정을 위의 확률을 이용해서 유도할 수 있다.
예컨대 P[{A,B}]=26+16=12\mathbb{P}[\{A,B\}] = {2\over6} + {1\over6} = {1\over2}
사건 공간에서 가능한 결과에 할당되는 숫자를 확률 변수(random variable)로 정의할 수 있다. 여기서 함수 X:ΩRX : \Omega \to \mathbb{R}은 결과 ωΩ\omega \in \Omega를 실수선 위의 숫자 X(ω)X(\omega)에 매핑한다.
예컨대 3면 주사위에 대한 확률 변수 XX를 다음과 같이 정의할 수 있다
X(A)=1X(B)=2X(C)=3X(A) = 1\\ X(B) = 2\\ X(C) = 3
공정한 동전을 2번 던지는 실험을 가정하자. HH를 동전의 앞면, TT를 동전의 뒷면이라 하면 표본 공간은 다음과 같이 정의할 수 있다.
Ω={ω1=(H,H),ω2=(H,T),ω3=(T,H),ω4=(T,T)}\Omega = \{\omega_1 = (H,H), \omega_2 = (H,T), \omega_3 = (T,H), \omega_4 = (T,T)\}
이때 XX를 앞면의 수를 나타내는 확률 변수라 하면 다음과 같이 정의된다.
X(ω1)=2X(ω2)=1X(ω3)=1X(ω4)=0X(\omega_1) = 2\\ X(\omega_2) = 1\\ X(\omega_3) = 1\\ X(\omega_4) = 0
확률변수의 가능한 값들의 집합을 상태 공간(state space)로 정의하고 X(Ω)=XX(\Omega) = \mathcal{X}로 표기한다. 다음과 같이 모든 주어진 상태의 확률을 정의할 수 있다.
pX(a)=P[X=a]=P[X1(a)]p_X(a) = \mathbb{P}[X=a] = \mathbb{P}[X^{-1}(a)]
여기서 X1(a)={ωΩX(ω)=a}X^{-1}(a) = \{\omega \in \Omega|X(\omega) = a\}aa의 역상(pre-image)이다.
pXp_X는 확률 변수 XX에 대한 확률 질량 함수(probability mass function, pmf)라 부른다. 동전을 2번 뒤집는 예에서 pmf는 다음과 같다.
pX(0)=P[{(T,T)}]=14pX(1)=P[{(T,H),(H,T)}]=24pX(2)=P[{(H,H)}]=14\begin{aligned} p_X(0) &= \mathbb{P}[\{(T,T)\}] = {1\over4}\\p_X(1) &= \mathbb{P}[\{(T,H),(H,T)\}] = {2\over4}\\p_X(2) &= \mathbb{P}[\{(H,H)\}] = {1\over4} \end{aligned}
pmf는 histogram이나 어떤 parametric 함수로 표현할 수 있다.
pXp_X를 확률 변수 XX에 대한 확률 분포(probability distribution)이라 부른다. 문맥상 분명한 경우 종종 pXp_X에서 XX 첨자를 제거한다.

연속 확률 변수

연속 결과의 실험의 경우 표본 공간은 실수의 부분 집합 ΩR\Omega \subseteq \mathbb{R}이라 가정하고, 각 연속 확률 변수를 항등 함수(identify function) X(ω)=ωX(\omega) = \omega로 정의한다.
예컨대 어떤 사건(초에서)의 duration을 측정하는 것을 고려하자. 샘플 공간을 다음과 같이 정의할 수 있다.
Ω={t:0tTmax}\Omega = \{t:0\le t \le T_{\max}\}
이것은 uncountable set으로 이산일 때와 달리 모든 가능한 부분집합을 열거하여 정의할 수 없다. 대신 이벤트 공간을 Borel sigma-field (또는 Borel sigma-algebra 라고 불리는)의 측면에서 정의해야 한다.
F\mathcal{F}가 다음을 만족하면 σ\sigma-field라고 한다.
1.
F\empty \in \mathcal{F}이고 ΩF\Omega \in \mathcal{F}
2.
F\mathcal{F}가 여집합에 대해 닫혀 있다. 따라서 EFE \in \mathcal{F}라면 EcFE^c \in \mathcal{F}
3.
F\mathcal{F}는 가산 합집합과 교집합에 닫혀 있다. 즉 i=1EiF\cup_{i=1}^{\infty} E_i \in \mathcal{F}이고 i=1EiF\cap_{i=1}^{\infty} E_i \in \mathcal{F}E1,E2,...FE_1,E_2,... \in \mathcal{F}.
σ\sigma-field인 F\mathcal{F} 중에 (,b]={x:<xb}(-\infty,b] = \{x:-\infty < x \le b\}형태의 반-닫힌 구간(semi closed interval)으로부터 생성된 것을 Borel σ\sigma-field라고 하고 B\mathcal{B}라 표기한다.
이러한 구간들의 합집합, 교집합, 여집합을 취하여 B\mathcal{B}가 다음과 같은 집합을 포함하고 있음을 알 수 있다.
(a,b),[a,b],(a,b],[a,b],{b},ab(a, b),[a,b],(a,b],[a,b],\{b\}, -\infty \le a \le b \le \infty
위 예에서 사건 공간을 하한이 00이고 상한이 Tmax\le T_{\max}인 구간만 포함하도록 추가로 제한할 수 있다.
확률 측정을 정의하기 위해 각 xΩx \in \Omega에 대한 가중치 함수 pX(x)0p_X(x) \ge 0를 정의한다. 이것을 확률 밀도 함수(probability density function, pdf)라고 한다. 그러면 다음을 사용하여 이벤트 E=[a,b]E=[a,b]의 확률을 유도할 수 있다.
P([a,b])=EdP=abp(x)dx\mathbb{P}([a,b]) = \int_E d\mathbb{P} = \int_a^b p(x) dx
또한 다음과 같이 확률 변수 XX에 대한 누적 분포 함수(cumulative distribution fuction, cdf)를 정의할 수 있다.
PX(x)P[Xx]=xpX(x)dxP_X(x) \triangleq \mathbb{P}[X\le x] = \int_{-\infty}^x p_X(x')dx'
이것으로부터 다음과 같이 구간의 확률을 계산할 수 있다.
P([a,b])=p(aXb)=PX(b)PX(a)\mathbb{P}([a,b]) = p(a\le X \le b) = P_X(b) - P_X(a)
위의 정의를 다차원 공간 ΩRn\Omega \subseteq \mathbb{R}^n 뿐만 아니라 함수 같은 더 복잡한 샘플 공간으로 일반화할 수 있다.
‘확률 분포’라는 용어는 pdf pXp_X나 cdf PXP_X나 확률 측정 P\mathbb{P}를 의미할 수 있다.

확률 공리(Probability Aximoms)

확률 공리는 다음의 3가지이다.
음이 아님(Non-negativity): P[E]0\mathbb{P}[E]\ge 0 for any EΩE \subseteq\Omega
정규화(Normalization): P[Ω]=1\mathbb{P}[\Omega] = 1
가산성(Additivity): 쌍별 분리된 집합의 모든 countable 시퀀스 {E1,E2,...,}\{E_1,E_2,...,\}에 대해 다음이 성립한다.
P[i=1Ei]=i=1P[Ei]\mathbb{P}[\cup_{i=1}^\infty E_i] = \sum_{i=1}^\infty \mathbb{P}[E_i]
2개의 분리된 집합 E1,E2E_1, E_2만 갖는 유한한 경우에 다음이 된다.
P[E1E2]=P[E1]+P[E2]\mathbb{P}[E_1 \cup E_2] = \mathbb{P}[E_1] + \mathbb{P}[E_2]
이것은 상호 간에 배타적이라는 가정 하에 E1E2E_1 \vee E_2의 확률에 해당한다.
이 공리로부터 여집합(complement) 규칙을 유도할 수 있다.
P[Ec]=1P[E]\mathbb{P}[E^c] = 1 - \mathbb{P}[E]
여기서 Ec=Ω\EE^c = \Omega \backslash EEE의 여집합이다.
이것은 P[Ω]=1=P[EEc]=P[E]+P[Ec]\mathbb{P}[\Omega] = 1 = \mathbb{P}[E\cup E^c] = \mathbb{P}[E] + \mathbb{P}[E^c]이기 때문이다.
또한 P[E]1\mathbb{P}[E] \le 1P[]=0\mathbb{P}[\empty] = 0임을 보일 수 있다.
가산 규칙(addition rule)이라 불리는 다음의 결과를 보일 수 있다.
P[E1E2]=P[E1]+P[E2]P[E1E2]\mathbb{P}[E_1 \cup E_2] = \mathbb{P}[E_1] + \mathbb{P}[E_2] - \mathbb{P}[E_1 \cap E_2]

Conditional probability

2개의 사건 E1,E2E_1, E_2에 대해 P[E2]0\mathbb{P}[E_2] \ne 0이면, 다음과 같이 주어진 E2E_2에 대해 E1E_1의 조건부 확률(conditional probability)을 정의할 수 있다.
P[E1E2]P[E1E2]P[E2]\mathbb{P}[E_1|E_2] \triangleq {\mathbb{P}[E_1 \cap E_2] \over \mathbb{P}[E_2]}
이것으로부터 곱 규칙(multiplication rule)을 얻을 수 있다.
P[E1E2]=P[E1E2]P[E2]=P[E2E1]P[E1]\mathbb{P}[E_1 \cap E_2] = \mathbb{P}[E_1|E_2]\mathbb{P}[E_2] = \mathbb{P}[E_2|E_1]\mathbb{P}[E_1]
조건부 확률은 E2E_2가 발생했을 때 E1E_1가 발생할 가능성을 측정한다. 그러나 사건이 연관되어 있지 않으면 확률은 변하지 않는다. 이것을 형식적으로 E1E_1E2E_2가 독립 사건(independent event)라고 한다.
P[E1E2]=P[E1]P[E2]\mathbb{P}[E_1 \cap E_2] = \mathbb{P}[E_1]\mathbb{P}[E_2]
P[E1]>0\mathbb{P}[E_1] >0이고 P[E2]>0\mathbb{P}[E_2] >0이면 P[E1E2]=P[E1]\mathbb{P}[E_1|E_2] = \mathbb{P}[E_1]이거나 동등하게 P[E2E1]=P[E2]\mathbb{P}[E_2|E_1] = \mathbb{P}[E_2]이다.
유사하게 다음이 성립하면 주어진 E3E_3에 대해 E1E_1E2E_2가 조건부 독립이라고 말할 수 있다.
P[E1E2E3]=P[E1E3]P[E2E3]\mathbb{P}[E_1 \cap E_2|E_3] =\mathbb{P}[E_1|E_3]\mathbb{P}[E_2|E_3]
조건부 확률의 정의로부터 총 확률의 법칙(law of total probability)를 유도할 수 있다. 만일 {A1,...,An}\{A_1,...,A_n\}가 표본 공간 Ω\Omega의 분할이면 모든 사건 BΩB \subseteq \Omega에 대해 다음이 성립한다.
P[B]=i=1nP[BAi]P[Ai]\mathbb{P}[B] = \sum_{i=1}^n \mathbb{P}[B|A_i]\mathbb{P}[A_i]

Bayes’ rule

조건부 확률의 정의로부터 Bayes Rule 또는 Bayes theorem을 유도할 수 있다. P[E1]>0\mathbb{P}[E_1] >0이고 P[E2]>0\mathbb{P}[E_2] >0인 두 사건 E1E_1E2E_2에 대해 다음이 성립한다.
P[E1E2]=P[E2E1]P[E1]P[E2]\mathbb{P}[E_1|E_2] ={\mathbb{P}[E_2|E_1]\mathbb{P}[E_1] \over \mathbb{P}[E_2]}
KK개 가능한 상태의 이산 확률 변수 XX에 대해 총 확률의 법칙을 사용하여 다음과 같이 베이즈 규칙을 작성할 수 있다.
p(X=kE)=p(EX=k)p(X=k)p(E)=p(EX=k)p(X=k)k=1Kp(EX=k)p(X=k)\begin{aligned} p(X=k|E) &= {p(E|X=k)p(X=k) \over p(E)} \\&= {p(E|X=k)p(X=k) \over \sum_{k'=1}^K p(E|X=k')p(X=k')} \end{aligned}
여기서 p(X=k)p(X=k)는 prior 확률이고, p(EX=k)p(E|X=k)는 likelihood이고, p(X=kE)p(X=k|E)는 posterior 확률이고, p(E)p(E)는 marginal likelihood라고 부르는 정규화(normalization) 상수이다.
유사하게 연속 확률 변수 XX에 대해 다음과 같이 베이즈 룰을 작성할 수 있다.
p(X=xE)=p(EX=x)p(X=x)p(E)=p(EX=x)p(X=x)p(EX=x)p(X=x)dx\begin{aligned} p(X=x|E) &= {p(E|X=x)p(X=x) \over p(E)} \\&= {p(E|X=x)p(X=x) \over \int p(E|X=x')p(X=x')dx'} \end{aligned}

참조