Search
Duplicate

확률, 통계/ 베르누이 분포, 이항 분포, 카테고리 분포, 다항 분포

베르누이 분포, 이항 분포, 카테고리 분포, 다항 분포는 모두 이산 확률 분포이며 확률 질량 함수(PMF)로 정의된다.

베르누이 분포

베르누이 분포는 0, 1의 값을 갖는 확률 분포. 1이 나올 확률을 의미하는 매개 변수 θ\theta를 이용하여 다음과 같이 정의한다.
Bern(x;θ){θ(x=1)1θ(x=0)\text{Bern}(x;\theta) \triangleq \begin{cases} \theta & (x = 1) \\ 1 - \theta & (x = 0)\end{cases}
이 식을 하나로 합치면 다음과 같이 정의할 수 있다.
Bern(x;θ)=θx(1θ)1x\text{Bern}(x;\theta) = \theta^{x}(1-\theta)^{1 - x}
만약 베르누이 확률변수의 표본값이 1과 0이 아니라 1과 -1이라는 값을 가진다면 다음과 같은 수식으로 써야 한다.
Bern(x;θ)=θ(1+x)/2(1θ)(1x)/2\text{Bern}(x;\theta) = \theta^{(1+x) / 2}(1-\theta)^{(1 - x) / 2}
베르누이 분포의 기댓값과 분산은 다음과 같이 정의 된다.
E[X]=θV[X]=θ(1θ)\begin{aligned} \mathbb{E}[X] &= \theta \\ \mathbb{V}[X] &= \theta(1-\theta) \end{aligned}

베르누이 분포의 Maximum Likelihood Estimation

베르누이 분포의 Likelihood 함수는 다음과 같이 정의 됨.
L(θ)=i=1Nθxi(1θ)1xi\mathcal{L}(\theta) = \prod_{i=1}^{N} \theta^{x_i}(1-\theta)^{1-x_i}
Log를 씌우면 다음과 같이 된다.
(θ)=i=1N[xilogθ+(1xi)log(1θ)]\ell(\theta) = \sum_{i=1}^{N} [x_i \log \theta + (1-x_i) \log(1-\theta)]
위 식에 대해 θ\theta로 편미분하고 그 식을 0으로 만드는 값을 찾으면 다음과 같이 θ\theta의 MLE가 구해진다.
θMLE=1Ni=1Nxi\theta_{MLE} = {1 \over N} \sum_{i=1}^{N} x_i

이항 분포

베르누이 분포를 nn번 시행해서 kk번 성공한 분포로 다음과 같이 정의 된다.
베르누이 분포는 시행 횟수가 1인 이항 분포의 특수한 경우이다.
Bin(k;n,θ)(nk)θk(1θ)nk\text{Bin}(k;n,\theta) \triangleq \binom{n}{k} \theta^{k} (1-\theta)^{n - k}
이 식에서 (nk)\binom{n}{k} 기호는 nn개 원소 중에 kk개 원소를 순서와 상관없이 선택할 수 있는 경우의 수를 뜻한다. 조합은 다음 공식으로 계산할 수 있다.
(nk)=n!k!(nk)!\binom{n}{k} = {n! \over k!(n-k)!}
이항 분포의 기댓값과 분산은 다음과 같이 정의 된다.
E[X]=NθV[X]=Nθ(1θ)\begin{aligned} \mathbb{E}[X] &= N \theta \\ \mathbb{V}[X] &= N \theta (1-\theta) \end{aligned}

이항 분포의 Maximum Likelihood Estimation

이항 분포는 베르누이 분포를 NN번 시행에 대한 것으로 MLE는 베르누이 분포와 같다.
θMLE=1Ni=1Nxi\theta_\text{MLE} = {1 \over N} \sum_{i=1}^{N} x_i

카테고리 분포

카테고리 분포는 0, 1이 아닌 KK개의 class를 가질 수 있는 분포로 다음과 같이 정의 된다.
베르누이 분포는 클래스가 1인 카테고리 분포의 특수한 경우이다.
아래 식에서 I(x=c)\mathbb{I}(x=c)x=cx=c일 때 1, 아니면 0을 반환하는 함수이다.
이 식에서 파라미터 θ\boldsymbol{\theta}0θk10 \leq \theta_k \leq 1c=1Kθc=1\sum_{c=1}^{K} \theta_c = 1이 되도록 제한된다.
Cat(xθ)c=1KθcI(x=c)\text{Cat}(x|\boldsymbol{\theta}) \triangleq \prod_{c=1}^{K} \theta_{c}^{\mathbb{I}(x=c)}
카테고리 분포는 원-핫 인코딩을 이용해서 정의가 가능한데, 이 경우 다음처럼 정의할 수 있다.
아래 식에서 x\bold{x}는 길이가 KK인 원-핫 인코딩 —1개만 1이고 나머지는 모두 0인— 벡터이다.
Cat(xθ)c=1Kθcxc\text{Cat}(\bold{x}|\boldsymbol{\theta}) \triangleq \prod_{c=1}^{K} \theta_{c}^{x_c}
참고) 벡터가 지수로 올라가면, 벡터의 각 요소만큼 반복된다. 예컨대 위의 경우 K=3K = 3일 때 계산은 다음과 같이 된다.
c=1x=[1,0,0],Cat(xθ)=θ11×θ20×θ30=θ1c=2x=[0,1,0],Cat(xθ)=θ10×θ21×θ30=θ2c=3x=[0,0,1],Cat(xθ)=θ10×θ20×θ31=θ3c = 1 \to \bold{x} = [1,0,0], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^1 \times \theta_2^0 \times \theta_3^0 = \theta_1 \\ c = 2 \to \bold{x} = [0,1,0], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^0 \times \theta_2^1 \times \theta_3^0 = \theta_2 \\ c = 3 \to \bold{x} = [0,0,1], \text{Cat}(\bold{x}|\boldsymbol{\theta}) = \theta_1^0 \times \theta_2^0 \times \theta_3^1 = \theta_3
카테고리 분포의 기댓값과 분산은 다음과 같이 정의 된다.
E[xc]=θcV[xc]=θc(1θc)\begin{aligned} \mathbb{E}[x_c] &= \theta_c \\ \mathbb{V}[x_c] &= \theta_c(1-\theta_c) \end{aligned}

카테고리 분포의 Maximum Likelihood Estimation

카테고리 분포는 베르누이 분포를 kk개의 범주에 대해 일반화한 것으로 MLE는 다음과 같이 정의된다.
아래 식에서 NNNkN_k NkN_kkk번째 범주가 발생한 횟수.
θkMLE=NkN\theta_{k_{MLE}} = {N_k \over N}

다항 분포

다항 분포는 카테고리 분포를 NN번 시행한 분포로 다음과 같이 정의 된다.
카테고리 분포는 시행 횟수가 1인 다항 분포의 특수한 경우이다.
시행 횟수가 늘어났기 때문에, 여기서 xcx_c는 원-핫 인코딩이 아니다.
Mu(x;N,θ)(Xn)c=1Kθcxc=(Nx1,...xK)c=1Kθcxc\text{Mu}(\bold{x};N,\boldsymbol{\theta}) \triangleq \binom{X}{n} \prod_{c=1}^{K} \theta_c^{x_c} = \binom{N}{x_1, ... x_K} \prod_{c=1}^{K} \theta_c^{x_c}
다항 분포의 기댓값과 분산은 다음과 같이 정의 된다.
E[xc]=NθcV[xc]=Nθc(1θc)\begin{aligned} \mathbb{E}[x_c] &= N\theta_c \\ \mathbb{V}[x_c] &= N\theta_c(1-\theta_c) \end{aligned}

다항 분포의 Maximum Likelihood Estimation

다항 분포는 카테고리 분포의 NN번 시행에 대한 것으로 MLE는 카테고리 분포와 같다.
아래 식에서 NNNkN_k NkN_kkk번째 범주가 발생한 횟수.
θkMLE=NkN\theta_{k_{MLE}} = {N_k \over N}

참고