Search
Duplicate

확률, 통계/ 표본 평균, 분산, 표준 오차

표본에 대한 평균, 분산, 왜도, 첨도는 관측된 표본에 대해 계산하는 것으로 실제 분포가 이산형이든, 연속형이든 상관없이 같은 계산을 할 수 있다.

표본 평균(sample mean)

관측된 표본의 평균 xˉ\bar{x}로 표기하며 다음처럼 구한다.
모집단 분포의 평균을 μ\mu라고 표현하는 것과 구분된다. 표본 평균은 모집단 평균을 추정하는데 사용된다.
xˉ=1Ni=1Nxi\bar{x} = {1 \over N} \sum_{i=1}^{N} x_i

표본 분산(sample variance)

관측된 표본의 분산은 s2s^2으로 표기하며 다음처럼 구한다.
마찬가지로 모집단 분포의 분산을 σ2\sigma^2으로 표기하는 것과 구분된다.
s2=1Ni=1N(xixˉ)2s^2 = {1 \over N} \sum_{i=1}^{N} (x_i - \bar{x})^2
위의 값은 편향오차를 가진 편향 표본분산이라고 부른다. 비편향(unbiased) 표본분산은 N1N-1로 나누어 구한다.
sunb2=1N1i=1N(xixˉ)2s^2_{unb} = {1 \over N-1} \sum_{i=1}^{N} (x_i - \bar{x})^2
이에 대한 증명은 참조 페이지의 분산과 표준편차 항목의 ‘표본 분산의 기댓값’ 참조.
표본 분산의 기댓값이 N1Nσ2{N-1 \over N}\sigma^2이 나오기 때문에 분모를 NN이 아니라 N1N-1를 써야 한다.

표준 오차(standard error)

표준 오차는 표본 평규들의 표준 편차를 의미하고 다음과 같이 계산한다.
표본의 표준 편차를 원소 개수의 제곱근으로 나눈다.
표본 표준편차는 비편향된 것을 사용하지만, 표준오차는 편향된 것을 사용한다.
se=sN\text{se} = {s \over \sqrt{N}}

표본 중앙값(sample median)

표본 중앙값은 표본의 가장 중앙에 위치한 값이며, 표본의 개수가 NN일 때, 다음처럼 구한다.
홀수이면 가운데 오는 값, 짝수이면 가운데의 양 옆의 평균.
median={x(n+1)/2n is oddxn/2+x(n/2)+12n is even\text{median} = \begin{cases} x_{(n+1)/2} & \text{n is odd} \\ {x_{n/2} + x_{(n/2)+1} \over 2} & \text{n is even} \end{cases}

표본 최빈값(sample mode)

표본 최빈값은 표본에서 가장 빈번하게 나오는 값을 말한다.
유한한 종류의 값만 있으면 최빈값을 쉽게 구할 수 있지만, 연속적인 값을 가지는 데이터에서는 최빈값을 구하기 어렵기 때문에, 일정한 구간으로 나누어 가장 많은 데이터를 가진 구간의 대푯값을 최빈값으로 가정하는 방법을 많이 사용한다.
그러나 구간을 어떻게 나누느냐에 따라 값이 달라질 수 있다.

표본 왜도(sample skewness)

표본 왜도는 표본의 비대칭도로 다음과 같이 구한다.
표본 비대칭도가 0이면 분포는 대칭이다.
표본 비대칭도가 음수면 표본 평균을 기준으로 왼쪽에 있는 값을 가진 표본이 나올 가능성이 크다는 뜻이다.
skewness=1Ni=1N(xixˉ)31N1i=1N(xixˉ)23\text{skewness} = {{1 \over N} \sum_{i=1}^{N}(x_i - \bar{x})^3 \over \sqrt{{1 \over N-1} \sum_{i=1}^{N} (x_i - \bar{x})^2}^3}

표본 첨도(sample kurtosis)

표본 첨도는 데이터가 중앙에 몰린 정도를 의미하고, 직관적인 표현으로는 분포가 정규분포에 비해 얼마나 뾰족한지를 나타낸다.
kurtosis=1Ni=1N(xixˉ)4(1Ni=1N(xixˉ)2)23\text{kurtosis} = {{1 \over N} \sum_{i=1}^{N}(x_i - \bar{x})^4 \over ({1 \over N} \sum_{i=1}^{N} (x_i - \bar{x})^2)^2} - 3

참고