수학/ 확률변수의 변환, 선형성, Convolution

확률변수의 변환

•

기존의 확률변수를 새로운 확률변수로 바꾸는 것을 확률변수의 변환이라고 한다.

◦

어떤 확률변수 x1:xNx_1:x_Nx1​:xN​를 확률변환 함수 fff에 넣어서 y1:yNy_1:y_Ny1​:yN​을 만드는 것.

\{x_1, x_2, ... , x_N\} \to \{f(x_1), f(x_2),..., f(x_N)\}

•

예컨대 확률 변환 함수를 다음과 같이 정의할 수 있다.

◦

만일 아래의 식에서 x∼Unif(0,1)x \sim \text{Unif}(0,1)x∼Unif(0,1)이었다면 yyy는 xxx를 2배 늘리고 +1 이동 시킨 결과를 갖는다.

f(x) = 2x + 1

•

이런 변환에는 물론 행렬도 사용 가능하다. 이것은 다변량 분포에 사용된다.

f(x) = \left( \begin{matrix} a & c \\ b & d \end{matrix} \right) x + \text{bias}

•

XXX가 이산형 확률변수인 경우, 변환된 확률변수의 확률 질량 함수는 다음과 같이 구할 수 있다.

◦

XXX에 대한 확률 질량 함수의 합이 YYY에 대한 확률 질량 함수의 합이 된다.

p_y(y) = \sum_{x:f(x) = y} p_x(x)

•

XXX가 연속형 확률변수인 경우, 밀도에 대한 합을 구할 수 없기 때문에, 다음과 같이 YYY에 대한 누적 분포 함수를 구한다.

P_y(y)=Pr(Y \leq y) = Pr(f(X) \leq y) = Pr(X \in \{ x| f(x) \leq y \})

•

X→YX \to YX→Y 애 대한 기댓값은 다음과 같은 선형성을 갖는다.

\mathbb{E}[\bold{y}] = \mathbb{E}[\bold{Ax} + \bold{b}] = \bold{A} \mathbb{E}[\bold{x}] + \bold{b} = \bold{A}\boldsymbol{\mu} + \bold{b}

•

X→YX \to YX→Y 에 대한 공분산 행렬은 다음과 같은 관계를 갖는다.

◦

기댓값과 달리 분산은 선형이 아니다. 

◦

만일 두 확률 변수에 대한 분산이 선형이 되려면, 두 확률 변수가 독립이어야 함.

\text{Cov}[\bold{y}] = \text{Cov}[\bold{Ax} + \bold{b}] = \bold{A} \text{Cov}[\bold{x}] \bold{A}^T = \bold{A} \boldsymbol{\Sigma} \bold{A}^T

•

만일 y=x1+x2y = x_1 + x_2y=x1​+x2​이고 x1,x2x_1, x_2x1​,x2​는 독립적인 확률변수일 때, 이것이 이산 확률 변수인 경우 다음과 같이 합계에 대한 확률 밀도 함수를 계산할 수 있다.

◦

여기서 j=...,−1,−1,0,1,2,...j = ... , -1, -1, 0, 1, 2, ...j=...,−1,−1,0,1,2,...

p(y=j) = \sum_k p(x_1 = k) p(x_2 = j-k)

•

만일 x1,x2x_1, x_2x1​,x2​가 연속 확률 변수인 경우 YYY의 분포는 다음과 같이 누적 분포 함수를 이용하여 정의 된다.

P_y(y^*) = Pr(y \leq y^*) = \int_{-\infty}^{\infty} p_1(x_1) \left[ \int_{-\infty}^{y^* - x_1} p_2(x_2) dx_2 \right] dx_1

•

이것을 x1+x2<y∗x_1 + x_2 < y^*x1​+x2​<y∗로 정의된 영역 RRR에 대해 적분하면 yyy에 대한 확률 밀도 함수는 다음과 같다.

p(y) = \left[ {d \over dy^*} P_y(y^*) \right]_{y^* = y} = \int p_1(x_1)p_2(y-x_1)dx_1

•

위 식은 아래와 같이 간편하게 정의되는데, 여기서 ⊛\circledast⊛이 컨볼루션 연산이 된다.

◦

컨불루션 연산은 ‘flip and drag’ 작업으로 생각할 수 있다. CNN에서 나오는 컨볼루션 연산이 바로 이것이다.

p = p_1 \circledast p_2

•

참고로 두 가우시안에 대한 컨볼루션 결과는 가우시안이다.

p(y) = \mathcal{N}(x_1|\mu_1, \sigma_1^2) \otimes \mathcal{N}(x_2|\mu_2, \sigma_2^2) = \mathcal{N}(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)

•

Probabilistic Machine Learning: An Introduction

•