수학/ 가우시안 분포 - 일변량, 다변량, 선형성, 베이즈룰

일변량 가우시안

일변량 가우시안의 Maximum Likelihood Estimation

중심 극한 정리

다변량 가우시안

다변량 가우시안의 Maximum Likelihood Estimation

2차원 예

다변량 가우시안의 주변(Marginal) 분포

다변량 가우시안의 조건부(Conditional) 분포

가우시안의 선형성, 생성 모델

가우시안의 베이즈룰

참고

일변량 가우시안

•

가우시안은 평균 μ\muμ와 분산 σ2\sigma^2σ2으로 정의되는 연속 확률 분포로, 가정이 단순하고, 몇몇 특성들 때문에 가장 널리 쓰이는 분포이다. 

◦

정규 분포라는 이름으로도 불리지만, 그러면 다른 분포가 normal이 아닌 것처럼 보이기 때문에 적절하지 않다. 오히려 가우시안은 다른 분포에는 없는 여러 특징들 때문에 오히려 비정상이다.

•

가우시안의 누적 분포 함수(Cumulative Distribution Function, CDF)은 다음과 같이 정의 된다.

\Phi(x; \mu, \sigma^2) \triangleq \int_{-\infty}^{x} \mathcal{N}(z|\mu, \sigma^2) dz

•

가우시안의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같이 정의 된다.

◦

아래 식에서 2πσ2\sqrt{2 \pi \sigma^2}2πσ2​는 밀도가 1로 통합되는데 필요한 정규화 상수이다. 

\mathcal{N}(x|\mu, \sigma^2) \triangleq {1 \over \sqrt{2 \pi \sigma^2}} e^{-{1 \over 2 \sigma^2}(x - \mu)^2}

•

eee의 지수로 값을 올리면 표기상 눈에 잘 안보이기 때문에 위의 식은 exp⁡\expexp를 이용하여 표기한다.

\mathcal{N}(x|\mu, \sigma^2) = {1 \over \sqrt{2 \pi \sigma^2}} \exp \left({-{1 \over 2 \sigma^2}(x - \mu)^2}\right)

•

가우시안 중에서도 평균이 000이고 분산이 111인 (μ=0,σ2=1\mu = 0, \sigma^2 = 1μ=0,σ2=1) 가우시안을 표준정규분포(standard normal distribution)라고 한다.

•

분산의 역수를 정밀도(precision)이라고 부르며 다음과 같이 정의한다.

\lambda \triangleq {1 \over \sigma^2}

•

가우시안 분포의 지수 부분을 다음과 같이 2차식의 형태로 정리 할 수 있다.

-{(x - \mu)^2 \over 2\sigma^2} = -{1\over 2\sigma^2}x^2 + {\mu \over \sigma^2}x - {\mu^2 \over 2\sigma^2}

•

이것은 ax2+bxax^2 + bxax2+bx의 형태가 된다. 여기서 x2x^2x2과 xxx의 계수를 다음과 같이 정리할 수 있다.

a = -{1\over 2\sigma^2} \\ b = {\mu \over \sigma^2}

•

위 계수 a,ba, ba,b를 이용하여 평균과 분산을 다음과 같이 유도할 수 있다.

\mu = -{b\over 2a} \\ \sigma^2 = -{1\over 2a}

•

따라서 가우시안 분포에 대해 지수 함수 내에 ax2+bxax^2 + bxax2+bx 형태를 유도할 수 있으면, 해당 계수 a,ba, ba,b를 이용하여 가우시안 분포의 평균과 분산을 유도할 수 있다.

일변량 가우시안의 Maximum Likelihood Estimation

•

일변량 가우시안의 Likelihood 함수는 다음과 같이 정의 됨.

\mathcal{L}(\mu, \sigma^2) = \prod_{i=1}^{N} {1 \over \sqrt{2 \pi \sigma^2}} \exp \left(-{(x_i - \mu)^2 \over 2\sigma^2} \right)

•

Log를 씌우면 다음과 같이 된다.

\ell(\mu, \sigma^2) = \sum_{i=1}^{N} \left( - {1 \over 2} \log (2\pi \sigma^2) - {(x_i - \mu)^2 \over 2\sigma^2} \right)

•

위 식에 대해 μ,σ2\mu, \sigma^2μ,σ2으로 각각 편미분하고 그 식을 0으로 만드는 값을 찾으면 다음과 같이 μ,σ2\mu, \sigma^2μ,σ2의 MLE가 구해진다.

\begin{aligned} \mu_{MLE} &= {1 \over N} \sum_{i=1}^{N} x_i \\ \sigma_{MLE}^2 &= {1 \over N} \sum_{i=1}^{N} (x_i - \mu)^2 \end{aligned}

중심 극한 정리

•

중심극한정리(Central Limit Theorem)는 여러 분포의 합이 커지면 정규분포와 비슷한 분포를 이루는 현상을 말한다. 

◦

많은 현상을 정규분포를 이용해 모형화 하는 이유 중의 하나가 바로 이것 때문이다.

◦

아래 식의 →d\overset{d}{\to}→d 기호는 표본 개수 NNN이 커질수록 분포의 모양이 특정한 분포에 수렴한다는 것을 뜻한다. 

NNN개의 임의의 분포로부터 얻은 표본의 평균은 NNN이 증가할수록 기댓값이 μ\muμ, 분산이 σ2N{\sigma^2 \over N}Nσ2​인 정규분포로 수렴한다.

\bar{X}_N \overset{d}{\to} N \left( x;\mu, {\sigma^2 \over N} \right)

•

이 표본 평균의 평균이 000, 분산이 111이 되도록 다음처럼 정규화를 하면 다음과 같이 쓸 수도 있다.

NNN개의 임의의 분포로부터 얻은 표본의 평균을 정규화하면 NNN이 증가할수록 표준정규분포로 수렴한다.

{\bar{X}_N - \mu \over {\sigma \over \sqrt{N}}} \overset{d}{\to} N(x;0,1)

다변량 가우시안

•

다변수 가우시안(multi-variate normal, MVN)은 다음과 같이 정의 된다.

◦

이 식에서 x\bold{x}x와 μ\boldsymbol{\mu}μ는 DDD차원 벡터이고, Σ\boldsymbol{\Sigma}Σ는 D×DD \times DD×D 차원 공분산 행렬이다.

◦

정규화 상수 Z=(2π)D/2∣Σ∣1/2Z = (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}Z=(2π)D/2∣Σ∣1/2는 PDF가 1로 통합되도록 보장한다. 

\mathcal{N}(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) \triangleq {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}} \exp \left[ -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) \right]

•

공분산 행렬은 다음과 같이 정의된다.

◦

대각방향에는 자기 자신에 대한 분산이 있고, 나머지 항에는 두 분포의 공분산이 존재.

\text{Cov}[\bold{x}] \triangleq \mathbb{E}[(\bold{x} - \mathbb{E}[\bold{x}])(\bold{x} - \mathbb{E}[\bold{x}])^T] = \left( \begin{matrix} \mathbb{V}[X_1] & \text{Cov}[X_1, X_2] & ... & \text{Cov}[X_1, X_D] \\ \text{Cov}[X_2, X_1] & \mathbb{V}[X_2] & ... & \text{Cov}[X_2, X_D] \\ ... & ... & ... & ... \\ \text{Cov}[X_D, X_1] & \text{Cov}[X_D, X_2] & ... & \mathbb{V}[X_D] \end{matrix} \right)

\text{Cov}[X_i, X_j] = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])] = \mathbb{E}[X_i X_j] - \mathbb{E}[X_i] \mathbb{E}[X_j]

•

위 식을 유도하여 다음을 얻을 수 있다.

\mathbb{E}[\bold{xx}^T] = \boldsymbol{\Sigma} + \boldsymbol{\mu \mu}^T

•

일변량 때와 유사하게 공분산의 역행렬을 정밀도 행렬(precision matrix)이라고 하고 다음처럼 정의한다.

\boldsymbol{\Lambda} \triangleq \boldsymbol{\Sigma}^{-1}

•

다변량 가우시안의 공분산 행렬은 Σ\boldsymbol{\Sigma}Σ는 양의 정부호인 대칭행렬이므로 대각화가능이다. 정밀도행렬 Σ−1\boldsymbol{\Sigma}^{-1}Σ−1는 다음처럼 분해할 수 있다. 

◦

이 식에서 Λ\boldsymbol{\Lambda}Λ는 고윳값행렬, V\bold{V}V는 고유벡터행렬이다.

\boldsymbol{\Sigma}^{-1} = \bold{V} \boldsymbol{\Lambda}^{-1} \bold{V}^T

•

다변량 가우시안에 대해 로그를 씌우면 다음과 같이 유도된다.

\log p(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \log \left( {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}|^{1/2}} \right) -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) \\ (\because \log a e^b = \log a + \log e^b = \log a + b)

•

이 식에서 앞의 log⁡\loglog 부분은 상수 처리하여 다음과 같이 사용한다.

\log p(\bold{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = -{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) + \text{const}

•

일변량 가우시안과 마찬가지로 다변량 가우시안의 경우도 지수 함수의 2차식을 유도할 수 있으면 평균과 공분산 행렬을 구할 수 있다. 우선 다변량 가우시안의 지수 부분을 전개하여 다음과 같이 2차 형태로 표현한다.

-{1 \over 2} (\bold{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\bold{x} - \boldsymbol{\mu}) = -{1\over2}\bold{x}^\top \boldsymbol{\Sigma}^{-1}\bold{x} + \bold{x}^\top\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu} - {1\over 2}\boldsymbol{\mu}^\top \boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}

•

여기서 −12x⊤Σ−1x-{1\over2}\bold{x}^\top \boldsymbol{\Sigma}^{-1}\bold{x}−21​x⊤Σ−1x는 2차 항이고, x⊤Σ−1μ\bold{x}^\top\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}x⊤Σ−1μ는 1차항이 된다.

•

다변량 가우시안의 공분산 행렬은 2차항의 역행렬과 연관된다. 2차항의 계수가 Σ−1\boldsymbol{\Sigma}^{-1}Σ−1이므로 공분산행렬은 Σ−1\boldsymbol{\Sigma}^{-1}Σ−1의 역행렬 (Σ−1)−1=Σ(\boldsymbol{\Sigma}^{-1})^{-1} = \boldsymbol{\Sigma}(Σ−1)−1=Σ이 된다.

•

평균 벡터는 1차 항의 계수를 2차항의 계수로 나누어 얻을 수 있다. 1차 항의 계수가 Σ−1μ\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}Σ−1μ이므로 평균 벡터 μ\boldsymbol{\mu}μ는 Σ\boldsymbol{\Sigma}Σ와 1차 항의 계수의 곱으로 계산될 수 있다.

다변량 가우시안의 Maximum Likelihood Estimation

•

다변량 가우시안의 평균과 공분산의 MLE는 다음과 같이 정의된다.

◦

일변량 가우시안 때와 마찬가지로 Likelihood 함수에 Log를 씌운 후에 μ,Σ\boldsymbol{\mu, \Sigma}μ,Σ로 각각 편미분하여 식을 0\bold{0}0으로 만드는 값을 찾는다.

◦

아래의 식에서 (xi−μMLE)(xi−μMLE)T(\bold{x}_i - \boldsymbol{\mu}_{MLE})(\bold{x}_i - \boldsymbol{\mu}_{MLE})^T(xi​−μMLE​)(xi​−μMLE​)T는 외적이다.

\begin{aligned} \boldsymbol{\mu}_{MLE} &= {1 \over N} \sum_{i=1}^{N} \bold{x}_i \\ \boldsymbol{\Sigma}_{MLE} &= {1 \over N} \sum_{i=1}^{N} (\bold{x}_i - \boldsymbol{\mu})(\bold{x}_i - \boldsymbol{\mu})^T \end{aligned}

2차원 예

•

MVN이 2차원이면 이변량 가우스 분포(bivariate Gaussian distribution)라고 한다. 이때 pdf는 x∼N(μ,Σ)\bold{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})x∼N(μ,Σ)로 표현될 수 있고, 여기서 x∈R2,μ∈R2\bold{x} \in \mathbb{R}^2, \boldsymbol{\mu} \in \mathbb{R}^{2}x∈R2,μ∈R2이다.

\boldsymbol{\Sigma} = \left( \begin{matrix} \sigma_{1}^{2} & \sigma_{12}^{2} \\ \sigma_{21}^{2} & \sigma_{2}^{2} \end{matrix} \right) = \left( \begin{matrix} \sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{matrix} \right)

•

여기서 ρ\rhoρ는 상관 계수(correlation coefficient)이며 다음과 같이 정의된다.

◦

이때 −1≤corr[X1,X2]≤1-1 \leq \text{corr}[X_1, X_2] \leq 1−1≤corr[X1​,X2​]≤1

\text{corr}[X_1, X_2] = {\text{Cov}[X_1, X_2] \over \sqrt{\mathbb{V}[X_1] \mathbb{V}[X_2]}} = {\sigma_{12}^{2} \over \sigma_{1} \sigma_{2}}

다변량 가우시안의 주변(Marginal) 분포

•

다변량 가우시안에서 주변(marginal)은 다변량 분포에 있는 변수의 하위 집합에 대한 확률 분포를 말한다.

◦

예컨대 특정 도시 사람들의 연령과 소득이 결합(join)된 분포가 있을 때, 연령에 관계 없이 소득에 대한 분포를 보려면 소득을 기준으로 연령을 합산하면 되는데, 이 결과가 소득에 대한 주변 분포(marginal distribution)이 된다.

•

주변 분포는 다른 변수를 ‘marginalize’ 하거나 ‘sums out’하여 관심 변수에 대한 분포를 얻는다. 

◦

예컨대 x1\bold{x}_1x1​과 x2\bold{x}_2x2​로 이루어진 결합 확률밀도함수 p(x1,x2)p(\bold{x}_1, \bold{x}_2)p(x1​,x2​)를 x2\bold{x}_2x2​로 적분하면 x1\bold{x}_1x1​의 주변확률분포가 된다.

p(\bold{x}_1) = \int p(\bold{x}_1, \bold{x}_2) d\bold{x}_2 = \mathcal{N}(\bold{x}_1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma}_{11})

•

다변량 가우시안의 결합 분포가 다음과 같이 주어져있다고 하면, 

\left( \begin{matrix} \bold{x}_1 \\ \bold{x}_2 \end{matrix} \right) \sim \mathcal{N} \left( \boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{matrix} \right), \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} = \left( \begin{matrix} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12} \\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{matrix} \right) \right)

•

평균과 공분산 행렬을 구하면 주변 분포 x1,x2\bold{x}_1, \bold{x}_2x1​,x2​는 다음과 같이 쉽게 구할 수 있다.

◦

다변량 가우시안의 주변 분포는 가우시안이다.

p(\bold{x}_1) = \mathcal{N}(\bold{x}_1|\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}) \\ p(\bold{x}_2) = \mathcal{N}(\bold{x}_2|\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_{22})

다변량 가우시안의 조건부(Conditional) 분포

•

다변량 가우시안에서 같은 조건부 분포를 정의하려면 우선 결합 분포를 정의해야 한다. 다변량 가우시안의 결합 분포가 다음과 같이 주어졌다고 하자.

\left( \begin{matrix} \bold{x}_1 \\ \bold{x}_2 \end{matrix} \right) \sim \mathcal{N} \left( \boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{matrix} \right), \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} = \left( \begin{matrix} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12} \\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{matrix} \right) \right)

•

이때 두 분포에 대한 조건부 분포는 다음과 같이 조건부 평균과 조건부 공분산행렬 형식으로 주어진다.

◦

다변량 가우시안의 조건부 분포는 가우시안이다.

\begin{aligned} p(\bold{x}_1|\bold{x}_2) &= \mathcal{N}(\bold{x}_1|\boldsymbol{\mu}_{1|2}, \boldsymbol{\Sigma}_{1|2}) \\ &= {1 \over (2\pi)^{D/2}|\boldsymbol{\Sigma}_{1|2}|^{1/2}} \exp \left[ -{1 \over 2} (\bold{x}_1 - \boldsymbol{\mu}_{1|2})^T \boldsymbol{\Sigma}_{1|2}^{-1} (\bold{x}_1 - \boldsymbol{\mu}_{1|2}) \right] \end{aligned}

•

여기서 평균 μ1∣2\boldsymbol{\mu}_{1|2}μ1∣2​는 다음과 같다.

\begin{aligned} \boldsymbol{\mu}_{1|2} &= \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\bold{x}_2 - \boldsymbol{\mu}_2) \\ &= \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{11}^{-1} \boldsymbol{\Lambda}_{12}(\bold{x}_2 - \boldsymbol{\mu}_2) \\ &= \boldsymbol{\Sigma}_{1|2} (\boldsymbol{\Lambda}_{11} \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{12}(\bold{x}_2 - \boldsymbol{\mu}_2)) \end{aligned}

•

여기서 공분산행렬 Σ1∣2\boldsymbol{\Sigma}_{1|2}Σ1∣2​는 다음과 같다.

\boldsymbol{\Sigma}_{1|2} = \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21} = \boldsymbol{\Lambda}_{11}^{-1}

•

조건부 분포에 로그를 씌우면 exp⁡\expexp의 앞부분은 상수처리 되고 뒷부분만 사용된다.

\log p(\bold{x}_1|\bold{x}_2) = -{1 \over 2} (\bold{x}_1 - \boldsymbol{\mu}_{1|2})^T \boldsymbol{\Sigma}_{1|2}^{-1} (\bold{x}_1 - \boldsymbol{\mu}_{1|2}) + \text{const}

가우시안의 선형성, 생성 모델

•

서로 다른 2개의 가우시안 분포 z∈RL,y∈RD\bold{z} \in \mathbb{R}^L, \bold{y} \in \mathbb{R}^Dz∈RL,y∈RD가 존재하고, y\bold{y}y가 z\bold{z}z의 값에 따라 조건부로 정의되면, 두 가우시안 분포에 선형 관계가 존재한다고 할 수 있다.

◦

이 두 분포는 일변량이어도 되고 다변량이어도 된다.

•

그러한 식을 다음과 같이 정의할 수 있다.

◦

이때 p(y∣z)p(\bold{y}|\bold{z})p(y∣z)의 평균은 z\bold{z}z를 이용해 선형적으로 정의된다. W\bold{W}W는 크기가 D×LD\times LD×L인 행렬이다.

\begin{aligned} p(\bold{z}) &= \mathcal{N}(\bold{z}|\boldsymbol{\mu}_z, \boldsymbol{\Sigma}_z) \\ p(\bold{y}|\bold{z}) &= \mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Sigma}_y) \end{aligned}

•

이와 같은 관계에서 p(y)p(\bold{y})p(y)를 독립적으로 정의하려면 다음과 같이 z\bold{z}z에 대한 모든 가능한 값을 통합하여 나타낼 수 있다.

p(\bold{y}) = \int p(\bold{y}|\bold{z})p(\bold{z}) dz

•

z,y\bold{z, y}z,y에 대한 결합분포는 p(z,y)=p(z)p(y∣z)p(\bold{z, y}) = p(\bold{z})p(\bold{y|z})p(z,y)=p(z)p(y∣z)로 정의할 수 있으며 L+DL + DL+D차원의 가우시안이다. 이 가우시안의 평균과 공분산은 다음과 같이 정의 된다.

\boldsymbol{\mu} = \left( \begin{matrix} \boldsymbol{\mu}_z \\ \bold{W} \boldsymbol{\mu}_z + \bold{b} \end{matrix} \right), \boldsymbol{\Sigma} = \left( \begin{matrix} \boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_z \bold{W}^T \\ \bold{W} \boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_y + \bold{W} \boldsymbol{\Sigma}_z \bold{W}^T \end{matrix} \right)

•

이 결합 분포에 대해 베이즈룰을 적용하면 posterior 분포 p(z∣y)p(\bold{z}|\bold{y})p(z∣y)를 계산할 수 있다.

•

생성 모델에서는 이러한 선형 관계를 이용하여 z\bold{z}z를 잠재(Latent) 분포, y\bold{y}y를 (노이즈가 포함된) 관찰된 분포라고 가정한다. 

◦

그렇게 하여 관찰된 데이터 y\bold{y}y를 기반으로 잠재 분포 z\bold{z}z를 추론하고, 그렇게 추론된 잠재 분포 z\bold{z}z를 바탕으로 다시 새로운 데이터의 생성, 복원 —y\bold{y}y는 z\bold{z}z에 의해 선형적으로 표현되므로—의 작업을 수행한다. —이것이 explicit 생성 모델의 방식이다.

가우시안의 베이즈룰

•

두 가우시안 분포 z,y\bold{z, y}z,y에 대해 사후 분포는 다음과 같이 주어진다. 이것을 가우시안에 대한 베이즈룰이라고 한다.

\begin{aligned} p(\bold{z}|\bold{y}) &= \mathcal{N}(\bold{z}|\boldsymbol{\mu}_{z|y}, \boldsymbol{\Sigma}_{z|y}) \\ \boldsymbol{\Sigma}_{z|y}^{-1} &= \boldsymbol{\Sigma}_{z}^{-1} + \bold{W}^T \boldsymbol{\Sigma}_{y}^{-1} \bold{W} \\ \boldsymbol{\mu}_{z|y} &= \boldsymbol{\Sigma}_{z|y} [\bold{W}^T \boldsymbol{\Sigma}_{y}^{-1} (\bold{y}-\bold{b}) + \boldsymbol{\Sigma}_{z}^{-1} \boldsymbol{\mu}_z] \end{aligned}

•

사후 분포에 대한 정규화 상수는 다음과 같이 주어진다.

p(\bold{y}) = \int \mathcal{N}(\bold{z}|\boldsymbol{\mu}_z, \boldsymbol{\Sigma}_z) \mathcal{N}(\bold{y}|\bold{Wz} + \bold{b}, \boldsymbol{\Sigma}_y) d\bold{z} \\ = \mathcal{N}(\bold{y}|\bold{W} \boldsymbol{\mu}_z + \bold{b}, \boldsymbol{\Sigma}_y + \bold{W} \boldsymbol{\Sigma}_z \bold{W}^T)

•

가우시안 사전 분포 p(z)p(\bold{z})p(z)와 가우시안 likelihood p(y∣z)p(\bold{y}|\bold{z})p(y∣z)를 결합하면 가우시안 사후 분포 p(z∣y)p(\bold{z}|\bold{y})p(z∣y)가 된다는 것을 알 수 있다. 따라서 가우시안은 베이지안 조건 하에서 닫힌다. 

◦

가우시안의 사전 분포는 가우시안 likelihood에 대한 켤레 사전(conjugate prior)라고 하는데, 이는 사후 분포가 사전 분포와 동일한 유형을 갖기 때문이다.

참고

•

Probabilistic Machine Learning: An Introduction

•