수학/ 투영(Projection)

투영(Projection)

•

투영은 주어진 벡터에 대해 가장 가까운 벡터를 찾는 것으로 볼 수 있다.

•

벡터공간 V\mathbf{V}V와 V=W1⊕W2\mathbf{V} = \mathbf{W}_1 \oplus \mathbf{W}_2V=W1​⊕W2​인 부분공간 W1,W2\mathbf{W}_1, \mathbf{W}_2W1​,W2​에 대하여 다음과 같이 정의한 함수 T:V→V\mathbf{T} : \mathbf{V} \to \mathbf{V}T:V→V를 W2\mathbf{W}_2W2​에 대한 W1\mathbf{W}_1W1​위로의 V\mathbf{V}V의 투영(projection)이라고 한다.

◦

⊕\oplus⊕는 직합(direct sum) 연산으로 W1∩W2={0}\mathbf{W}_1 \cap \mathbf{W}_2 = \{ \bold{0}\}W1​∩W2​={0}이고 W1+W2=V\mathbf{W}_1 + \mathbf{W}_2 = \mathbf{V}W1​+W2​=V를 의미한다.

\bold{x} = \bold{x}_1 + \bold{x}_2 \text{일 때, } \mathbf{T}(\bold{x}) = \bold{x}_1 \ (\bold{x}_1 \in \mathbf{W}_1, \bold{x}_2 \in \mathbf{W}_2)

•

벡터공간 V\mathbf{V}V와 선형변환 T\mathbf{T}T에 대해 T=T2\mathbf{T} = \mathbf{T}^2T=T2이기 위한 필요충분조건은 T\mathbf{T}T가 N(T)\mathbf{N}(\mathbf{T})N(T)에 대한 W1={y:T(y)=y}\mathbf{W}_1 = \{ \bold{y} : \mathbf{T}(\bold{y}) = \bold{y} \}W1​={y:T(y)=y}로의 사영이다.

◦

선형변환 T2\mathbf{T}^2T2는 선형변환을 두 번 연속으로 적용한다는 의미이다. T2(x)=T(T(x))\mathbf{T}^2(\bold{x}) = \mathbf{T}(\mathbf{T}(\bold{x}))T2(x)=T(T(x))

단일 벡터에 대한 투영

•

두 벡터 a,b\bold{a, b}a,b가 주어졌을 때, a\bold{a}a를 b\bold{b}b에 투영한 벡터 b′\bold{b}'b′는 다음의 절차를 따른다.

두 벡터 a,b\bold{a, b}a,b를 내적을 b\bold{b}b의 길이로 나누어 b′\bold{b}'b′의 크기를 구한다. ⟨a,b⟩∥b∥{\langle \bold{a, b} \rangle \over \|\bold{b}\|}∥b∥⟨a,b⟩​

•

벡터의 내적과 노름은 모두 스칼라이므로 이 값은 스칼라가 된다.

b\bold{b}b를 정규화하여 방향을 구한다. b∥b∥{\bold{b} \over \|\bold{b}\|}∥b∥b​

•

벡터를 스칼라로 나눈 것이므로 이 값은 벡터이다.

정규화된 b\bold{b}b (방향)와 b′\bold{b}'b′의 크기를 곱해 b′\bold{b}'b′를 구한다. ⟨a,b⟩∥b∥×b∥b∥=b′{\langle{\bold{a, b}}\rangle \over \|\bold{b}\|} \times {\bold{b} \over \|\bold{b}\|} = \bold{b}'∥b∥⟨a,b⟩​×∥b∥b​=b′

\left( {\langle{\bold{a, b}}\rangle \over \|\bold{b}\|^2}\right) \bold{b} = \bold{b}'

•

이것은 일반적으로 a\bold{a}a의 그림자라고도 표현하기도 하는데, 이것은 b\bold{b}b에 존재하는 벡터 중 a\bold{a}a에 가장 가까운 벡터를 찾는 것이라고 볼 수 있다. a\bold{a}a와 가장 가까운 것은 다시 말해 수직인 벡터가 된다.

•

참고로 벡터를 자기 자신과 내적하면 노름의 제곱이 되므로, 벡터를 자기 자신에게 투영(projection)하면 자기 자신이 된다. 이는 자기 자신과 가장 가까운 벡터는 자기 자신이라는 의미가 된다.

\left({\langle \bold{a}, \bold{a} \rangle \over \|\bold{a}\|^2}\right) \bold{a} = \left({\|\bold{a}\|^2 \over \|\bold{a}\|^2}\right) \bold{a} = \bold{a}

벡터의 Span에 대한 투영

•

단일 벡터가 아닌 벡터의 span에 대해 투영은 다음 같이 정의할 수 있다.

◦

투영이 가장 가까운 벡터를 찾는 것이므로 벡터를 다른 벡터 공간에 투영하는 것은 그 벡터 공간 내에서 주어진 벡터에 가장 가까운 벡터를 찾는다는 의미가 된다. 아래에서 보겠지만, 이것은 해를 구할 수 없을 때 가장 근사(approximate) 해를 찾는 방법이 된다.

•

벡터들의 집합 {x1,...,xn}\{ \bold{x}_1,...,\bold{x}_n\}{x1​,...,xn​}의 span을 span({x1,...,xn})\text{span}(\{ \bold{x}_1,...,\bold{x}_n\})span({x1​,...,xn​})이라 하고, 이 생성 집합에 대해 벡터 y∈Rm\bold{y} \in \mathbb{R}^my∈Rm를 투영한 벡터를 v\bold{v}v라 하면 v∈span({x1,...,xn})\bold{v} \in \text{span}(\{\bold{x}_1,...,\bold{x}_n\})v∈span({x1​,...,xn​})이다. 이것을 Proj(y;{x1,...,xn})\text{Proj}(\bold{y}; \{\bold{x}_1,...,\bold{x}_n\})Proj(y;{x1​,...,xn​})으로 표기하고 다음처럼 정의할 수 있다.

\text{Proj}(\bold{y};\{\bold{x}_1, ... , \bold{x}_n\}) = \argmin_{\bold{v} \in \text{span}(\{\bold{x}_1,...,\bold{x}_n\})}\|\bold{y} - \bold{v}\|_2

•

v\bold{v}v는 y\bold{y}y에 가장 가까운 —수직인— 벡터가 되고, span({x1,...,xn})\text{span}(\{ \bold{x}_1,...,\bold{x}_n\})span({x1​,...,xn​})의 선형 조합에 의해 표현될 수 있다. 

◦

{x1,...,xn}\{ \bold{x}_1,...,\bold{x}_n\}{x1​,...,xn​} 중에 y\bold{y}y에 가장 가까운 벡터를 고르는게 아니다.

•

m≥nm \geq nm≥n인 (풀 랭크) 행렬 A∈Rm×n\bold{A} \in \mathbb{R}^{m \times n}A∈Rm×n이 주어졌을 때, A\bold{A}A의 range에 대한 벡터 y∈Rm\bold{y} \in \mathbb{R}^my∈Rm의 projection은 다음처럼 정의할 수 있다.

\text{Proj}(\bold{y};\bold{A}) = \argmin_{\bold{v} \in \mathcal{R}(A)}\|\bold{v} - \bold{y}\|_2 = \bold{A}(\bold{A}^\top\bold{A})^{-1}\bold{A}^\top\bold{y}

•

위의 식에서 arg min⁡\argminargmin은 값을 가장 작게 만드는 것을 취한다는 의미가 되고, 이것은 A\bold{A}A의 range R(A)\mathcal{R}(A)R(A)에서 벡터 y∈Rm\bold{y} \in \mathbb{R}^my∈Rm에 가장 가까운 —y\bold{y}y와 수직인— 벡터를 찾는다는 의미가 된다.

◦

이것은 주어진 벡터 공간에서 해를 찾을 수 없을 때, 해에 가장 가까운 벡터를 찾는 의미가 된다. 이 벡터는 에러 벡터라고 하며 e\bold{e}e로 표기한다.

◦

위의 식을 통해 해를 구하는 것을 최소자승법(least squares)라고 하고, 이때 A(A⊤A)−1A⊤\bold{A}(\bold{A}^\top\bold{A})^{-1}\bold{A}^\topA(A⊤A)−1A⊤는 y\bold{y}y에 대한 투영 행렬(projection matrix)라고 한다.

◦

참고로 위의 투영행렬을 적절히 변형한 A⊤y=A⊤Ax^\bold{A}^\top\bold{y} = \bold{A}^\top\bold{A}\hat{\bold{x}}A⊤y=A⊤Ax^의 형식을 정규방정식(normal equation)이라고 한다.

참조

•

프리드버그 선형대수학

•

Probabilistic Machine Learning: An Introduction

•

이상엽/ 선형대수학 

•