김영길/ 선형대수학/ orthogonal complement, LU decomposition, least square, correlation matrix

Def

•

inner product space VVV의 nonempty subset SSS에 대하여, SSS의 orthogonal complement(직교 여공간)는 다음과 같이 정의한다.

◦

S⊥={x∈V∣⟨x,y⟩=0,∀y∈S}S \bot = \{ x \in V | \langle x, y \rangle = 0, \forall y \in S \}S⊥={x∈V∣⟨x,y⟩=0,∀y∈S}

◦

S⊥S \botS⊥ 란 VVV의 벡터 중에 SSS의 모든 벡터들과 orthogonal한 것을 모아 놓은 집합

•

Ex 9)

◦

V=R3,S={(0,0,1)}V = R^{3}, S = \{ (0, 0, 1) \}V=R3,S={(0,0,1)} 일 때

▪

S⊥=xy planeS \bot = \text{xy plane}S⊥=xy plane

Thm 6.7

•

W⊆VW \subseteq VW⊆V 일 때

◦

dim(V)=dim(W)+dim(W⊥)dim(V) = dim(W) + dim(W \bot)dim(V)=dim(W)+dim(W⊥)

•

Ex 11)

◦

V=R3V = R^{3}V=R3 에서

▪

W=span({(1,0,0),(0,1,0)})={(a,b,0)∣a,b∈R}W = span(\{(1, 0, 0), (0, 1, 0)\}) = \{(a, b, 0) | a, b \in R\}W=span({(1,0,0),(0,1,0)})={(a,b,0)∣a,b∈R} 이면

▪

dim(W)=2dim(W) = 2dim(W)=2

▪

W⊥={(0,0,c)∣c∈R}W \bot = \{ (0, 0, c) | c \in R \}W⊥={(0,0,c)∣c∈R}

▪

dim(W⊥)=1dim(W \bot) = 1dim(W⊥)=1

•

Ex 12)

◦

(Null space of AAA)⊥\bot⊥ = row space of AA A

▪

AAA의 널공간은 AAA의 모든 row와 수직인 것을 모아 놓은 것이 된다.

◦

(Null space of AtA^{t}At)⊥\bot⊥ = column space of AA A

▪

이것을 Left Null Space라고도 한다.

LU decomposition

•

n×nn \times nn×n 정사각행렬 AAA에 대하여

◦

만일 row exchange를 하지 않고 A→UA \to UA→U를 만들 수 있으면

◦

A=LUA = LUA=LU

▪

LL L는 lower triangular matrix

▪

UU U는 upper triangular matrix

•

(예시 생략)

Least square solution (최소제곱해)

•

overdetermined problems의 least square solution

◦

Ax=bAx = bAx=b의 꼴에서 xxx를 구할 수 없을 때

▪

[12342042][x1x2]=[2103]\left[ \begin{array}{rrrr} 1 & 2 \\ 3 & 4 \\ 2 & 0 \\ 4 & 2 \end{array} \right] \left[ \begin{array}{rr} x_{1} \\ x_{2} \end{array} \right] = \left[ \begin{array}{rrrr} 2 \\ 1 \\ 0 \\ 3 \end{array} \right]​1324​2402​​[x1​x2​​]=​2103​​

▪

위와 같은 경우 해가 없다. (Inconsistent system)

◦

이럴 때는 bbb에 최대한 가깝게 xx x를 조정한다.

▪

x^=arg⁡min⁡x∥Ax−b∥2\hat{x} = \arg \min_{x} \| Ax - b \|^{2}x^=argminx​∥Ax−b∥2

◦

이때 bb b와 가장 가까워지는 x^\hat{x}x^는 (error vector - bbb와의 간격이 error값이 된다) AAA의 모든 벡터와 수직인 값이 된다. (거꾸로 말하면 AAA의 모든 벡터와 수직이 되는 값을 찾으면 된다.)

▪

(b−Ax^)⊥aj(∀j)(b - A \hat{x}) \bot a_{j} (\forall j)(b−Ax^)⊥aj​(∀j)

Orthogonality principle

•

앞서 살펴본 경우의 AAA와 수직인 벡터를 찾는 방법

•

ajT(b−Ax^)=0(j=1,2,...,n)a_{j}^{T} (b - A \hat{x}) = 0 (j = 1, 2, ... , n)ajT​(b−Ax^)=0(j=1,2,...,n)

◦

[−a1T−−a2T−...−anT−][∣b−Ax^∣]=[00...0]\left[ \begin{array}{rrrr} - & a_{1}^{T} & - \\ - & a_{2}^{T} & - \\ & ... & \\ - & a_{n}^{T} & - \end{array} \right] \left[ \begin{array}{rrr} | \\ b - A \hat{x} \\ | \end{array} \right] = \left[ \begin{array}{rrrr} 0 \\ 0 \\ ... \\ 0 \end{array} \right]​−−−​a1T​a2T​...anT​​−−−​​​∣b−Ax^∣​​=​00...0​​

◦

AT(b−Ax^)=0A^{T}(b - A \hat{x}) = 0AT(b−Ax^)=0

◦

ATAx^=ATbA^{T} A \hat{x} = A^{T} bATAx^=ATb

•

AAA가 full rank일 때

◦

x^=(ATA)−1ATb\hat{x} = (A^{T}A)^{-1}A^{T}bx^=(ATA)−1ATb

◦

AAA의 Moore Penrose pseudo-inverse는 (ATA)−1AT(A^{T}A)^{-1}A^{T}(ATA)−1AT가 된다.

•

AAA의 column space로 향하는 BBB의 Projection

◦

p=Ax^=A(ATA)−1ATb=Pbp = A \hat{x} = A(A^{T}A)^{-1}A^{T}b = Pbp=Ax^=A(ATA)−1ATb=Pb

•

Projection matrix

◦

P=A(ATA)−1ATP = A(A^{T}A)^{-1}A^{T}P=A(ATA)−1AT

◦

P2=PP^{2} = PP2=P

▪

PPP는 Projection 되었기 때문에 제곱해도 변하지 않는다.

Ex. Measurements

•

다음과 같이 점이 주어졌을 때

◦

(x1,y1)=(−1,1)(x_{1}, y_{1}) = (-1, 1)(x1​,y1​)=(−1,1)

◦

(x2,y2)=(1,1)(x_{2}, y_{2}) = (1, 1)(x2​,y2​)=(1,1)

◦

(x3,y3)=(2,3)(x_{3}, y_{3}) = (2, 3)(x3​,y3​)=(2,3)

•

y=C+Dxy = C + Dxy=C+Dx가 되는 line을 찾으려고 한다. (error를 최소화하는 직선을 찾는 문제. 제곱은 결국 거리기 때문에 거리를 최소화한다는 의미에서 최소제곱을 찾는 문제이다)

◦

[1−11112][CD]=[113]\left[ \begin{array}{rrr} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{array} \right] \left[ \begin{array}{rr} C \\ D \end{array} \right] = \left[ \begin{array}{rrr} 1 \\ 1 \\ 3 \end{array} \right]​111​−112​​[CD​]=​113​​

◦

ATA=[111−112][1−11112]=[3226]A^{T}A = \left[ \begin{array}{rrr} 1 & 1 & 1 \\ -1 & 1 & 2 \end{array} \right] \left[ \begin{array}{rrr} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{array} \right] = \left[ \begin{array}{rr} 3 & 2 \\ 2 & 6 \end{array} \right]ATA=[1−1​11​12​]​111​−112​​=[32​26​]

◦

ATb=[111−112][113]=[56]A^{T}b = \left[ \begin{array}{rrr} 1 & 1 & 1 \\ -1 & 1 & 2 \end{array} \right] \left[ \begin{array}{rrr} 1 \\ 1 \\ 3 \end{array} \right] = \left[ \begin{array}{rr} 5 \\ 6 \end{array} \right]ATb=[1−1​11​12​]​113​​=[56​]

◦

ATAx^=ATbA^{T} A \hat{x} = A^{T} bATAx^=ATb

◦

[3226][CD]=[56]\left[ \begin{array}{rr} 3 & 2 \\ 2 & 6 \end{array} \right] \left[ \begin{array}{rr} C \\ D \end{array} \right] = \left[ \begin{array}{rr} 5 \\ 6 \end{array} \right][32​26​][CD​]=[56​]

◦

C=97,D=47C = {9 \over 7}, D = {4 \over 7}C=79​,D=74​

◦

∴y=97+47x\therefore y = {9 \over 7} + {4 \over 7}x∴y=79​+74​x

Unitary matrix

•

Unitary matrix란 Rows도 orthonormal이고 Columns도 orthonormal한 matrix를 말한다.

◦

AA†=A†A=IAA^{\dagger} = A^{\dagger}A = IAA†=A†A=I

◦

det(A)=1det(A) = 1det(A)=1

Matrix in random processes

•

Random vectors의 Second-Moment Descriptions

◦

Random vector z=[z(u,1)z(u,2)...z(u,n)]z = \left[ \begin{array}{rrrr} z(u, 1) \\ z(u, 2) \\ ... \\ z(u, n) \end{array} \right]z=​z(u,1)z(u,2)...z(u,n)​​

•

Mean vector MzM_{z}Mz​

◦

Mz=[mz(1)mz(2)...mz(n)]=[E{z(u,1)}E{z(u,2)}...E{z(u,n)}]=E{z(u)}M_{z} = \left[ \begin{array}{rrrr} m_{z}(1) \\ m_{z}(2) \\ ... \\ m_{z}(n) \end{array} \right] = \left[ \begin{array}{rrrr} E\{z(u, 1)\} \\ E\{z(u, 2)\} \\ ... \\ E\{z(u, n)\} \end{array} \right] = E\{z(u)\}Mz​=​mz​(1)mz​(2)...mz​(n)​​=​E{z(u,1)}E{z(u,2)}...E{z(u,n)}​​=E{z(u)}

•

Correlation matrix RzR_{z}Rz​

◦

Rz=[Rz(1,1)Rz(1,2)...Rz(1,n)Rz(2,1)Rz(2,2)...Rz(2,n)...Rz(n,1)Rz(n,2)...Rz(n,n)]R_{z} = \left[ \begin{array}{rrrr} R_{z}(1, 1) & R_{z}(1, 2) & ... & R_{z}(1, n) \\ R_{z}(2, 1) & R_{z}(2, 2) & ... & R_{z}(2, n) \\ ... \\ R_{z}(n, 1) & R_{z}(n, 2) & ... & R_{z}(n, n) \end{array} \right]Rz​=​Rz​(1,1)Rz​(2,1)...Rz​(n,1)​Rz​(1,2)Rz​(2,2)Rz​(n,2)​.........​Rz​(1,n)Rz​(2,n)Rz​(n,n)​​

◦

=[E{z(u,1)z∗(u,1)}E{z(u,1)z∗(u,2)}...E{z(u,1)z∗(u,n)}E{z(u,2)z∗(u,1)}E{z(u,2)z∗(u,2)}...E{z(u,2)z∗(u,n)}...E{z(u,n)z∗(u,1)}E{z(u,n)z∗(u,2)}...E{z(u,n)z∗(u,n)}]= \left[ \begin{array}{rrrr} E\{z(u,1) z^{*}(u, 1)\} & E\{z(u,1) z^{*}(u, 2)\} & ... & E\{z(u,1) z^{*}(u, n)\} \\ E\{z(u,2) z^{*}(u, 1)\} & E\{z(u,2) z^{*}(u, 2)\} & ... & E\{z(u,2) z^{*}(u, n)\} \\ ... \\ E\{z(u,n) z^{*}(u, 1)\} & E\{z(u,n) z^{*}(u, 2)\} & ... & E\{z(u,n) z^{*}(u, n)\} \end{array} \right]=​E{z(u,1)z∗(u,1)}E{z(u,2)z∗(u,1)}...E{z(u,n)z∗(u,1)}​E{z(u,1)z∗(u,2)}E{z(u,2)z∗(u,2)}E{z(u,n)z∗(u,2)}​.........​E{z(u,1)z∗(u,n)}E{z(u,2)z∗(u,n)}E{z(u,n)z∗(u,n)}​​ 

◦

=E{[z(u,1)z(u,2)...z(u,n)][z∗(u,1)z∗(u,2)...z∗(u,n)]}= E \{ \left[ \begin{array}{rrrr} z(u, 1) \\ z(u, 2) \\ ... \\ z(u, n) \end{array} \right] \left[ \begin{array}{rrrr} z^{*}(u, 1) & z^{*}(u, 2) & ... & z^{*}(u, n) \end{array} \right] \}=E{​z(u,1)z(u,2)...z(u,n)​​[z∗(u,1)​z∗(u,2)​...​z∗(u,n)​]}

◦

=E{z(u)z†(u)}= E\{z(u)z^{\dagger}(u)\}=E{z(u)z†(u)}