파이썬을 이용하여 커널법 배우기/선형 주성분 분석 이론

$d$ 차원 벡터 샘플 집합 $\mathbf {X} =[\mathbf {x} _{1},\ldots ,\mathbf {x} _{l}]^{\top }\in \Re ^{d\times l}$ 가 있다고 하자. 이 샘플 집합과의 거리의 합이 가장 적은 하나의 벡터를 $\mathbf {x} _{0}$ 라 하면, 이는 제곱오차(squared-error) 척도 $J_{0}(\mathbf {x} _{0})$ 를 최소화하는 값이다.

J_{0}(\mathbf {x} _{0})=\sum _{k=1}^{l}||\mathbf {x} _{0}-\mathbf {x} _{k}||^{2}

이 문제의 최적값은 샘플의 평균 값 $\mathbf {m}$ 으로 구할 수 있는데 (즉 $\mathbf {x} _{0}=\mathbf {m}$ ),

\mathbf {m} ={\frac {1}{l}}\sum _{k=1}^{l}\mathbf {x} _{k}

다음과 같이 쉽게 증명할 수 있다.

{\begin{aligned}J_{0}(\mathbf {x} _{0})&=\sum _{k=1}^{l}||(\mathbf {x} _{0}-\mathbf {m} )-(\mathbf {x} _{k}-\mathbf {m} )||^{2}\\&=\sum _{k=1}^{l}||\mathbf {x} _{0}-\mathbf {m} ||^{2}-2(\mathbf {x} _{0}-\mathbf {m} )^{\top }\sum _{k=1}^{l}(\mathbf {x} _{k}-\mathbf {m} )+\sum _{k=1}^{l}||\mathbf {x} _{k}-\mathbf {m} ||^{2}\\&=\sum _{k=1}^{l}||\mathbf {x} _{0}-\mathbf {m} ||^{2}+\underbrace {\sum _{k=1}^{l}||\mathbf {x} _{k}-\mathbf {m} ||^{2}} _{{\text{independent of }}\mathbf {x} _{0}}.\end{aligned}}

$\mathbf {v}$ 를 특정 방향을 나타내는 단위 벡터라 하자. 샘플 $\mathbf {x} _{i}$ 는 샘플 평균 $\mathbf {m}$ 에서 $\mathbf {v}$ 방향으로 $a_{i}$ 만큼 이동했다고 표현할 수 있다.

\mathbf {x} _{i}=\mathbf {m} +a_{i}\mathbf {v}

만약 이 값을 만족시키는 최적의 $a_{i}$ 집합은 앞에서와 마찬가지로 제곱오차 척도를 최소화하는 값으로 구할 수 있다.

{\begin{aligned}J_{1}(a_{1},\ldots ,a_{l},\mathbf {v} )&=\sum _{k=1}^{l}||(\mathbf {m} +a_{k}\mathbf {v} )-\mathbf {x} _{k}||^{2}\\&=\sum _{k=1}^{l}||a_{k}\mathbf {v} -(\mathbf {x} _{k}-\mathbf {m} )||^{2}\\&=\sum _{k=1}^{l}a_{k}^{2}||\mathbf {v} ||^{2}-2\sum _{k=1}^{l}a_{k}\mathbf {v} ^{\top }(\mathbf {x} _{k}-\mathbf {m} )+\underbrace {\sum _{k=1}^{l}||\mathbf {x} _{k}-\mathbf {m} ||^{2}} _{{\text{independent of }}J_{1}}\end{aligned}}

위 식을 $a_{i}$ 에 대해서 편미분 수행하고, $||\mathbf {v} ||^{2}=1$ 이란 사실을 통해 다음 식을 얻을 수 있다.

{\frac {\partial }{\partial a_{i}}}J_{1}(a_{1},\ldots ,a_{l},\mathbf {v} )=2a_{i}-2\mathbf {v} ^{\top }(\mathbf {x} _{i}-\mathbf {m} )

목적함수 $J_{1}$ 을 최소화하는 값은 식 위식이 0인 경우이다. 따라서 최적의 값을 다음과 같다.

a_{i}=\mathbf {v} ^{\top }(\mathbf {x} _{i}-\mathbf {m} )

공분산 행렬 $\mathbf {C}$ 를 다음과 같이 정의하고,

\mathbf {C} =\sum _{k=1}^{l}(\mathbf {x} _{k}-\mathbf {m} )(\mathbf {x} _{k}-\mathbf {m} )^{\top }

식 ()과 ()를 식 ()에 대입하면 다음 식을 얻을 수 있다.

{\begin{aligned}J_{1}(\mathbf {v} )&=\sum _{k=1}^{l}a_{k}^{2}-2\sum _{k=1}^{l}a_{k}^{2}\\&=-\sum _{k=1}^{l}\mathbf {v} ^{\top }(\mathbf {x} _{k}-\mathbf {m} )(\mathbf {x} _{k}-\mathbf {m} )^{\top }\mathbf {v} \\&=-\mathbf {v} ^{\top }\mathbf {C} \mathbf {v} \end{aligned}}

이제 위 식의 최소화 문제는 $\mathbf {v} ^{\top }\mathbf {C} \mathbf {v}$ 의 최대화 문제로 해결 가능하다. 라그랑제 승수(Lagrange multipliers) $\lambda$ 를 이용하여 다음 식을 나타내고,

L(\lambda ,\mathbf {v} )=\mathbf {v} ^{\top }\mathbf {C} \mathbf {v} -\lambda (\mathbf {v} ^{\top }\mathbf {v} -1)

$\mathbf {v} ^{\top }\mathbf {C} \mathbf {v}$ 최대화 문제는 위 식을 $\mathbf {v}$ 로 미분하여 얻을 수 있다.

{\frac {\partial L}{\partial \mathbf {v} }}=2\mathbf {C} \mathbf {v} -2\lambda \mathbf {v}

위 식을 0으로 설정하면, $J_{1}$ 최소화 문제는 공분산 행렬 $\mathbf {C}$ 의 고유값 문제로 해결 가능하다.

\mathbf {C} \mathbf {v} =\lambda \mathbf {v}

실제로 $\mathbf {v} ^{\top }\mathbf {C} \mathbf {v} =\lambda \mathbf {v} ^{\top }\mathbf {v} =\lambda$ 이기 때문에 가장 큰 고유값에 대응하는 고유벡터가 최적의 값이 된다. 또한 고유값의 내림차순에 대응하는 고유벡터 몇개를 취함으로써 목적함수 $J_{1}$ 을 더욱 만족시킬 수 있다. 여기서 선택된 고유벡터를 주성분(principal components)라 한다.

주성분 즉, $q$ 개의 선택된 고유값을 $\mathbf {V} =[\mathbf {v} _{1},\ldots ,\mathbf {v} _{q}]\in \Re ^{d\times q}$ 라 하면, 이 주성분으로 특징 샘플 $\mathbf {y} \in \Re ^{d}$ 을 사상하면 $P_{V}(\mathbf {y} )$ 를 얻을 수 있다.

P_{V}(\mathbf {y} )=\mathbf {V} ^{\top }(\mathbf {y} -\mathbf {m} )\in \Re ^{q}

또한 원래 샘플 복원은 다음과 같이 수행한다.

\mathbf {y} '=\mathbf {V} \mathbf {V} ^{\top }(\mathbf {y} -\mathbf {m} )+\mathbf {m}

여기서 $\mathbf {y} '$ 는 복원된 샘플을 의미한다.