본문 바로가기

Machine Learning/Feature Engineering

PCA(주성분 분석)

요약

PCA(Principal Component Analysis)는 주성분 분석이라고도 하며, 고차원 데이터의 집합이 주어졌을 때, 원래의 고차원 데이터와 가장 비슷하면서 더 낮은 차원의 데이터를 찾아내는 방법이다.더 낮은 차원의 데이터값 변화가 더 높은 차원의 데이터값 변화를 설명할 수 있어야 한다. PCA는 통계 데이터 분석(주성분 찾기), 데이터 압축(차원 축소), 노이즈 제거 등 다양하게 활용할 수 있다.

PCA는 데이터 하나 하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해주는 방법이다. 여기서 주성분이라 하면, 그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다. 따라서 PCA를 2차원 데이터 집합에 대해 수행하면 2개의 서로 수직인 주성분 벡터를 반환하고, 3차원 데이터에 집합에 대해 수행하면 3개의 서로 수직인 주성분 벡터를 반환한다.

 

PCA에서 n components 결정

PCA를 적용할 때에는, 몇 개의 인자로 압축할 것인지 결정이 필요하다. 일반적으로 PCA는 인자들의 수를 줄이는 데에 목적이 있기 때문에, 가능한 인자 수를 작게 설정한다. 따라서 데이터의 분산에 대한 설명력을 유지하는 선에서 가장 작은 값으로 설정하는 것이 좋다.

 

PCA 적용 시 기대효과

  • 다중공선성 문제 감소
  • 학습시간 단축