주성분분석(PCA: Principal component analysis) with R

정지훈님의 글 (6/19/2018, from RPUB)

Chapter 1. 주성분 분석이란

(1) 차원분석의 개념

주성분 분석은 머신러닝(ML)에서 “차원 축소”의 형태로 많이 사용이 됨

차원축소란, 고차원의 데이터를 저차원의 데이터로 변환하는데 사용됨

차원축소로 기대할 수 있는 효과는 머신러닝에서는 모델의 성능을 강화시켜주는 것이고, 통계적으로는 적은 수의 특징만으로 특정 현상을 설명하려고 할 때 쓰임

차원 축소의 방법으로는 크게 두가지임,

(1) Feature Selection

(2) Feature Extraction

PCA는 Feature Extraction임

차원 축소의 방법에 관한 쉽고 좋은 강의가 있어서 공유함 https://youtu.be/AU_hBML2H1c

(2) 주성분 분석의 개념

여러개의 양적변수(Quantitative Variable)들 사이의 분산-공분산 관계를 이용하여 변수들의 선형결합(linear combination)으로 표시되는 주성분(Principal Component)을 찾고, 2-3개의 주성분으로 전체 변동(variance)의 대부분을 설명하고자 하는 다변량분석법

주성분 분석의 개념은 데이터 프레임의 총 변동을 대부분 설명할 수 있는 변수 선형 조합을 찾아내는 것

많은 변수를 처리해야 할 때, 전체 데이터 프레임보다 원 데이터의 조합을 사용하는 것이 훨씬 간단함

사용 원리는 직교 관계의 표준선형 결합 집합을 찾는 것임

표준선형 결합이란 다음과 같음

주제별로 3개의 측정변수(v1, v2, v3)가 있고, 성능의 핵심만을 뽑아 하나의 숫자로 나타냄

가장 쉬운 방법은 1/3 x v1 + 1/3 x v2 + 1/3 x v3으로 세 숫자의 산술평균을 구하는 것임

이 때, 계수벡터(vector of coefficients) l = (1/3, 1/3, 1/3)은 선형 결합이라고 하고, l^2 = 1인 선형 결합은 표준선형결합(Standardized Linear Combination)이라고 함

PCA에 대한 구체적인 설명은 다음 강의를 참고 요망 https://youtu.be/FgakZw6K1QQ

(3) 주성분분석의 응용

R에서 PCA를 다루는 데는 두 함수를 사용함(prcomp)

변동을 최대화하는 변수 집합의 선형 조합을 발견하는 것이 목적임

주성분분석을 토대로 (1) 회귀분석에서 설명변수의 개수 결정, (2) 인자분석의 전초작업(즉, 인자를 구하는 방법으로 이용), (3) 군집분석의 전초작업(즉, 입력변수로 이용)으로 사용됨

추천시스템을 구현할 때는 고차원으로 인해 야기될 수 있는 모델의 성능 저하를 저차원으로 변환하여 모델의 성능을 강화시켜주는데 도움을 줌

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중