Sunteți pe pagina 1din 3

Analiza componentelor principale

Dimensionalitatea datelor initiale poate fi redusa fara a pierde cantitati mari de informatie atunci
cand variabilele originale sunt puternic corelate.

In cazul de fata, valorile coeficientilor de corelatie sunt mari, deci se poate aplica in mod eficient
metoda PCA pentru a reduce dimensionalitatea. Se calculeaza valorile si vectorii proprii ai matricii de
covarianta S.
Prin comanda summary(pca_date) se obtin abaterile standard ale tuturor componentelor ,
precum si proportia din varianta explicata de fiecare componenta., iar varianta totala este suma
variantelor componentelor.

Prima componenta principala explica 97.34% din variatia totala. Prin aplicarea criteriului variatiei
explicate de proportia cumulativa se retine un numar de componente care explica aproximativ 80-90%
din variatia totala. In acest exemplu, vom retine doar prima componenta principala.

Conform principiului lui Kaiser , numarul de componente este dat de numarul de valori proprii mai mari
decat 1, deci in cazul de fata vor exista 5 componente principale.

Criteriul pantei este dat de graficul numit scree-plot, care presupune reprezentarea valorilor proprii pe
ordonata si a componentelor principale pe abscisa. Determinarea numarului de componente principale
ce trebuie retinute se determina pe baza efectuarii unei taieturi transversale in raport cu abscisa astfel
incat la dreapta taieturii sa ramana o portiune din grafic cu panta apropiata de 0. Numarul de
componente principale este dat de ultima eticheta de la stanga taieturii.

> plot(pca_date,type="lines")

Sunt afisati vectorii de incarcare ai primelor doua componente principale.