Sunteți pe pagina 1din 7

Analiza componentelor principale

Analiza componentelor principale are ca obiectiv prezentarea sintetic a unui tabel de


date n care unitile sunt descrise prin multiple variabile cantitative.
Aceast descriere trebuie s permit:
o sintez a informaiei, variabilele descriptive sunt regrupate n factori sintetici, denumii
componente principale, astfel nct pierderea de informaie s fie minim;
poziionarea unitilor prin raportare la componentele principale ceea ce va permite
punerea n eviden de tipuri de uniti.
Studiul unui eantion sau al unei populaii poate fi considerat complet, de regul, doar
dac au fost msurate sau evaluate foarte multe variabile. La prima vedere, fiecare dintre
variabilele msurate ar putea prea a fi de aceeai importan, ns, innd seama de faptul c
ntre unele ar putea exista legturi de dependen, am putea s descoperim c un numr mic
de variabile, independente ntre ele, explic suficient de bine fenomenul studiat. Aceast
problem poate fi rezolvat cu ajutorul analizei componentelor principale.
Reducerea variabilelor iniiale poate fi utilizat pentru uurarea interpretrii (avem un
numr mai restrns de factori) i de asemenea poate servi ca faz intermediar de calcul
prealabil n utilizarea altor metode de analiz multidimensional.
Astfel presupunem c n uniti sunt caracterizate de p variabile
( )
p
X X X ,... ,
2 1
,datele se prezint sub form matricial, de dimensiunea n*p,
( )
ij
x X
i=1,n j=1,p
Informaia cu care particip o unitate i n norul de puncte poate fi exprimat prin
distana de la punctul ce-l reprezint, pn la centrul de greutate al norului de puncte, de
coordonate mediile celor p variabile, respectiv:


p
j
j ij i
x x I
1
2
) (

Informaia total ( I ) este suma ptratelor distanelor, aferent celor n uniti, n ipoteza
c fiecare unitate are aceeai pondere, unde:

n
i
I
1

p
j
j ij
x x
1
2
) (
mrime ce n mecanic este denumit ineria norului de puncte.
Problema analizei componentelor principale const n a reduce cele p variabile iniale
ntr-un numr de q variabile denumite "componente principale" sau factori, q<p. Aceasta
presupune trecerea de la o matrice de date de dimensiune {n (uniti) *p (variabile)} de
forma:
1
1
1
1
1
1
1
]
1

np n n
ip i i
p
x x x
x x x
x x x
X
......
... .......... ..........
......
.... .......... ..........
......
2 1
2 1
1 12 11
la o matrice redus, de dimensiune (n*q)
1
1
1
1
1
1
1
]
1

nq n n
iq i i
q
f f f
f f f
f f f
F
......
.......... ..........
......
.......... ..........
......
2 1
2 1
1 12 11
Tehnica utilizat de A.C.P. pentru a trece de la p la q variabilele, q<p, const n a proiecta
norul de puncte pe un subspatiu de dimensiunea q,
q
R
, printr-o deformare minim posibil,
respectiv, pierderea de informaie s fie ct mai mic. Astfel considerm o direcie F n
spaiu, ce poate fi exprimat prin vectorul u,
u =
( )
p
u u u ,.... ,
2 1

Considernd dreapta ce trece prin centrul de greutate i are aceast direcie, vom
putea proiecta fiecare punct al norului pe aceast dreapt. Notnd cu
i
f
lungimea
segmentului ce unete proiecia punctului cu centrul de greutate, avem;
p ip i i i
u x u x u x f + + + ....
2 2 1 1
Informaia total reinut de aceste proiecii este:

n
i
i u
f I
1
2
Scopul A.C.P. const n determinarea acelor direcii ce maximizeaz informaia total
reinut, respectiv (maximizare n raport cu u):

+ + +
n
i
p ip i i u
u x u x u x I
1
2
2 2 1 1
) ... ( max max
cu restricia ca:
1 ...
2 2
2
2
1
+ + +
p
u u u
Ca urmare trebuie identificate principalele direcii (factori principali) ce asigur proiectarea norului
de puncte i furnizarea informaiei maxime.
Factorii principali (componente principale) trebuie s verifice urmtoarele condiii:
variabilele descriptive iniiale
( )
p
X X X ,... ,
2 1 sunt grupate n factori sintetici k
F
printr-o
combinaie liniar, de forma:

p
j
j kj k
x a F
1

p k , 1
factorii, componentele principale, sunt independeni
0 ) , (
m k
F F cor
m k
Procedeul de rezolvare a analizei componentelor principale este prezentat pe scurt n
schema urmtoare:
Matricea datelor iniiale
M( n*p)
Calculul matricii de varian-covarian
Vpp sau a matricii de corelaie R

Extragerea axelor factoriale
(vectorii proprii a lui V sau R)
Alegerea celor k axe principale


Calculul coordonatelor Calculul corelaiilor
unitilor pe axele ntre axele principale
principale i variabilele iniiale

In general variabilele se exprima n uniti de msur diferite, deci sunt eterogene, prelucrarea
datelor sub form iniial nu se recomand, din acest motiv trebuie centrate i eventual reduse.
Dac datele sunt omogene, pentru a gsi axele factoriale ne folosim de matricea de varian i
covarian (V) avnd ca element general
'
jj
V
, covariana dintre variabilele j i j',
'
j j iar
elementele de pe diagonala principal sunt varianele
'
jj
V
a diferitelor variabile.
Aceast matrice V este simetric, ptrat ( p*p ), cu suma elementelor de pe diagonal egal cu
variana total a norului de puncte denumita urma matricii.

,
_

pp p p
p
p
V V V
V V V
V V V
V
.....
.......... ..........
.....
.....
2 1
2 22 21
1 12 11
pp tot
V V V V + + + ...
22 11 -unde ''urma'' matricii V este variana total a norului de puncte ce
exprim informaia total ( I ).
Dac datele sunt eterogene, dup centrarea i reducerea lor, matricea folosit pentru
determinarea axelor factoriale este matricea de corelaie (R), unde
'
jj
r
reprezint coeficientul,
de corelaie dintre variabila j i j',
'
j j
, iar elementele de pe diagonala principal sunt egale
cu 1. In acest caz suma elementelor de pe diagonala principal este egal cu p respectiv
numrul de variabile.

,
_

1 .....
....... ..........
...... 1
...... 1
2 1
2 21
1 12
p p
p
p
r r
r r
r r
R
Principiul acestei metode este acela de a gsi succesiv un prim fator rezumnd cel mai
bine informaia coninut n matricea iniial, apoi al doilea factor, independent de primul,
rezumnd cel mai bine informaia rezidual i se continu pn este reinut toat variana
(informaia). Deci fiecare component principal restituie o parte din informaia iniial, msurat
prin variana sa,
K F
k

2
unde k este o valoare proprie (1) a matricii V sau R, iar


K
K
urmaV
sau


K
K
p
.
Cunoaterea informaiei adus de fiecare factor
K
F
ne furnizeaz date despre direcia
axelor. Acetia sunt vectorii proprii
K
u
asociai diferitelor valori proprii
K

(2).
S-a demonstrat c:
axele factoriale (sau componentele principale) trec prin centrul de gravitaie a norului de
puncte;
axele factoriale sunt vectorii proprii a matricii de varian i covarian (sau a matrici de
corelaie);
valoarea proprie asociat unei axe msoar variana raportat prin acea ax ;
prima component principal este vectorul propriu asociat celei mai mari valori proprii ; a
doua este asociat valorii proprii urmtoare etc... , deci p
....
2 1 .
Componentele principale (axele) sunt caracterizate de urmtoarele proprieti:
axele sunt ortogonale i n consecin sunt independente;
media fiecarei componenta este nul;
cea mai mare parte din variana total a norului de puncte este concentrat pe primele axe.
Alegerea numrului de axe este o problem important. Pentru aceasta exist mai multe
metode. Cea mai uzual este cea a calculrii varianei explicite adus de fiecare ax i
determinarea celei cumulate.

p
K
K
F V
1
1
1
) exp(

p
K
K
F F V
1
2 1
2 1
) , exp(


etc.

Astfel se poate fixa un prag minim pentru variana explicit cumulat de exemplu s
fie n jur de 80% . In momentul n care acest prag este atins se consider c sunt suficiente axele
retinute.
Sigur mai exista i o metoda grafic cat i una empiric.
Calitatea global a reprezentrii va fi msurat prin partea varianei explicat de
planul principal ( )
2 1
, F F , unde :

p
K
K
F F V
1
2 1
2 1
) , exp(



reprezentarea fiind bun dac Vexp este apropiat de 1.
In general este foarte important s poi interpreta axele factoriale. Pentru aceasta
este necesar s revenim la variabilele iniiale. Astfel vom determina importana variabilei
iniiale n formarea factorilor calculnd coeficienii de corelaie dintre variabilele iniiale i
axele factoriale (componentele principale).
Kj
j
k
F X
u r
K j

Fiecare variabil fiind centrat i de norm 1, poate fi reprezentat n spaiul


n
R
,
printr-un punct situat n cercul de centru 0 i raz 1.
Deoarece componentele principale sunt necorelate este uor de stabilit expresia de
calcul a coeficientului de corelaie multipl, astfel:
'
'
2 2
/
K
j K j
K
K j
F X F X
F F X
r r R +
unde acest coeficient este distana de la centrul la punctul care reprezint variabila j
X
.
Este deci posibil s vedem care coeficieni de corelaie sunt mai mari pentru un
factor dat, ca s gsim variabilele iniiale care contribuie cel mai mult la acel factor i s ajute
la interpretarea lui. In general se rein valorile mai mari de 0,50.
Numrul de axe fiind fixat, este posibil ca lund axele dou cte dou s obinem
o reprezentare grafic a rezultatelor. Astfel vom reprezenta unitile observate prin
coordonatele axelor factoriale i variabilele iniiale prin coeficientul de corelaie. Practic acest
lucru este posibil atunci cnd numrul de axe reinute nu este mai mare de 3.
In plus mai putem determina contribuia relativ sau absolut a unitilor la ineria
asociat axelor factoriale.
Astfel :
( ) ( )

+

p
j
ij
iK
iK
i
x
f f
1
2
2 2
2
'
cos
o bun reprezentare a unitii i pe planul [Fk,Fk') corespunde unei valori a lui
i

aproape de
1.
Cordonatele componentelor principale se determin din urmtoarea relaie:
F = [X] I U
unde: x - matricea initiala
I - matricea unitate
U - vectoru propriu.

[ ]
k k
IU X F

( )
nk ik k k
f f f F ,... ,...
1

Aceste coordonate permit reprezentarea punctelor uniti n planul [Fk,Fk' ],


putndu-se astfel stabili tipuri de uniti omogene n raport cu componentele principale
analizate.
Ajutor de reamintire
(1) Determinarea valorilor proprii este realizat cu ajutorul determinantului de la
matricea
[ ] I V
, unde I este matricea uniti i este vectorul valorilor proprii .
Valorile proprii sunt soluia ecuaiei =0.
(2) Vectorul propriu Uk asociat valorii proprii
K

este determinat cu ajutorul rezolvrii


ecuaiei [V] [Uk] =
K

[Uk].
Bibliografie:
1.Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle, Dunod,
1995, pg.32-48.
2. Volle M., Analyse des donnees, Ed. Economica, Paris, 1997, pg.108-129.
3. Saporta G., Stefanescu V., Analiza datelor & informatica, Ed. Economica, Bucuresti, 1996,
pg. 68-84.

S-ar putea să vă placă și