Sunteți pe pagina 1din 11

Statistic multivariat

Lucrarea nr. 11 Analiza n componente principale -


SPSS
A. Noiuni teoretice
Analiza factorial (analiza n componente principale este o metod factorial)
a aprut pentru a rezolva probleme din categoria urmtoare:

reducerea complexitii datelor (data reduction) poate fi nlocuit un masiv de date de mari

dimensiuni prin masive de dimensiuni mai mici?

evidenierea i fixarea patternului asocierilor (corelaiilor) dintre variabile.

determinarea variabilelor latente (mai puine) care se afl n spatele variabilelor msurate (mai

multe) problem similar descoperirii celor care mnuiesc ppuile ntr-un teatru de ppui;
comportarea, variana variabilelor msurate poate fi regsit din variana unor variabile ascunse, care
le determin prin asociere.
Variabilele ascunse, latente, sunt denumite factori i de aici denumirea metodelor analizei factoriale.
Metoda a aprut la nceput n studii psihologice n care s-a ncercat s se determine, evalueze,
variabile precum inteligena. Cum se pot evalua atribute precum puterea de asimilare, de reacie, de
nelegere etc., s-a presupus c multe dintre acestea sunt determinate de o variabil latent care poate
fi inteligena.
Formaliznd cele spuse se consider c exist o mulime de variabile X1, X2,...,Xp i se dorete
determinarea unor variabile noi C1, C2,...,Cm, unde Ci = wi1X1 + wi2X2 + ... + wipXp, cu dorina ca m
<< p. Aceste variabile noi se numesc uzual factori sau componente. Este evident i cerina
inversrii, deci posibilitatea de a regsi variabilele X cu ajutorul componentelor, Xi = ai1C1 + ai2C2 +
... + aimCm.
Se observ astfel c prin intermediul componentelor se ncearc reducerea numrului de variabile (i,
dup cum se va vedea, fr a pierde variana variabilelor iniiale).
Dac se propune ca n noile componente, notate cu F de la factor, s se rein doar ceea ce este
comun variabilelor X, adic Xi = ai1F1 + ai2F2 + ... + aimFm + Ei, unde F1, F2,..., Fm sunt factorii comuni
variabilelor X, iar Ei reprezint partea specific a lui Xi, analiza este cea propus iniial n psihologie
(analiza n factori comuni i specifici).
Analiza factorial metoda general
Metoda general este prezentat pornind de la urmtoarea problem matematic (deci adoptnd
limbajul din data reduction):
- Este posibil s reconstituim cele np valori xij ale unui tablou Xnp pornind de la un numr mai
mic de date?
Rspunsul poate fi afirmativ: dac X = u1v1, unde un1 i v1_p, atunci se poate
reconstitui X din cele n+p valori ale lui u1 i v1. Se spune c X este de rang 1.
n practic este foarte improbabil o asemenea descompunere i se va cuta o
ajustare de rang q, de forma
X = u v + u v' + + u v' + E
22
'1
1L qq
unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori
din X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u i
v, =1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R p (fiecare linie a tabloului este un
punct n acest spaiu), sau
p puncte n spaiul cu n dimensiuni, R n (fiecare coloan a tabloului este
un punct n acest spaiu).
Ambele spaii, R p i R n, se consider dotate cu metrica euclidian uzual.
Ajustarea printr-un subspaiu vectorial din R p
Ideea este aceea de a determina un subspaiu vectorial de dimensiune q < p n
care s fie coninut X (matricea X este gndit ca mulimea a n vectori coloanele
matricei). n acest caz, cele n puncte din X pot fi reconstituite plecnd de la
coordonatele pe noile q axe, adic nq valori,
componentele noilor axe n spaiul iniial, adic pq valori.
Se utilizeaz astfel nq + pq valori.
S ncepem prin a cuta dreapta F1, trecnd prin origine, care ajusteaz cel mai
bine, n sensul celor mai mici ptrate, norul de puncte.
Fie un vector unitar u de pe aceast dreapt, deci uu=1.
Rezult c fiecare linie din Xu este produsul scalar al punctului respectiv cu u
i deci lungimea proieciei punctului pe F1. Prin urmare, minimizarea sumei
distanelor la F1 (criteriul celor mai mici ptrate) revine la maximizarea sumei
proieciilor. Deci determinarea lui F1 conduce la maximizarea sumei ptratelor acestor
proiecii, adic se caut u care maximizeaz forma ptratic
(Xu)(Xu)=uXXu,
cu restricia uu=1.
Prin metoda multiplicatorului lui Lagrange, se consider
L = uXXu - ( uu-1)
i anularea derivatelor pariale n raport cu u conduce la
2 XXu-2u=0,
de unde
XXu = u
ceea ce arat c u este un vector propriu al matricei XX. Atunci,
uXXu = uu
i, din restricia impus, rezult uXXu = , adic maximul cutat este egal cu o
valoare proprie a matricei simetrice XX.
Prin urmare, u este acel vector propriu u1 care corespunde celei mai mari
valori proprii 1.
n general, se arat c o baz ortonormat a subspaiului vectorial cu q
dimensiuni, care ajusteaz norul de puncte n sensul celor mai mici ptrate, este
constituit din cei q vectori proprii care corespund celor mai mari q valori proprii ale
matricei simetrice XX. Notm cu u1, u2,, uq vectorii proprii i 1, 2, , q
valorile proprii corespunztoare.
De remarcat c matricea XX este simetric i semipozitiv definit, deci toate
valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.
Ajustarea printr-un subspaiu vectorial din R n
n R n, coloanele matricei Xnp definesc un nor de p puncte. Raionnd analog
(pe matricea X) se ajunge la:
cel mai bun subspaiu cu q dimensiuni este generat de vectorii
proprii v1, v2,, vq care corespund la valorile proprii
(descresctoare) 1, 2, , q ale matricei XX.
Relaia dintre cele dou subspaii din R p i R n
Din definiia vectorului propriu v, avem
XXv =v
de unde, prin nmulire la stnga cu X,
XXX v = Xv
adic
(XX)(X v) = (Xv)
Deci fiecrui vector propriu v a lui XX i corespunde un vector propriu egal
cu Xv a matricei XX iar este valoare proprie pentru XX. Adic
{){}
Analog se demonstreaz i incluziunea invers i se arat astfel identitatea
celor dou mulimi de valori proprii,
= , = 1,,r,
unde r este rang(X), r min(p,n).
Intre vectorii proprii exist relaiile (cu observaia c egalitatea are loc pn la
un factor)
u = kX__________v
v = kXu
unde k i k sunt constante necunoscute.
Din uu = vv = 1 rezult
u' u = k2v' XX'v =1
Dar vXXv = = de unde

k = k' = 1
Intre vectorii proprii din cele dou spaii exist astfel relaiile
(*)

u = 1 Xv ,

v = 1 Xu
Axa F, care poart vectorul unitar u, este numit a -a ax factorial din
R p. Analog pentru G n R n.
Coordonatele punctelor pe axa din Rp (i respectiv din Rn) sunt, prin
construcie, componentele lui Xu (respectiv Xv).
Relaiile precedente arat proporionalitatea care exist ntre coordonatele
punctelor pe o ax dintr-un spaiu i componentele unitare (cosinuii directori) ai
axei din cellalt spaiu.
Reconstituirea tabloului X
Din relaia (*) se obine
Xu = v , de unde Xu u = v u i sumnd

==

=
pp
Xuuvu
11

Cum =

p
uu
1
este produsul matricei ortogonale a vectorilor proprii cu
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin

=
p
Xvu
1
'


cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii
corespunztori).
O reconstituire aproximativ X* este obinut prin limitarea la primele q axe
factoriale (reamintim c valorile proprii au fost luate n ordine descresctoare, deci
q+1, , p sunt valorile cele mai mici):

=
q
XXvu
1
*'

.
Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale
proieciilor pe axa factorial respectiv. Prin urmare, reconstituirea va fi cu att mai
bun cu ct suma valorilor proprii reinute va constitui o parte notabil a sumei tuturor
valorilor proprii. Calitatea global a reconstituirii poate fi msurat prin cantitatea

==

=
qp
q
11

numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i

=
ij
ij
ij
q ij xx
,
2
,
*2.
care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n
analiza statistic, dispunem de informaii suplimentare asupra naturii datelor.
Considerarea acestor informaii conduce la transformri prealabile ale datelor
iniiale, astfel nct aplicarea metodei generale la datele transformate permite
interpretri mai adecvate structurii datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt
enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentri sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,
interpretabile.
Analiza n componente principale
Iniiat de Pearson (1901) i dezvoltat de Hotelling (1933).
Tabloul de plecare R este oarecare: rij semnific, n mod uzual, a i-a observaie
a unei variabile j. Variabilele pot fi eterogene n privina mediilor lor (de ex. uniti de
msur diferite, ordine de mrime diferite etc.). Pentru a anula efectul eterogenitii se
efectueaz transformarea
n
rr
x ij j
ij

= , unde =
=
n
i
j ij r
n
r
1
*
1 este media variabilei a j-a.
Analiza general se va aplica tabloului X astfel obinut, matricea XX este
matricea de covarian a variabilelor iniiale.
Analiza n componente principale normate
Dac variabilele sunt eterogene i n dispersie, se vor norma valorile prin
sn
rr
x
j
ij j
ij

*
= , unde sj este abaterea standard pentru a j-a variabil.
Analiza general se va aplica tabloului X, cu observaia c c matricea XX
implicat n calcule este tocmai matricea de corelaie a variabilelor iniiale.
Analiza n componente principale (normate) ACP/ACPN
Numele metodei provine din aceea c factorii (obinui prin analiza general)
sunt numii i componente principale.
Dei pentru identificarea factorilor se aplic metoda general asupra matricei
de covarian (corelaie) a variabilelor implicate, n continuare se prezint i o metod
alternativ, care poate oferi o viziune mai intuitiv asupra calculelor efectuate.
Se dorete reducerea numrului de variabile dar cu pstrarea a ct mai mult (n
limita posibilitilor) din variana datelor iniiale.
Pentru aceasta se introduce o nou variabil, Z, ca o combinaie liniar a
variabilelor iniiale:
Z = a1x1 + a2x2 +K+ ap xp
unde a1,,ap sunt ponderi asociate variabilelor iniiale.
Observaie. Ecuaia precedent este doar aparent similar unei ecuaii de
regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu exist termen
liber i nici erori (reziduuri).
Analiza n componente principale determin acele ponderi ai care
maximizeaz variana variabilei Z. Cum variana poate tinde la infinit pentru valori
ale ponderilor convenabil alese, metoda determin doar ponderile supuse restriciei c

vectorul a este normalizat, adic =


=
p
i
i a
1
21. O dat calculate ponderile a, variabila Z
este numit prima component principal.
Notnd cu C matricea de covarian (corelaie) a variabilelor X, de fapt prin
transformarea datelor din analiza n componente principale C = XX, rezult c
dispersia lui Z este aCa. Se dorete maximizarea varianei lui Z cu restricia
aa = 1.Se ajunge astfel la problema general:
max aXXa cu restricia aa = 1
Prin metoda multiplicatorilor lui Lagrange se va cuta maximul funciei
F(a) = aCa - (aa 1)
de unde rezult, ca n metoda general, c a este vector propriu al matricei C
corespunztor valorii proprii i aCa = . Deoarece Var(Z) = aCa rezult
Var(Z) = , adic a este vectorul propriu care corespunde celei mai mari valori
proprii .
A doua component principal este definit drept combinaia liniar a
variabilelor X cu urmtoarea cea mai mare varian:
Z2 = a12x1 + a22x2 + + ap2xp
Se ajunge astfel la a doua valoare proprie ca mrime etc. De remarcat c aij
reprezint ponderea variabilei i n componenta principal cu numrul j.
O consecin a faptului c varianele componentelor principale sunt valorile
proprii iar ponderile (coeficienii combinaiilor liniare) sunt vectorii proprii este aceea
c factorii obinui (componentele principale) sunt necorelate ntre ele.
Astfel, din exprimarea matriceal z = Ax a componentelor principale i din
faptul c matricea vectorilor proprii este ortogonal, AA = I, rezult
Az = AAx = Ix = x,
adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntre
componentele principale. Notnd cu Czz matricea de covariane a componentelor
principale, relaia anterioar produce
C = ACzzA.
de unde, utiliznd rezultatul cunoscut
C = AA,
unde este matricea diagonal a valorilor proprii, rezult c Czz este o matrice
diagonal, adic toate componentele principale sunt necorelate ntre ele. Se observ
astfel c prin trecerea la componentele principale se elimin redundana din date.
Analiza n R p
Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:
transformarea din ACPN este o deformare a norului de puncte care aduce
fiecare punct variabil la distana 1 de origine (pe sfera unitate).
ntr-adevr, din transformarea
sn
rr
x
j
ij j
ij

*
= , rezult c distana unui punct
variabil la origine este

=
==
n
i
rij rj s j
n
j
1
d2 ( ,0) 1 ( )2 / 2 1.
Distana dintre dou puncte este dat de
d2( j, k) = 2 2cor( j,k)
adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintre
variabile.
Coordonatele punctelor variabile pe o ax sunt coeficienii de corelaie dintre
variabile i factorul respectiv (considerat ca o nou variabil). Prin urmare se poate
interpreta un factor (ax) drept o combinaie a variabilelor cele mai corelate cu el.
Componente principale o alt definiie
Definiia componentelor principale prezentat aici ofer un punct de vedere diferit (apropiat
de sensul istoric iniial). Notm cu Xnp matricea de date (n observaii asupra a p variabile), cu Aj
matricea (transpus) (de tip jp) a ponderilor primelor j componente principale (coloanele din Aj fiind
primii j vectori proprii), cu Znj matricea scorurilor componentelor principale.
zik = a1ix1k + a2ix2k + + apixpk
Rezult atunci
X = Z Aj + U
unde Unp este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici ptrate

ij
uij min 2
Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelate
care prognozeaz cel mai bine (printr-un model liniar) variabilele observate, atunci
aceste noi variabile ar fi componentele principale.
Prin urmare, relaia matriceal
X = Z Aj + U
se interpreteaz ca evideniind variabilele ascunse (latente), z, care determin
variabilele observate x.
Numrul de componente principale
Din toat discuia de pn acum apare ca un punct important acela al fixrii
numrului j de componente principale care se rein n modelul final.
Aceast ntrebare nu are un rspuns precis. Exist o serie de proceduri
acceptate, discutate n continuare i care se aplic i altor metode factoriale.
O proprietate important a metodei este aceea a meninerii varianei totale a
datelor. Cu alte cuvinte
var(X1) + var(X2 ) + ... + var(X p ) = var(Z1) + var(Z2 ) + ... + var(Z p )
= 1 +2 + ...+ p
n cazul ACPN, variabilele sunt standardizate i, prin urmare,
var(X ) + var(X*) + ...+ var(X*p ) = 1+1+ ... +1 = p
2
*
1
de unde rezult c suma varianelor componentelor principale este p:
1 +2 + ... + p = p
n general, primele q componente principale ofer un rezumat q-dimensional
al variabilelor iniiale, acela care are variana maxim dintre toate rezumatele
q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obinnd o simpl
transformare a variabilelor iniiale. Prin reinerea doar a primelor q valori proprii,
proporia explicat din variana total este
p
q

++
++
...
...
1
1
Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct
raportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi
acela al reinerii acelor valori proprii care depesc media, adic
1 ( ... )
ip 1p

> + +
criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu
criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Criteriul Cattell (scree test)
Varianta grafic: se detecteaz pe diagrama valorilor proprii un cot. Se
rein doar valorile proprii de pn n acel loc, inclusiv.
Varianta analitic: se calculeaz
1=1-1, 2=2-3,
1=1-2, 2=2-3,
i se rein 1, , k+1 astfel nct 1, 2, , k s fie toate pozitive.
Analog, se ncearc trasarea unei drepte (dreapta de regresie) prin ultimele j
valori proprii i se rein doar valorile proprii situate deasupra acesteia.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R p,
p puncte-variabile n R n.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R 3 este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.
Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.
Coordonatele punctelor observaii sunt, de regul, scalate astfel nct s
permit suprapunerea celor dou grafice (variabile, observaii). Dei trebuie o
oarecare grij n emiterea concluziilor (vezi, de exemplu, efectul de perspectiv n
configuraiile multidimensionale), asemenea vizualizri pot oferi explicaii ale
apropierilor dintre observaii prin variabilele apropiate acelui grup etc.