Statistica Multivariata

Statistic multivariat
Lucrarea nr. 11 Analiza n componente principale SPSS

A. Noiuni teoretice
Analiza factorial (analiza n componente principale este o metod factorial)
a aprut pentru a rezolva probleme din categoria urmtoare:
reducerea complexitii datelor (data reduction) poate fi nlocuit un
masiv de date de mari dimensiuni prin masive de dimensiuni mai mici?
evidenierea i fixarea patternului asocierilor (corelaiilor) dintre
variabile.
determinarea variabilelor latente (mai puine) care se afl n spatele
variabilelor msurate (mai multe) problem similar descoperirii
celor care mnuiesc ppuile ntr-un teatru de ppui; comportarea,
variana variabilelor msurate poate fi regsit din variana unor
variabile ascunse, care le determin prin asociere.
Variabilele ascunse, latente, sunt denumite factori i de aici denumirea
metodelor analizei factoriale.
Metoda a aprut la nceput n studii psihologice n care s-a ncercat s se
determine, evalueze, variabile precum inteligena. Cum se pot evalua atribute precum
puterea de asimilare, de reacie, de nelegere etc., s-a presupus c multe dintre acestea
sunt determinate de o variabil latent care poate fi inteligena.
Formaliznd cele spuse se consider c exist o mulime de variabile X1,
X2,...,Xp i se dorete determinarea unor variabile noi C1, C2,...,Cm, unde
Ci = wi1X1 + wi2X2 + ... + wipXp, cu dorina ca m << p. Aceste variabile noi se numesc
uzual factori sau componente. Este evident i cerina inversrii, deci posibilitatea de
a regsi variabilele X cu ajutorul componentelor, Xi = ai1C1 + ai2C2 + ... + aimCm.
Se observ astfel c prin intermediul componentelor se ncearc reducerea
numrului de variabile (i, dup cum se va vedea, fr a pierde variana variabilelor
iniiale).
Dac se propune ca n noile componente, notate cu F de la factor, s se rein
doar ceea ce este comun variabilelor X, adic Xi = ai1F1 + ai2F2 + ... + aimFm + Ei,
unde F1, F2,..., Fm sunt factorii comuni variabilelor X, iar Ei reprezint partea
specific a lui Xi, analiza este cea propus iniial n psihologie (analiza n factori
comuni i specifici).
Analiza factorial metoda general

Metoda general este prezentat pornind de la urmtoarea problem
matematic (deci adoptnd limbajul din data reduction):
Este posibil s reconstituim cele np valori xij ale unui
tablou Xnp pornind de la un numr mai mic de date?
Rspunsul poate fi afirmativ: dac X = u1v1, unde un1 i v1 p, atunci se poate
reconstitui X din cele n+p valori ale lui u1 i v1. Se spune c X este de rang 1.
n practic este foarte improbabil o asemenea descompunere i se va cuta o
ajustare de rang q, de forma
X = u1v1' + u 2 v '2 + L + u q v 'q + E
unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori
din X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u i
v, =1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R p (fiecare linie a tabloului este un
punct n acest spaiu), sau
p puncte n spaiul cu n dimensiuni, R n (fiecare coloan a tabloului este
un punct n acest spaiu).
Ambele spaii, R p i R n, se consider dotate cu metrica euclidian uzual.
Ajustarea printr-un subspaiu vectorial din R p

Ideea este aceea de a determina un subspaiu vectorial de dimensiune q < p n
care s fie coninut X (matricea X este gndit ca mulimea a n vectori coloanele
matricei). n acest caz, cele n puncte din X pot fi reconstituite plecnd de la
coordonatele pe noile q axe, adic nq valori,
componentele noilor axe n spaiul iniial, adic pq valori.
Se utilizeaz astfel nq + pq valori.
S ncepem prin a cuta dreapta F1, trecnd prin origine, care ajusteaz cel mai
bine, n sensul celor mai mici ptrate, norul de puncte.
Fie un vector unitar u de pe aceast dreapt, deci uu=1.

Rezult c fiecare linie din Xu este produsul scalar al punctului respectiv cu u
i deci lungimea proieciei punctului pe F1. Prin urmare, minimizarea sumei
distanelor la F1 (criteriul celor mai mici ptrate) revine la maximizarea sumei
proieciilor. Deci determinarea lui F1 conduce la maximizarea sumei ptratelor acestor
proiecii, adic se caut u care maximizeaz forma ptratic
(Xu)(Xu)=uXXu,
cu restricia uu=1.
Prin metoda multiplicatorului lui Lagrange, se consider

L = uXXu - ( uu-1)
i anularea derivatelor pariale n raport cu u conduce la
2 XXu-2u=0,
de unde
XXu = u
ceea ce arat c u este un vector propriu al matricei XX. Atunci,
uXXu = uu
i, din restricia impus, rezult uXXu = , adic maximul cutat este egal cu o
valoare proprie a matricei simetrice XX.
Prin urmare, u este acel vector propriu u1 care corespunde celei mai mari
valori proprii 1.
n general, se arat c o baz ortonormat a subspaiului vectorial cu q
dimensiuni, care ajusteaz norul de puncte n sensul celor mai mici ptrate, este
constituit din cei q vectori proprii care corespund celor mai mari q valori proprii ale
matricei simetrice XX. Notm cu u1, u2,, uq vectorii proprii i 1, 2, , q
valorile proprii corespunztoare.
De remarcat c matricea XX este simetric i semipozitiv definit, deci toate
valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.
Ajustarea printr-un subspaiu vectorial din R n
n R n, coloanele matricei Xnp definesc un nor de p puncte. Raionnd analog
(pe matricea X) se ajunge la:
cel mai bun subspaiu cu q dimensiuni este generat de vectorii
proprii v1, v2,, vq care corespund la valorile proprii
(descresctoare) 1, 2, , q ale matricei XX.
Relaia dintre cele dou subspaii din R p i R n
Din definiia vectorului propriu v, avem
XXv =v
de unde, prin nmulire la stnga cu X,
XXX v = Xv
adic
(XX)(X v) = (Xv)
Deci fiecrui vector propriu v a lui XX i corespunde un vector propriu egal
cu Xv a matricei XX iar este valoare proprie pentru XX. Adic
{){}
Analog se demonstreaz i incluziunea invers i se arat astfel identitatea
celor dou mulimi de valori proprii,
= , = 1,,r,
unde r este rang(X), r min(p,n).
Intre vectorii proprii exist relaiile (cu observaia c egalitatea are loc pn la
un factor)
u = kXv
v = kXu
unde k i k sunt constante necunoscute.
Din uu = vv = 1 rezult
u' u = k2 v' XX' v = 1

Dar vXXv= = de unde
1
k = k' =
Intre vectorii proprii din cele dou spaii exist astfel relaiile
1
1
(*)
u =
X v , v =
Xu
Axa F, care poart vectorul unitar u, este numit a -a ax factorial din

p
R . Analog pentru G n R n.
Coordonatele punctelor pe axa din Rp (i respectiv din Rn) sunt, prin
construcie, componentele lui Xu (respectiv Xv).
Relaiile precedente arat proporionalitatea care exist ntre coordonatele
punctelor pe o ax dintr-un spaiu i componentele unitare (cosinuii directori) ai
axei din cellalt spaiu.
Reconstituirea tabloului X
Din relaia (*) se obine
Xu = v , de unde Xu u = v u i sumnd
p
X u u = v u .
=1
=1
u u
Cum
este produsul matricei ortogonale a vectorilor proprii cu
=1
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin
p
X = v u'
=1
cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii

corespunztori).
O reconstituire aproximativ X* este obinut prin limitarea la primele q axe
factoriale (reamintim c valorile proprii au fost luate n ordine descresctoare, deci
q+1, , p sunt valorile cele mai mici):
q
X X * = v u' .
=1
Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale

proieciilor pe axa factorial respectiv. Prin urmare, reconstituirea va fi cu att mai
bun cu ct suma valorilor proprii reinute va constitui o parte notabil a sumei tuturor
valorilor proprii. Calitatea global a reconstituirii poate fi msurat prin cantitatea
q
q =
=1
=1
numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i
q = xij*
i, j
ij
i, j
care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n
analiza statistic, dispunem de informaii suplimentare asupra naturii datelor.
Considerarea acestor informaii conduce la transformri prealabile ale datelor
iniiale, astfel nct aplicarea metodei generale la datele transformate permite
interpretri mai adecvate structurii datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt
enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentri sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,
interpretabile.
Analiza n componente principale

Iniiat de Pearson (1901) i dezvoltat de Hotelling (1933).
Tabloul de plecare R este oarecare: rij semnific, n mod uzual, a i-a observaie
a unei variabile j. Variabilele pot fi eterogene n privina mediilor lor (de ex. uniti de
msur diferite, ordine de mrime diferite etc.). Pentru a anula efectul eterogenitii se
efectueaz transformarea
r r
1 n
xij = ij * j , unde r* j = rij este media variabilei a j-a.
n i =1
n
Analiza general se va aplica tabloului X astfel obinut, matricea XX este
matricea de covarian a variabilelor iniiale.
Analiza n componente principale normate

Dac variabilele sunt eterogene i n dispersie, se vor norma valorile prin
r r
xij = ij * j , unde sj este abaterea standard pentru a j-a variabil.
sj n
Analiza general se va aplica tabloului X, cu observaia c c matricea XX
implicat n calcule este tocmai matricea de corelaie a variabilelor iniiale.
Analiza n componente principale (normate) ACP/ACPN

Numele metodei provine din aceea c factorii (obinui prin analiza general)
sunt numii i componente principale.
Dei pentru identificarea factorilor se aplic metoda general asupra matricei
de covarian (corelaie) a variabilelor implicate, n continuare se prezint i o metod
alternativ, care poate oferi o viziune mai intuitiv asupra calculelor efectuate.
Se dorete reducerea numrului de variabile dar cu pstrarea a ct mai mult (n
limita posibilitilor) din variana datelor iniiale.
Pentru aceasta se introduce o nou variabil, Z, ca o combinaie liniar a
variabilelor iniiale:
Z = a1 x1 + a2 x2 + K + a p x p
unde a1,,ap sunt ponderi asociate variabilelor iniiale.

Observaie. Ecuaia precedent este doar aparent similar unei ecuaii de
regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu exist termen
liber i nici erori (reziduuri).
Analiza n componente principale determin acele ponderi ai care
maximizeaz variana variabilei Z. Cum variana poate tinde la infinit pentru valori
ale ponderilor convenabil alese, metoda determin doar ponderile supuse restriciei c
p
vectorul a este normalizat, adic
a
i =1
2
i
= 1. O dat calculate ponderile a, variabila Z
este numit prima component principal.

Notnd cu C matricea de covarian (corelaie) a variabilelor X, de fapt prin
transformarea datelor din analiza n componente principale C = XX, rezult c
dispersia lui Z este aCa. Se dorete maximizarea varianei lui Z cu restricia
aa = 1.Se ajunge astfel la problema general:
max aXXa cu restricia aa = 1
Prin metoda multiplicatorilor lui Lagrange se va cuta maximul funciei
F(a) = aCa - (aa 1)
de unde rezult, ca n metoda general, c a este vector propriu al matricei C
corespunztor valorii proprii i aCa = . Deoarece Var(Z) = aCa rezult
Var(Z) = , adic a este vectorul propriu care corespunde celei mai mari valori
proprii .
A doua component principal este definit drept combinaia liniar a
variabilelor X cu urmtoarea cea mai mare varian:
Z2 = a12x1 + a22x2 + + ap2xp
Se ajunge astfel la a doua valoare proprie ca mrime etc. De remarcat c aij
reprezint ponderea variabilei i n componenta principal cu numrul j.
O consecin a faptului c varianele componentelor principale sunt valorile
proprii iar ponderile (coeficienii combinaiilor liniare) sunt vectorii proprii este aceea
c factorii obinui (componentele principale) sunt necorelate ntre ele.
Astfel, din exprimarea matriceal z = Ax a componentelor principale i din
faptul c matricea vectorilor proprii este ortogonal, AA = I, rezult
Az = AAx = Ix = x,
adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntre

componentele principale. Notnd cu Czz matricea de covariane a componentelor
principale, relaia anterioar produce
C = ACzzA.
de unde, utiliznd rezultatul cunoscut
C = AA,
unde este matricea diagonal a valorilor proprii, rezult c Czz este o matrice
diagonal, adic toate componentele principale sunt necorelate ntre ele. Se observ
astfel c prin trecerea la componentele principale se elimin redundana din date.
Analiza n R p
Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:
transformarea din ACPN este o deformare a norului de puncte care aduce

fiecare punct variabil la distana 1 de origine (pe sfera unitate).
r r
ntr-adevr, din transformarea xij = ij * j , rezult c distana unui punct
sj n
variabil la origine este

1 n
(rij r j ) 2 / s 2j = 1 .
n i =1
Distana dintre dou puncte este dat de
d 2 ( j ,0) =
d 2 ( j , k ) = 2 2cor ( j , k )
adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintre

variabile.
Coordonatele punctelor variabile pe o ax sunt coeficienii de corelaie dintre
variabile i factorul respectiv (considerat ca o nou variabil). Prin urmare se poate
interpreta un factor (ax) drept o combinaie a variabilelor cele mai corelate cu el.
Componente principale o alt definiie

Definiia componentelor principale prezentat aici ofer un punct de vedere diferit (apropiat
de sensul istoric iniial). Notm cu Xnp matricea de date (n observaii asupra a p variabile), cu Aj
matricea (transpus) (de tip jp) a ponderilor primelor j componente principale (coloanele din Aj fiind
primii j vectori proprii), cu Znj matricea scorurilor componentelor principale.
Rezult atunci
zik = a1ix1k + a2ix2k + + apixpk
X = Z Aj + U
unde Unp este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici ptrate
min uij2
i
Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelate

care prognozeaz cel mai bine (printr-un model liniar) variabilele observate, atunci
aceste noi variabile ar fi componentele principale.
Prin urmare, relaia matriceal
X = Z Aj + U
se interpreteaz ca evideniind variabilele ascunse (latente), z, care determin
variabilele observate x.
Numrul de componente principale

Din toat discuia de pn acum apare ca un punct important acela al fixrii
numrului j de componente principale care se rein n modelul final.
Aceast ntrebare nu are un rspuns precis. Exist o serie de proceduri
acceptate, discutate n continuare i care se aplic i altor metode factoriale.
O proprietate important a metodei este aceea a meninerii varianei totale a
datelor. Cu alte cuvinte
var( X 1 ) + var( X 2 ) + ... + var( X p ) = var(Z1 ) + var(Z 2 ) + ... + var(Z p )
= 1 + 2 + ... + p
n cazul ACPN, variabilele sunt standardizate i, prin urmare,
var( X1* ) + var( X 2* ) + ... + var( X *p ) = 1 + 1 + ... + 1 = p
de unde rezult c suma varianelor componentelor principale este p:
1 + 2 + ... + p = p
n general, primele q componente principale ofer un rezumat q-dimensional
al variabilelor iniiale, acela care are variana maxim dintre toate rezumatele
q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obinnd o simpl
transformare a variabilelor iniiale. Prin reinerea doar a primelor q valori proprii,
proporia explicat din variana total este
1 + ... + q
1 + ... + p
Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct
raportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi
acela al reinerii acelor valori proprii care depesc media, adic
1
i >
(1 + ... + p )
p
criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu
criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Criteriul Cattell (scree test)

Varianta grafic: se detecteaz pe diagrama valorilor proprii un cot. Se
rein doar valorile proprii de pn n acel loc, inclusiv.
Varianta analitic: se calculeaz

1=1-1, 2=2-3,
1=1-2, 2=2-3,
i se rein 1, , k+1 astfel nct 1, 2, , k s fie toate pozitive.
Analog, se ncearc trasarea unei drepte (dreapta de regresie) prin ultimele j
valori proprii i se rein doar valorile proprii situate deasupra acesteia.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R p,
p puncte-variabile n R n.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R 3 este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.
Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.
Coordonatele punctelor observaii sunt, de regul, scalate astfel nct s

permit suprapunerea celor dou grafice (variabile, observaii). Dei trebuie o
oarecare grij n emiterea concluziilor (vezi, de exemplu, efectul de perspectiv n
configuraiile multidimensionale), asemenea vizualizri pot oferi explicaii ale
apropierilor dintre observaii prin variabilele apropiate acelui grup etc.
B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre
variabile s existe corelaii suficient de mari pentru a avea sens problema reducerii
dimensiunii. Prin urmare, dac o variabil nu este corelat cu celelalte va trebui

exclus din analiz. n acelai timp, nici corelaiile foarte mari (multicoliniaritatea) nu
conduc la rezultate uor de interpretat, situaia extrem fiind cea de singularitate, a
existenei variabilelor perfect corelate. n asemenea cazuri este imposibil s se
determine contribuia individual la un factor a variabilelor. Prin urmare este necesar
s se calculeze i s se analizeze matricea de corelaii a variabilelor prin Analyse
Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinarea
multicoliniaritii.
Este de asemenea necesar s se testeze c variabilele au o distribuie apropiat
de distribuia normal (prin analizarea histogramelor sau a testelor de normalitate).
Dialogul principal este Analyse Data Reduction Factor. Se afieaz
dialogul Factor Analysis.
Variabilele procesate se trec n lista Variables iar n Selection Variable se

poate indica o variabil care selecteaz prin Value observaiile/cazurile considerate n
analiz. Parametrii analizei se fixeaz n dialogurile afiate de acionarea butoanelor
Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise n
continuare.
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,
valorile proprii etc.
Grupul Correlation Matrix conine informaiile despre coeficienii de corelaie

i cele utile n studiul multicoliniaritii. Dintre acestea, Bartlett's Test of Sphericity
testeaz dac matricea de corelaie este aproximativ unitar (ca ipotez nul), ceea ce
denot o multicoliniaritate accentuat, dar nu precizeaz care variabil nu este
corelat cu celelalte. Acest studiu ar trebui realizat separat prin estimarea
coeficientului de determinare R2 n fiecare model liniar Xi = f (restul variabilelor X).
KMO (Kaiser-Meyer-Olkin) testeaz corelaiile pariale dintre variabile doar global,
ceea ce nu este util n identificarea variabilelor necorelate.
Acceptarea ipotezei nule din testul Bartlett conduce la ideea c variabilele nu
sunt corelate ntre ele, deci o ncercare de reducere a dimensiunii nu este sortit
succesului, fiecare variabil are o contribuie proprie important i care nu poate fi

suplinit de celelalte variabile.
Este de remarcat c dac o variabil nu este bine corelat cu celelalte (deci nu
contribuie la multicoliniaritate), aceast variabil poate fi omis din analiz.
Opiunea Reproduced afieaz matricea de corelaie estimat din soluia
factorial i se afieaz i reziduurile.
Extraction
Din lista Method se poate fixa metoda de analiz factorial. Pentru analiza n
componente principale sau componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de selecia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.
n grupul de opiuni Extract se poate indica exact numrul de factori sau

preciza pragul pentru valorile proprii (deci factorii) reinute. Prin selectarea opiunii
Scree plot se obine diagrama valorilor proprii care ofer ajutor n stabilirea numrului
de factori. Unrotated Factor Solution produce afiarea pentru soluie a ncrcrilor,
comunalitilor i valorilor proprii.
Deoarece soluia se obine n urma unui proces iterativ, se poate fixa numrul
maxim de iteraii n Maximum Iterations for Convergence.
Reamintim c din p variabile se pot extrage p componente, fiecare valoare
proprie reprezentnd partea de varian care este explicat de componenta respectiv.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere mai
bun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea ce
simplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax
(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax
(combinaie ntre metodele varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).
Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele
ncrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau trei
factori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii n
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperul
factorial sau transformri ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile
factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile produse au
media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).
Prin Display factor score coefficient matrix se afieaz matricea de corelaie

dintre scoruri i coeficienii cu care se nmulesc variabilele pentru a obine scorurile
factoriale.
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de afiare a
matricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub un
anumit prag.
Structura fiierului de ieire

Matricea de corelaie, dac este solicitat, se interpreteaz n mod uzual,
dupcum s-a explicat n lucrarea dedicat asocierii variabilelor. Se recomand
analizarea corelaiilor pentru a identifica variabilele care nu sunt corelate cu celelalte
(i care pot fi eventual omise din analiz, dac nu se dorete mai degrab reducerea
numrului de variabile dect analiza corelaiilor). Se afieaz i tabelul cu testele
amintite mai sus, asociate existenei multicoliniaritii:
Tabelul valorilor proprii (eigenvalues) conine, pe lng valoarea efectiv,

calculul necesar identificrii varianelor explicate de componentele respective. Suma
celor p valori proprii este egal cu p (numrul de variabile). Proporia de varian
explicat de o component este prin urmare raportul dintre valoarea proprie respectiv
i p (reamintind c fiecare valoare proprie reprezint partea de varian explicat,

captat de componenta respectiv):
Component
1
2
3
4
5
6
7
Initial Eigenvalues
% of
Cumulative
Total
Variance
%
3.313
47.327
47.327
2.616
37.369
84.696
.575
8.209
92.905
.240
3.427
96.332
.134
1.921
98.252
9.E-02
1.221
99.473
4.E-02
.527
100.000
Extraction Method: Principal Component Analysis.
Se observ c din ultima coloan se citete direct ct din variana total se

explic prin reinerea unui numr de componente.
Pentru ajutor n stabilirea numrul de componente se poate cere afiarea
diagramei valorilor (diagrama dat de exemplu conduce la reinerea a dou sau trei
componente, decizia final fiind influenat i de proporia cumulat a varianei
explicate):
Scree Plot
3.5
3.0
2.5
2.0
1.5
Eigenvalue
1.0
.5
0.0
1
Component Number
Tabloul Component Matrix, esenial n analiz, conine ncrcrile factorilor,

factor loadings. Matricea este referit i prin loading matrix sau factor pattern matrix.
Elementele matricei, ncrcrile, sunt corelaiile dintre componente (coloane) i
variabilele iniiale (linii). Datorit proprietilor componentelor (sunt ortogonale),
ncrcrile au i interpretarea de coeficieni standardizai din regresia multipl, cu alte
cuvinte arat cu cte abateri standard sX se modific X dac factorul respectiv se
modific cu o abatere standard sF.
Component Matrixa
COLOR
AROMA
REPUTAT
TASTE
COST
ALCOHOL
SIZE
Component
1
2
.760
-.576
.736
-.614
-.735
-.071
.710
-.646
.550
.734
.632
.699
.667
.675
a. 2 components extracted.
Structura mai util pentru interpretare este, totui, cea obinut dup rotirea
factorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiat i dup
ce s-au rotit factorii, interpretarea fiind cea dat mai sus.
Rotated Component Matrixa
TASTE
AROMA
COLOR
SIZE
ALCOHOL
COST
REPUTAT
Component
1
2
.960
-.028
.958 1.E-02
.952 6.E-02
7.E-02
.947
2.E-02
.942
-.061
.916
-.512
-.533

Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
Se observ c sunt evideniate mai bine diferenele de ncrcare ale factorilor.

Observaie. ncrcrile factorilor constituie baza denumirii factorilor,
problem important n analiza factorial. Un factor, ca variabil latent, ar trebui s
poarte un nume pentru a fi neles, utilizat, referit etc. Structura de ncrcare a unui
factor poate oferi sugestii n acest sens, ncrcrile mai mari ca 0,6 sunt considerate ca
importante, cele sub 0,4 sunt sczute. Variabilele cu ncrcri mari constituie
combinaia de variabile iniiale care determin factorul, deci i denumirea lui (creat
evident de specialitii din domeniu, nu de statistician).
Dac s-a cerut o rotaie a factorilor, SPSS afieaz i variana explicat de
fiecare component dup rotaie. Variana explicat este egal cu suma ncrcrilor la
ptrat.
Acest tabel ajut s se decid cte componente ar trebui reinute, suma

ptratelor ncrcrilor (SSL, sum of squared loadings) dup rotaie este oarecum
similar unei valori proprii. Se pot, drept urmare, pstra acele componente cu SSL
post-rotaie mai mari ca 1.
ncrcrile post-rotaie arat cum sunt definite componentele. Dac o singur
variabil are o ncrcare mare la o component, componenta nu este bine definit.
Dac doar dou variabile au ncrcri puternice cu o component, componenta este
corect dac variabilele sunt corelate ntre ele dar nu sunt corelate cu celelalte
variabile.
Se numete comunalitate (communality)
proporia explicat de factori din variana unei
variabilei. Deoarece ncrcrile sunt corelaiile
dintre variabile i componente i cum
componentele sunt ortogonale, comunalitatea unei
variabile reprezint coeficientul de determinare,
R2, dac variabila este prognozat de componente.
Se poate calcula comunalitatea unei variabile ca
suma ptratelor ncrcrilor dup factori.
Comunalitile iniiale sunt 1 fiind calculate nainte de reducerea dimensiunii.
C. Lucrarea practic
1) Un studiu din 1979 a urmrit n diferite ri europene modul de ncadrare a forei
de munc n diferite ramuri industriale. Datele sunt sub form de procentaje i se
gsesc n fiierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele
sunt Country numele rii, Agr procentajul de muncitori din agrucultur, Min
procentajul de muncitori din minerit, Man procentajul de muncitori din
industria prelucrtoare, PS procentajul de muncitori din industria energetic,
Con procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) S se realizeze o analiz n componente principale.
b) S se deduc grupurile principale de state omogene ca structur a muncii.
2) Datele
necesare
acestul
exerciiu
sunt
la
adresa
web
www.infoiasi.ro/~val/statistica/boston.sav.
Datele au fost utilizate i n lucrarea 8 n scopul prognozei preului de vnzare a
unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei i
ale localizrii ei. Reamintim c variabilele sunt, n ordine, CRIM rata
criminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft.,
INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinare
cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940 i
ocupate de proprietar, DIS distana ponderat la cinci centre productive din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata de
impozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B
1000(Bk0.63)2 unde Bk este procentajul populaiei de culoare n zon, LSTAT
procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).
a) S se realizeze o analiz n componente principale a variabilelor dintre care
s-au exclus CHAS i MEDV.
b) S se analizeze dac apar diferene n rezultate atunci cnd se consider
separat grupurile definite de CHAS.

Statistica Multivariata

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistica Multivariata

Încărcat de

Drepturi de autor:

Formate disponibile

Statistic multivariat

Lucrarea nr. 11 Analiza n componente principale SPSS

Analiza factorial metoda general

Ajustarea printr-un subspaiu vectorial din R p

Fie un vector unitar u de pe aceast dreapt, deci uu=1.

Prin metoda multiplicatorului lui Lagrange, se consider

u' u = k2 v' XX' v = 1

Axa F, care poart vectorul unitar u, este numit a -a ax factorial din

este produsul matricei ortogonale a vectorilor proprii cu

cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii

Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale

care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.

Analiza n componente principale

Analiza n componente principale normate

Analiza n componente principale (normate) ACP/ACPN

unde a1,,ap sunt ponderi asociate variabilelor iniiale.

vectorul a este normalizat, adic

= 1. O dat calculate ponderile a, variabila Z

este numit prima component principal.

adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntre

transformarea din ACPN este o deformare a norului de puncte care aduce

variabil la origine este

adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintre

Componente principale o alt definiie

zik = a1ix1k + a2ix2k + + apixpk

Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelate

Numrul de componente principale

Criteriul Cattell (scree test)

Varianta analitic: se calculeaz

Coordonatele punctelor observaii sunt, de regul, scalate astfel nct s

dimensiunii. Prin urmare, dac o variabil nu este corelat cu celelalte va trebui

Variabilele procesate se trec n lista Variables iar n Selection Variable se

Grupul Correlation Matrix conine informaiile despre coeficienii de corelaie

succesului, fiecare variabil are o contribuie proprie important i care nu poate fi

n grupul de opiuni Extract se poate indica exact numrul de factori sau

Prin Display factor score coefficient matrix se afieaz matricea de corelaie

Structura fiierului de ieire

Tabelul valorilor proprii (eigenvalues) conine, pe lng valoarea efectiv,

i p (reamintind c fiecare valoare proprie reprezint partea de varian explicat,

Extraction Method: Principal Component Analysis.

Se observ c din ultima coloan se citete direct ct din variana total se

Tabloul Component Matrix, esenial n analiz, conine ncrcrile factorilor,

Extraction Method: Principal Component Analysis.

Rotated Component Matrixa

Extraction Method: Principal Component Analysis.

a. Rotation converged in 3 iterations.

Se observ c sunt evideniate mai bine diferenele de ncrcare ale factorilor.

Acest tabel ajut s se decid cte componente ar trebui reinute, suma

S-ar putea să vă placă și