Sunteți pe pagina 1din 16

Statistică multivariată

Lucrarea nr. 11 — Analiza în componente principale -


SPSS
A. Noţiuni teoretice
Analiza factorială (analiza în componente principale este o metodă factorială)
a apărut pentru a rezolva probleme din categoria următoare:
• reducerea complexităţii datelor (data reduction) – poate fi înlocuit un
masiv de date de mari dimensiuni prin masive de dimensiuni mai mici?
• evidenţierea şi fixarea patternului asocierilor (corelaţiilor) dintre
variabile.
• determinarea variabilelor latente (mai puţine) care se află în spatele
variabilelor măsurate (mai multe) – problemă similară descoperirii
celor care mănuiesc păpuşile într-un teatru de păpuşi; comportarea,
varianţa variabilelor măsurate poate fi regăsită din varianţa unor
variabile ascunse, care le determină prin asociere.
Variabilele ascunse, latente, sunt denumite factori şi de aici denumirea
metodelor analizei factoriale.
Metoda a apărut la început în studii psihologice în care s-a încercat să se
determine, evalueze, variabile precum inteligenţa. Cum se pot evalua atribute precum
puterea de asimilare, de reacţie, de înţelegere etc., s-a presupus că multe dintre acestea
sunt determinate de o variabilă latentă care poate fi inteligenţa.
Formalizând cele spuse se consideră că există o mulţime de variabile X1,
X2,...,Xp şi se doreşte determinarea unor variabile noi C1, C2,...,Cm, unde
Ci = wi1X1 + wi2X2 + ... + wipXp, cu dorinţa ca m << p. Aceste variabile noi se numesc
uzual factori sau componente. Este evidentă şi cerinţa inversării, deci posibilitatea de
a regăsi variabilele X cu ajutorul componentelor, Xi = ai1C1 + ai2C2 + ... + aimCm.
Se observă astfel că prin intermediul componentelor se încearcă reducerea
numărului de variabile (şi, după cum se va vedea, fără a pierde varianţa variabilelor
iniţiale).
Dacă se propune ca în noile componente, notate cu F de la factor, să se reţină
doar ceea ce este comun variabilelor X, adică Xi = ai1F1 + ai2F2 + ... + aimFm + Ei,
unde F1, F2,..., Fm sunt factorii comuni variabilelor X, iar Ei reprezintă partea
specifică a lui Xi, analiza este cea propusă iniţial în psihologie (analiza în factori
comuni şi specifici).

Analiza factorială – metoda generală


Metoda generală este prezentată pornind de la următoarea problemă
matematică (deci adoptând limbajul din data reduction):
Este posibil să reconstituim cele np valori xij ale unui
tablou Xn×p pornind de la un număr mai mic de date?
Răspunsul poate fi afirmativ: dacă X = u1v1’, unde un×1 şi v1 p, atunci se poate
reconstitui X din cele n+p valori ale lui u1 şi v1. Se spune că X este de rang 1.
În practică este foarte improbabilă o asemenea descompunere şi se va căuta o
ajustare de rang q, de forma
X = u1v1' + u 2 v '2 + L + u q v 'q + E
unde E este o matrice reziduală, cu termeni suficient de mici astfel încât cele np valori
din X să fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor uα şi
vα, α=1,…,q.
Problema se va rezolva cu ajutorul reprezentărilor geometrice.
Tabloul X poate fi privit drept mulţimea coordonatelor pentru
• n puncte în spaţiul cu p dimensiuni, R p (fiecare linie a tabloului este un
punct în acest spaţiu), sau
• p puncte în spaţiul cu n dimensiuni, R n (fiecare coloană a tabloului este
un punct în acest spaţiu).
Ambele spaţii, R p şi R n, se consideră dotate cu metrica euclidiană uzuală.

Ajustarea printr-un subspaţiu vectorial din R p


Ideea este aceea de a determina un subspaţiu vectorial de dimensiune q < p în
care să fie conţinută X (matricea X este gândită ca mulţimea a n vectori – coloanele
matricei). În acest caz, cele n puncte din X pot fi reconstituite plecând de la
• coordonatele pe noile q axe, adică nq valori,
• componentele noilor axe în spaţiul iniţial, adică pq valori.
Se utilizează astfel nq + pq valori.
Să începem prin a căuta dreapta F1, trecând prin origine, care ajustează cel mai
bine, în sensul celor mai mici pătrate, norul de puncte.

Fie un vector unitar u de pe această dreaptă, deci u′u=1.


Rezultă că fiecare linie din Xu este produsul scalar al punctului respectiv cu u
şi deci lungimea proiecţiei punctului pe F1. Prin urmare, minimizarea sumei
distanţelor la F1 (criteriul celor mai mici pătrate) revine la maximizarea sumei
proiecţiilor. Deci determinarea lui F1 conduce la maximizarea sumei pătratelor acestor
proiecţii, adică se caută u care maximizează forma pătratică
(Xu)′(Xu)=u′X′Xu,
cu restricţia u′u=1.
Prin metoda multiplicatorului lui Lagrange, se consideră
L = u′X′Xu - λ( u′u-1)
şi anularea derivatelor parţiale în raport cu u conduce la
2 X′Xu-2λu=0,
de unde
X′Xu = λu
ceea ce arată că u este un vector propriu al matricei X′X. Atunci,
u′X′Xu = λ u′u
şi, din restricţia impusă, rezultă u′X′Xu = λ, adică maximul căutat este egal cu o
valoare proprie λ a matricei simetrice X′X.
Prin urmare, u este acel vector propriu u1 care corespunde celei mai mari
valori proprii λ1.
În general, se arată că o bază ortonormată a subspaţiului vectorial cu q
dimensiuni, care ajustează norul de puncte în sensul celor mai mici pătrate, este
constituită din cei q vectori proprii care corespund celor mai mari q valori proprii ale
matricei simetrice X’X. Notăm cu u1, u2,…, uq vectorii proprii şi λ1, λ2, …, λq
valorile proprii corespunzătoare.
De remarcat că matricea X’X este simetrică şi semipozitiv definită, deci toate
valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.

Ajustarea printr-un subspaţiu vectorial din R n


În R n, coloanele matricei Xn×p definesc un nor de p puncte. Raţionând analog
(pe matricea X′) se ajunge la:
cel mai bun subspaţiu cu q dimensiuni este generat de vectorii
proprii v1, v2,…, vq care corespund la valorile proprii
(descrescătoare) µ1, µ2, …, µq ale matricei XX′.

Relaţia dintre cele două subspaţii din R p şi R n


Din definiţia vectorului propriu vα, avem
XX′vα =µαvα
de unde, prin înmulţire la stânga cu X′,
X′XX′ vα = µαX′vα
adică
(X′X)(X′ vα) = µα(X′vα)
Deci fiecărui vector propriu vα a lui XX′ îi corespunde un vector propriu egal
cu X′vα a matricei X′X iar µα este valoare proprie pentru X′X. Adică
{µα)⊆{λα}
Analog se demonstrează şi incluziunea inversă şi se arată astfel identitatea
celor două mulţimi de valori proprii,
µα = λα, α = 1,…,r,
unde r este rang(X), r ≤ min(p,n).
Intre vectorii proprii există relaţiile (cu observaţia că egalitatea are loc până la
un factor)
uα = kαX′vα
vα = k’αX′uα
unde kα şi k’α sunt constante necunoscute.
Din u′αuα = v′αvα = 1 rezultă
uα' uα = kα2 vα' XX' vα = 1
Dar v′αXX′vα= λα = µα de unde
1
kα = kα' =
λα
Intre vectorii proprii din cele două spaţii există astfel relaţiile
(*) 1 1
uα = X ′vα , vα = Xuα
λα λα
Axa Fα, care poartă vectorul unitar uα, este numită a α-a axă factorială din
R . Analog pentru Gα în R n.
p

Coordonatele punctelor pe axa α din Rp (şi respectiv din Rn) sunt, prin
construcţie, componentele lui Xuα (respectiv X′vα).
Relaţiile precedente arată proporţionalitatea care există între coordonatele
punctelor pe o axă α dintr-un spaţiu şi componentele unitare (cosinuşii directori) ai
axei α din celălalt spaţiu.

Reconstituirea tabloului X
Din relaţia (*) se obţine
Xuα = λα vα , de unde Xuα uα′ = λα vα uα′ şi sumând
p p
X ∑ uα uα′ = ∑ λα vα uα′ .
α =1 α =1
p
Cum ∑ uα uα′
α =1
este produsul matricei ortogonale a vectorilor proprii cu

transpusa sa, adică este matricea unitate, se obţine reconstituirea tabloului iniţial prin
p
X = ∑ λα vα uα'
α =1
cu menţiunea că anumite valori proprii pot fi 0 (dar există vectorii proprii
corespunzători).
O reconstituire aproximativă X* este obţinută prin limitarea la primele q axe
factoriale (reamintim că valorile proprii au fost luate în ordine descrescătoare, deci
λq+1, …, λp sunt valorile cele mai mici):
q
X ≈ X * = ∑ λα vα uα' .
α =1
Fiecare valoare proprie măsoară suma pătratelor distanţelor la origine ale
proiecţiilor pe axa factorială respectivă. Prin urmare, reconstituirea va fi cu atât mai
bună cu cât suma valorilor proprii reţinute va constitui o parte notabilă a sumei tuturor
valorilor proprii. Calitatea globală a reconstituirii poate fi măsurată prin cantitatea
q p
τ q = ∑ λα ∑ λα
α =1 α =1
numită rata de inerţie (măsoară partea din varianţa norului explicată de subspaţiul cu q
dimensiuni). Se poate verifica şi
τ q = ∑ xij* ∑x
2 2
ij .
i, j i, j

care oferă un suport intuitiv faptului că τ reflectă calitatea globală a reconstituirii.


Analize particulare
Atunci când nu este vorba strict de o aproximare numerică şi ne încadrăm în
analiza statistică, dispunem de informaţii suplimentare asupra naturii datelor.
Considerarea acestor informaţii conduce la transformări prealabile ale datelor
iniţiale, astfel încât aplicarea metodei generale la datele transformate permite
interpretări mai adecvate structurii datelor.
Se obţin astfel analize factoriale particulare, cele mai importante sunt
enumerate în continuare:
• Analiza în componente principale,
• Analiza în componente principale normate,
• Analiza rangurilor,
• Analiza corespondenţelor.
Ideea de bază care stă la baza tuturor acestor analize este aceea că
• un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentări sub forma norilor de puncte în două spaţii,
• ajustările punctelor din cele două spaţii sunt legate prin relaţii simple,
interpretabile.

Analiza în componente principale


Iniţiată de Pearson (1901) şi dezvoltată de Hotelling (1933).
Tabloul de plecare R este oarecare: rij semnifică, în mod uzual, a i-a observaţie
a unei variabile j. Variabilele pot fi eterogene în privinţa mediilor lor (de ex. unităţi de
măsură diferite, ordine de mărime diferite etc.). Pentru a anula efectul eterogenităţii se
efectuează transformarea
r −r 1 n
xij = ij * j , unde r* j = ∑ rij este media variabilei a j-a.
n n i =1
Analiza generală se va aplica tabloului X astfel obţinut, matricea X’X este
matricea de covarianţă a variabilelor iniţiale.

Analiza în componente principale normate


Dacă variabilele sunt eterogene şi în dispersie, se vor norma valorile prin
r −r
xij = ij * j , unde sj este abaterea standard pentru a j-a variabilă.
sj n
Analiza generală se va aplica tabloului X, cu observaţia că că matricea X’X
implicată în calcule este tocmai matricea de corelaţie a variabilelor iniţiale.

Analiza în componente principale (normate) ACP/ACPN


Numele metodei provine din aceea că factorii (obţinuţi prin analiza generală)
sunt numiţi şi componente principale.
Deşi pentru identificarea factorilor se aplică metoda generală asupra matricei
de covarianţă (corelaţie) a variabilelor implicate, în continuare se prezintă şi o metodă
alternativă, care poate oferi o viziune mai intuitivă asupra calculelor efectuate.
Se doreşte reducerea numărului de variabile dar cu păstrarea a cât mai mult (în
limita posibilităţilor) din varianţa datelor iniţiale.
Pentru aceasta se introduce o nouă variabilă, Z, ca o combinaţie liniară a
variabilelor iniţiale:
Z = a1 x1 + a2 x2 + K + a p x p
unde a1,…,ap sunt ponderi asociate variabilelor iniţiale.
Observaţie. Ecuaţia precedentă este doar aparent similară unei ecuaţii de
regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu există termen
liber şi nici erori (reziduuri).
Analiza în componente principale determină acele ponderi ai care
maximizează varianţa variabilei Z. Cum varianţa poate tinde la infinit pentru valori
ale ponderilor convenabil alese, metoda determină doar ponderile supuse restricţiei că
p
vectorul a este normalizat, adică ∑a
i =1
2
i = 1. O dată calculate ponderile a, variabila Z

este numită prima componentă principală.


Notând cu C matricea de covarianţă (corelaţie) a variabilelor X, de fapt prin
transformarea datelor din analiza în componente principale C = X′X, rezultă că
dispersia lui Z este a′Ca. Se doreşte maximizarea varianţei lui Z cu restricţia
a′a = 1.Se ajunge astfel la problema generală:
max a′X′Xa cu restricţia a′a = 1
Prin metoda multiplicatorilor lui Lagrange se va căuta maximul funcţiei
F(a) = a′Ca - λ(a′a – 1)
de unde rezultă, ca în metoda generală, că a este vector propriu al matricei C
corespunzător valorii proprii λ şi a′Ca = λ. Deoarece Var(Z) = a′Ca rezultă
Var(Z) = λ, adică a este vectorul propriu care corespunde celei mai mari valori
proprii λ.
A doua componentă principală este definită drept combinaţia liniară a
variabilelor X cu următoarea cea mai mare varianţă:
Z2 = a12x1 + a22x2 + … + ap2xp
Se ajunge astfel la a doua valoare proprie ca mărime etc. De remarcat că aij
reprezintă ponderea variabilei i în componenta principală cu numărul j.
O consecinţă a faptului că varianţele componentelor principale sunt valorile
proprii iar ponderile (coeficienţii combinaţiilor liniare) sunt vectorii proprii este aceea
că factorii obţinuţi (componentele principale) sunt necorelate între ele.
Astfel, din exprimarea matriceală z = Ax a componentelor principale şi din
faptul că matricea vectorilor proprii este ortogonală, A′A = I, rezultă
A′z = A′Ax = Ix = x,
adică şi variabilele iniţiale pot fi exprimate drept combinaţii liniare între
componentele principale. Notând cu Czz matricea de covarianţe a componentelor
principale, relaţia anterioară produce
C = A′CzzA.
de unde, utilizând rezultatul cunoscut
C = A′ΛA,
unde Λ este matricea diagonală a valorilor proprii, rezultă că Czz este o matrice
diagonală, adică toate componentele principale sunt necorelate între ele. Se observă
astfel că prin trecerea la componentele principale se elimină redundanţa din date.

Analiza în R p
Cele n puncte ale acestui spaţiu sunt indivizi (observaţii) şi se doreşte o
reprezentare a apropierilor dintre aceste puncte într-un spaţiu de dimensiune mai
mică. Prin transformările prealabile are loc o translaţie a norului de puncte într-un
reper având ca origine centrul de greutate al norului.
In ACPN se modifică şi scala pe fiecare axă.
Analiza în R n
Cele p puncte sunt aici variabilele, transformările prealabile au însă o
interpretare diferită:
• transformarea din ACP este o proiecţie paralelă cu prima bisectoare
Astfel, în cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corectă), un punct variabilă este supus transformării:

• transformarea din ACPN este o deformare a norului de puncte care aduce


fiecare punct variabilă la distanţa 1 de origine (pe sfera unitate).
r −r
Într-adevăr, din transformarea xij = ij * j , rezultă că distanţa unui punct
sj n
variabilă la origine este
1 n
∑ (rij − r j ) 2 / s 2j = 1 .
d 2 ( j ,0) =
n i =1
Distanţa dintre două puncte este dată de
d 2 ( j , k ) = 2 − 2cor ( j , k )
adică proximităţile dintre puncte se pot interpreta în termenii corelaţiilor dintre
variabile.
Coordonatele punctelor variabile pe o axă sunt coeficienţii de corelaţie dintre
variabile şi factorul respectiv (considerat ca o nouă variabilă). Prin urmare se poate
interpreta un factor (axă) drept o combinaţie a variabilelor cele mai corelate cu el.

Componente principale – o altă definiţie


Definiţia componentelor principale prezentată aici oferă un punct de vedere diferit (apropiat
de sensul istoric iniţial). Notăm cu Xn×p matricea de date (n observaţii asupra a p variabile), cu Aj′
matricea (transpusă) (de tip j×p) a ponderilor primelor j componente principale (coloanele din Aj fiind
primii j vectori proprii), cu Zn×j matricea scorurilor componentelor principale.
zik = a1ix1k + a2ix2k + … + apixpk
Rezultă atunci
X = Z Aj′ + U
unde Un×p este matricea reziduurilor.
Se poate arăta atunci că primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici pătrate
min ∑∑ uij2
i j
Se poate astfel spune că, dacă s-ar determina mulţimea de variabile necorelate
care prognozează cel mai bine (printr-un model liniar) variabilele observate, atunci
aceste noi variabile ar fi componentele principale.
Prin urmare, relaţia matriceală
X = Z Aj′ + U
se interpretează ca evidenţiind variabilele ascunse (latente), z, care determină
variabilele observate x.

Numărul de componente principale


Din toată discuţia de până acum apare ca un punct important acela al fixării
numărului j de componente principale care se reţin în modelul final.
Această întrebare nu are un răspuns precis. Există o serie de proceduri
acceptate, discutate în continuare şi care se aplică şi altor metode factoriale.
O proprietate importantă a metodei este aceea a menţinerii varianţei totale a
datelor. Cu alte cuvinte
var( X 1 ) + var( X 2 ) + ... + var( X p ) = var(Z1 ) + var(Z 2 ) + ... + var(Z p )
= λ1 + λ2 + ... + λ p
În cazul ACPN, variabilele sunt standardizate şi, prin urmare,
var( X1* ) + var( X 2* ) + ... + var( X *p ) = 1 + 1 + ... + 1 = p
de unde rezultă că suma varianţelor componentelor principale este p:
λ1 + λ2 + ... + λ p = p
În general, primele q componente principale oferă un rezumat q-dimensional
al variabilelor iniţiale, acela care are varianţa maximă dintre toate rezumatele
q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obţinând o simplă
transformare a variabilelor iniţiale. Prin reţinerea doar a primelor q valori proprii,
proporţia explicată din varianţa totală este
λ1 + ... + λq
λ1 + ... + λ p
Acesta nu poate constitui un criteriu pentru numărul de factori reţinuţi, întrucât
raportul creşte o dată cu numărul factorilor (ajungând la 1). Un prim criteriu poate fi
acela al reţinerii acelor valori proprii care depăşesc media, adică
1
λi > (λ1 + ... + λ p )
p
criteriul implicit în SPSS, cu observaţia că în ACPN criteriul devine identic cu
criteriul Kaizer.

Criteriul Kaiser
Se reţin doar componentele principale corespunzând valorilor proprii mai mari
decât 1. Se aplică de regulă în ACPN.

Criteriul Cattell (scree test)


Varianta grafică: se detectează pe diagrama valorilor proprii un “cot”. Se
reţin doar valorile proprii de până în acel loc, inclusiv.
Varianta analitică: se calculează
ε1=λ1-λ1, ε2=λ2-λ3, …
δ1=ε1-ε2, δ2=ε2-ε3, …
şi se reţin λ1, …, λk+1 astfel încât δ1, δ2, …, δk să fie toate pozitive.
Analog, se încearcă trasarea unei drepte (dreapta de regresie) prin ultimele j
valori proprii şi se reţin doar valorile proprii situate deasupra acesteia.

Reprezentări grafice
In ACP/ACPN datele iniţiale se referă la n observaţii asupra a p variabile, care
pot fi interpretate ca
• n puncte-indivizi (observaţii) în R p,
• p puncte-variabile în R n.
Reţinerea unui număr de axe factoriale echivalează cu determinarea unui
subspaţiu în care datele iniţiale pot fi regăsite cu suficientă acurateţe. Examinarea
structurii norilor de puncte din subspaţiile respective se realizează prin metode
grafice, reprezentând punctele prin proiecţii pe un număr suficient de plane factoriale.
Astfel, pentru a putea înţelege structura unui nor de puncte în R 3 este nevoie
de proiecţia lor pe două plane (xOy şi xOz, de exemplu). Interpretările diferă totuşi
după cum este vorba de variabile sau de observaţii.

Variabile
Prin metoda numerică utilizată, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanţele dintre puncte sunt invers
proporţionale cu corelaţiile dintre variabilele corespunzătoare, grupările de puncte
indică grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectivă, aprecierea corectă apare doar după
analiza proiecţii-lor pe mai multe planuri factoriale (= nr.de factori – 1). Variabilele
apropiate de o axă sunt corelate cu acea componentă principală, se poate considera că
axa respectivă este o combinaţie a variabilelor apropiate de ea.
Observaţii
Reprezentarea punctelor-observaţii prezintă de asemenea grupările de
observaţii, fără a mai fi pe sfera unitate.
Prima axă factorială este, uzual, factorul de talie, separând de-a lungul ei
observaţiile mici de cel mari. A doua axă factorială este factorul de formă. care
nuanţează diferen-ţele efectuate de primul factor.
Dacă observaţiile aparţin la grupuri de interes, evidenţierea claselor (ca în
figură) poate oferi informaţii utile prin configuraţiile vizibile. Concluziile sunt
justificate doar după utilizarea unui număr suficient de proiecţii.

Coordonatele punctelor observaţii sunt, de regulă, scalate astfel încât să


permită suprapunerea celor două grafice (variabile, observaţii). Deşi trebuie o
oarecare grijă în emiterea concluziilor (vezi, de exemplu, efectul de perspectivă în
configuraţiile multidimensionale), asemenea vizualizări pot oferi explicaţii ale
apropierilor dintre observaţii prin variabilele apropiate acelui grup etc.

B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorială, prin natura metodei, trebuie ca între
variabile să existe corelaţii suficient de mari pentru a avea sens problema reducerii
dimensiunii. Prin urmare, dacă o variabilă nu este corelată cu celelalte va trebui
exclusă din analiză. În acelaşi timp, nici corelaţiile foarte mari (multicoliniaritatea) nu
conduc la rezultate uşor de interpretat, situaţia extremă fiind cea de singularitate, a
existenţei variabilelor perfect corelate. În asemenea cazuri este imposibil să se
determine contribuţia individuală la un factor a variabilelor. Prin urmare este necesar
să se calculeze şi să se analizeze matricea de corelaţii a variabilelor prin Analyse –
Correlate – Bivariate, inclusiv determinantul acestei matrice pentru determinarea
multicoliniarităţii.
Este de asemenea necesar să se testeze că variabilele au o distribuţie apropiată
de distribuţia normală (prin analizarea histogramelor sau a testelor de normalitate).
Dialogul principal este Analyse – Data Reduction – Factor. Se afişează
dialogul Factor Analysis.

Variabilele procesate se trec în lista Variables iar în Selection Variable se


poate indica o variabilă care selectează prin Value observaţiile/cazurile considerate în
analiză. Parametrii analizei se fixează în dialogurile afişate de acţionarea butoanelor
Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise în
continuare.

Descriptives
În grupul Statistics se poate cere afişarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afişează comunalităţile iniţiale,
valorile proprii etc.

Grupul Correlation Matrix conţine informaţiile despre coeficienţii de corelaţie


şi cele utile în studiul multicoliniarităţii. Dintre acestea, Bartlett's Test of Sphericity
testează dacă matricea de corelaţie este aproximativ unitară (ca ipoteză nulă), ceea ce
denotă o multicoliniaritate accentuată, dar nu precizează care variabilă nu este
corelată cu celelalte. Acest studiu ar trebui realizat separat prin estimarea
coeficientului de determinare R2 în fiecare model liniar Xi = f (restul variabilelor X).
KMO (Kaiser-Meyer-Olkin) testează corelaţiile parţiale dintre variabile doar global,
ceea ce nu este util în identificarea variabilelor necorelate.
Acceptarea ipotezei nule din testul Bartlett conduce la ideea că variabilele nu
sunt corelate între ele, deci o încercare de reducere a dimensiunii nu este sortită
succesului, fiecare variabilă are o contribuţie proprie importantă şi care nu poate fi
suplinită de celelalte variabile.
Este de remarcat că dacă o variabilă nu este bine corelată cu celelalte (deci nu
contribuie la multicoliniaritate), această variabilă poate fi omisă din analiză.
Opţiunea Reproduced afişează matricea de corelaţie estimată din soluţia
factorială şi se afişează şi reziduurile.

Extraction
Din lista Method se poate fixa metoda de analiză factorială. Pentru analiza în
componente principale sau componente principale normate se va selecta Principal
components. În acest caz, tipul analizei este dat de selecţia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.

În grupul de opţiuni Extract se poate indica exact numărul de factori sau


preciza pragul pentru valorile proprii (deci factorii) reţinute. Prin selectarea opţiunii
Scree plot se obţine diagrama valorilor proprii care oferă ajutor în stabilirea numărului
de factori. Unrotated Factor Solution produce afişarea pentru soluţie a încărcărilor,
comunalităţilor şi valorilor proprii.
Deoarece soluţia se obţine în urma unui proces iterativ, se poate fixa numărul
maxim de iteraţii în Maximum Iterations for Convergence.
Reamintim că din p variabile se pot extrage p componente, fiecare valoare
proprie reprezentând partea de varianţă care este explicată de componenta respectivă.

Rotation
Rotaţia reperului axelor factoriale pentru a prinde un “unghi de vedere” mai
bun se poate selecta în dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizează numărul de variabile cu încărcări mari pe fiecare factor, ceea ce
simplifică interpretarea factorilor), direct oblimin (rotaţie oblică), quartimax
(minimizează numărul de factori necesari explicării fiecărei variabile), equamax
(combinaţie între metodele varimax şi quartimax) şi promax (rotaţie oblică în care se
admit factori corelaţi).

Pentru soluţia obţinută în urma rotaţiei se poate cere soluţia sau diagramele
încărcărilor pentru primii doi (dacă nu s-au extras cel puţin trei factori) sau trei
factori. Şi pentru procesul de rotaţie se poate preciza numărul maxim de iteraţii în
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producând o variabilă. Cu alte cuvinte coordonatele cazurilor în reperul
factorial sau transformări ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero şi o dispersie egală cu pătratul corelaţiei multiple între scorurile
factoriale estimate şi coordonatele factoriale adevărate), Bartlett (scorurile produse au
media zero şi este minimizată suma pătratelor factorilor reţinuţi) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitară şi sunt necorelate).

Prin Display factor score coefficient matrix se afişează matricea de corelaţie


dintre scoruri şi coeficienţii cu care se înmulţesc variabilele pentru a obţine scorurile
factoriale.

Options
Se precizează modul de tratare a valorilor lipsă ca şi modul de afişare a
matricelor, de exemplu se pot omite coeficienţii care sunt în valoare absolută sub un
anumit prag.

Structura fişierului de ieşire


Matricea de corelaţie, dacă este solicitată, se interpretează în mod uzual,
dupăcum s-a explicat în lucrarea dedicată asocierii variabilelor. Se recomandă
analizarea corelaţiilor pentru a identifica variabilele care nu sunt corelate cu celelalte
(şi care pot fi eventual omise din analiză, dacă nu se doreşte mai degrabă reducerea
numărului de variabile decât analiza corelaţiilor). Se afişează şi tabelul cu testele
amintite mai sus, asociate existenţei multicoliniarităţii:

Tabelul valorilor proprii (eigenvalues) conţine, pe lângă valoarea efectivă,


calculul necesar identificării varianţelor explicate de componentele respective. Suma
celor p valori proprii este egală cu p (numărul de variabile). Proporţia de varianţă
explicată de o componentă este prin urmare raportul dintre valoarea proprie respectivă
şi p (reamintind că fiecare valoare proprie reprezintă partea de varianţă explicată,
captată de componenta respectivă):

Initial Eigenvalues
% of Cumulative
Component Total Variance %
1 3.313 47.327 47.327
2 2.616 37.369 84.696
3 .575 8.209 92.905
4 .240 3.427 96.332
5 .134 1.921 98.252
6 9.E-02 1.221 99.473
7 4.E-02 .527 100.000
Extraction Method: Principal Component Analysis.

Se observă că din ultima coloană se citeşte direct cât din varianţa totală se
explică prin reţinerea unui număr de componente.
Pentru ajutor în stabilirea numărul de componente se poate cere afişarea
diagramei valorilor (diagrama dată de exemplu conduce la reţinerea a două sau trei
componente, decizia finală fiind influenţată şi de proporţia cumulată a varianţei
explicate):
Scree Plot
3.5

3.0

2.5

2.0

1.5

1.0
Eigenvalue

.5

0.0
1 2 3 4 5 6 7

Component Number

Tabloul Component Matrix, esenţial în analiză, conţine încărcările factorilor,


factor loadings. Matricea este referită şi prin loading matrix sau factor pattern matrix.
Elementele matricei, încărcările, sunt corelaţiile dintre componente (coloane) şi
variabilele iniţiale (linii). Datorită proprietăţilor componentelor (sunt ortogonale),
încărcările au şi interpretarea de coeficienţi standardizaţi din regresia multiplă, cu alte
cuvinte arată cu câte abateri standard sX se modifică X dacă factorul respectiv se
modifică cu o abatere standard sF.
Component Matrixa

Component
1 2
COLOR .760 -.576
AROMA .736 -.614
REPUTAT -.735 -.071
TASTE .710 -.646
COST .550 .734
ALCOHOL .632 .699
SIZE .667 .675
Extraction Method: Principal Component Analysis.
a. 2 components extracted.

Structura mai utilă pentru interpretare este, totuşi, cea obţinută după rotirea
factorilor, care oferă o "viziune" mai bună. Matricea de încărcare este afişată şi după
ce s-au rotit factorii, interpretarea fiind cea dată mai sus.
Rotated Component Matrixa

Component
1 2
TASTE .960 -.028
AROMA .958 1.E-02
COLOR .952 6.E-02
SIZE 7.E-02 .947
ALCOHOL 2.E-02 .942
COST -.061 .916
REPUTAT -.512 -.533
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

Se observă că sunt evidenţiate mai bine diferenţele de încărcare ale factorilor.


Observaţie. Încărcările factorilor constituie baza denumirii factorilor,
problemă importantă în analiza factorială. Un factor, ca variabilă latentă, ar trebui să
poarte un nume pentru a fi înţeles, utilizat, referit etc. Structura de încărcare a unui
factor poate oferi sugestii în acest sens, încărcările mai mari ca 0,6 sunt considerate ca
importante, cele sub 0,4 sunt scăzute. Variabilele cu încărcări mari constituie
combinaţia de variabile iniţiale care determină factorul, deci şi denumirea lui (creată
evident de specialiştii din domeniu, nu de statistician).
Dacă s-a cerut o rotaţie a factorilor, SPSS afişează şi varianţa explicată de
fiecare componentă după rotaţie. Varianţa explicată este egală cu suma încărcărilor la
pătrat.

Acest tabel ajută să se decidă câte componente ar trebui reţinute, suma


pătratelor încărcărilor (SSL, sum of squared loadings) după rotaţie este oarecum
similară unei valori proprii. Se pot, drept urmare, păstra acele componente cu SSL
post-rotaţie mai mari ca 1.
Încărcările post-rotaţie arată cum sunt definite componentele. Dacă o singură
variabilă are o încărcare mare la o componentă, componenta nu este bine definită.
Dacă doar două variabile au încărcări puternice cu o componentă, componenta este
corectă dacă variabilele sunt corelate între ele dar nu sunt corelate cu celelalte
variabile.
Se numeşte comunalitate (communality)
proporţia explicată de factori din varianţa unei
variabilei. Deoarece încărcările sunt corelaţiile
dintre variabile şi componente şi cum
componentele sunt ortogonale, comunalitatea unei
variabile reprezintă coeficientul de determinare,
R2, dacă variabila este prognozată de componente.
Se poate calcula comunalitatea unei variabile ca
suma pătratelor încărcărilor după factori.
Comunalităţile iniţiale sunt 1 fiind calculate înainte de reducerea dimensiunii.
C. Lucrarea practică
1) Un studiu din 1979 a urmărit în diferite ţări europene modul de încadrare a forţei
de muncă în diferite ramuri industriale. Datele sunt sub formă de procentaje şi se
găsesc în fişierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele
sunt Country – numele ţării, Agr – procentajul de muncitori din agrucultură, Min –
procentajul de muncitori din minerit, Man – procentajul de muncitori din
industria prelucrătoare, PS – procentajul de muncitori din industria energetică,
Con – procentajul de muncitori din construcţii, SI – procentajul de muncitori din
servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de
muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi
comunicaţii.
a) Să se realizeze o analiză în componente principale.
b) Să se deducă grupurile principale de state omogene ca structură a muncii.
2) Datele necesare acestul exerciţiu sunt la adresa web
www.infoiasi.ro/~val/statistica/boston.sav.
Datele au fost utilizate şi în lucrarea 8 în scopul prognozei preţului de vânzare a
unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi
ale localizării ei. Reamintim că variabilele sunt, în ordine, CRIM – rata
criminalităţii, ZN – proporţia teritoriului zonat în loturi de peste 25,000 sq.ft.,
INDUS proporţia terirorială a zonei industriale, CHAS – indicator de învecinare
cu râul din zonă (= 1 da, 0 nu), NOX – concentraţia de oxizi nitrici, RM – numărul
mediu de camere, AGE – proporţia de locuinţe construite înainte de 1940 şi
ocupate de proprietar, DIS – distanţa ponderată la cinci centre productive din
Boston, RAD – indicele de accesibilitate la reţeaua de autostrăzi, TAX – rata de
impozit (procent la 10000$), PTRATIO – raportul copii-profesori în zonă, B –
1000(Bk−0.63)2 unde Bk este procentajul populaţiei de culoare în zonă, LSTAT –
procentajul populaţiei sărace, MEDV – valoarea medie a caselor (în mii de dolari).
a) Să se realizeze o analiză în componente principale a variabilelor dintre care
s-au exclus CHAS şi MEDV.
b) Să se analizeze dacă apar diferenţe în rezultate atunci când se consideră
separat grupurile definite de CHAS.

S-ar putea să vă placă și