Sunteți pe pagina 1din 7

1

ARC CURS #10 2.05.2012

Analiza factorial (I)


Analiza factorial este o tehnic matematic/ statistic conceput pentru a lega un set de variabile observate de
un numr mai mic de dimensiuni latente permite folosirea mai multor msuri (variabile) pentru
operaionalizarea unui concept
Dimensiunea latent rezultat este definit de ce au n comun variabilele observate folosite
Folosirea variabilelor latente operaionalizate cu ajutorul mai multor indicatori/ variabile observate ofer
posibilitatea de a modela mai detaliat conceptele teoretice, n comparaie cu folosirea unui singur indicator
pentru fiecare dimensiune teoretic
De asemenea, poate fi o soluie n anumite cazuri pentru problemele de multicolinearitate a predictorilor n
analiza de regresie (un grad crescut de colinearitate a predictorilor n analiza de regresie creeaz o serie de
probleme legate de partiionarea varianei comune ntre predictori, soluii instabile ale ecuaiei, erori standard i
intervale de ncredere mrite). Dac variabilele cu grad mare de colinearitate msoar aceeai dimensiune/
construct teoretic, atunci soluia este fie construcia unei scale, fie folosirea unui factor latent.
n modelele de ecuaii structurale, folosirea factorilor lateni n astfel de situaii ofer avantaje fa de folosirea
scalelor, pentru c astfel de modele de msurare pot diferenia ntre variana care surprinde dimensiunea
teoretic de interes i variana unic (varian care surprinde alte concepte + varian determinat de erori de
msurare)

Analiza factorial exploratorie (EFA)


Caracteristici ale EFA:
Nu se pornete de la un model care s specifice modul n care variabilele observate sunt legate de variabilele
latente structura relaiilor este inferat dup rularea analizei, din mrimea coeficienilor de saturaie
Nu este specificat numrul de variabile latente nainte de analiz numrul factorilor este determinat dup
rularea analizei, conform unor convenii (spre exemplu: valori proprii mai mari de 1 sau regula cotului)
n majoritatea tipurilor de EFA, att iniial, ct i dup extracie, toi factorii determin toate variabilele
observate din analiz
Termenii de eroare, dac sunt inclui n model, nu pot fi corelai (Principal Components Analysis PCA una
dintre cele mai des utilizate forme de EFA, nu include n model termenii de eroare)
n cele mai multe cazuri, factorii extrai sunt ortogonali (necorelai)
Modelul este sub-identificat nu exist o soluie unic, ci un numr infinit de soluii, fiecare avnd acelai
grad de adecvare la date dintre aceste soluii se alege o soluie care este considerat mai interpretabil
(numit structura simpl aceast soluie este una n care pentru fiecare variabil sunt maximizate
ncrcturile pe un singur factor i minimizate ncrcturile pe ceilali factori)
Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)
PCA (lucreaz cu variabile standardizate, fiecare variabil avnd variana 1):
Modelul iniial toate variabilele observate se ncarc pe toi factorii, numr de factori egal cu numrul de
variabile observate. PCA caut un prim factor, care este o combinaie liniar de toate variabilele observate
analizate, i care explic maximul posibil din variana total a tuturor variabilelor observate (n modelul de
mai jos, variana total = 6). Dup gsirea primului factor, PCA caut al doilea factor (tot combinaie liniar
de toate variabilele observate analizate), care explic maximul posibil din ce a rmas neexplicat de primul
factor din variana total a tuturor variabilelor observate. Procedeul se repet pn la ultimul factor.

ARC CURS #10 2.05.2012

Modelul n form de ecuaii:


Var1 = p11F1 + p12F2 + + p16F6
Var2 = p21F1 + p22F2 + + p26F6
.
.
.
Var6 = p61F1 + p62F2 + + p66F6

Extragerea factorilor (conform unor criterii convenionale):


Se pstreaz factorii cu valori proprii (= cantitatea de varian explicat de factor din variana total a
variabilelor observate) mai mari de 1
Regula cotului se exclud factorii plasai dup cot n scree plot

ARC CURS #10 2.05.2012

Reprezentarea grafic a celor 2 factori extrai:


Cele 2 axe reprezint cei doi factori extrai n exemplul de mai sus; variabilele sunt plasate n spaiul
determinat de axe conform coeficienilor de saturaie care rezult din PCA
Aceast soluie rezultat nu este unica soluie posibil. Prin rotirea axelor se ajunge la alte soluii, la fel
de adecvate datelor ca i soluia iniial.

Rotirea axelor (factorilor) din numrul infinit de soluii posibile, este cutat o soluie mai interpretabil.
n rotirea VARIMAX, se caut soluia n care factorii sunt mai interpretabili (o variabil are o ncrctur
mare pe un factor i ncrcturi mici pe restul de factori)

ARC CURS #10 2.05.2012

Factorii dup rotire:

Modelul pentru calcularea scorurilor factoriale:


Scorurile factoriale sunt scoruri prezise ale dimensiunii latente - pot fi folosite ca scale n ecuaiile de
regresie
Pentru a calcula scorurile factoriale, modelul analizei factoriale este inversat:
= b11Var1 + b12Var2 + + b16Var6
= b21Var1 + b22Var2 + + b26Var6

ARC CURS #10 2.05.2012

SPSS Analiz factorial exploratorie (PCA cu rotire VARIMAX)


Variabile folosite:
Ct de mult ncredere avei n foarte mult destul de mult nu prea mult foarte puin/deloc NS NR
v131.
Biseric
4
3
2
1
8 9
v132.
Armat
4
3
2
1
8 9
v138.
Guvern
4
3
2
1
8 9
v139.
Partide politice
4
3
2
1
8 9
v140.
Parlament
4
3
2
1
8 9
Aranjarea datelor: missing pe 8,9 + nlocuirea valorilor missing cu mediile variabilelor
Comenzi SPSS pentru analiza factorial:
Analyze
Data Reduction Factor
Descriptives
Correlation coefficients; KMO & Bartletts test of sphericity
KMO = test pentru a determina dac corelaiile pariale ntre variabilele folosite sunt mici; valori mai mici
de aproximativ 0,6 sugereaz c variabilele nu se vor grupa bine pe factori
testul Bartlett testeaz ipoteza de nul: matricea de corelaii ntre variabilele folosite este o matrice
identitate (elementele de pe diagonal sunt 1, celelalte elemente sunt 0); dac ipoteza de nul nu poate fi
respins, modelul factorial nu este potrivit n cazul variabilelor folosite
Extraction
Principal Components, Display Scree Plot
Rotation
Varimax (rezult n factori ortogonali, cu variabilele grupate pe factori astfel nct
factorii s fie ct mai interpretabili)
Scores
Save as variables (Regression method); Display Factor Score Coefficient Matrix
Options
(Missing Values Replaced with Mean)
Coefficients Sorted by Size
Outputul SPSS:
KMO i Bartlett testeaz dac analiza factorial este potrivit pentru variabilele folosite
Communalities (comunaliti) similare cu R2 din modelul de regresie; arat proporia din variana unei
variabilei observate care este explicat de toi factorii extrai
Eigenvalues (valori proprii) arat ce cantitate din variana total a tuturor variabilelor observate este
explicat de un factor
Component Matrix (matricea componentelor) conine saturaiile (factor loadings) factorilor extrai; un
coeficient de saturaie este echivalent cu corelaia dintre variabila observat i factorul extras atunci cnd
factorii extrai sunt ortogonali
Rotated Component Matrix (matricea componentelor dup rotire) conine saturaiile factorilor extrai
dup rotire (= corelaiile dintre variabilele observate i factorii rotii atunci cnd metoda de rotire rezult n
factori ortogonali) matricea arat ce variabile se ncarc pe fiecare factor i rezultatele sunt folosite
pentru etichetarea i interpretarea factorilor
Component Score Coefficient Matrix (matricea coeficienilor pentru calcularea scorurilor factoriale)
conine coeficienii ecuaiilor de regresie folosite pentru calcularea scorurilor factoriale

ARC CURS #10 2.05.2012

Analiz factorial (II)


AMOS Exemplul #8 Analiz factorial confirmatorie (CFA)
n principiu, CFA pornete de la un model care stabilete:
Numrul de factori
Ce variabile se ncarc pe ce factori
Dac factorii sunt sau nu corelai
Dac exist sau nu corelaii ntre termenii de eroare ai modelului
n cele mai multe cazuri, ntr-un model CFA, o parte din ncrcturile posibile n model sunt constrnse s fie 0
(ex: n modelul de mai jos, BIS_1 nu se ncarc pe F1). Exist ns situaii n care o variabil observat poate fi
legat de mai multe variabile latente din model.
n practic, exist un grad de analiz exploratorie i n CFA pe baza rezultatelor modelului (saturaii, msuri de
adecvare a modelului la date, comparaii de modele subsumate, indici de modificare a modelului ) se mai pot
introduce modificri la modelul iniial
Un model EFA poate fi rulat n prealabil construirii modelului pentru CFA
Modelele CFA sunt de obicei supra-identificate (soluie unic, teste de adecvare a modelului sunt posibile)
Pentru ca modelul s fie identificat, fiecare factor latent trebuie s primeasc o scal (se realizeaz prin
constrngerea unui coeficient de saturaie per variabil latent la 1 prin aceast constrngere, variabila
latent mprumut scala variabilei ctre care a fost constrns coeficientul); aceast variabil este aleas n mod
arbitrar, iar alegerea unei variabile diferite nu schimb rezultatele modelului
Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)
Analysis Properties: Standardized Estimates, Squared Multiple Correlations, Factor Score Weights
Ipoteze: Ci factori exist? Ce variabile se ncarc pe ce factori? Ce msoar fiecare variabil latent? Variabilele
latente sunt corelate sau necorelate? Dac da, sunt corelate pozitiv sau negativ?
1

GUV_1
PPOL_1

F1

PARL_1

BIS_1

e1
e2
e3

e5

F2
ARM_1

Gradele de libertate se calculeaz n mod similar cu cazul


modelelor cu variabile observate:
# Momente statistice ale eantionului se calculeaz
lund n calcul doar variabilele observate cu 5 variabile
observate, exist 10 covariane i 5 variane (total = 15
momente statistice ale eantionului)
# Parametri de estimat = 1 covarian ntre cei 2 factori
+ 3 coeficieni de saturaie + 2 variane pentru factorii lateni +
5 variane ale termenilor de eroare = 11
DF = 15-11 = 4

e6

Output:
Adecvarea modelului (Model goodness of fit): Interpretai adecvarea modelului la date folosind Chi-ptrat,
GFI, TLI, RMSEA
Unstandardized Regression weights coeficienii se interpreteaz la fel ca n cazul modelelor de regresie
Standardized Regression Weights saturaii factoriale/ coeficieni de saturaie (ex: variabila care msoar
ncrederea n Parlament se ncarc pe dimensiunea de ncredere n instituiile statutului F1 cu un
coeficient de saturaie de 0,91)
Covariana i corelaia dintre cei doi factori se interpreteaz la fel ca n cazul variabilelor observate
Squared multiple correlations arat proporia din variana variabilei observate care este explicat de
factorul latent
Interpretarea msurilor de goodness of fit:
Discutai adecvarea modelului la date. Dac testul chi-ptrat sugereaz c modelul nu este adecvat datelor, acest
lucru poate fi datorat mrimii mari a eantionului. Datorit sensibilitii acestui test la mrimea eantionului,

ARC CURS #10 2.05.2012

trebuie prezentate i discutate i cteva msuri alternative de adecvare a modelului la date (cum ar fi TLI, GFI,
RMSEA).
Chi-ptrat (CMIN) arat ct de bine se potrivete modelul datelor (msur de goodness of fit); compar
matricea de covariane observat n eantion cu matricea de covariane prezis de modelul folosit.
H0: modelul se potrivete perfect datelor; p este testul de semnificaie asociat acestei H0
Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (modelul nu se potrivete
perfect datelor)
GFI este tot o msur de goodness of fit, bazat pe discrepana dintre covarianele prezise de modelul de
interes i covarianele din populaie
GFI variaz ntre 0 i 1, unde 1 indic o adecvare perfect a modelului la date
Convenional, valori ale GFI mai mari dect 0,85 indic o adecvare bun a modelului la date
AGFI - GFI ajustat pentru complexitatea modelului
AGFI poate lua valoarea maxim 1 (indic adecvare perfect), dar nu are limit inferioar
Convenional, valori mai mari dect 0,90 indic o adecvare bun a modelului
Tucker-Lewis Index: este o msur ajustat pentru complexitatea modelului i estimeaz adecvarea
modelului de interes n comparaie cu un model de baz (modelul de independen)
n cele mai multe cazuri, TLI variaz ntre 0 i 1, dar poate lua valori i n afara acestui interval
Dac modelul se potrivete perfect datelor, TLI are valoarea 1
Convenional, o valoare de cel puin 0,90 indic o adecvare acceptabil a modelului
Convenional, o valoare de cel puin 0,95 e necesar pentru a categoriza modelul ca avnd o
adecvare bun la date
RMSEA (Root Mean Square Error of Approximation) ia n calcul eroarea de aproximare n populaie i ine
cont de numrul de grade de libertate ale modelului (ajusteaz pentru complexitatea modelului)
Dac aproximarea este bun, RMSEA ia valori mici
Convenional, o valoare de aproximativ 0,05 sau mai puin indic un model adecvat
H0: RMSEA n populaie nu este mai mare dect 0,05; P test for close fit (PCLOSE) este testul de
semnificaie asociat acestei H0
Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (RMSEA n populaie este mai
mare dect 0,05 modelul nu este adecvat)
Not: Putei gsi o descriere a tuturor testelor de goodness of fit prezente n outputul AMOS n Apendixul C al User
Guide-ului AMOS.