Sunteți pe pagina 1din 25

Variabile măsurate şi factori latenţi.

Construcţia
de indici sintetici, testarea validităţii interne a
indicilor. Introducere în analia factorială

Lecturi:
Culic, I. (2004): pp. 50-53;
Culic. I. (2004): Cap. 4., pp. 79-128.
Rotariu, T. et. al. (1999, 2006): Cap. 14, pp. 304-333.
Tabachnick şi Fidell (2007): Cap. 13: Principal Components and Factor Analysis, pp-
607 - 651
Un posibil model al procesului cunoaşterii:

Conceptul
Realitatea
(un model
percepută
al realităţii)

Construcţia, analiza Operaţionalizarea


conceptului
şi interpretarea (dimensiuni şi
indicelui sintetic indicatori)

Măsurarea
empirică a
indicatorilor
(variabilelor)
RV. Cât de importante sunt fiecare din următoarele pentru ca o persoană din
România de azi să reuşească în viaţă?

Foarte Destul de Nu prea Deloc


  important
Important
important important important
NŞ NR

 1
Să se nască într-o 1 2 3 4 5 8 9
familie bogată
 2 Să aibă relaţii 1 2 3 4 5 8 9
 3
Să aibă noroc / 1 2 3 4 5 8 9
şansă
Să creadă în
4 1 2 3 4 5 8 9
Dumnezeu
Să fie deşteaptă /
5 1 2 3 4 5 8 9
inteligentă
6 Să arate bine 1 2 3 4 5 8 9
7 Să facă şcoală 1 2 3 4 5 8 9
8 Să muncească mult 1 2 3 4 5 8 9
9 Să fure 1 2 3 4 5 8 9
Să ştie să se
10 1 2 3 4 5 8 9
descurce
Analiza validităţii interne –
consistenţei interne a scalei
• Am dori să înţelegem care cred oamenii ca sunt determinanţii reuşitei în
viaţă. Am operaţionalizat conceptul printr-un set de item pe care dorim să îi
sintetizăm într-o scală aditivă (indice aditiv).
• În afară de validitatea şi fidelitatea indicatorilor utilizaţi, trebuie să testăm şi
validitatea internă a setului de itemi.
• Dacă setul nostru de indicatori are validitate internă, atunci varianţele lor
sunt explicate în mare măsură de covarianţele lor cu factorul latent. Acest
lucru presupune că ele covariază puternic. Dar fiecare variabilă are şi o parte
de varianţă unică, care nu se datorează factorului latent.
• Atunci când construim indicele aditiv, noi includem nu doar covarianţele cu
factorul latent (scorurile adevărate) ci şi varianţele unice (erorile).
De exemplu, este foarte probabil că variabila “să ştie să se descurce” indică
nu doar abilităţile pe care le are o persoană (scor adevărat), dar şi evaluarea
contextului mai general în care poate să acţioneze, factori ce nu ţin de
conceptul pe care-l măsurăm (erori de măsurare).
VAR (xi) = σ2X = COV (xi, factor) + Error Ui
i
sau: σXi = Cor (xi, factor) + Error Ui
Validitatea internă: Chronbach’s alpha

• Considerăm că indicele aditiv reflectă un factor latent;


• Putem estima ce proporţie din varianţa factorului latent este cuprinsă în
varianţa setului de itemi dacă comparăm varianţa indicelui aditiv cu suma
varianţelor itemilor, ţinând cont de numărul de itemi.
= (k/(k-1)) * [1- (s2i)/s2sum]
Aceasta este formula celui mai cunoscut coeficient de validitate internă:
Cronbach's coefficient alpha (α).
• k – numărul de itemi (variabile incluse în indice)
• Σ s2i –suma varianţelor itemilor i
• Σ s2 suma itemilor (index) - varianţa indicelui aditiv (obţinut prin însumarea itemilor)
• Dacă indicele nu reflectă un factor latent, adică nu există un scor adevărat
măsurat de scala noastră atunci toată varianţa este datorată factorilor unici
(erorilor) iar variabilele nu covariază. În acest caz valoarea lui alpha este 0.
• Dacă toate variabilele covariază perfect, factorii unici (erorile) au valoarea 0 iar
alpha va avea valoarea 1.
Validitate internă: Chronbach’s alpha
Utilizând notaţiile anterioare, putem scrie:
α = k/(k-1) * [1 – (Σ σ2Xi) / σ2scale xi)]
De exemplu, dacă dorim să construim un indice bazat pe doar două variabile (să se
descurce şi să aibă relaţii) atunci putem calcula ALPHA în felul următor.
α = 2/(2-1) * [1 – (σ2rv2 + σ210) / σ2index1]
α = 2 * (1 – (2.103+2.003)/6.378) = 2 * (1-0.644) = 2*0.356 = 0.712

Scale Reliability Statistics


  Cronbach's α
scale 0.712

Note.  Of the observations, 2100 were used, 0 were


excluded listwise, and 2100 were provided.

Interpretare: ne aşteptăm ca varianţa reuşitei în viaţă pe bază de capacităţi de a se descurca şi pe bază


de relaţii să indice, cumulativ, 71% din varianţa reuşitei pe bază de capital social.
ATENŢIE: Aici variabila explicată (reuşita pe bază de capital social) NU ESTE MĂSURATĂ DIRECT! Este un
factor latent, iar semnificaţia lui ŢINE DE INTERPRETAREA NOASTRĂ!
Validitatea internă: Split half reliability

O modalitate alternativă de a evalua validitatea internă a unei scale este a


împărţi în mod aleator setul de itemi în două şi de a măsura corelaţiile dintre
scalele aditive obţinute pe baza celor două sub-seturi.
Dacă scala are o validitate internă perfectă, atunci cele două sub-scale trebuie
să fie perfect corelate (i.e., r = 1.0).

Coeficientul Spearman-Brown:
rsb = 2rxy /(1+rxy)

In această formulă, rsb este coeficientul Spearman-Brown (split-half


reliability), iar rxy reprezintă coeficientul de corelaţie dintre cele două sub-
scale.
Validitatea internă: Chronbach’s alpha

O altă modalitate de a construi coeficientul alpha se bazează tot pe împărţirea


aleatoare a setului de itemi în două.
Setul de itemi este împărţit aleator în două şi se calculează coeficienţii de corelaţie
mediu dintre itemii cuprinşi în fiecare subset. Apoi setul se împarte din nou aleator
în două, se calculează coeficienţii de corelaţie dintre itemii din noile sub-seturi iar
procesul se repetă până toate combinaţiile posibile sunt epuizate.
Chronbach’s alpha poate fi calculat ca şi media corelaţiilor medii dintre toate sub-
seturile posibile de itemi.
α = k * corelaţia medie / [1+(k-1) * corelaţia medie]
k – numărul itemilor
Corelaţia medie – corelaţia medie dintre itemi
Reliability analysis: Chronbach’s alpha
Am construit o scală aditivă bazată pe toţi itemii cuprinşi în chestionar:
Reusita = rv1+ rv2 + … + rv10
Indicele aditiv este măsurat pe o scală de la 10 la 50 (10 itemi * 5 puncte)

Descriptive Statistics
  Reusita
Valid 1781
Missing 0
Mean 20.887
Std. Deviation 4.786
Minimum 10.000
Maximum 39.000
Pears
—                  
on's r
rv1
p- —                  
value
Pears 0.685 —                
on's r
rv2
p-
value < .001 —                
Pears
0.556 0.630 —              
on's r
rv3
p-
< .001 < .001 —              
value
Pears
0.384 0.416 0.525 —            
on's r
rv4
p-
< .001 < .001 < .001 —            
value
Pears
0.501 0.580 0.633 0.530 —          
on's r
rv5
p-
< .001 < .001 < .001 < .001 —          
value
Pears 0.486 0.504 0.482 0.392 0.547 —        
on's r
rv6
p-
value < .001 < .001 < .001 < .001 < .001 —        
Pears 0.409 0.479 0.535 0.508 0.692 0.523 —      
on's r
rv7
p-
< .001 < .001 < .001 < .001 < .001 < .001 —      
value
Pears 0.417 0.431 0.526 0.504 0.643 0.458 0.711 —    
on's r
rv8
p-
< .001 < .001 < .001 < .001 < .001 < .001 < .001 —    
value
Pears
on's r 0.308 0.330 0.269 0.193 0.264 0.299 0.226 0.213 —  
rv9
p-
< .001 < .001 < .001 < .001 < .001 < .001 < .001 < .001 —  
value
Pears
0.469 0.553 0.525 0.436 0.607 0.472 0.549 0.501 0.365 —
on's r
rv10
p- < .001 < .001 < .001 < .001 < .001 < .001 < .001 < .001 < .001 —
value
Reliability analysis: Chronbach’s alpha

Item Reliability Statistics


If item dropped
  Cronbach's α
rv1 0.651
Scale Reliability rv2 0.643
Statistics rv3 0.647
Cronbach's rv4 0.673
  α rv5 0.652
scale 0.687 rv6 0.654
rv7 0.662
rv8 0.667
rv9 0.718
rv10 0.665
Construirea unei scale cu validiate internă prin intermediul lui Chronbach’s alpha

În practică, trebuie să facem un compromis între numărul


de itemi dezirabili din pdv statistic (cât mai mulţi!) şi
numărul dezirabil din pdv al costurilor (cât mai puţini!).
1. Crearea setului de itemi – un proces creativ, se pot organiza focus
group-uri pentru a elabora cât mai mulţi indicatori.

2. Selectarea itemilor relevaţi. Se realizează un studiu pilot în care


itemii cu abateri standard reduse şi medii extreme sunt eliminaţi. De
asemenea, se elimină itemii despre care respondenţii declară că nu
i-au înţeles sau pe care i-au interpretat în mod diferit.

3. Alegerea itemilor care au consistenţă internă

4. Eliminarea itemilor care prezintă corelaţii reduse şi recalcularea


coeficientului alpha. ATENŢE: Se poate întâmpla ca, eliminând mai
mulţi itemi, validitatea internă a scalei să se reducă!

In cazul nostru, dacă ştergem rv9 “să fure” avem Alpha = ,718
Analiza factorială
Analiza factorială – “o colecţie de metode statistice multivariate al căror scop principal este
identificarea structurii latente a unui set de date care descriu un concept ori un fenomen sau
care caracterizează o populaţie de obiecte” (Culic, 2004: 79).

Exemple: încrederea în instituţii, gradul de satisfacie faţă de activitatea guvernului, reţelele


sociale la care au acces indivizii, condiţiile mediului de viaţă, iniţiativa civică, etc.

Analiza factorială poate fi utilizată:


a. Într-un demers exploratoriu: avem un set de date empirice (variabile) şi dorim să clarificăm
modul în care aceste date se structurează şi co-variază. Cu ajutorul analizei factoriale, putem
identifica posibili factori latenţi care determină co-variaţia variabilelor observate.
b. Într-un demers confirmativ, în care testăm o ipoteză privind relaţia dintre variabilele
observate.
c. În validarea unei scale de măsură (indice) al unui concept abstract undimensional sau a unei
dimensiuni a unui concept abstract. Dimensiunea este operaţionalizată printr-un set de itemi,
fiecare item având drept corespondent empiric o variabilă măsurată. Prin analiza factorială
putem testa validitatea internă a scalei de măsură, adică faptul că toate variabilele indică
aceeaşi dimensiune a conceptului.
Logica analizei factoriale

Presupoziţia:
Există un număr redus de variabile latente (factori) care determină covariaţia dintre
variabilele observate.
Varianţa fiecărei variabile observate (Xi) se datorează factorilor latenţi (F1, F2,…, Fn)
şi unor determinanţi unici proprii (Ui). Factorii de unicitate sunt independenţi între
ei şi, de asemenea, de fiecare dintre dintre factorii latenţi.

De exemplu, în BOP Mai 2004 există un set de variabile care măsoară gradul de
încredere în diferite instituţii. Putem considera că aceştia sunt, de fapt, indicatorii
unei dispoziţii (atitudini) latente de încredere în instituţii?

Această atitudine are o singură dimensiune, sau mai multe?


Un exemplu

Utilizând baza de date BOP 2004, construiţi un indice simplu aditiv al încrederii
în instituţii. Testaţi validitatea internă a indicelui utilizând coeficientul alpha al
lui Chronbach. Ce puteţi observa?

Variabilele care indică încrederea în instituţii sunt:


(PG) Dvs. câtă încredere aveţi în…
Pg1 Biserică
Pg2 Preşedinţie
Pg3 Guvern Variante de răspuns (scală Likert)
Pg4 Parlament 0 Deloc
Pg5 Justiţie 1 Foarte puţină
Pg6 Armată 2 Puţină
Pg7 Poliţie 3 Multă
Pg8 Primăria localităţii 4 Foarte multă
Pg10 Sindicate 8 Nu ştiu
Pg11 Bănci 9 Nu răspund
Pg12 Mass media Am recodificat variantele NŞ şi NR în missing values.
Pg13 Orgnizaţii nonguvernamentale
Corelaţiile observate între variabile:
Correlation Matrix

Mass
Câtã media
încredere (TV,
aveþi dvs. radio, Organizaþii Primãria
în_Bisericã Sindicate Bãnci presã) neguvernamentale Preºedinþie Guvern Parlament Justiþie Armatã Poliþie localitãþii
Correlation Câtã încredere
aveþi dvs. 1,000 ,251 ,159 ,222 ,155 ,271 ,251 ,217 ,220 ,325 ,280 ,243
în_Bisericã
Sindicate ,251 1,000 ,488 ,316 ,487 ,402 ,448 ,495 ,467 ,377 ,512 ,532
Bãnci ,159 ,488 1,000 ,411 ,497 ,373 ,382 ,412 ,450 ,334 ,463 ,426
Mass media (TV,
,222 ,316 ,411 1,000 ,406 ,338 ,334 ,304 ,298 ,426 ,362 ,385
radio, presã)
Organizaþii
,155 ,487 ,497 ,406 1,000 ,356 ,366 ,402 ,402 ,332 ,404 ,381
neguvernamentale
Preºedinþie ,271 ,402 ,373 ,338 ,356 1,000 ,800 ,683 ,558 ,457 ,518 ,474
Guvern ,251 ,448 ,382 ,334 ,366 ,800 1,000 ,846 ,641 ,437 ,569 ,485
Parlament ,217 ,495 ,412 ,304 ,402 ,683 ,846 1,000 ,659 ,401 ,568 ,493
Justiþie ,220 ,467 ,450 ,298 ,402 ,558 ,641 ,659 1,000 ,454 ,712 ,508
Armatã ,325 ,377 ,334 ,426 ,332 ,457 ,437 ,401 ,454 1,000 ,561 ,491
Poliþie ,280 ,512 ,463 ,362 ,404 ,518 ,569 ,568 ,712 ,561 1,000 ,612
Primãria localitãþii ,243 ,532 ,426 ,385 ,381 ,474 ,485 ,493 ,508 ,491 ,612 1,000
Sig. Câtã încredere
(1-tailed) aveþi dvs. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
în_Bisericã
Sindicate ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Bãnci ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Mass media (TV,
,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
radio, presã)
Organizaþii
,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
neguvernamentale
Preºedinþie ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Guvern ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Parlament ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Justiþie ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Armatã ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Poliþie ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Primãria localitãþii ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

Observăm că încrederea în Biserică prezintă corelaţii modeste (sub 0.30) pentru 10 din
cele 11 variabile, aşadar îl putem excludem din scală.
Efectuăm testul de validitate internă pentru construcţia unei scale aditive a
încrederii în instituţii: calculăm Cronbach’s Alpha:
• R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)

Numărul de cazuri = 1116,0

• N of
• Statistics for Mean Variance Std Dev Variables
• Scale 23,3647 64,4095 8,0256 11

• Reliability Coefficients 11 items (11 variabile introduse în analiză)

• Alpha = ,9063 Standardized item alpha = ,9061

Valoarea coeficientului Alpha este ridicată, aşadar putem considera că putem construi o scală ce
are validitate internă.

De obicei, se recomandă ca Alpha să fie >= 0.70.

DAR:

Este plauzibil să considerăm că încrederea în instituţiile statului şi încrederea în instituţiile


private constituie două dimensiuni distincte ale încrederii în instituţii. Putem verifica acest
lucru cu ajutorul analizei factoriale.
Logica analizei factoriale
“Pornind de la analiza corelaţiilor observate dintre variabilele ce descriu conceptul,
fenomenul sau populaţia care ne interesează, analiza factorială ne ajută să
identificăm structura acestor date, semnalând existenţa unui număr redus de
dimensiuni. (…) Variabilele care compun aceeaşi dimensiune latentă (factor) vor fi
puternic corelate între ele şi în mică măsură corelate cu celelalte variabilele” (Culic,
2004: 81).

Analiza factorială ne arată:


- care dintre variabile observate (itemi) constituie indicatorii aceleaşi dimensiuni
latente (factor);
- care este intensitatea asocierii dintre factorul latent şi fiecare variabilă observată
corespunzătoare, ceea ce permite ponderea itemilor în construcţia indicilor
(indecşilor);
- care este relaţia dintre factorii latenţi, în ce măsură corelează sau nu.
Modelul general al analizei factoriale:
Putem observa o corelaţie puternică între încrederea în guvern (X1) şi încrederea în
parlament (X2), coeficientul de corelaţie al lui Pearson r(X1, X2)=0.846.
Presupoziţia noastră:

X1 U1 d1
b11
F1
X2 U2
b21 d2
Analiza factorială înseamnă că noi încercăm să realizăm o regresie a
variabilei obsevate (variabila dependentă) asupra unui factor latent (variabila
independentă, explicativă) pe care nu o putem însă măsura direct şi astfel
trebuie să o construim, să o “extragem” din datele pe care le avem.
X1= b11 * F1 + d1 * U1 În afară de factorul comun (F1), variabilele
X2= b21 * F1 + d2 * U2 noastre sunt explicate şi de nişte determinanţi
unici (U1 and U2), independenţi şi necorelaţi
cu factorii.
Prima A doua Deci: r(U1, U2)=0
cifră cifră
indică indică r(U1, F1)=0, r(U2, F1)=0
variabila factorul
Demonstraţii:
1. Cum poate fi exprimată varianţa variabilei X1 (încrederea în guvern)?
X1= b11 * F1 + d1 * U1 b11 se numeşte saturaţia lui F1 pentru X1 (factor loading
sau pattern loading) şi este interpretat ca un coeficient de regresie standardizat
BETA
X1, F1, U1 sunt standardizate, deci au media=0 iar varianţa=1

VAR (x1) = Σ [x1i – media(x1)]2/n VAR (X1) = b211 * VAR(F1) + d21* VAR(U1)
VAR (X1) = b211 + d21

Partea de varianţă a lui Partea de varianţă care se


X1 explicată de F1, datorează unor determinanţi unici
numită comunalitate
2. Care este corelaţia dintre variabilă măsurată şi factorul latent?
r(x1, F1) = Σ[ x1i – media(x1)]*[F1i – media(F1)]/n (pt. că abaterile standard=1)

r(X1, F1) = Σ(x1i*F1i)/n

r(x1, F1) = b11


Demonstraţii:
3. Cum poate fi exprimată corelaţia observată dintre X1 şi X2 pe baza corelaţiilor
lor cu factorul F1?

X1= b11 * F1 + d1 * U1
X2= b21 * F1 + d2 * U2

r(X1, X2)=Σ[(x1i-media(x1)][x2i-media(x2)]/n

r(X1, X2) = b11*b21

! În analiza factorială, factorii sunt “extraşi” astfel încât corelaţiile re-construite


dintre variabile pe baza corelaţiilor lor cu factorii latenţi să se apropie cât mai mult
de corelaţiile observate. Corelaţiile observate sunt prezentate în matricea
corelaţiilor bivariate (dintre variabile luate două câte două).
Softurile de analiză calculează suma diferenţelor pătratice dintre corelaţiile observate şi cele
obţinute (construite) pe baza modelului factorial şi se obţine astfel o măsură similară cu CHI-
pătrat. Aceasta testează adecvarea modelului factorial (the goodness of fit of the model). În
practică este de preferat un model factorial mai simplu, chiar dacă acesta este mai puţin
adecvat (există diferenţe semnificative între matricea corelaţiilor re-construite şi matricea
corelaţiilor observate).
Ce presupoziţii putem face despre factorii latenţi?
Corelaţia dintre x1 şi x2 se datorează în întregime factorilor latenţi:

COV (X1,X2)
r(X1 X2) = I. Doi factori independenţi:
X X1 2
F1 X1 U1
X2 U2

r(X1 X2) =
Σ(X1i –media(X1))*(X2i-media(X2)) X3 U3
F2 X4 U4
 X X
1 2
X5 U5

X1 şi X2 sunt standardizate, deci: media (X1) = media (X2)=0, iar X1 =X2=1.

X1=b11*F1 + b12*F2+ d1U1


X2=b21*F1 + b22*F2+ d1U1 (Pentru demonstraţii, vezi Culic, 2004: pp. 86-94)

În general: r(X1 X2) = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2

Dacă factorii sunt independenţi r(F1, F2)=0, atunci r(X1, X2)=b11*b21+b12*b22


Doi factori corelaţi:
X1 U1
F1 r (X1, F1) = b11 + b12 * r(F1,F2)
X2 U2
r (X1, F2) = b12 + b11 *r(F1,F2)

F2
Efect direct al lui F2 Efect indirect,
mediat de F1
X3 U3

VAR (X1) = b112 + b122 + b11 * b12 * 2 r(F1, F2) - d12

Comunalitatea lui X1 (partea din Ceea ce rămâne ne-explicat de


varianţă explicată de factori) factori din varianţa lui x1
b11 este saturaţia lui F1 (factor loading F1) iar b12 este saturaţia lui F2 (factor loading F2).
Dacă noi alegem un model în care factorii sunt independenţi, atunci corelaţiile dintre factori
şi variabile se reduc la efectele directe, deci sunt identice cu saturaţiile (factor loadings).
Să recapitulăm: Logica analizei factoriale

X1=b11*F1 + b12*F2+ b13*F3 + …+ b1n*Fn + d1U1


………………
Xm=bm1*F1 + bm2*F2+ bm3*F3 + …+ bmn*Fn + dmUm

F1, F2, … Fn sunt factorii comuni care determină fiecare dintre variabilele X1, X2, … Xm, iar U1,
U2, … Um sunt factorii lor de unicitate.
Analiza factorială urmăreşte reducerea variabilelor observate la un număr mai redus de factori
latenţi, aşadar n < m.

Factorii de unicitate U1, U2, … Um sunt independenţi de factorii comuni F1, F2,… Fn şi sunt
independenţi (ne-corelaţi) între ei.
Întreaga varianţă comună a variabilelor X1, X2,… Xm este datorată factorilor comuni F1, F2, … Fn.

Coeficienţii bi1, bi2,… bin se numesc saturaţii ale factorilor (pattern loadings sau factor loadings)
F1, F2, … Fn pentru fiecare variabilă i (i < = n).
Având în vedere că modelul factorial se bazează pe ecuaţii multilineare, coeficienţii b pot fi
interpretaţi drept coeficienţi de regresie multiplă standardizaţi.

S-ar putea să vă placă și