Documente Academic
Documente Profesional
Documente Cultură
1
Întrebarea MVAL3 din ancheta “Barometrul de opinie publică” Mai 2003 (BOP 2003).
2
Janda 1980, capitolul 6.
a patra dimensiune, reprezentată de o singură variabilă. Aceste rezultate i-au permis să
respingă ipoteza că o singură dimensiune stânga-dreapta ar putea explica diferenţele
dintre partide.
Tema generală la care răspunde analiza factorială este următoarea: având un set
de date alcătuit dintr-o mulţime de variabile care descriu un concept/ fenomen sau o
mulţime de obiecte, putem considera că ele sunt determinate de către un număr mai mic
de variabile neobservabile direct (dimensiuni, “factori”)? Dacă da, câţi factori sunt, cât de
bine descriu setul de date original, ce variabile observate determină şi cu ce intensitate, ce
sunt aceşti factori?
Pornind de la analiza corelaţiilor observate între variabilele care descriu
conceptul, fenomenul sau populaţia care ne interesează, analiza factorială ne ajută să
identificăm structura acestor date, semnalând existenţa unui număr redus de dimensiuni
latente (variabile neobservabile direct, concepte, “factori”). Variabilele care compun
aceeaşi dimensiune latentă (“factor”) vor fi puternic corelate între ele, şi în mai mică
măsură corelate cu celelalte variabile. Analiza factorială ne indică felul în care se
structurează variabilele în subseturi de variabile puternic intercorelate, fiecare
corepunzând unei dimensiuni latente (unui “factor”). Vom avea, pe de o parte, o măsură a
determinării factorilor de către variabile (variabilele care se constituie într-o dimensiune
separată vor corela puternic cu factorul corespunzător dimensiunii respective şi în mai
mică măsură cu ceilalţi factori), dar şi a modului în care fiecare variabilă este explicată
(determinată) de către factori.
Prin identificarea factorilor se obţin două din foloasele principale ale analizei
factoriale: sumarizarea şi reducerea datelor. O mulţime de aspecte ale aceluiaşi concept,
sau o mulţime de caracteristici ale unei populaţii, surprinse în tot atâtea variabile, sunt
sumarizate în doar câteva dimensiuni (“factori”), care pot fi interpretate, înţelese şi
denumite. Prin calcularea unor scoruri factoriale pentru fiecare dimensiune identificată
(pentru fiecare factor) care să înlocuiască variabilele originale şi care pot fi utilizate în
prelucrări ulterioare, obţinem o reducere a dimensionalităţii datelor la numărul de factori
identificat.
Revenind la primul exemplu de mai sus, analiza factorială a setului de date ce
surprind atitudinile politice ale indivizilor ar putea indica faptul că liberalismul nu este un
concept unidimensional, ci se structurează pe trei dimensiuni distincte: economică,
socială, culturală. Astfel, întrebarea privind afirmaţia “Statul trebuie să asigure locuri de
muncă pentru toţi cei care vor să muncească?”, ar aparţine dimensiunii liberalismului
social, pe când cea formulată astfel “Guvernul ar trebui să cheltuiască mai mulţi bani
pentru reducerea şomajului”, ar aparţine dimensiunii liberalismului economic. Variabile
ca cea de tipul “Guvernul ar trebui să asigure o reprezentare proporţională a minorităţilor
în locurile de muncă existente” aparţin dimensiunii liberalismului cultural.
Analiza factorială poate fi utilizată atât într-un demers exploratoriu, cât şi într-
unul confirmativ. Primul dintre acestea este cel mai des întâlnit în cercetarea empirică –
analiza factorială ne clarifică, structurează şi simplifică înţelegerea felului în care datele
covariază. Dar de multe ori analiza factorială este folosită şi în scop confirmativ, ca
mijloc de testare a unor ipoteze. Exemplul privind liberalismul dat mai sus este o ilustrare
a abordării exploratorii.
Un alt mod de utilizare în scop exploratoriu a analizei factoriale este acela de
validare a scalei de măsură pentru un concept abstract unidimensional, alcătuită dintr-o
serie de itemi, fiecare item fiind reprezentat de câte o variabilă observabilă. Dacă analiza
factorială pentru setul de date constituit din itemii scalei produce un singur factor, atunci
putem considera că itemii scalei măsoară toţi aspecte ale aceluiaşi fenomen. (Dacă scala
măsoară exact fenomenul pe care dorim să îl măsurăm, şi nu altul, este un alt aspect al
validităţii scalei, care se tratează separat.) În situaţia în care analiza factorială identifică
mai mulţi factori, atunci putem să ne îndoim că scala a fost construită corect, căci un
rezultat multifactorial sugerează că scala măsoară cel puţin încă un alt fenomen.
Dar în demersul cercetării putem apela la analiză factorială nu numai pentru
explorarea datelor, ci şi pentru confirmarea unor rezultate. De exemplu, putem întâlni
următoarea situaţie practică de cercetare. Din raţiuni teoretice şi bazându-ne pe rezultate
anterioare, credem că un fenomen este explicat de un număr anumit de factori (ipoteza de
lucru). Acest lucru poate fi testat (poate fi confirmat) prin realizarea unei analize
factoriale. Analiza factorială ne ajută însă şi să aflăm (să explorăm) care sunt aceşti
factori şi ce anume reprezintă.
Altă strategie din multele care pot fi folosite în practica cercetării este următoarea.
Setul de date se împarte în două, prin divizarea eşantionului în două subeşantioane,
aleator sau altfel. Primul eşantion este folosit pentru explorarea structurii de date şi ne
furnizează un model factorial. El va reprezenta ipoteza de lucru pentru explicaţia
fenomenului pe care îl studiem. Cel de-al doilea eşantion este apoi folosit pentru a testa
modelul dezvoltat după datele din primul eşantion. Confirmarea modelului pentru cel de-
al doilea eşantion este considerată o validare a modelului.
3
Reamintim faptul că varianţa unei variabile X este o măsură a variaţiei cazurilor relativ la însuşirea
măsurată prin variabilă, variaţie calculată prin raportarea valorilor fiecărui caz la media variabilei.
4
Factori de unicitate, sau factori unici. În engleză poartă numele de unique factors.
Figura 1: Modelul general al analizei factoriale, cu m variabile observate, n factori
comuni ortogonali.
X1 U1
F1
X2 U2
F2
X3 U3
... ... ...
Fn
Xm Um
F1, F2, ..., Fn, n < m, sunt factorii comuni care determină pe fiecare din variabilele
X1, X2, ..., Xm, iar U1, U2, ..., Um sunt factorii lor de unicitate. Teoretic putem considera
că aceşti factori, F1, F2, ..., Fn, sunt independenţi sau ortogonali (corelaţia dintre oricare
doi factori este zero). De altfel diagrama presupune acest lucru, căci între niciunul dintre
factori nu există vreo linie care să marcheze o legătură de un fel sau altul. Fiecare dintre
factorii de unicitate U1, U2, ..., Um, este independent de factorii F1, F2, ..., Fn (corelaţia
dintre Ui şi Fj este zero, pentru orice i de la 1 la m, şi pentru orice j de la 1 la n).
Coeficienţii b11, b12, ... b1n se numesc saturaţii ale factorilor F1, F2, ... Fn pentru
variabila X1. În general coeficienţii bi1, bi2, ..., bin sunt saturaţiile factorilor F1, F2, ... Fn
pentru fiecare variabilă Xi, i = 1, 2, ..., m. 5 Având în vedere forma ecuaţiilor care descriu
modelul factorial, saturaţiile pot fi interpretate şi drept coeficienţi de regresie
standardizaţi, unde variabilele dependente sunt variabilele observate X1, X2, ..., Xm, iar
factorii sunt variabilele independente.
Matricea alcătuită din saturaţiile factoriale pentru fiecare variabilă observată se
numeşte matrice factorială. 6 Estimarea saturaţiilor este unul din paşii principali în
realizarea unei analize factoriale, căci în funcţie de valorile lor vom putea afla în ce
măsură un factor determină o variabilă observată, care sunt factorii care determină cu
preponderenţă o variabilă, şi care sunt variabilele care saturează cu preponderenţă un
factor (variabilele care determină cu preponderenţă factorul). Cunoscând aceste lucruri
5
Termenul în engleză pentru saturaţii este pattern loadings sau factor loadings, ultimul fiind cel sub care îl
găsim şi în SPSS. Corelaţiile dintre factori şi variabile observate, care, aşa cum vom vedea în continuare,
sunt egale cu saturaţiile factoriale în cazul în care factorii sunt ortogonali, sunt numite structure loadings.
6
În engleză, matrix of factor loadings, sau pattern matrix. Matricea corelaţiilor între factori şi variabilele
observate se numeşte matrice structurală, termenul în engleză fiind structure matrix. Cele două sunt
echivalente în cazul factorilor ortogonali.
vom putea identifica semnificaţia factorilor şi îi vom putea defini şi înţelege, astfel
desluşind mai bine relaţiile dintre variabilele observate.
F1 F2 ... Fn
X1 b11 b12 ... b1n
X2 b21 b22 ... b2n
...
Xm bm1 bm2 ... bmn
Pentru a înţelege mai bine, să luăm cel mai simplu exemplu posibil, şi anume cel
în care două variabile observate, X1 şi X2, sunt determinate de un singur factor latent, F1.
Acest lucru înseamnă că atât o parte din varianţa lui X1, cât şi o parte din varianţa lui X2,
sunt datorate variaţiei lui F1. Covariaţia dintre X1 şi X2 poate fi explicată prin faptul că
factorul F1 determină atât pe X1 (este responsabil de variaţia sa), cât şi pe X2.
Astfel, în cazul unuia din exemplele de mai sus, putem afirma că tendinţa de a
răspunde similar la întrebările “Guvernul ar trebui să cheltuiască mai mulţi bani pentru
reducerea şomajului” (X1) şi “Guvernul ar trebui să încurajeze angajarea tinerilor” (X2),
cu alte cuvinte covariaţia dintre X1 şi X2, se datorează împărtăşirii aceleiaşi convingeri
politice, de tip liberal social (acesta este factorul F1).
Dat fiind că cele două variabile (întrebări) nu sunt perfect identice, una referindu-
se la şomaj în general, cealaltă la şomajul în rândul tinerilor, restul de variaţie al fiecăreia
va fi explicat de câte un factor de unicitate, U1, respectiv U2. Dar corelaţia observată între
aceste două variabile este în întregime datorată factorului comun.
X1 U1
F1
X2 U2
X1 = b11 F1 + d1 U1
X2 = b21 F1 + d2 U2
Var(X1) = [ Σ(X1i – X1 )2 ] / N
Dacă variabilele sunt standardizate (sunt transformate liniar astfel încât media lor
să fie egală cu 0, iar abaterea standard să fie egală cu 1), formula prin care varianţele
celor două variabile sunt descompuse devine şi mai simplă:
7
Mai poartă şi numele de specificitate, sau de componentă de unicitate.
Putem descompune covarianţa dintre un factor şi o variabilă observată în aceeaşi
manieră. Vom presupune variabilele F1 şi X1 transformate în aşa fel încât media lor este
egală cu 0.
Dacă variabilele sunt standardizate, atunci covarianţa dintre cele două variabile
este egală cu coeficientul de corelaţie dintre ele, şi formula devine:
Expresia b11 b21 reprezintă corelaţia rezultată din modelul factorial. Avem deci, pe
de o parte, o serie de relaţii în care sunt implicate scorurile factoriale, pe care dorim să le
estimăm, şi, pe de altă parte, corelaţiile dintre variabilele observate, singurele date pe care
le avem la dispoziţie înafară de asumpţiile noastre teoretice.
Urmând acelaşi procedeu de descompunere a varianţelor şi covarianţelor, se arată
că, în modelul factorial general cu m variabile observate şi n factori, scorurile factoriale
sunt echivalente corelaţiilor dintre factori şi variabile, dacă factorii sunt ortogonali doi
câte doi (sunt independenţi doi câte doi).
Corelaţia rezultată între oricare două variabile observate, r(Xi,Xj), atunci când
factorii sunt ortogonali, va fi egală cu suma produselor dintre saturaţiile corespunzătoare
factorilor comuni:
r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m
Acest lucru înseamnă că, dacă efectul factorilor comuni este controlat, corelaţia
dintre oricare două variabile observate Xi şi Xj va fi egală cu zero, adică r(Xi,Xj; F1,F2,
...,Fm) = 0.
Avem deci o serie de relaţii care pun în legătură corelaţiile dintre variabilele
observate şi saturaţiile factoriale. Acesta este punctul de pornire în estimarea modelului
factorial. Dar până acolo trebuie să înţelegem mai bine felul în care construim acest
model şi înainte de a trece la procedurile şi estimările statistice trebuie să clarificăm
chestiunile conceptuale.
Modelul general despre care am vorbit până acum, în care m variabile observate
sunt determinate de n factori, este unul particular, în sensul condiţiilor impuse asupra lui:
factorii sunt ortogonali, variabilele de unicitate U1, U2, ..., Um sunt independente două
câte două şi fiecare dintre ele este independentă de oricare dintre factorii F1, F2, ..., Fn.
Dar forma lui ne indică încă câteva concepte necesare pentru înţelegerea logicii acestei
tehnici.
Primul dintre acestea este cel de complexitate factorială a unei variabile, şi se
referă la numărul de factori care au saturaţii nenule pentru variabila respectivă. Pentru
modelul general, complexitatea factorială a unei variabile Xi este dată de numărul de
saturaţii factoriale bi1, bi2, ..., bin semnificativ diferite de zero, adică de numărul de factori
care determină variabila respectivă. În diagrama prin care am reprezentat modelul
general, am presupus că fiecare variabilă este determinată de toţi n factorii, adică
complexitatea factorială a fiecărei variabile este egală cu n. Dacă particularizăm m = 5, n
= 2, modelul general va lua forma reprezentată în diagrama din figura 4. Complexitatea
factorială a variabilelor X1, ..., X5 este aceeaşi, şi este egală cu 2.
Figura 4: Model factorial cu 5 variabile observate, 2 factori comuni ortogonali, şi
matricea factorială asociată.
X1 U1
F1
X2 U2
F2
X3 U3
X4 U4
X5 U5
F1 F2
X1 b11 b12
X2 b21 b22
X3 b31 b32
X4 b41 b42
X5 b51 b52
Pentru a înţelege mai bine acest concept, să luăm exemplul următor, reprezentat
grafic în figura 5. Lipsa săgeţii orientate dintre factor spre variabilă, care ar indica
determinarea variabilei de către un factor, ne indică faptul că acesta nu este responsabil
de variaţia variabilei respective. Aceasta este o asumpţie teoretică, diagrama nu face
decât să o reprezinte.
X1 U1
F1
X2 U2
F2
X3 U3
X4 U4
X5 U5
F1 F2
X1 b11 0
X2 b21 0
X3 b31 b32
X4 0 b42
X5 0 b52
În acest exemplu, variabilele X1, X2, X4, X5 au o complexitate factorială egală cu
1 (sunt determinate respectiv de câte un factor comun), iar variabila X3 are complexitatea
factorială egală cu 2 (este determinată de ambii factori comuni).
Al doilea concept ce trebuie înţeles este cel de grad de determinare factorială a
variabilelor. Acesta ne va spune în ce măsură variabilele observate sunt determinate de
factorul comun. Una din măsurile gradului de determinare factorială este proporţia de
varianţă explicată de factorii comuni. Indexul de mai jos măsoară media proporţiei
varianţei variabilelor observate explicată de factorii comuni (suma varianţei comune a
fiecărei variabile explicată de factorii comuni, împărţită la numărul de variabile).
(Σ hi2) / m
8
Grad de adecvare a modelului, sau cât de bine se potriveşte modelul pentru date, poartă numele de
goodness-of-fit în engleză.
Figura 6: Model factorial cu 5 variabile observate, 2 factori comuni neortogonali.
X1 U1
F1
X2 U2
F2
X3 U3
X4 U4
X5 U5
F1 F2
X1 b11 b12
X2 b21 b22
X3 b31 b32
X4 b41 b42
X5 b51 b52
Atâta timp cât există corelaţie între F1 şi F2, adică r(F1,F2) ≠ 0, saturaţia factorului
F1 pentru variabila X1 nu va mai fi egală cu corelaţia dintre ele. Nici matricea saturaţiilor
nu va mai fi aceeaşi cu matricea structurală.
Corelaţia rezultată dintre două variabile observate, în cazul oblic, va avea patru
componente: una datorată factorului comun F1, alta datorată factorului comun F2, şi încă
două componente datorate corelaţiei dintre factorii comuni.
r(X1,X2) = b11 b21 + b12 b22 + b11 b22 r(F1,F2) + ... + b21 b12 r(F1,F2)
Ajunşi aici putem spune ceea ce deja am sugerat în această secţiune prin modelele
şi conceptele introduse. Prin analiza factorială dorim să descoperim structura latentă a
unui un set de date, dat prin m variabile observate X1, X2, ..., Xm, folosind matricea de
covarianţe (corelaţii) dintre ele. Până acum ne-am folosit de câteva exemple care
presupuneau că modelul factorial este cunoscut (era specificat numărul de factori comuni,
complexitatea factorială a fiecărei variabile observate, ortogonalitatea sau oblicitatea
factorilor), şi că este o corespondenţă perfectă între matricea de saturaţii factoriale şi
matricea de covarianţe (corelaţii) dintre variabile. Dacă saturaţiile factoriale sunt
cunoscute, atunci putem deriva în mod univoc corelaţiile dintre variabile.
În realitate însă, situaţia practică în care suntem este una pe dos: dorim să obţinem
structura factorială (matricea saturaţiilor, complexitatea factorială a variabilelor,
gradul de determinare factorială a fiecărei variabile, relaţia dintre factori în termeni de
ortogonalitate sau oblicitate) pornind de la corelaţiile (covarianţele) cunoscute dintre
variabilele observate. Dificultatea apare din cauza faptului că demersul prin care facem
inferenţe despre factori pornind de la covarianţele (corelaţiile) dintre variabile conţine o
serie de nedeterminări. Aceeaşi structură de covarianţă poate fi produsă de nenumărate
structuri cauzale (modele factoriale). Cunoaşterea covarianţelor dintre variabile nu duce
imediat la cunoaşterea structurii cauzale latente (a factorilor comuni). De exemplu,
oricare din modelele prezentate în figurile 4, 5, 6 poate reprezenta la fel de bine structura
unui set de date.
Kim şi Mueller sintetizează principalele tipuri de nedeterminare care apar. 9
Acestea ar fi:
1. Aceeaşi structură de covarianţă, saturaţii diferite. De exemplu, structurile
cauzale din figurile 4 şi 5, care au matricile de saturaţii următoare, conduc la aceeaşi
matrice de corelaţii între variabile.
F1 F2 F1 F2
X1 0.40 0.69 X1 0.80 0
X2 0.40 0.69 X2 0.80 0
X3 0.65 0.72 X3 0.60 0.40
X4 0.69 0.40 X4 0 0.80
X5 0.61 0.35 X5 0 0.70
9
Kim & Mueller 1978a, pp. 38-43.
10
După Kim & Mueller 1978a, p. 39.
2. Aceeaşi structură de covarianţă, număr variabil de factori. Se poate demonstra
matematic că există o corespondenţă între numărul de factori într-un model cauzal şi o
rangul unei matrici construite, numită matrice de corelaţie ajustată. Matricea de corelaţie
ajustată este alcătuită din corelaţiile între variabilele observate, calculate în funcţie de
saturaţiile factoriale (aşa cum am făcut mai sus de câteva ori) şi comunalităţile
variabilelor, situate pe diagonală. Această corespondenţă sugerează că şi inversa ei ar
putea fi posibilă, şi anume că numărul de factori comuni latenţi poate fi aflat din
examinarea matricii de corelaţie ajustată şi calculul rangului acesteia. 11
3. Aceeaşi structură de covarianţă, mai multe tipuri de structuri cauzale. Una din
presupunerile pe care le-am făcut în construcţia modelului factorial a fost aceea că
corelaţia dintre două variabile se datorează determinării acestora de către un factor
comun. Însă corelaţia dintre două variabile se poate explica şi prin faptul că una dintre ele
o determină pe cealaltă (una este cauza celeilalte).
Criteriul adecvării statistice a modelui la date nu poate fi folosit pentru reducerea
nedeterminării, pentru că fiecare dintre structurile cauzale descrie la fel de bine datele.
Nedeterminarea se poate rezolva doar pe calea demersului teoretic, prin selectarea
modelului factorial care este coerent cu asumpţiile, conceptele şi cadrul nostru teoretic,
sau cu rezultatele unor cercetări anterioare pe care le considerăm acceptabile.
Aşa cum facem în orice alt demers de acest fel, şi în analiza factorială putem
apela la principii practice pentru reducerea nedeterminării. Nedeterminările de tipul al
treilea sunt rezolvate practic prin apelul la principiul adecvării modelului empiric la
modelul teoretic. În orice model bazat pe structuri cauzale, cum este şi analiza factorială,
cercetătorul este cel care trebuie să furnizeze un mecanism cauzal plauzibil pentru felul în
care factorii determină variabilele, bazat pe cunoaşterea datelor. În funcţie de acesta se va
alege între un model sau altul. Nu modelul cauzal va fi cel care propune existenţa unei
determinări, ci modelul primeşte substanţă dacă susţine schema de cauzalitate teoretică.
Principiul simplităţii 12 poate ajuta la rezolvarea celorlalte două tipuri de
nedeterminare. Criteriul recomandat prin acest principiu este cel al simplităţii
reprezentării. Principiul afirmă că este preferabil să avem un model cât mai simplu pentru
descrierea realităţii, că o structură mai simplă este mai profitabilă decât una mai
complexă. Teorema rang poate fi utilă aici, pentru selecţia unui model factorial cu un
număr minim de factori, care să se potrivească matricei de covarianţă. Faptul că teorema
ne indică un model consistent cu datele, ce are un număr minimal de factori egal cu
rangul matricii de corelaţie ajustată, nu demonstrează însă că există doar acei factori, şi
nu mai mulţi, care să dea seama de corelaţiile variabilelor observate. În acest caz ne
confruntăm cu ceea ce se numeşte o problemă de rotaţie, care este şi problema
nedeterminării de primul tip.
Ce este o problemă de rotaţie? Este una de transformare a datelor astfel încât să
obţinem un model mai uşor interpretabil, o structură factorială care să aibă mai mult
înţeles. Astfel, o transformare care să micşoreze complexitatea factorială a variabilelor şi
11
Inferenţele bazate pe teorema rang sunt limitate de câteva probleme, teoretice şi practice. În cazul a doi
sau mai mulţi factori, determinarea configuraţiei saturaţiilor reclamă adăugarea unor condiţii. Teorema se
aplică doar în cazul anumitor reguli de combinare a factorilor în determinarea variabilelor. Corelaţiile
observate sunt alterate de erori de eşantionare şi de măsurare, iar relaţiile din lumea reală pot să nu se
potrivească exact niciunui model factorial. (După Kim & Mueller 1978a, p. 37)
12
În engleză parsimony principle.
să mărească gradul de determinare factorială a variabilelor ne-ar uşura semnificativ
înţelegerea, interpretarea, “numirea” factorilor.
Despre toate acestea vom discuta în secţiunea următoare.
Primul pas în realizarea unei analize factoriale este cel de stabilire a obiectivelor
(în funcţie de care vom aborda datele exploratoriu sau confirmatoriu) şi de pregătire a
setului de date de analizat (reducerea pe cât posibil a erorilor de eşantionare şi de
măsurare). Întrebările la care trebuie să răspundem în această fază sunt legate problema
de cercetare. Ce anume dorim să obţinem? Încercăm să aflăm structura unui set de date?
Dorim să explorăm dimensiunile unui fenomen sau să înţelegem cum funcţionează un
concept complex? Dorim să testăm o ipoteză de cauzalitate sau de dimensionalitate a
datelor? Acest lucru trebuie să fie foarte bine clarificat în mintea noastră. Trebuie să
înţelegem ce fel de date avem: care sunt obiectele ale căror caracteristici le măsurăm
(populaţia care ne furnizează datele), care sunt variabilele care descriu fenomenul sau
conceptul care ne interesează, cum se structurează populaţia în funcţie de setul de
variabile.
De exemplu, dacă dorim să aflăm cum se structurează opiniile cetăţenilor relativ
la performanţa guvernului, vom ancheta un eşantion de cetăţeni (obiectele) asupra felului
în care evaluează diferite aspecte ale activităţii guvernului (variabilele observabile).
Fiind o analiză de corelaţie, variabilele care pot intra într-o analiză factorială
trebuie să fie măsurate pe scale de intervale sau de rapoarte (variabile metrice). Este
generală totuşi asumpţia că multe din variabilele ordinale (e.g. care măsoară opinii sau
atitudini) pot primi valori numerice fără a distorsiona proprietăţile latente. Pentru a ne
decide dacă putem accepta în analiză variabile ordinale, trebuie să stabilim (1) cu câtă
acurateţe reflectă valorile atribuite de noi treptelor scalei ordinale distanţele reale dintre
ele, şi (2) cât de tare sunt distorsionate corelaţiile între variabile de posibilele distorsiuni
din scală. 13 Astfel, dacă toate variabilele care intră în analiză sunt măsurate pe aceeaşi
scală de măsură (e.g. toate opiniile sunt măsurate pe aceeaşi scală cu patru trepte: total
dezacord, dezacord parţial, acord parţial, acord total), atunci atribuirea respectiv a
valorilor 0, 1, 2, 3 treptelor scalei ar răspunde pozitiv condiţiilor de mai sus.
2. Matricea de corelaţie.
Cel de-al doilea pas este cel de examinare a datelor şi calculul matricii de
covarianţă/ de corelaţie. În realizarea unei analize factoriale cel mai adesea folosim ca
punct de start matricea de corelaţie. Acest lucru rezolvă problemele care pot apărea
datorită scalelor de măsură diferite ale variabilelor şi datorită varianţelor diferite pe care
acestea le pot avea în populaţie (respectiv în eşantionul cu care lucrăm). Este cel mai
indicat să o folosim atunci când dorim să aflăm structura latentă a datelor.
13
După Kim & Mueller 1978b, pp. 73-4.
Matricea de covarianţe este recomandată atunci când dorim să facem comparaţii
între grupuri: corelaţiile, care sunt măsuri standardizate folosind standarde specifice
grupului, vor face invariante valori care sunt diferite de la grup la grup.
Una din asumpţiile critice ale analizei factoriale, de natură conceptuală, este aceea
că între variabilele observate există suficientă corelaţie pentru a avea sens să realizăm o
analiză factorială. Dacă între variabile nu există corelaţie substanţială, atunci nu rost să
căutăm factori comuni care să le determine.
Există câteva modalităţi de a stabili dacă există suficientă corelaţie între
variabilele observate pentru a analiza factorial datele.
a. Una este aceea de a testa statistic prezenţa corelaţiei între variabile. Acest lucru se
face cu ajutorul testului de sfericitate Bartlett, care testează ipoteza că matricea de
corelaţie este matricea identitate (testează ipoteza că între fiecare două variabile
observate nu există nici o corelaţie). Statistica de test este o transformare a
determinantului matricii de corelaţie. Cu cât statistica de test este mai mare şi nivelul
de semnificaţie asociat mai mic, cu atât şansa ca matricea de corelaţie să fie matricea
identitate este mai mică, deci cu atât corelaţiile observate sunt mai importante. Dacă
însă ipoteza nu se poate respinge, atunci probabil că analiza factorială pentru datele
respective nu-şi are locul şi rostul.
b. Altă modalitate de a stabili dacă avem suficientă corelaţie între variabile pentru a
căuta o structură latentă a datelor este aceea de a examina coeficienţii de corelaţie
parţiali. Dacă există factori comuni care dau seama de corelaţiile dintre variabile,
atunci coeficienţii de corelaţie parţială între două variabile, când efectul celorlalte
variabile este controlat, trebuie să fie foarte mici. Coeficienţii de corelaţie parţială
sunt, în acest caz, estimări ale corelaţiilor dintre factorii unici ai variabilelor, or
aceştia ar trebui să fie egali cu zero, întrucât se presupune că factorii de unicitate sunt
independenţi doi câte doi. Negativul coeficientului de corelaţie parţială (coeficientul
de corelaţie parţială înmulţit cu –1) se numeşte corelaţie anti-imagine. Majoritatea
pachetelor de programe statistice pe calculator calculează matricea de corelaţii anti-
imagine. 14
c. În fine, avem măsuri de adecvare a eşantionării. 15 Cea mai folosită dintre acestea este
cea a lui Kaiser-Meyer-Olkin (KMO), care este un indice ce compară mărimea
corelaţiilor cu cea a coeficienţilor de corelaţie parţială. Valori mici ale acestui indice
14
În engleză, anti-image correlation matrix.
15
În engleză, measures of sampling adequacy.
sugerează că analiza factorială nu este potrivită pentru date, în timp ce valori mari ale
KMO indică existenţa unor factori comuni. 16
∑∑ r(X , X )
i j≠i
i j
2
KMO =
∑∑ r(X , X ) + ∑∑ a (X , X )
i j≠i
i j
2
i j≠i
i j
2
unde a(Xi, Xj) este coeficientul de corelaţie parţială între Xi şi Xj când toate
celelalte variabile sunt controlate.
3. Extragerea factorilor.
Sistemul liniar presupus de analiza factorială (vezi prima secţiune) este astfel
construit încât structura de covarianţă poate fi identificată fără eroare, dacă sunt
cunoscute saturaţiile factoriale. Dar demersul invers, de identificare a structurii factoriale
latente (a saturaţiilor factoriale) din matricea de covarianţă, ridică mai multe probleme,
aşa cum am arătat în secţiunea anterioară. În plus, erorile de măsurare şi eşantionare care
intervin fac imposibil de identificat în practică structura latentă. Ceea ce facem este ca, pe
baza unor criterii practice şi statistice, să estimăm cât mai bine valorile respective.
Cel de-al treilea pas în realizarea unei analize factoriale este cel de extragere a
factorilor iniţiali. Cel mai important lucru aici este stabilirea numărului minim de factori
comuni care să producă în mod satisfăcător corelaţiile dintre variabile. Dacă nu avem
erori în date şi presupunerea de cauzalitate a factorilor este corectă, atunci există o
corespondenţă între numărul minim de factori care dau seama de corelaţiile dintre
variabile şi rangul matricii de corelaţie ajustată (matricea de corelaţie în care s-au
introdus comunalităţile pe diagonala principală). Atunci când apar erori însă, teorema
rang nu mai este adevărată şi trebuie să găsim un criteriu prin care să stabilim numărul de
factori. În mod imediat, acest criteriu este cel al adecvării modelului la date, cât de bine
factori comuni respectivi pot produce matricea de corelaţii observate. Conform logicii
statistice obişnuite, se vor extrage atâţia factori până când discrepanţa dintre corelaţiile
observate şi corelaţiile produse de modelul factorial va fi suficient de mică pentru a fi
atribuită erorilor de eşantionare.
Algoritmul de extragere porneşte de la ipoteza unui factor comun unic. Acestui
model cu un factor i se aplică testul discrepanţei dintre matricea de corelaţii observate şi
cea produsă. 17 Dacă testul este respins (discrepanţa dintre cele două seturi de corelaţii
este prea mare din punct de vedere statistic), atunci se estimează un model cu doi factori.
Acestui nou model i se aplică de asemenea testul discrepanţei dintre matricile de corelaţii.
16
Keiser caracterizează mărimi peste 0.9 ale lui KMO drept extraordinare, peste 0.8 drept meritorii, peste
0.7 drept obişnuite, peste 0.6 drept mediocre, în jur de 0.5 drept mizerabile, iar mai mici ca 0.5 drept
inacceptabile.
17
Criteriul discrepanţei minime sau criteriul potrivirii (adecvării) maxime. În engleză, criterion of
maximum fit.
Dacă nici de această dată testul nu este trecut, se mai adaugă un factor şi se estimează un
nou model. Acest algoritm continuă până când testul discrepanţei este trecut. 18
Există mai multe metode de extragere a factorilor, pentru că au fost imaginate mai
multe criterii de testare a discrepanţei dintre cele două matrici de corelaţie. Kim &
Mueller fac o enumerare a acestora (alături de numele în româneşte voi scrie şi numele în
engleză consacrat al metodei): (a) metoda celor mai mici pătrate – the least squares
method, (b) metoda probabilităţii maxime - the maximum likelihood method, (c) metoda
de extragere factorială Alpha – Alpha factoring, (d) analiza imaginii – image factoring,
(e) metoda factorilor principali – principal axis factoring, (f) metoda componentelor
principale – principal component analysis.
Una din diferenţele conceptuale fundamentale între aceste metode, care distinge
între analiza componentelor principale (f) şi toate celelalte, poate fi descrisă în felul
următor. Varianţa totală a variabilelor observate poate fi descompusă astfel: varianţa
comună, adică totalul varianţei variabilelor care se datorează factorilor comuni, varianţa
specifică, datorată factorilor unici, şi eroarea introdusă de măsurare, eşantionare,
culegerea datelor etc. În analiza componentelor principale se va descompune întreaga
varianţă a variabilelor. În analiza factorială propriuzisă se va descompune doar varianţa
comună a variabilelor.
În analiza componentelor principale, estimarea scorurilor factoriale se face
pornind de la asumpţia că factorii (componentele principale) explică întreaga varianţă,
atât cea comună, cât şi cea specifică şi eroarea. Acest lucru înseamnă că în matricea de
corelaţii ajustate, pe diagonală se vor trece comunalităţi egale cu 1 (matricea de corelaţii
ajustate este de fapt chiar matricea de corelaţii).
În celelalte tipuri de metode de extracţie, pe diagonala matricii de corelaţie
ajustată vor fi introduse estimări ale comunalităţilor variabilelor. Valorile acestora vor fi
mai mici decât 1, căci comunalitatea unei variabile este partea din varianţă datorată
factorilor comuni. Pentru a o obţine, din varianţa totală, egală cu 1, se scade varianţa
datorată factorului de unicitate şi eventualele erori. În cazul analizei factoriale
propriuzise, factorii vor da seama doar de varianţa comună a variabilelor.
În obţinerea componentelor principale nu presupunem existenţa unor factori
latenţi. Componentele principale sunt funcţii matematice de variabile observate. Ca şi în
cazul analizei factoriale propriuzise, metoda este folosită pentru a obţine o reducere a
reprezentării, dar obiectivul ei nu este acela de a explica covariaţia dintre variabile (un
model cauzal), ci de a explica cât mai mult din varianţa datelor. Analiza factorială, în
schimb, are ca scop principal explicarea corelaţiei (covariaţiei) dintre variabilele
observate.
Diferenţa dintre cele două abordări poate fi prezentată şi astfel: analiza factorială
propriuzisă reprezintă structura de covarianţă în termenii unui model cauzal ipotetic, în
timp ce analiza componentelor principale sumarizează datele prin intermediul unei
combinaţii liniare a datelor observate. Prima încearcă să explice covarianţa, pe când cea
de a doua explică varianţa variabilelor.
(f) metoda componentelor principale (principal component analysis) şi (e) metoda
factorilor principali (principal axis factoring). Voi începe prin a prezenta ultimele două
18
Nu întotdeauna algoritmul de extracţie ia forma secvenţială descrisă mai sus, dar principiul extragerii
primilor k factori care explică în cea mai mare parte corelaţiile observate se păstrează. (Kim & Mueller
1978b, p. 13).
dintre metodele enumerate. Pentru a explica cum extragem componentele principale
(principal component analysis), respectiv factorii în cazul analizei factoriale propriuzise
(principal axis factoring), vom apela la câteva elemente elementare de algebră matricială.
Într-o secţiune anterioară am arătat că, în cazul modelului factorial ortogonal
general, corelaţia între oricare două variabile observate, r(Xi,Xj), atunci când factorii sunt
ortogonali, va fi egală cu suma produselor dintre saturaţiile corespunzătoare factorilor
comuni:
r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m
R1 V = λ V
det(R1 - λ I) = 0
unde λ este o valoare proprie (eigenvalue) a matricii R1, iar I este matricea unitate.
Saturaţiile bik sunt obţinute înmulţind vectorii proprii cu rădăcina pătrată a valorii proprii
corespunzătoare.
Valorile proprii λk ne indică ce proporţie din varianţă este explicată de
componenta (factorul) respectiv: şi anume λk/m.
Întotdeauna putem reproduce corelaţiile observate printr-un model care are exact
atâţia factori câte variabile, iar adecvarea modelului pentru date creşte odată cu numărul
de factori. Scopul nostru însă este acela de a obţine o structură redusă a datelor, de a
19
Este necesar ca cititorul acestei secţiuni să aibă noţiuni elementare de algebră matricială (matrice unitate,
produs matricial, ecuaţie matricială, factori proprii, vectori proprii) pentru a înţelege în cel mai mic detaliu
procedura matematică de extragere a factorilor. Eu cred că este mai important ca logica procedurii să fie
înţeleasă, aşa cum este descrisă în cuvinte în această secţiune. Din această cauză, şi pentru că nu doresc să
îndepărtez cititorul de acest pas important al analizei factoriale, nu am dezvoltat partea matematică mai
mult decât strictul necesar. Pentru o prezentare mai detaliată a aparatului matematic, vezi e.g. Dunteman
1989, pp. 15-45, 55-60.
explica covarianţa dintre variabile printr-un număr cât mai mic de factori comuni. Primul
factor extras va corespunde valorii proprii celei mai mari, cu alte cuvinte primul factor
extras este cel care explică cel mai mult din varianţa variabilelor observate. Următorul
factor extras va explica cât mai mult din restul de varianţă rămas neexplicat, şi aşa mai
departe. La câţi factori ne oprim? De câţi factori avem nevoie pentru a reprezenta datele?
Una din soluţii este aceea de a opri descompunerea varianţei în momentul în care
factorul explică mai puţin decât varianţa unei singure variabile, adică atunci când
valoarea proprie corespunzătoare factorului este mai mică decât 1. Totuşi unii analişti
consideră că ignorarea factorilor a căror valoare proprie este mai mică decât 1 poate
rezulta în respingerea unor factori care, deşi explică mai puţin, sunt importanţi. În plus,
acest rezultat s-ar putea datora şi erorilor.
Altă soluţie propusă este aceea de a examina graficul care reprezintă valorile
proprii (scree plot). Experienţa sugerează că punctul în care linia graficului devine din
abruptă lină ne va da numărul de factori necesari pentru a descrie structura. Dar ceea ce
înseamnă abrupt şi lin este interpretabil.
În fine, o altă soluţie este să stabilim un procent de varianţă care să fie explicat (în
mod obişnuit acesta se alege 70% sau 80%), şi să ne oprim atunci când varianţa explicată
de factori, cumulată, depăşeşte acest prag.
Unii autori sugerează că nu trebuie să ne bazăm automat pe astfel de criterii
formale şi că numărul de factori obţinut prin aplicarea acestor teste trebuie să ne indice
doar numărul maxim de factori. Factorii pe care îi vom reţine trebuie să fie substanţiali şi
interpretabili teoretic (îndeosebi după rotaţie). 20
(a) metoda celor mai mici pătrate – the least squares method. Similară procedurii
anterioare, metoda celor mai mici pătrate pleacă de la presupoziţia că un număr de k
factori (k<m) poate explica corelaţiile observate. Se calculează estimate iniţiale pentru
comunalităţi (cel mai adesea se foloseşte coeficientul de corelaţie multiplă între o
variabilă şi celelalte variabile). Se extrag apoi k factori care să reproducă cât mai bine
matricea de corelaţii observate, folosind metoda celor mai mici pătrate. Pentru a obţine
matricea de saturaţii care reproduce cel mai bine matricea de corelaţii observate, se
reestimează comunalităţile pe baza saturaţiilor factoriale de la pasul anterior. Procedura
se repetă până când nu se mai produce nici o îmbunătăţire a modelului. 21
(b) metoda probabilităţii maxime - the maximum likelihood method. Această
metodă încearcă, de asemenea, să găsească o soluţie factorială care modelează cel mai
bine corelaţiile observate. Se porneşte de la presupunerea că eşantionul de pe care s-au
cules datele provine dintr-o populaţie pentru care un model factorial cu k factori explică
perfect corelaţiile dintre variabile, şi în care distribuţia variabilelor (inclusiv a factorilor)
este normală. Nu se cunoaşte însă configuraţia exactă a parametrilor, adică saturaţiile
factorilor pentru fiecare variabilă. Se vor estima acei parametri care, în presupunerea de
mai sus, au probabilitatea maximă de a produce matricea de corelaţii observate.
(c) metoda de extragere factorială Alpha – Alpha factoring. Logica acestei metode
este cu totul alta decât a celor discutate până acum. Dacă în cazul celorlalte metode s-a
considerat că universul este reprezentat prin variabilele observate şi că datele provin de
pe un eşantion de obiecte, în metoda Alpha variabilele sunt considerate drept eşantion
20
Harman (1976), p. 184.
21
În engleză metoda mai poartă şi numele de principal axis factoring with iterative estimation of
communalities.
dintr-un univers de variabile, observate pentru o populaţie dată de obiecte. Saturaţiile
factoriale vor fi astfel determinate încât factorii extraşi să coreleze cât mai puternic cu
factorii corespunzători presupuşi a exista în univers. Sau altfel, prin această metodă
saturaţiile factoriale se obţin prin maximizarea coeficientului de încredere Alpha pentru
factori (Alpha reliability).
(d) analiza imaginii – image factoring. Această metodă se bazează pe
interpretarea părţii de varianţă comună drept combinaţie liniară a tuturor celorlalte
variabile din set şi este numită imaginea variabilei. Partea unică este acea parte a
variabilei care nu poate fi exprimată ca şi combinaţie liniară a celorlalte variabile şi
poartă numele de anti-imagine. În această interpretare se presupune că intră tot universul
de variabilele, iar acesta este considerat infinit, şi toată populaţia de obiecte (în cazul
niciunora nu avem de-a face cu un eşantion). Dacă examinăm toate variabilele potenţiale,
pătratul imaginii unei variabile este echivalent cu comunalitatea variabilei din analiza
factorială, iar pătratul anti-imaginii este echivalent cu unicitatea. Imaginile şi anti-
imaginile pentru un eşantion se numesc imagini parţiale şi anti-imagini parţiale. Imaginea
este considerată a fi complet specificată de variabilele observate, fiind deci o funcţie
liniară a celorlalte variabile şi nu o combinaţie liniară de factori latenţi. Având la
dispoziţie imaginea parţială, se încearcă aproximarea imaginii complete.
4. Rotaţia factorilor.
Figura 10. Obţinerea unei structuri simple prin examinarea configuraţiei grafice a
variabilelor.
Factor Factor
1 2
X1 0.83 -0.15
X2 0.76 -0.24
X3 0.90 -0.35
X4 0.20 0.80
X5 0.25 0.85
1.0
X5
X4
.8
.6
.4
.2
0.0
X1
FACTOR2
-.2 X2
X3
-.4
0.0 .2 .4 .6 .8 1.0
FACTOR1
5. Interpretarea factorilor.
Extracţia soluţiei factoriale iniţiale ne indică cea mai bună combinaţie liniară a
variabilelor, în sensul explicării unei cantităţi cât mai mare de varianţă în date. Primul
factor poate fi deci înţeles ca cea mai bună sumarizare a relaţiilor liniare pe care le
prezintă datele. Cel de-al doilea factor constituie cea de-a doua cea mai bună combinaţie
liniară de variabile, supusă condiţiei de ortogonalitate cu primul factor. El este obţinut din
explicarea proporţiei de varianţă rămasă după ce primul factor a fost extras. În această
situaţie saturaţiile factoriale, care ne indică gradul de corespondenţă între variabilă şi
factor, nu ne conduc întotdeauna la o interpretare clară a factorilor, nu ne spun ce
reprezintă conceptual factorii.
Aşa cum am arătat, prin rotaţia factorilor ajungem la o soluţie mai simplă în
termenii configuraţiei de variabile care saturează factorii. Efectul cel mai important al
23
Vezi notele de subsol 7 şi 8 anterioare.
rotaţiei matricii factoriale este acela că redistribuie varianţa explicată de factorii soluţiei
iniţiale la o alta, ai cărei factori sunt mai uşor interpretabili.
În general interpretarea factorilor este facilitată atunci când variabilele saturează
în mod semnificativ doar unul din factori. Când o variabilă saturează mai mulţi factori, ea
trebuie considerată în interpretarea tuturor factorilor care o explică. Analistul trebuie, de
asemenea, să examineze şi variabilele care nu saturează nici unul din factori.
Un alt lucru care trebuie analizat sunt comunalităţile variabilelor. Dacă varianţa
explicată de factorii comuni nu este importantă (nu depăşeşte, să zicem, 0.5), atunci
cercetătorul poate considera că acestea nu primesc o explicaţie suficientă prin factorii
comuni.
Dacă avem variabile care nu saturează nici un factor sau ale căror comunalităţi
sunt considerate prea mici, putem fie să interpretăm soluţia aşa cum este, ignorând
variabilele respective, fie să evaluăm fiecare astfel de variabilă separat pentru o posibilă
ştergere a lor din analiză. În prima situaţie vom interpreta factorii după cum ne sugerează
variabilele care îi saturează şi vom ţine cont de faptul că există variabile care sunt slab
reprezentate în soluţia factorială. În cea de-a doua situaţie, posibilitatea eliminării
variabilei din analiză trebuie cântărită în funcţie de rolul variabilei respective în cercetare
şi de nivelul comunalităţii sale.
În fine, numele factorului şi definiţia sa nu pot fi date decât de cercetător. El este
cel care va sintetiza conţinutul variabilelor care saturează un factor într-un concept
denominat printr-o etichetă sau o descriere.
Unul din scopurile principale ale analizei factoriale este acela de reducere a
datelor. Odată identificate dimensiunile latente ale unui set de date, analistul poate dori să
examineze comportamentul cazurilor în funcţie de aceste dimensiuni, şi nu doar în
funcţie de variabilele date. Mai mult, el poate dori să obţină câte o variabilă pentru
fiecare dintre aceşti factori, care să poată fi folosite în continuare ca variabile explicative
în locul setului iniţial de variabile, mai numeros.
Există două opţiuni principale pentru a face acest lucru. (1) Examinând matricea
factorială (matricea saturaţiilor factoriale), analistul poate selecta variabila cu cel mai
mare scor factorial pentru un anume factor ca reprezentativă pentru dimensiunea
factorială respectivă (“variabilă surogat”). (2) Analistul poate construi o scală factorială
(o variabilă care să reprezinte factorul respectiv), dată de scoruri factoriale pentru fiecare
obiect din eşantion).
În prima situaţie, atunci când una din variabile se singularizează printr-o saturaţie
factorială semnificativ mai ridicată decât celelalte variabile care saturează un factor,
soluţia este imediată. Atunci când însă mai multe variabile au saturaţii ridicate pentru
acelaşi factor, selecţia este mai dificilă. Analistul trebuie să examineze critic fiecare din
aceste variabile, şi să se bazeze pe cadrul teoretic al studiului său, care poate să sugereze
în mod logic mai degrabă o variabilă decât alta. Pe de altă parte, criteriul validităţii şi a
încrederii datelor pentru fiecare variabilă poate fi un criteriu suplimentar pentru alegerea
variabilei surogat. Altă posibilitate este aceea de a construi scale sumate, în care ponderea
variabilei în compoziţia factorului va fi calculată în funcţie de importanţa contribuţiei sale
la explicarea factorului.
În cea de-a doua situaţie, vom calcula estimări ale scorurilor factoriale pentru
obiectele din eşantion. Pentru a le obţine folosim datele originale (valorile pe care
obiectele le iau pentru fiecare variabilă originală, sub formă standardizată) şi rezultatele
analizei factoriale (coeficienţii scorurilor factoriale). 24
Există mai multe căi de estimare a scorurilor factoriale. Ideea generală este
următoarea: presupunem că datele noastre sunt lipsite de erori şi că ele au fost create
după un model factorial cu un factor. Pe baza acestui model încercăm să estimăm valorile
factorului comun (factorilor comuni).
Voi descrie succint trei dintre metodele de estimare a scorurilor factoriale, care
sunt disponibile în pachetul statistic SPSS. Prima dintre acestea este cea a estimatelor de
regresie. Aceasta caută să obţină un factor F̂ astfel încât corelaţia între factorul latent (F)
şi scală ( F̂ ) să fie maximizată, sau, altfel formulat, diferenţele ridicate la pătrat dintre
factor şi scală să fie minime (aceasta este metoda regresiei). Putem obţine o soluţie la
această problemă, căci avem la dispoziţie saturaţiile factoriale obţinute prin analiza
factorială (care sunt echivalente cu corelaţiile dintre factor – care trebuie estimat şi
variabilele observate – folosite ca predictori), şi corelaţiile dintre variabilele observate.
Cea de a doua metodă, numită după Bartlett, examinează adecvarea modelului
luând în considerare variabilitatea introdusă de eşantionare. Dacă varianţele datorate
factorilor de unicitate sunt considerate ca erori de eşantionare (şi deci aleatoare), atunci
este natural să dăm o pondere mai mică acelor variabile care conţin o cantitate mai mare
de astfel de eroare. Pe baza scorurilor factoriale putem estima valori pentru variabilele
observate ( X̂ =bj F̂ ), şi vom încerca să minimizăm pătratul diferenţelor dintre valorile
observate ale variabilelor X şi valorile estimate, ponderate cu inversul erorilor, adică
minimizarea expresiei:
(X ij − b j F̂) 2
min ∑∑
i j di
2
24
În engleză, “factor score coefficients”.
În fine, câteva cuvinte despre măsura în care rezultatele obţinute printr-o analiză
factorială pot fi generalizate la nivelul întregii populaţii din care a fost extras eşantionul.
Situaţia tipică în cercetarea socială este aceea în care dispunem de date obţinute pe un
eşantion de obiecte (indivizi, localităţi, produse, partide etc.) din populaţie. În cazul
analizei factoriale, datele originale de la care pornim sunt corelaţiile (sau covarianţele)
dintre un set de variabile observate, obţinute pe un eşantion. Sunt două tipuri de inferenţe
pe care analistul trebuie să le facă. Primele se referă la estimarea structurii factoriale
latente (estimarea saturaţiilor factoriale pentru identificarea dimensiunilor latente şi
estimarea scorurilor factoriale pentru construcţia scalelor factoriale). Celelalte se referă la
generalizarea estimatelor obţinute prin analiză la nivelul întregii populaţii. Primul tip de
inferenţe este unul ce ţine de logica fenomenului studiat, cel de-al doilea este unul
statistic. Discuţia de până aici s-a referit la prima problemă. Cea de-a doua problemă
constituie un capitol separat al statisticii, şi anume inferenţa statistică. Rezolvarea acestei
probleme presupune estimarea magnitudinii şi a probabilităţii erorii pe care o facem
atunci când extindem rezultatele descoperite pe eşantion la nivelul întregii populaţii.
Dincolo de problemele de inferenţă statistică, validarea analizei factoriale are de
asemenea aspecte logic-conceptuale, extra-statistice. Metoda cea mai directă de validare a
rezultatelor este să trecem de la perspectiva exploratorie la una confirmatorie şi să
evaluăm replicabilitatea rezultatelor. Acest lucru se poate face, de exemplu, fie prin
împărţirea eşantionului în două şi compararea rezultatelor pentru cele două eşantioane, fie
prin folosirea unui alt eşantion extras din aceeaşi populaţie.
Analiza factorială confirmatorie s-a dezvoltat substanţial în ultimii treizeci de ani,
ca şi o generalizare a acesteia, modelele structurii de covarianţă (LISREL). Pentru lecturi
următoare recomandăm Scott Long 1983 a şi b, Jöreskog & Sörbom 1996.
25
Atât baza de date, cât şi chestionarul folosit, ca şi caietul de prezentare a rezultatelor, sunt disponibile
public pe internet, la adresa www.sfos.ro
Figura 12. Percepţia corupţiei în România, chestionarul BOP 2003.
26
Pentru cei ce doresc să replice analiza, le atrag atenţia că în baza de date disponibilă pe site-ul Fundaţiei
pentru o Societate Deschisă non- răspunsurile şi răspunsurile de “nu ştiu” nu au fost codificate ca valori
lipsă (“missing values”). Pentru ca valorile 8, 9, care sunt codurile pentru cele două variante, să nu intre în
calcule, acestea trebuie definite ca valori lipsă înainte de a continua cu analiza factorială.
Figura 13. Rezultatele analizei factoriale asupra setului de date care măsoară percepţia
corupţiei în România. Extracţia factorilor.
KMO = 0.872
Testul de sfericitate Bartlett: Hi pătrat = 6243.028, sig.= 0.000
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Factor Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 5.276 47.968 47.968 4.900 44.547 44.547 2.311 21.005 21.005
2 1.241 11.280 59.248 .877 7.974 52.520 2.279 20.721 41.727
3 1.037 9.430 68.679 .702 6.380 58.900 1.889 17.174 58.900
4 .796 7.240 75.919
5 .619 5.627 81.545
6 .554 5.037 86.582
7 .385 3.504 90.086
8 .360 3.270 93.356
9 .294 2.677 96.033
10 .246 2.239 98.272
11 .190 1.728 100.000
Extraction Method: Principal Axis Factoring.
Prin metoda extracţiei factorilor principali, au fost identificaţi trei factori care
explică mai mult decât varianţa unei singure variabile (eigenvalue >1. Acesta a fost
criteriul de oprire a algoritmului de extracţie). În total, aceşti trei factori explică 68.67%
din varianţa variabilelor observate analizate.
Aşa cum se întâmplă în cazul soluţiei iniţiale, primul factor explică cea mai mare
parte a varianţei comune, iar următorii, succesiv, cea mai mare parte din varianţa rămasă.
Ca atare, primul factor este saturat în diferite proporţii de toate variabilele intrate în
analiză.
Figura 14. Saturaţiile factoriale pentru soluţia iniţială.
Factor Matrixa
Factor
1 2 3
CRR7 .803 -.452
CRR6 .779
CRR8 .736
CRR4 .696
CRR9 .693 -.465
CRR10 .689 -.488
CRR5 .674
CRR2 .620 .437 .362
CRR1 .554 .350
CRR3 .528 .308
CRR11 .494
Extraction Method: Principal Axis Factoring.
a. 3 factors extracted. 15 iterations required.
Factor
1 2 3
CRR10 .808
CRR9 .783
CRR5 .553 .314
CRR4 .471 .469
CRR11 .393
CRR7 .877
CRR8 .730 .301
CRR6 .371 .696
CRR2 .800
CRR1 .302 .583
CRR3 .310 .535
Extraction Method: Principal Axis Factoring.
Rotation Method: Equamax with Kaiser Normalization.
a. Rotation converged in 7 iterations.
Interpretarea factorilor o vom face în funcţie de variabilele care saturează cel mai
intens factorii respectivi. Pentru a putea urmări interpretarea, voi prezenta soluţia rotită,
iar alături de numele variabilelor voi trece şi descrierea lor. În tabelul care urmează am
omis saturaţiile mai mici de 0.4, cu excepţia uneia, pentru a uşura interpretarea
semnificaţiei factorilor.
Figura 16. Interpretarea factorilor obţinuţi prin rotirea soluţiei iniţiale.
Semnificaţia factorilor ne apare transparentă din tabelul de mai sus. Primul factor
este saturat de variabilele care măsoară percepţia corupţiei la nivelul instituţiilor
principale ale statului: guvernul, parlamentul, judiciarul, poliţia. Acestea sunt instituţii
naţionale, care acoperă şi penetrează întreaga societate. Ele sunt principalele instituţii ale
statului, cele care guvernează, legiferează, asigură justiţia şi implementează legea. Putem
numi acest prim factor al corupţiei la nivelul instituţiilor statului. Este interesant faptul că
variabila ce măsoară corupţia printre oamenii de afaceri are cea mai mare saturaţie pentru
acest prim factor, asociind-o empiric celorlalte categorii de persoane. Oamenii de afaceri
sunt percepuţi ca având legături strânse cu politicul, relaţia politic-afaceri pe plan mare
este constitutivă societăţii româneşti şi fenomenului de corupţie.
Cel de-al doilea factor este saturat de variabile care măsoară percepţia corupţiei la
nivelul administraţiei locale: corupţia printre consilierii locali, printre funcţionarii la
primării şi printre primarii înşişi. Acest al doilea factor poate fi numit al corupţiei la
nivelul administraţiei locale.
În fine, cel de-al treilea factor este saturat de variabilele care se referă la corupţia
în rândul unor categorii profesionale aflate înafara birocraţiei de stat şi înafara structurilor
politicului. Adesea, persoanele care fac parte din rândul “profesiunilor” joacă rolul de
critici la adresa instanţelor conducătoare şi legiuitoare: profesori, medici, ziarişti. Al
treilea factor poate fi numit al corupţiei în rândul societăţii, sau, poate mai sugestiv,
corupţia în rândul oamenilor obişnuiţi.
Această configuraţie a reprezentării corupţiei dă seama de percepţia intensităţii
corupţiei în cele trei dimensiuni. Iată care sunt distribuţiile de frecvenţă pentru cele
unsprezece variabile.
Figura 17. Distribuţiile de frecvenţă pentru variabile. “Cât de răspândită este corupţia
printre...”
Procente Procente
valide
Corupţia există doar la nivelul micilor funcţionari 1.8% 2.0%
Corupţia există doar la niveluri înalte 8.7% 9.5%
Corupţia este generalizată, are loc la toate nivelurile 80.3% 88.0%
Nu există corupţie 0.4% 0.5%
NS 8.2% -
NR 0.5% -
(N=2100)
Majoritatea covârşitoare a românilor consideră că există corupţie la toate
nivelurile, că aceasta este generalizată. Analiza factorială ne-a indicat toate dimensiunile
la care oamenii percep corupţia: la nivelul instituţiilor centrale ale statului - al
conducătorilor, legislatorilor, al celor care împart dreptatea, şi al celor care menţin
ordinea, la nivelul administratorilor locali – primari, consilieri şi funcţionari ai primăriei,
şi la nivelul celor care practică profesiuni – medici, profesori, ziarişti.
Imaginea asupra percepţiei corupţiei şi semnificaţia celor trei dimensiuni
identificate este şi mai clară atunci când examinăm răspunsurile la altă întrebare a
anchetei, şi anume COR14, prin care li se cere subiecţilor să aleagă principalele două
cauze ale corupţiei în România. Cumulând răspunsurile, cauzele principale, în opinia
românilor, sunt “Dorinţa unora de a se îmbogăţi peste noapte” cu 23.9%, urmată de
“Legile nu sunt aplicate” cu 19.2%, “Legi proaste” cu 16.5%, şi “Birocraţia” cu 15.2%.
Acestea, în ultimă instanţă, se referă la activitatea instituţiilor centrale ale statului şi a
jocului politic-afaceri de care vorbeam mai sus. Iar ele devansează alte posibile cauze,
cum ar fi de exemplu ”Problemele moştenite din perioada comunismului”, care
cumulează doar 4.1% din alegeri.