Sunteți pe pagina 1din 32

ANALIZA FACTORIALĂ

Ce este analiza factorială?

Analiza factorială este numele unei colecţii de metode statistice multivariate, al


căror scop principal este identificarea structurii latente a unui set de date ce descriu un
concept sau un fenomen, sau care caracterizează o populaţie de obiecte.
Liberalismul, evaluarea performanţei guvernului, satisfacţia faţă de muncă,
percepţia corupţiei, toate acestea sunt concepte şi fenomene imposibil de surprins într-o
singură variabilă (nu sunt observabile empiric). În schimb, putem avea la dispoziţie mai
multe variabile observabile, care măsoară diferite aspecte ale conceptului sau
fenomenului studiat. Analiza factorială ne ajută să înţelegem cum se structurează aceste
variabile într-un concept sau fenomen şi ne indică dimensiunile sale.
De exemplu, situarea pe o axă liberalism – conservatorism este revelată de
convingerile legate de importanţa individului ca persoană privată în raport cu
comunitatea, intervenţia statului în economie, natura moralităţii, raportul libertate-
autoritate, limitele guvernământului şi modul în care acestea sunt consacrate. Aceste
convingeri pot fi redate prin auto-situarea persoanelor în raport cu diferite afirmaţii de
tipul: “Statul trebuie să asigure locuri de muncă pentru toţi cei care vor să muncească?” 1,
“Guvernul ar trebui să cheltuiască mai mulţi bani pentru reducerea şomajului”, “Guvernul
ar trebui să controleze marile corporaţii şi întreprinderi”, “Guvernul ar trebui să asigure o
reprezentare proporţională a minorităţilor în locurile de muncă existente”, “Guvernul ar
trebui să încurajeze angajarea tinerilor”, “Biserica ar trebui să se implice mai mult în
conducerea treburilor publice” etc. (variabile observabile, care toate dau o măsură a câte
unui aspect al liberalismului). Analiza factorială ne arată cum se grupează aceste opinii,
atitudini şi luări de poziţii în dimensiuni ale liberalismului, şi care este structura
conceptului de liberalism.
Să mai dăm un exemplu. Avem la dispoziţie un set de date care caracterizează
poziţia partidelor dintr-un sistem politic faţă de o serie de probleme (variabile
observabile, ce caracterizează populaţia de partide). Dorim să reducem variabilele la un
număr mai mic de factori, care să dea seama de diferenţele dintre partide şi să descrie
dimensiunile fundamentale după care se structurează sistemul politic. Politologul
american Kenneth Janda a făcut acest lucru într-o monografie despre partidele politice, în
care a analizat 121 de partide din mai multe sisteme politice naţionale. 2 El a investigat
diferenţele dintre acestea relativ la 13 teme: proprietatea asupra mijloacelor de producţie
şi produsului, rolul guvernului în planificarea economică, redistribuirea veniturilor,
asistenţă socială, secularizarea societăţii, susţinerea pentru armată, alinierea cu blocurile
est-vest, anti-colonialismul, integrarea supranaţională, integrarea naţională, participarea
electorală, protecţia drepturilor civile, interferenţa cu libertăţile civile. Aceste date au fost
supuse unei analizte factoriale, ale cărei rezultate au indicat un model factorial cu patru
factori, identificaţi de Janda drept dimensiunea stânga economică (primele patru
variabile), dimensiunea războiul rece (secularizare, armată, bloc est-vest, anti-
colonialism), dimensiunea liberală (integrare naţională şi supranaţională, participare), şi o

1
Întrebarea MVAL3 din ancheta “Barometrul de opinie publică” Mai 2003 (BOP 2003).
2
Janda 1980, capitolul 6.
a patra dimensiune, reprezentată de o singură variabilă. Aceste rezultate i-au permis să
respingă ipoteza că o singură dimensiune stânga-dreapta ar putea explica diferenţele
dintre partide.
Tema generală la care răspunde analiza factorială este următoarea: având un set
de date alcătuit dintr-o mulţime de variabile care descriu un concept/ fenomen sau o
mulţime de obiecte, putem considera că ele sunt determinate de către un număr mai mic
de variabile neobservabile direct (dimensiuni, “factori”)? Dacă da, câţi factori sunt, cât de
bine descriu setul de date original, ce variabile observate determină şi cu ce intensitate, ce
sunt aceşti factori?
Pornind de la analiza corelaţiilor observate între variabilele care descriu
conceptul, fenomenul sau populaţia care ne interesează, analiza factorială ne ajută să
identificăm structura acestor date, semnalând existenţa unui număr redus de dimensiuni
latente (variabile neobservabile direct, concepte, “factori”). Variabilele care compun
aceeaşi dimensiune latentă (“factor”) vor fi puternic corelate între ele, şi în mai mică
măsură corelate cu celelalte variabile. Analiza factorială ne indică felul în care se
structurează variabilele în subseturi de variabile puternic intercorelate, fiecare
corepunzând unei dimensiuni latente (unui “factor”). Vom avea, pe de o parte, o măsură a
determinării factorilor de către variabile (variabilele care se constituie într-o dimensiune
separată vor corela puternic cu factorul corespunzător dimensiunii respective şi în mai
mică măsură cu ceilalţi factori), dar şi a modului în care fiecare variabilă este explicată
(determinată) de către factori.
Prin identificarea factorilor se obţin două din foloasele principale ale analizei
factoriale: sumarizarea şi reducerea datelor. O mulţime de aspecte ale aceluiaşi concept,
sau o mulţime de caracteristici ale unei populaţii, surprinse în tot atâtea variabile, sunt
sumarizate în doar câteva dimensiuni (“factori”), care pot fi interpretate, înţelese şi
denumite. Prin calcularea unor scoruri factoriale pentru fiecare dimensiune identificată
(pentru fiecare factor) care să înlocuiască variabilele originale şi care pot fi utilizate în
prelucrări ulterioare, obţinem o reducere a dimensionalităţii datelor la numărul de factori
identificat.
Revenind la primul exemplu de mai sus, analiza factorială a setului de date ce
surprind atitudinile politice ale indivizilor ar putea indica faptul că liberalismul nu este un
concept unidimensional, ci se structurează pe trei dimensiuni distincte: economică,
socială, culturală. Astfel, întrebarea privind afirmaţia “Statul trebuie să asigure locuri de
muncă pentru toţi cei care vor să muncească?”, ar aparţine dimensiunii liberalismului
social, pe când cea formulată astfel “Guvernul ar trebui să cheltuiască mai mulţi bani
pentru reducerea şomajului”, ar aparţine dimensiunii liberalismului economic. Variabile
ca cea de tipul “Guvernul ar trebui să asigure o reprezentare proporţională a minorităţilor
în locurile de muncă existente” aparţin dimensiunii liberalismului cultural.
Analiza factorială poate fi utilizată atât într-un demers exploratoriu, cât şi într-
unul confirmativ. Primul dintre acestea este cel mai des întâlnit în cercetarea empirică –
analiza factorială ne clarifică, structurează şi simplifică înţelegerea felului în care datele
covariază. Dar de multe ori analiza factorială este folosită şi în scop confirmativ, ca
mijloc de testare a unor ipoteze. Exemplul privind liberalismul dat mai sus este o ilustrare
a abordării exploratorii.
Un alt mod de utilizare în scop exploratoriu a analizei factoriale este acela de
validare a scalei de măsură pentru un concept abstract unidimensional, alcătuită dintr-o
serie de itemi, fiecare item fiind reprezentat de câte o variabilă observabilă. Dacă analiza
factorială pentru setul de date constituit din itemii scalei produce un singur factor, atunci
putem considera că itemii scalei măsoară toţi aspecte ale aceluiaşi fenomen. (Dacă scala
măsoară exact fenomenul pe care dorim să îl măsurăm, şi nu altul, este un alt aspect al
validităţii scalei, care se tratează separat.) În situaţia în care analiza factorială identifică
mai mulţi factori, atunci putem să ne îndoim că scala a fost construită corect, căci un
rezultat multifactorial sugerează că scala măsoară cel puţin încă un alt fenomen.
Dar în demersul cercetării putem apela la analiză factorială nu numai pentru
explorarea datelor, ci şi pentru confirmarea unor rezultate. De exemplu, putem întâlni
următoarea situaţie practică de cercetare. Din raţiuni teoretice şi bazându-ne pe rezultate
anterioare, credem că un fenomen este explicat de un număr anumit de factori (ipoteza de
lucru). Acest lucru poate fi testat (poate fi confirmat) prin realizarea unei analize
factoriale. Analiza factorială ne ajută însă şi să aflăm (să explorăm) care sunt aceşti
factori şi ce anume reprezintă.
Altă strategie din multele care pot fi folosite în practica cercetării este următoarea.
Setul de date se împarte în două, prin divizarea eşantionului în două subeşantioane,
aleator sau altfel. Primul eşantion este folosit pentru explorarea structurii de date şi ne
furnizează un model factorial. El va reprezenta ipoteza de lucru pentru explicaţia
fenomenului pe care îl studiem. Cel de-al doilea eşantion este apoi folosit pentru a testa
modelul dezvoltat după datele din primul eşantion. Confirmarea modelului pentru cel de-
al doilea eşantion este considerată o validare a modelului.

Logica analizei factoriale

Analiză factorială pleacă de la presupunerea că există un număr redus de variabile


latente (“factori”) care determină covariaţia între variabilele observate. Acest lucru
înseamnă că fiecare din cele m variabile observate, X1 X1, X2, ..., Xm, poate fi exprimată
ca şi combinaţie liniară între n variabile latente F1, F2, ..., Fn, n < m.
Dintr-o perspectivă cauzală, putem considera variabilele X1, X2, ..., Xm ca fiind
determinate cauzal de F1, F2, ..., Fn, n < m, factori care dau seama de o parte din varianţa
fiecărei variabile X1, X2, ..., Xm (pentru fiecare variabilă Xi, o parte din varianţă este
explicată de factorii comuni). 3 Fiecare variabilă Xi este caracterizată şi de un factor de
unicitate, Ui, care dă seama de acea parte a varianţei sale ce nu se datorează factorilor
comuni (şi care o face diferită de celelalte variabile). 4 Teoretic, acest lucru înseamnă că
fiecare variabilă Ui este independentă de oricare dintre factorii F1, F2, ..., Fn.
Dacă F1, F2, ..., Fn determină pe X1, adică sunt responsabili de o parte din varianţa
lui X1, şi F1, F2, ..., Fn determină pe X2, adică aceiaşi factori explică o parte din varianţa
lui X2, atunci aceşti factori, F1, F2, ..., Fn, sunt responsabili de covariaţia variabilelor X1 şi
X2 (de corelaţia care există între acestea). Îndepărtând factorii comuni, între variabilele
X1 şi X2 nu va mai exista nici o corelaţie.
Toate lucrurile exprimate mai sus pot fi reprezentate printr-o diagramă cauzală în
felul următor:

3
Reamintim faptul că varianţa unei variabile X este o măsură a variaţiei cazurilor relativ la însuşirea
măsurată prin variabilă, variaţie calculată prin raportarea valorilor fiecărui caz la media variabilei.
4
Factori de unicitate, sau factori unici. În engleză poartă numele de unique factors.
Figura 1: Modelul general al analizei factoriale, cu m variabile observate, n factori
comuni ortogonali.

X1 U1
F1
X2 U2
F2
X3 U3
... ... ...

Fn
Xm Um

X1 = b11 F1 + b12 F2 + ... + b1n Fn + d1 U1


X2 = b21 F1 + b22 F2 + ... + b2n Fn + d2 U2
...
Xm = bm1 F1 + bm2 F2 + ... + bmn Fn + dm Um

F1, F2, ..., Fn, n < m, sunt factorii comuni care determină pe fiecare din variabilele
X1, X2, ..., Xm, iar U1, U2, ..., Um sunt factorii lor de unicitate. Teoretic putem considera
că aceşti factori, F1, F2, ..., Fn, sunt independenţi sau ortogonali (corelaţia dintre oricare
doi factori este zero). De altfel diagrama presupune acest lucru, căci între niciunul dintre
factori nu există vreo linie care să marcheze o legătură de un fel sau altul. Fiecare dintre
factorii de unicitate U1, U2, ..., Um, este independent de factorii F1, F2, ..., Fn (corelaţia
dintre Ui şi Fj este zero, pentru orice i de la 1 la m, şi pentru orice j de la 1 la n).
Coeficienţii b11, b12, ... b1n se numesc saturaţii ale factorilor F1, F2, ... Fn pentru
variabila X1. În general coeficienţii bi1, bi2, ..., bin sunt saturaţiile factorilor F1, F2, ... Fn
pentru fiecare variabilă Xi, i = 1, 2, ..., m. 5 Având în vedere forma ecuaţiilor care descriu
modelul factorial, saturaţiile pot fi interpretate şi drept coeficienţi de regresie
standardizaţi, unde variabilele dependente sunt variabilele observate X1, X2, ..., Xm, iar
factorii sunt variabilele independente.
Matricea alcătuită din saturaţiile factoriale pentru fiecare variabilă observată se
numeşte matrice factorială. 6 Estimarea saturaţiilor este unul din paşii principali în
realizarea unei analize factoriale, căci în funcţie de valorile lor vom putea afla în ce
măsură un factor determină o variabilă observată, care sunt factorii care determină cu
preponderenţă o variabilă, şi care sunt variabilele care saturează cu preponderenţă un
factor (variabilele care determină cu preponderenţă factorul). Cunoscând aceste lucruri

5
Termenul în engleză pentru saturaţii este pattern loadings sau factor loadings, ultimul fiind cel sub care îl
găsim şi în SPSS. Corelaţiile dintre factori şi variabile observate, care, aşa cum vom vedea în continuare,
sunt egale cu saturaţiile factoriale în cazul în care factorii sunt ortogonali, sunt numite structure loadings.
6
În engleză, matrix of factor loadings, sau pattern matrix. Matricea corelaţiilor între factori şi variabilele
observate se numeşte matrice structurală, termenul în engleză fiind structure matrix. Cele două sunt
echivalente în cazul factorilor ortogonali.
vom putea identifica semnificaţia factorilor şi îi vom putea defini şi înţelege, astfel
desluşind mai bine relaţiile dintre variabilele observate.

Figura 2: Matricea factorială pentru modelul general, cu m variabile observate, n factori


comuni ortogonali.

F1 F2 ... Fn
X1 b11 b12 ... b1n
X2 b21 b22 ... b2n
...
Xm bm1 bm2 ... bmn

Pentru a înţelege mai bine, să luăm cel mai simplu exemplu posibil, şi anume cel
în care două variabile observate, X1 şi X2, sunt determinate de un singur factor latent, F1.
Acest lucru înseamnă că atât o parte din varianţa lui X1, cât şi o parte din varianţa lui X2,
sunt datorate variaţiei lui F1. Covariaţia dintre X1 şi X2 poate fi explicată prin faptul că
factorul F1 determină atât pe X1 (este responsabil de variaţia sa), cât şi pe X2.
Astfel, în cazul unuia din exemplele de mai sus, putem afirma că tendinţa de a
răspunde similar la întrebările “Guvernul ar trebui să cheltuiască mai mulţi bani pentru
reducerea şomajului” (X1) şi “Guvernul ar trebui să încurajeze angajarea tinerilor” (X2),
cu alte cuvinte covariaţia dintre X1 şi X2, se datorează împărtăşirii aceleiaşi convingeri
politice, de tip liberal social (acesta este factorul F1).
Dat fiind că cele două variabile (întrebări) nu sunt perfect identice, una referindu-
se la şomaj în general, cealaltă la şomajul în rândul tinerilor, restul de variaţie al fiecăreia
va fi explicat de câte un factor de unicitate, U1, respectiv U2. Dar corelaţia observată între
aceste două variabile este în întregime datorată factorului comun.

Figura 3: Modelul a două variabile reduse la un singur factor comun.

X1 U1
F1
X2 U2

X1 = b11 F1 + d1 U1
X2 = b21 F1 + d2 U2

Cov(F1,U1) = 0 sau r(F1,U1) = 0


Cov(F1,U2) = 0 r(F1,U2) = 0
Cov(U1,U2) = 0 r(U1,U2) = 0

Saturaţia factorului F1 pentru variabila X1, notată cu b11 , poate fi considerată


drept coeficientul de regresie standardizat pentru regresia lui X1 după F1, iar saturaţia
factorului F2 pentru variabila X2, b21 , poate fi considerată drept coeficientul de regresie
standardizat pentru regresia lui X2 după F1,
În continuare vom încerca să aflăm în ce fel varianţa variabilelor observate este
determinată de factor, cum putem exprima covariaţia (corelaţia) dintre variabile şi factor,
şi în ce fel covariaţia (corelaţia) dintre X1 şi X2 este determinată de dependenţa acestora
de acelaşi factor comun F1. Acest lucru este ne foloseşte la estimarea saturaţiilor
factoriale, căci singurele date empirice de care dispunem sunt covariaţiile (corelaţiile)
dintre variabilele observate.
Varianţa lui X1, adică abaterea pătrată medie de la media variabilei X1, poate fi
exprimată în funcţie de varianţele variabilelor care o determină, F1 şi U1. Fiindcă am
considerat F1 şi U1 independente, covarianţa (corelaţia) dintre acestea este nulă.

Var(X1) = [ Σ(X1i – X1 )2 ] / N

Valoarea N reprezintă volumul eşantionului care ne-a furnizat datele.


Presupunând că variabila X1 are media egală cu 0 (lucru ce se poate realiza uşor, printr-o
transformare liniară simplă), obţinem:

Var(X1) = b112 Var(F1) + d12 Var(U1) + 2 b11 d1 Cov(F1,U1)

Var(X1) = b112 Var(F1) + d12 Var(U1)

La fel, varianţa lui X2 poate fi exprimată în funcţie de varianţa lui F1 (partea pe


care o are în comun cu varianţa factorului F1) şi varianţa factorului său unic, U2 (partea
care dă specificitate variabilei X2, care o face diferită de variabila X1).

Var(X2) = b212 Var(F1) + d22 Var(U2)

Dacă variabilele sunt standardizate (sunt transformate liniar astfel încât media lor
să fie egală cu 0, iar abaterea standard să fie egală cu 1), formula prin care varianţele
celor două variabile sunt descompuse devine şi mai simplă:

Var(X1) = b112 + d12 = 1

Var(X2) = b212 + d22 = 1

Din această formulă de descompunere a varianţelor variabilelor observate


introducem aici una din noţiunile de bază ale analizei factoriale, cea de comunalitate.
Comunalitatea unei variabile observate cu factorul comun este acea parte din varianţa sa
care se datorează factorului comun. Comunalitatea lui X1 este b112, comunalitatea lui X2
este b212. Restul din varianţă poartă numele de unicitate şi este egală cu 1 - b112 = d12
pentru X1, respectiv cu 1- b212 = d22 pentru X2. 7

7
Mai poartă şi numele de specificitate, sau de componentă de unicitate.
Putem descompune covarianţa dintre un factor şi o variabilă observată în aceeaşi
manieră. Vom presupune variabilele F1 şi X1 transformate în aşa fel încât media lor este
egală cu 0.

Cov(F1,X1) = [ Σ(F1i – F1 )(X1i – X1 ) ] / N

Cov(F1,X1) = b11 Var(F1) + d1 Cov(F1,U1)

Cov(F1,X1) = b11 Var(F1)

Dacă variabilele sunt standardizate, atunci covarianţa dintre cele două variabile
este egală cu coeficientul de corelaţie dintre ele, şi formula devine:

Cov(F1,X1) = r(F1,X1) = b11

Vom obţine o formulă similară pentru covarianţa dintre F1 şi cealaltă variabilă


observată X2:

Cov(F1,X2) = r(F1,X2) = b21

Astfel, în modelul particular cu două variabile observate determinate de un singur


factor comun, scorurile factoriale pentru fiecare variabilă sunt egale cu corelaţia dintre
factor şi variabilă.
În fine, putem estima covarianţa dintre Xx şi X2 urmând aceeaşi cale:

Cov(X1,X2) = [ Σ(X1i – X1 )(X2i – X2 ) ] / N

Cov(X1,X2) = b11 b21 Var(F1) + b11 d1 Cov(F1,U2) + b21 d1 Cov(F1,U1)


+ d1 d2 Cov(U1,U2)

Cov(X1,X2) = b11 b21 Var(F1)

Dacă variabilele sunt standardizate, atunci expresia se simplifică şi mai mult:

Cov(X1,X2) = r(X1,X2) = b11 b21

Expresia b11 b21 reprezintă corelaţia rezultată din modelul factorial. Avem deci, pe
de o parte, o serie de relaţii în care sunt implicate scorurile factoriale, pe care dorim să le
estimăm, şi, pe de altă parte, corelaţiile dintre variabilele observate, singurele date pe care
le avem la dispoziţie înafară de asumpţiile noastre teoretice.
Urmând acelaşi procedeu de descompunere a varianţelor şi covarianţelor, se arată
că, în modelul factorial general cu m variabile observate şi n factori, scorurile factoriale
sunt echivalente corelaţiilor dintre factori şi variabile, dacă factorii sunt ortogonali doi
câte doi (sunt independenţi doi câte doi).

bij = r(Xi,Fj) pentru i = 1, ..., m, j = 1, ..., n


Comunalitatea unei variabile observate, adică acea parte din varianţa sa pe care o
împarte cu factorii comuni, notată cu h2, este egală cu suma pătratelor saturaţiilor
factorilor, iar unicitatea sa este egală cu 1 - h2. Avem deci comunalitatea variabilei Xi,

hi2 = bi12 + bi22 + ... + bin2 pentru i = 1, ..., m

Corelaţia rezultată între oricare două variabile observate, r(Xi,Xj), atunci când
factorii sunt ortogonali, va fi egală cu suma produselor dintre saturaţiile corespunzătoare
factorilor comuni:

r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m

Acest lucru înseamnă că, dacă efectul factorilor comuni este controlat, corelaţia
dintre oricare două variabile observate Xi şi Xj va fi egală cu zero, adică r(Xi,Xj; F1,F2,
...,Fm) = 0.
Avem deci o serie de relaţii care pun în legătură corelaţiile dintre variabilele
observate şi saturaţiile factoriale. Acesta este punctul de pornire în estimarea modelului
factorial. Dar până acolo trebuie să înţelegem mai bine felul în care construim acest
model şi înainte de a trece la procedurile şi estimările statistice trebuie să clarificăm
chestiunile conceptuale.

Modele factoriale şi structuri de covarianţă

Modelul general despre care am vorbit până acum, în care m variabile observate
sunt determinate de n factori, este unul particular, în sensul condiţiilor impuse asupra lui:
factorii sunt ortogonali, variabilele de unicitate U1, U2, ..., Um sunt independente două
câte două şi fiecare dintre ele este independentă de oricare dintre factorii F1, F2, ..., Fn.
Dar forma lui ne indică încă câteva concepte necesare pentru înţelegerea logicii acestei
tehnici.
Primul dintre acestea este cel de complexitate factorială a unei variabile, şi se
referă la numărul de factori care au saturaţii nenule pentru variabila respectivă. Pentru
modelul general, complexitatea factorială a unei variabile Xi este dată de numărul de
saturaţii factoriale bi1, bi2, ..., bin semnificativ diferite de zero, adică de numărul de factori
care determină variabila respectivă. În diagrama prin care am reprezentat modelul
general, am presupus că fiecare variabilă este determinată de toţi n factorii, adică
complexitatea factorială a fiecărei variabile este egală cu n. Dacă particularizăm m = 5, n
= 2, modelul general va lua forma reprezentată în diagrama din figura 4. Complexitatea
factorială a variabilelor X1, ..., X5 este aceeaşi, şi este egală cu 2.
Figura 4: Model factorial cu 5 variabile observate, 2 factori comuni ortogonali, şi
matricea factorială asociată.

X1 U1
F1
X2 U2
F2
X3 U3

X4 U4

X5 U5

F1 F2
X1 b11 b12
X2 b21 b22
X3 b31 b32
X4 b41 b42
X5 b51 b52

Pentru a înţelege mai bine acest concept, să luăm exemplul următor, reprezentat
grafic în figura 5. Lipsa săgeţii orientate dintre factor spre variabilă, care ar indica
determinarea variabilei de către un factor, ne indică faptul că acesta nu este responsabil
de variaţia variabilei respective. Aceasta este o asumpţie teoretică, diagrama nu face
decât să o reprezinte.

Figura 5: Model factorial cu 5 variabile observate, 2 factori comuni ortogonali, şi


matricea factorială asociată.

X1 U1
F1
X2 U2
F2
X3 U3

X4 U4

X5 U5

F1 F2
X1 b11 0
X2 b21 0
X3 b31 b32
X4 0 b42
X5 0 b52
În acest exemplu, variabilele X1, X2, X4, X5 au o complexitate factorială egală cu
1 (sunt determinate respectiv de câte un factor comun), iar variabila X3 are complexitatea
factorială egală cu 2 (este determinată de ambii factori comuni).
Al doilea concept ce trebuie înţeles este cel de grad de determinare factorială a
variabilelor. Acesta ne va spune în ce măsură variabilele observate sunt determinate de
factorul comun. Una din măsurile gradului de determinare factorială este proporţia de
varianţă explicată de factorii comuni. Indexul de mai jos măsoară media proporţiei
varianţei variabilelor observate explicată de factorii comuni (suma varianţei comune a
fiecărei variabile explicată de factorii comuni, împărţită la numărul de variabile).

(Σ hi2) / m

De ce este important să cunoaştem aceste concepte? Pentru că ele vor constitui


criterii de decizie importante în alegerea celei mai bune soluţii factoriale, dintr-o mulţime
infinită de soluţii, care toate sunt deduse din aceeaşi matrice de covariaţii (corelaţii) între
variabilele observate şi care au acelaşi grad de adecvare. 8
Dacă în modelul general renunţăm la una din condiţiile de până acum, şi anume
ortogonalitatea factorilor, ne vom găsi în situaţia unui model factorial oblic. Acest lucru
înseamnă că factorii care determină variabilele observate nu mai sunt independenţi unul
de celălalt, adică există o covariaţie între ei: Cov(F1,F2) ≠ 0, sau r(F1,F2) ≠ 0. În acest caz
matricea saturaţiilor şi matricea corelaţiilor între factori şi variabile (matricea structurală)
nu vor mai coincide. De asemenea, formulele de descompunere a varianţelor variabilelor
observate, a corelaţiilor dintre factori şi variabile, şi a corelaţiilor între variabile vor fi un
pic mai complexe, pentru că vor conţine termeni care dau seama de corelaţia dintre
factori.
Să luăm ca exemplu o adaptare a modelului din figura 4 în care s-a renunţat la
condiţia de ortogonalitate. Figura 6 prezintă diagrama modelului.

8
Grad de adecvare a modelului, sau cât de bine se potriveşte modelul pentru date, poartă numele de
goodness-of-fit în engleză.
Figura 6: Model factorial cu 5 variabile observate, 2 factori comuni neortogonali.

X1 U1
F1
X2 U2
F2
X3 U3

X4 U4

X5 U5

F1 F2
X1 b11 b12
X2 b21 b22
X3 b31 b32
X4 b41 b42
X5 b51 b52

Urmând aceeaşi modalitate de calcul din exemplele precedente, vom obţine:

Var(X1) = b112 + b122 + b11 b12 2 r(F1,F2) + d12

Var(X1) = h12 + d12 = comunalitatea lui X1 + d12

Analog obţinem formula de descompunere a varianţelor celorlalte variabile


observate, X2, ... X5. Corelaţia dintre un factor comun şi o variabilă observată, în acest
caz, va avea două componente, una care este datorată influenţei directe a factorului şi una
datorată corelaţiei factorului cu celălalt factor comun.

r(F1,X1) = b11 + b12 r(F1,F2)

Atâta timp cât există corelaţie între F1 şi F2, adică r(F1,F2) ≠ 0, saturaţia factorului
F1 pentru variabila X1 nu va mai fi egală cu corelaţia dintre ele. Nici matricea saturaţiilor
nu va mai fi aceeaşi cu matricea structurală.
Corelaţia rezultată dintre două variabile observate, în cazul oblic, va avea patru
componente: una datorată factorului comun F1, alta datorată factorului comun F2, şi încă
două componente datorate corelaţiei dintre factorii comuni.

r(X1,X2) = b11 b21 + b12 b22 + b11 b22 r(F1,F2) + ... + b21 b12 r(F1,F2)

Ajunşi aici putem spune ceea ce deja am sugerat în această secţiune prin modelele
şi conceptele introduse. Prin analiza factorială dorim să descoperim structura latentă a
unui un set de date, dat prin m variabile observate X1, X2, ..., Xm, folosind matricea de
covarianţe (corelaţii) dintre ele. Până acum ne-am folosit de câteva exemple care
presupuneau că modelul factorial este cunoscut (era specificat numărul de factori comuni,
complexitatea factorială a fiecărei variabile observate, ortogonalitatea sau oblicitatea
factorilor), şi că este o corespondenţă perfectă între matricea de saturaţii factoriale şi
matricea de covarianţe (corelaţii) dintre variabile. Dacă saturaţiile factoriale sunt
cunoscute, atunci putem deriva în mod univoc corelaţiile dintre variabile.
În realitate însă, situaţia practică în care suntem este una pe dos: dorim să obţinem
structura factorială (matricea saturaţiilor, complexitatea factorială a variabilelor,
gradul de determinare factorială a fiecărei variabile, relaţia dintre factori în termeni de
ortogonalitate sau oblicitate) pornind de la corelaţiile (covarianţele) cunoscute dintre
variabilele observate. Dificultatea apare din cauza faptului că demersul prin care facem
inferenţe despre factori pornind de la covarianţele (corelaţiile) dintre variabile conţine o
serie de nedeterminări. Aceeaşi structură de covarianţă poate fi produsă de nenumărate
structuri cauzale (modele factoriale). Cunoaşterea covarianţelor dintre variabile nu duce
imediat la cunoaşterea structurii cauzale latente (a factorilor comuni). De exemplu,
oricare din modelele prezentate în figurile 4, 5, 6 poate reprezenta la fel de bine structura
unui set de date.
Kim şi Mueller sintetizează principalele tipuri de nedeterminare care apar. 9
Acestea ar fi:
1. Aceeaşi structură de covarianţă, saturaţii diferite. De exemplu, structurile
cauzale din figurile 4 şi 5, care au matricile de saturaţii următoare, conduc la aceeaşi
matrice de corelaţii între variabile.

Figura 7: Matricile saturaţiilor pentru structurile cauzale prezentate în figurile 4 şi 5


respectiv. 10

F1 F2 F1 F2
X1 0.40 0.69 X1 0.80 0
X2 0.40 0.69 X2 0.80 0
X3 0.65 0.72 X3 0.60 0.40
X4 0.69 0.40 X4 0 0.80
X5 0.61 0.35 X5 0 0.70

În general există un număr infinit de structuri cauzale ortogonale şi oblice care să


conducă la aceeaşi matrice de corelaţii. Pentru a determina configuraţia care corespunde
realităţii, putem restrânge mulţimea de modele factoriale urmând un model teoretic
plauzibil şi solid argumentat, sau să ne ghidăm după rezultatele unor cercetări anterioare
în tema respectivă.

9
Kim & Mueller 1978a, pp. 38-43.
10
După Kim & Mueller 1978a, p. 39.
2. Aceeaşi structură de covarianţă, număr variabil de factori. Se poate demonstra
matematic că există o corespondenţă între numărul de factori într-un model cauzal şi o
rangul unei matrici construite, numită matrice de corelaţie ajustată. Matricea de corelaţie
ajustată este alcătuită din corelaţiile între variabilele observate, calculate în funcţie de
saturaţiile factoriale (aşa cum am făcut mai sus de câteva ori) şi comunalităţile
variabilelor, situate pe diagonală. Această corespondenţă sugerează că şi inversa ei ar
putea fi posibilă, şi anume că numărul de factori comuni latenţi poate fi aflat din
examinarea matricii de corelaţie ajustată şi calculul rangului acesteia. 11
3. Aceeaşi structură de covarianţă, mai multe tipuri de structuri cauzale. Una din
presupunerile pe care le-am făcut în construcţia modelului factorial a fost aceea că
corelaţia dintre două variabile se datorează determinării acestora de către un factor
comun. Însă corelaţia dintre două variabile se poate explica şi prin faptul că una dintre ele
o determină pe cealaltă (una este cauza celeilalte).
Criteriul adecvării statistice a modelui la date nu poate fi folosit pentru reducerea
nedeterminării, pentru că fiecare dintre structurile cauzale descrie la fel de bine datele.
Nedeterminarea se poate rezolva doar pe calea demersului teoretic, prin selectarea
modelului factorial care este coerent cu asumpţiile, conceptele şi cadrul nostru teoretic,
sau cu rezultatele unor cercetări anterioare pe care le considerăm acceptabile.
Aşa cum facem în orice alt demers de acest fel, şi în analiza factorială putem
apela la principii practice pentru reducerea nedeterminării. Nedeterminările de tipul al
treilea sunt rezolvate practic prin apelul la principiul adecvării modelului empiric la
modelul teoretic. În orice model bazat pe structuri cauzale, cum este şi analiza factorială,
cercetătorul este cel care trebuie să furnizeze un mecanism cauzal plauzibil pentru felul în
care factorii determină variabilele, bazat pe cunoaşterea datelor. În funcţie de acesta se va
alege între un model sau altul. Nu modelul cauzal va fi cel care propune existenţa unei
determinări, ci modelul primeşte substanţă dacă susţine schema de cauzalitate teoretică.
Principiul simplităţii 12 poate ajuta la rezolvarea celorlalte două tipuri de
nedeterminare. Criteriul recomandat prin acest principiu este cel al simplităţii
reprezentării. Principiul afirmă că este preferabil să avem un model cât mai simplu pentru
descrierea realităţii, că o structură mai simplă este mai profitabilă decât una mai
complexă. Teorema rang poate fi utilă aici, pentru selecţia unui model factorial cu un
număr minim de factori, care să se potrivească matricei de covarianţă. Faptul că teorema
ne indică un model consistent cu datele, ce are un număr minimal de factori egal cu
rangul matricii de corelaţie ajustată, nu demonstrează însă că există doar acei factori, şi
nu mai mulţi, care să dea seama de corelaţiile variabilelor observate. În acest caz ne
confruntăm cu ceea ce se numeşte o problemă de rotaţie, care este şi problema
nedeterminării de primul tip.
Ce este o problemă de rotaţie? Este una de transformare a datelor astfel încât să
obţinem un model mai uşor interpretabil, o structură factorială care să aibă mai mult
înţeles. Astfel, o transformare care să micşoreze complexitatea factorială a variabilelor şi

11
Inferenţele bazate pe teorema rang sunt limitate de câteva probleme, teoretice şi practice. În cazul a doi
sau mai mulţi factori, determinarea configuraţiei saturaţiilor reclamă adăugarea unor condiţii. Teorema se
aplică doar în cazul anumitor reguli de combinare a factorilor în determinarea variabilelor. Corelaţiile
observate sunt alterate de erori de eşantionare şi de măsurare, iar relaţiile din lumea reală pot să nu se
potrivească exact niciunui model factorial. (După Kim & Mueller 1978a, p. 37)
12
În engleză parsimony principle.
să mărească gradul de determinare factorială a variabilelor ne-ar uşura semnificativ
înţelegerea, interpretarea, “numirea” factorilor.
Despre toate acestea vom discuta în secţiunea următoare.

Realizarea unei analize factoriale

1. Definirea problemei conceptuale.

Primul pas în realizarea unei analize factoriale este cel de stabilire a obiectivelor
(în funcţie de care vom aborda datele exploratoriu sau confirmatoriu) şi de pregătire a
setului de date de analizat (reducerea pe cât posibil a erorilor de eşantionare şi de
măsurare). Întrebările la care trebuie să răspundem în această fază sunt legate problema
de cercetare. Ce anume dorim să obţinem? Încercăm să aflăm structura unui set de date?
Dorim să explorăm dimensiunile unui fenomen sau să înţelegem cum funcţionează un
concept complex? Dorim să testăm o ipoteză de cauzalitate sau de dimensionalitate a
datelor? Acest lucru trebuie să fie foarte bine clarificat în mintea noastră. Trebuie să
înţelegem ce fel de date avem: care sunt obiectele ale căror caracteristici le măsurăm
(populaţia care ne furnizează datele), care sunt variabilele care descriu fenomenul sau
conceptul care ne interesează, cum se structurează populaţia în funcţie de setul de
variabile.
De exemplu, dacă dorim să aflăm cum se structurează opiniile cetăţenilor relativ
la performanţa guvernului, vom ancheta un eşantion de cetăţeni (obiectele) asupra felului
în care evaluează diferite aspecte ale activităţii guvernului (variabilele observabile).
Fiind o analiză de corelaţie, variabilele care pot intra într-o analiză factorială
trebuie să fie măsurate pe scale de intervale sau de rapoarte (variabile metrice). Este
generală totuşi asumpţia că multe din variabilele ordinale (e.g. care măsoară opinii sau
atitudini) pot primi valori numerice fără a distorsiona proprietăţile latente. Pentru a ne
decide dacă putem accepta în analiză variabile ordinale, trebuie să stabilim (1) cu câtă
acurateţe reflectă valorile atribuite de noi treptelor scalei ordinale distanţele reale dintre
ele, şi (2) cât de tare sunt distorsionate corelaţiile între variabile de posibilele distorsiuni
din scală. 13 Astfel, dacă toate variabilele care intră în analiză sunt măsurate pe aceeaşi
scală de măsură (e.g. toate opiniile sunt măsurate pe aceeaşi scală cu patru trepte: total
dezacord, dezacord parţial, acord parţial, acord total), atunci atribuirea respectiv a
valorilor 0, 1, 2, 3 treptelor scalei ar răspunde pozitiv condiţiilor de mai sus.

2. Matricea de corelaţie.

Cel de-al doilea pas este cel de examinare a datelor şi calculul matricii de
covarianţă/ de corelaţie. În realizarea unei analize factoriale cel mai adesea folosim ca
punct de start matricea de corelaţie. Acest lucru rezolvă problemele care pot apărea
datorită scalelor de măsură diferite ale variabilelor şi datorită varianţelor diferite pe care
acestea le pot avea în populaţie (respectiv în eşantionul cu care lucrăm). Este cel mai
indicat să o folosim atunci când dorim să aflăm structura latentă a datelor.

13
După Kim & Mueller 1978b, pp. 73-4.
Matricea de covarianţe este recomandată atunci când dorim să facem comparaţii
între grupuri: corelaţiile, care sunt măsuri standardizate folosind standarde specifice
grupului, vor face invariante valori care sunt diferite de la grup la grup.
Una din asumpţiile critice ale analizei factoriale, de natură conceptuală, este aceea
că între variabilele observate există suficientă corelaţie pentru a avea sens să realizăm o
analiză factorială. Dacă între variabile nu există corelaţie substanţială, atunci nu rost să
căutăm factori comuni care să le determine.
Există câteva modalităţi de a stabili dacă există suficientă corelaţie între
variabilele observate pentru a analiza factorial datele.
a. Una este aceea de a testa statistic prezenţa corelaţiei între variabile. Acest lucru se
face cu ajutorul testului de sfericitate Bartlett, care testează ipoteza că matricea de
corelaţie este matricea identitate (testează ipoteza că între fiecare două variabile
observate nu există nici o corelaţie). Statistica de test este o transformare a
determinantului matricii de corelaţie. Cu cât statistica de test este mai mare şi nivelul
de semnificaţie asociat mai mic, cu atât şansa ca matricea de corelaţie să fie matricea
identitate este mai mică, deci cu atât corelaţiile observate sunt mai importante. Dacă
însă ipoteza nu se poate respinge, atunci probabil că analiza factorială pentru datele
respective nu-şi are locul şi rostul.

Figura 8. Ipoteza testului de sfericitate Bartlett.

r(X1,X1) r(X1,X2) ... r(X1,Xm) 1 0 ... 0


r(X2,X1) r(X2,X2) ... r(X2,Xm) 0 1 ... 0
... = ...
r(Xm,X1) r(Xm,X2) ... r(Xm,Xm) 0 0 ... 1

b. Altă modalitate de a stabili dacă avem suficientă corelaţie între variabile pentru a
căuta o structură latentă a datelor este aceea de a examina coeficienţii de corelaţie
parţiali. Dacă există factori comuni care dau seama de corelaţiile dintre variabile,
atunci coeficienţii de corelaţie parţială între două variabile, când efectul celorlalte
variabile este controlat, trebuie să fie foarte mici. Coeficienţii de corelaţie parţială
sunt, în acest caz, estimări ale corelaţiilor dintre factorii unici ai variabilelor, or
aceştia ar trebui să fie egali cu zero, întrucât se presupune că factorii de unicitate sunt
independenţi doi câte doi. Negativul coeficientului de corelaţie parţială (coeficientul
de corelaţie parţială înmulţit cu –1) se numeşte corelaţie anti-imagine. Majoritatea
pachetelor de programe statistice pe calculator calculează matricea de corelaţii anti-
imagine. 14
c. În fine, avem măsuri de adecvare a eşantionării. 15 Cea mai folosită dintre acestea este
cea a lui Kaiser-Meyer-Olkin (KMO), care este un indice ce compară mărimea
corelaţiilor cu cea a coeficienţilor de corelaţie parţială. Valori mici ale acestui indice

14
În engleză, anti-image correlation matrix.
15
În engleză, measures of sampling adequacy.
sugerează că analiza factorială nu este potrivită pentru date, în timp ce valori mari ale
KMO indică existenţa unor factori comuni. 16

Figura 9. Formula de calcul al indicelui KMO.

∑∑ r(X , X )
i j≠i
i j
2

KMO =
∑∑ r(X , X ) + ∑∑ a (X , X )
i j≠i
i j
2

i j≠i
i j
2

unde a(Xi, Xj) este coeficientul de corelaţie parţială între Xi şi Xj când toate
celelalte variabile sunt controlate.

3. Extragerea factorilor.

Sistemul liniar presupus de analiza factorială (vezi prima secţiune) este astfel
construit încât structura de covarianţă poate fi identificată fără eroare, dacă sunt
cunoscute saturaţiile factoriale. Dar demersul invers, de identificare a structurii factoriale
latente (a saturaţiilor factoriale) din matricea de covarianţă, ridică mai multe probleme,
aşa cum am arătat în secţiunea anterioară. În plus, erorile de măsurare şi eşantionare care
intervin fac imposibil de identificat în practică structura latentă. Ceea ce facem este ca, pe
baza unor criterii practice şi statistice, să estimăm cât mai bine valorile respective.
Cel de-al treilea pas în realizarea unei analize factoriale este cel de extragere a
factorilor iniţiali. Cel mai important lucru aici este stabilirea numărului minim de factori
comuni care să producă în mod satisfăcător corelaţiile dintre variabile. Dacă nu avem
erori în date şi presupunerea de cauzalitate a factorilor este corectă, atunci există o
corespondenţă între numărul minim de factori care dau seama de corelaţiile dintre
variabile şi rangul matricii de corelaţie ajustată (matricea de corelaţie în care s-au
introdus comunalităţile pe diagonala principală). Atunci când apar erori însă, teorema
rang nu mai este adevărată şi trebuie să găsim un criteriu prin care să stabilim numărul de
factori. În mod imediat, acest criteriu este cel al adecvării modelului la date, cât de bine
factori comuni respectivi pot produce matricea de corelaţii observate. Conform logicii
statistice obişnuite, se vor extrage atâţia factori până când discrepanţa dintre corelaţiile
observate şi corelaţiile produse de modelul factorial va fi suficient de mică pentru a fi
atribuită erorilor de eşantionare.
Algoritmul de extragere porneşte de la ipoteza unui factor comun unic. Acestui
model cu un factor i se aplică testul discrepanţei dintre matricea de corelaţii observate şi
cea produsă. 17 Dacă testul este respins (discrepanţa dintre cele două seturi de corelaţii
este prea mare din punct de vedere statistic), atunci se estimează un model cu doi factori.
Acestui nou model i se aplică de asemenea testul discrepanţei dintre matricile de corelaţii.

16
Keiser caracterizează mărimi peste 0.9 ale lui KMO drept extraordinare, peste 0.8 drept meritorii, peste
0.7 drept obişnuite, peste 0.6 drept mediocre, în jur de 0.5 drept mizerabile, iar mai mici ca 0.5 drept
inacceptabile.
17
Criteriul discrepanţei minime sau criteriul potrivirii (adecvării) maxime. În engleză, criterion of
maximum fit.
Dacă nici de această dată testul nu este trecut, se mai adaugă un factor şi se estimează un
nou model. Acest algoritm continuă până când testul discrepanţei este trecut. 18
Există mai multe metode de extragere a factorilor, pentru că au fost imaginate mai
multe criterii de testare a discrepanţei dintre cele două matrici de corelaţie. Kim &
Mueller fac o enumerare a acestora (alături de numele în româneşte voi scrie şi numele în
engleză consacrat al metodei): (a) metoda celor mai mici pătrate – the least squares
method, (b) metoda probabilităţii maxime - the maximum likelihood method, (c) metoda
de extragere factorială Alpha – Alpha factoring, (d) analiza imaginii – image factoring,
(e) metoda factorilor principali – principal axis factoring, (f) metoda componentelor
principale – principal component analysis.
Una din diferenţele conceptuale fundamentale între aceste metode, care distinge
între analiza componentelor principale (f) şi toate celelalte, poate fi descrisă în felul
următor. Varianţa totală a variabilelor observate poate fi descompusă astfel: varianţa
comună, adică totalul varianţei variabilelor care se datorează factorilor comuni, varianţa
specifică, datorată factorilor unici, şi eroarea introdusă de măsurare, eşantionare,
culegerea datelor etc. În analiza componentelor principale se va descompune întreaga
varianţă a variabilelor. În analiza factorială propriuzisă se va descompune doar varianţa
comună a variabilelor.
În analiza componentelor principale, estimarea scorurilor factoriale se face
pornind de la asumpţia că factorii (componentele principale) explică întreaga varianţă,
atât cea comună, cât şi cea specifică şi eroarea. Acest lucru înseamnă că în matricea de
corelaţii ajustate, pe diagonală se vor trece comunalităţi egale cu 1 (matricea de corelaţii
ajustate este de fapt chiar matricea de corelaţii).
În celelalte tipuri de metode de extracţie, pe diagonala matricii de corelaţie
ajustată vor fi introduse estimări ale comunalităţilor variabilelor. Valorile acestora vor fi
mai mici decât 1, căci comunalitatea unei variabile este partea din varianţă datorată
factorilor comuni. Pentru a o obţine, din varianţa totală, egală cu 1, se scade varianţa
datorată factorului de unicitate şi eventualele erori. În cazul analizei factoriale
propriuzise, factorii vor da seama doar de varianţa comună a variabilelor.
În obţinerea componentelor principale nu presupunem existenţa unor factori
latenţi. Componentele principale sunt funcţii matematice de variabile observate. Ca şi în
cazul analizei factoriale propriuzise, metoda este folosită pentru a obţine o reducere a
reprezentării, dar obiectivul ei nu este acela de a explica covariaţia dintre variabile (un
model cauzal), ci de a explica cât mai mult din varianţa datelor. Analiza factorială, în
schimb, are ca scop principal explicarea corelaţiei (covariaţiei) dintre variabilele
observate.
Diferenţa dintre cele două abordări poate fi prezentată şi astfel: analiza factorială
propriuzisă reprezintă structura de covarianţă în termenii unui model cauzal ipotetic, în
timp ce analiza componentelor principale sumarizează datele prin intermediul unei
combinaţii liniare a datelor observate. Prima încearcă să explice covarianţa, pe când cea
de a doua explică varianţa variabilelor.
(f) metoda componentelor principale (principal component analysis) şi (e) metoda
factorilor principali (principal axis factoring). Voi începe prin a prezenta ultimele două

18
Nu întotdeauna algoritmul de extracţie ia forma secvenţială descrisă mai sus, dar principiul extragerii
primilor k factori care explică în cea mai mare parte corelaţiile observate se păstrează. (Kim & Mueller
1978b, p. 13).
dintre metodele enumerate. Pentru a explica cum extragem componentele principale
(principal component analysis), respectiv factorii în cazul analizei factoriale propriuzise
(principal axis factoring), vom apela la câteva elemente elementare de algebră matricială.
Într-o secţiune anterioară am arătat că, în cazul modelului factorial ortogonal
general, corelaţia între oricare două variabile observate, r(Xi,Xj), atunci când factorii sunt
ortogonali, va fi egală cu suma produselor dintre saturaţiile corespunzătoare factorilor
comuni:

r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m

Matricial, acest lucru se poate scrie în felul următor:

R = B BT = R1 (unde B BT reprezintă matricea de corelaţii rezultată)

În analiza factorială încercăm un demers invers, şi anume să estimăm coeficienţii


bik, adică saturaţiile factoriale pentru fiecare variabilă observată, având la dispoziţie
coeficienţii de corelaţie r(Xi,Xk). Vom pune condiţia ca matricea reziduală, adică
diferenţa dintre matricea de corelaţie ajustată (R1) şi matricea de corelaţii rezultată (B
BT), să fie cât mai aproape de zero, adică diferenţele dintre corelaţiile observate şi cele
rezultate din modelul factorial, să fie minimizate.
Acest lucru se reduce, în formă matricială, la următoarea ecuaţie:

R1 V = λ V

unde R1 este matricea de corelaţie ajustată, λ este o valoare proprie (eigenvalue) a


matricii R, iar V este vectorul propriu asociat acesteia. 19 Ecuaţia care ne dă valorile
proprii ale matricii de corelaţie ajustată, λ1, λ2, ..., λm, cu ajutorul cărora vom calcula
saturaţiile factoriale, este:

det(R1 - λ I) = 0

unde λ este o valoare proprie (eigenvalue) a matricii R1, iar I este matricea unitate.
Saturaţiile bik sunt obţinute înmulţind vectorii proprii cu rădăcina pătrată a valorii proprii
corespunzătoare.
Valorile proprii λk ne indică ce proporţie din varianţă este explicată de
componenta (factorul) respectiv: şi anume λk/m.
Întotdeauna putem reproduce corelaţiile observate printr-un model care are exact
atâţia factori câte variabile, iar adecvarea modelului pentru date creşte odată cu numărul
de factori. Scopul nostru însă este acela de a obţine o structură redusă a datelor, de a

19
Este necesar ca cititorul acestei secţiuni să aibă noţiuni elementare de algebră matricială (matrice unitate,
produs matricial, ecuaţie matricială, factori proprii, vectori proprii) pentru a înţelege în cel mai mic detaliu
procedura matematică de extragere a factorilor. Eu cred că este mai important ca logica procedurii să fie
înţeleasă, aşa cum este descrisă în cuvinte în această secţiune. Din această cauză, şi pentru că nu doresc să
îndepărtez cititorul de acest pas important al analizei factoriale, nu am dezvoltat partea matematică mai
mult decât strictul necesar. Pentru o prezentare mai detaliată a aparatului matematic, vezi e.g. Dunteman
1989, pp. 15-45, 55-60.
explica covarianţa dintre variabile printr-un număr cât mai mic de factori comuni. Primul
factor extras va corespunde valorii proprii celei mai mari, cu alte cuvinte primul factor
extras este cel care explică cel mai mult din varianţa variabilelor observate. Următorul
factor extras va explica cât mai mult din restul de varianţă rămas neexplicat, şi aşa mai
departe. La câţi factori ne oprim? De câţi factori avem nevoie pentru a reprezenta datele?
Una din soluţii este aceea de a opri descompunerea varianţei în momentul în care
factorul explică mai puţin decât varianţa unei singure variabile, adică atunci când
valoarea proprie corespunzătoare factorului este mai mică decât 1. Totuşi unii analişti
consideră că ignorarea factorilor a căror valoare proprie este mai mică decât 1 poate
rezulta în respingerea unor factori care, deşi explică mai puţin, sunt importanţi. În plus,
acest rezultat s-ar putea datora şi erorilor.
Altă soluţie propusă este aceea de a examina graficul care reprezintă valorile
proprii (scree plot). Experienţa sugerează că punctul în care linia graficului devine din
abruptă lină ne va da numărul de factori necesari pentru a descrie structura. Dar ceea ce
înseamnă abrupt şi lin este interpretabil.
În fine, o altă soluţie este să stabilim un procent de varianţă care să fie explicat (în
mod obişnuit acesta se alege 70% sau 80%), şi să ne oprim atunci când varianţa explicată
de factori, cumulată, depăşeşte acest prag.
Unii autori sugerează că nu trebuie să ne bazăm automat pe astfel de criterii
formale şi că numărul de factori obţinut prin aplicarea acestor teste trebuie să ne indice
doar numărul maxim de factori. Factorii pe care îi vom reţine trebuie să fie substanţiali şi
interpretabili teoretic (îndeosebi după rotaţie). 20
(a) metoda celor mai mici pătrate – the least squares method. Similară procedurii
anterioare, metoda celor mai mici pătrate pleacă de la presupoziţia că un număr de k
factori (k<m) poate explica corelaţiile observate. Se calculează estimate iniţiale pentru
comunalităţi (cel mai adesea se foloseşte coeficientul de corelaţie multiplă între o
variabilă şi celelalte variabile). Se extrag apoi k factori care să reproducă cât mai bine
matricea de corelaţii observate, folosind metoda celor mai mici pătrate. Pentru a obţine
matricea de saturaţii care reproduce cel mai bine matricea de corelaţii observate, se
reestimează comunalităţile pe baza saturaţiilor factoriale de la pasul anterior. Procedura
se repetă până când nu se mai produce nici o îmbunătăţire a modelului. 21
(b) metoda probabilităţii maxime - the maximum likelihood method. Această
metodă încearcă, de asemenea, să găsească o soluţie factorială care modelează cel mai
bine corelaţiile observate. Se porneşte de la presupunerea că eşantionul de pe care s-au
cules datele provine dintr-o populaţie pentru care un model factorial cu k factori explică
perfect corelaţiile dintre variabile, şi în care distribuţia variabilelor (inclusiv a factorilor)
este normală. Nu se cunoaşte însă configuraţia exactă a parametrilor, adică saturaţiile
factorilor pentru fiecare variabilă. Se vor estima acei parametri care, în presupunerea de
mai sus, au probabilitatea maximă de a produce matricea de corelaţii observate.
(c) metoda de extragere factorială Alpha – Alpha factoring. Logica acestei metode
este cu totul alta decât a celor discutate până acum. Dacă în cazul celorlalte metode s-a
considerat că universul este reprezentat prin variabilele observate şi că datele provin de
pe un eşantion de obiecte, în metoda Alpha variabilele sunt considerate drept eşantion

20
Harman (1976), p. 184.
21
În engleză metoda mai poartă şi numele de principal axis factoring with iterative estimation of
communalities.
dintr-un univers de variabile, observate pentru o populaţie dată de obiecte. Saturaţiile
factoriale vor fi astfel determinate încât factorii extraşi să coreleze cât mai puternic cu
factorii corespunzători presupuşi a exista în univers. Sau altfel, prin această metodă
saturaţiile factoriale se obţin prin maximizarea coeficientului de încredere Alpha pentru
factori (Alpha reliability).
(d) analiza imaginii – image factoring. Această metodă se bazează pe
interpretarea părţii de varianţă comună drept combinaţie liniară a tuturor celorlalte
variabile din set şi este numită imaginea variabilei. Partea unică este acea parte a
variabilei care nu poate fi exprimată ca şi combinaţie liniară a celorlalte variabile şi
poartă numele de anti-imagine. În această interpretare se presupune că intră tot universul
de variabilele, iar acesta este considerat infinit, şi toată populaţia de obiecte (în cazul
niciunora nu avem de-a face cu un eşantion). Dacă examinăm toate variabilele potenţiale,
pătratul imaginii unei variabile este echivalent cu comunalitatea variabilei din analiza
factorială, iar pătratul anti-imaginii este echivalent cu unicitatea. Imaginile şi anti-
imaginile pentru un eşantion se numesc imagini parţiale şi anti-imagini parţiale. Imaginea
este considerată a fi complet specificată de variabilele observate, fiind deci o funcţie
liniară a celorlalte variabile şi nu o combinaţie liniară de factori latenţi. Având la
dispoziţie imaginea parţială, se încearcă aproximarea imaginii complete.

4. Rotaţia factorilor.

Matricea de saturaţii obţinută prin extracţia factorilor ne desluşeşte relaţia dintre


factori şi variabilele individuale. Saturaţiile ne arată gradul de corespondenţă între
variabilă şi factor. Saturaţia factorială mai ridicată ne indică faptul că variabila este
reprezentativă pentru factor. Adesea însă relaţiile dintre variabile şi factori nu par să
dezvăluie o configuraţie interpretabilă sau uşor de înţeles. Interpretarea şi înţelegerea
factorului este dificilă atunci când factorii corelează cu multe variabile. Or ceea ce
încercăm să obţinem prin analiza factorială este sumarizarea unui set de date prin
identificarea unor factori latenţi cu semnificaţie clară.
Prin rotaţia factorilor încercăm să obţinem exact acest lucru. Prin transformări ale
matricii de saturaţii iniţiale urmărim să ajungem la o matrice mai simplă, uşor de
interpretat. Problema rotaţiei factorilor este o problemă de transformare a datelor într-un
model factorial lipsit de ambiguităţi în ceea ce priveşte semnificaţia factorilor. Astfel, o
transformare care să micşoreze complexitatea factorială a variabilelor şi să mărească
gradul lor de determinare factorială ne-ar uşura substanţial înţelegerea, interpretarea,
“numirea” factorilor.
Termenul de rotaţie denumeşte exact ceea ce implică: sistemul de axe ortogonale
reprezentat de factori este rotit în jurul originii într-o altă poziţie.
Soluţia factorială iniţială este una ortogonală, în care factorii sunt extraşi în ordine
descrescătoare a varianţei explicate. Primul factor tinde să se constituie într-un factor
general, pe care fiecare variabilă îl saturează şi explică cea mai mare parte a varianţei.
Factorii următori, ortogonali cu primul, explică varianţa rămasă şi explică succesiv o
cantitate mai mică din aceasta. Dar ortogonalitatea şi ordinea factorilor nu sunt inerente
structurii datelor, ci rezultă din condiţiile stabilite de noi în procesul de extragere a
factorilor.
Efectul cel mai important al rotaţiei matricii factoriale este acela că redistribuie
varianţa de la soluţia de factori iniţială la o alta, a cărei configuraţie este mai clară.
Kim & Mueller sintetizează problematica rotaţiei factorilor la trei abordări
fundamentale. 22 Prima constă în examinarea grafică a configuraţiei de variabile, unde
axele sunt reprezentate de factori, iar poziţia variabilelor este dată de saturaţiile lor
factoriale. Se rotesc sau redefinesc axele astfel încât să obţinem o structură simplă şi
interpretabilă. Dacă variabilele se grupează clar în grupuri de variabile, atunci putem
obţine o structură simplă dacă fiecare axă (factor) va traversa grupul de variabile. Vezi
spre exemplificare figura 10, unde avem următoarea structură factorială:

Figura 10. Obţinerea unei structuri simple prin examinarea configuraţiei grafice a
variabilelor.

Factor Factor
1 2
X1 0.83 -0.15
X2 0.76 -0.24
X3 0.90 -0.35
X4 0.20 0.80
X5 0.25 0.85

1.0
X5
X4
.8

.6

.4

.2

0.0

X1
FACTOR2

-.2 X2

X3
-.4
0.0 .2 .4 .6 .8 1.0

FACTOR1

O a doua abordare are ca fundament o metodă de rotaţie analitică, susţinută de o


procedură matematică, în care nu intră judecăţi subiective. Metoda de rotaţie poate fi
ortogonală (păstrează ortogonalitatea factorilor după rotaţie) sau oblică. Există mai multe
metode de rotaţie ortogonale şi oblice. Voi descrie în câteva cuvinte acele metode care se
regăsesc în meniul pachetului statistic SPSS.
22
Kim & Mueller 1978b, p. 30-41.
Metoda ortogonală “varimax” urmează criteriul simplificării coloanelor matricii
factoriale, maximizând varianţa dată de pătratul saturaţiilor pentru fiecare factor. Cu alte
cuvinte, minimizează numărul de variabile cu saturaţii factoriale mari pentru fiecare
factor, simplificând astfel interpretarea factorilor. Metoda ortogonală “quartimax”
foloseşte alt criteriu de simplificare, şi anume maximizează varianţa dată de pătratul
saturaţiilor pentru fiecare variabilă. Prin aceasta se minimizează numărul de factori care
explică fiecare variabilă (se reduce complexitatea factorială a variabilelor). O metodă
ortogonală care aplică ambele criterii de simplificare este “equamax”. Aceasta
minimizează numărul de variabile care saturează un factor şi numărul de factori necesari
pentru a explica varianţa unei variabile.
Rotaţia oblică transformă soluţia iniţială de factori într-un set de factori care nu
sunt independenţi, între care există corelaţie. Este natural să presupunem că influenţele
din realitatea socială sunt corelate, şi chiar dacă ele nu sunt corelate în populaţie, acest
lucru poate să nu se întâmple în eşantion. Rotaţia oblică poate fi deci foarte utilă în
producerea de factori interpretabili şi substanţiali. Rotaţia oblică conservă comunalităţile
variabilelor, însă transformă saturaţiile factoriale şi corelaţiile dintre factorii extraşi iniţial
şi variabile. Aşa cum am arătat în calculele dintr-o secţiune anterioară, saturaţiile
factoriale îşi păstrează sensul de coeficienţi de regresie, însă, din moment ce factorii sunt
corelaţi, ele nu mai sunt egale cu corelaţiile dintre factori şi variabile. Vom avea deci
două matrici diferite, una de saturaţii factoriale (matricea factorială) şi una de corelaţii
între factori şi variabile (matricea structurală). 23 Metoda “direct oblimin” se bazează pe
simplificarea saturaţiilor factoriale, în mod similar metodei “quartimax”, adăugând şi
posibilitatea oblicităţii. Gradul de oblicitate este dat de valoarea δ. Cu cât aceasta este
mai mică (negativă), cu atât factorii se apropie de ortogonalitate. Cu este mai mare, cu
atât soluţia este mai oblică. Metoda “promax” foloseşte o procedură prin care saturaţiile
obţinute după o rotaţie de tip “varimax” a soluţiei ortogonale sunt ridicate la o putere
întreagă (practica sugerează valoarea 4 ca fiind optimă) şi factorii sunt astfel recalculaţi
încât să nu mai determine variabilele pentru care saturaţiile ridicate la puterea respectivă
sunt mici. Este o procedură de calcul mai rapidă decât “oblimin” şi o recomand pentru
situaţiile în care avem baze de date mari.

5. Interpretarea factorilor.

Extracţia soluţiei factoriale iniţiale ne indică cea mai bună combinaţie liniară a
variabilelor, în sensul explicării unei cantităţi cât mai mare de varianţă în date. Primul
factor poate fi deci înţeles ca cea mai bună sumarizare a relaţiilor liniare pe care le
prezintă datele. Cel de-al doilea factor constituie cea de-a doua cea mai bună combinaţie
liniară de variabile, supusă condiţiei de ortogonalitate cu primul factor. El este obţinut din
explicarea proporţiei de varianţă rămasă după ce primul factor a fost extras. În această
situaţie saturaţiile factoriale, care ne indică gradul de corespondenţă între variabilă şi
factor, nu ne conduc întotdeauna la o interpretare clară a factorilor, nu ne spun ce
reprezintă conceptual factorii.
Aşa cum am arătat, prin rotaţia factorilor ajungem la o soluţie mai simplă în
termenii configuraţiei de variabile care saturează factorii. Efectul cel mai important al

23
Vezi notele de subsol 7 şi 8 anterioare.
rotaţiei matricii factoriale este acela că redistribuie varianţa explicată de factorii soluţiei
iniţiale la o alta, ai cărei factori sunt mai uşor interpretabili.
În general interpretarea factorilor este facilitată atunci când variabilele saturează
în mod semnificativ doar unul din factori. Când o variabilă saturează mai mulţi factori, ea
trebuie considerată în interpretarea tuturor factorilor care o explică. Analistul trebuie, de
asemenea, să examineze şi variabilele care nu saturează nici unul din factori.
Un alt lucru care trebuie analizat sunt comunalităţile variabilelor. Dacă varianţa
explicată de factorii comuni nu este importantă (nu depăşeşte, să zicem, 0.5), atunci
cercetătorul poate considera că acestea nu primesc o explicaţie suficientă prin factorii
comuni.
Dacă avem variabile care nu saturează nici un factor sau ale căror comunalităţi
sunt considerate prea mici, putem fie să interpretăm soluţia aşa cum este, ignorând
variabilele respective, fie să evaluăm fiecare astfel de variabilă separat pentru o posibilă
ştergere a lor din analiză. În prima situaţie vom interpreta factorii după cum ne sugerează
variabilele care îi saturează şi vom ţine cont de faptul că există variabile care sunt slab
reprezentate în soluţia factorială. În cea de-a doua situaţie, posibilitatea eliminării
variabilei din analiză trebuie cântărită în funcţie de rolul variabilei respective în cercetare
şi de nivelul comunalităţii sale.
În fine, numele factorului şi definiţia sa nu pot fi date decât de cercetător. El este
cel care va sintetiza conţinutul variabilelor care saturează un factor într-un concept
denominat printr-o etichetă sau o descriere.

6. Scoruri factoriale, scale factoriale şi variabile surogat.

Unul din scopurile principale ale analizei factoriale este acela de reducere a
datelor. Odată identificate dimensiunile latente ale unui set de date, analistul poate dori să
examineze comportamentul cazurilor în funcţie de aceste dimensiuni, şi nu doar în
funcţie de variabilele date. Mai mult, el poate dori să obţină câte o variabilă pentru
fiecare dintre aceşti factori, care să poată fi folosite în continuare ca variabile explicative
în locul setului iniţial de variabile, mai numeros.
Există două opţiuni principale pentru a face acest lucru. (1) Examinând matricea
factorială (matricea saturaţiilor factoriale), analistul poate selecta variabila cu cel mai
mare scor factorial pentru un anume factor ca reprezentativă pentru dimensiunea
factorială respectivă (“variabilă surogat”). (2) Analistul poate construi o scală factorială
(o variabilă care să reprezinte factorul respectiv), dată de scoruri factoriale pentru fiecare
obiect din eşantion).
În prima situaţie, atunci când una din variabile se singularizează printr-o saturaţie
factorială semnificativ mai ridicată decât celelalte variabile care saturează un factor,
soluţia este imediată. Atunci când însă mai multe variabile au saturaţii ridicate pentru
acelaşi factor, selecţia este mai dificilă. Analistul trebuie să examineze critic fiecare din
aceste variabile, şi să se bazeze pe cadrul teoretic al studiului său, care poate să sugereze
în mod logic mai degrabă o variabilă decât alta. Pe de altă parte, criteriul validităţii şi a
încrederii datelor pentru fiecare variabilă poate fi un criteriu suplimentar pentru alegerea
variabilei surogat. Altă posibilitate este aceea de a construi scale sumate, în care ponderea
variabilei în compoziţia factorului va fi calculată în funcţie de importanţa contribuţiei sale
la explicarea factorului.
În cea de-a doua situaţie, vom calcula estimări ale scorurilor factoriale pentru
obiectele din eşantion. Pentru a le obţine folosim datele originale (valorile pe care
obiectele le iau pentru fiecare variabilă originală, sub formă standardizată) şi rezultatele
analizei factoriale (coeficienţii scorurilor factoriale). 24
Există mai multe căi de estimare a scorurilor factoriale. Ideea generală este
următoarea: presupunem că datele noastre sunt lipsite de erori şi că ele au fost create
după un model factorial cu un factor. Pe baza acestui model încercăm să estimăm valorile
factorului comun (factorilor comuni).
Voi descrie succint trei dintre metodele de estimare a scorurilor factoriale, care
sunt disponibile în pachetul statistic SPSS. Prima dintre acestea este cea a estimatelor de
regresie. Aceasta caută să obţină un factor F̂ astfel încât corelaţia între factorul latent (F)
şi scală ( F̂ ) să fie maximizată, sau, altfel formulat, diferenţele ridicate la pătrat dintre
factor şi scală să fie minime (aceasta este metoda regresiei). Putem obţine o soluţie la
această problemă, căci avem la dispoziţie saturaţiile factoriale obţinute prin analiza
factorială (care sunt echivalente cu corelaţiile dintre factor – care trebuie estimat şi
variabilele observate – folosite ca predictori), şi corelaţiile dintre variabilele observate.
Cea de a doua metodă, numită după Bartlett, examinează adecvarea modelului
luând în considerare variabilitatea introdusă de eşantionare. Dacă varianţele datorate
factorilor de unicitate sunt considerate ca erori de eşantionare (şi deci aleatoare), atunci
este natural să dăm o pondere mai mică acelor variabile care conţin o cantitate mai mare
de astfel de eroare. Pe baza scorurilor factoriale putem estima valori pentru variabilele
observate ( X̂ =bj F̂ ), şi vom încerca să minimizăm pătratul diferenţelor dintre valorile
observate ale variabilelor X şi valorile estimate, ponderate cu inversul erorilor, adică
minimizarea expresiei:

Figura 11. Criteriul folosit în metoda Bartlett de estimare a scorurilor factoriale.

(X ij − b j F̂) 2
min ∑∑
i j di
2

În fine, metoda Rubin-Anderson este o modificare a celei precedente a lui


Bartlett. Criteriul folosit este cel de minimizare a sumei ponderate a pătratelor din figura
11, în condiţia că scalele create (factorii estimaţi) să fie ortogonale două câte două.
În alegerea dintre acestea, cercetătorul trebuie să se orienteze atât în funcţie de
schema teoretică şi condiţiile de utilizare ulterioară a scalelor factoriale, cât şi după
proprietăţile inerente metodei. Prima metodă, a regresiei, este cea mai bună atunci când
dorim ca scala factorială să coreleze cât mai mult cu factorul latent respectiv. În ce
priveşte univocitatea unei scale, adică faptul că scala respectivă corelează doar cu
factorul pe care se presupune că îl măsoară şi nu şi cu ceilalţi factori, indiferent că factorii
latenţi identificaţi sunt sau nu ortogonali, metoda Bartlett dă cele mai bune rezultate. În
termeni de ortogonalitate a factorilor, metoda Rubin-Anderson este cea mai avantajoasă.

7. Validarea analizei factoriale

24
În engleză, “factor score coefficients”.
În fine, câteva cuvinte despre măsura în care rezultatele obţinute printr-o analiză
factorială pot fi generalizate la nivelul întregii populaţii din care a fost extras eşantionul.
Situaţia tipică în cercetarea socială este aceea în care dispunem de date obţinute pe un
eşantion de obiecte (indivizi, localităţi, produse, partide etc.) din populaţie. În cazul
analizei factoriale, datele originale de la care pornim sunt corelaţiile (sau covarianţele)
dintre un set de variabile observate, obţinute pe un eşantion. Sunt două tipuri de inferenţe
pe care analistul trebuie să le facă. Primele se referă la estimarea structurii factoriale
latente (estimarea saturaţiilor factoriale pentru identificarea dimensiunilor latente şi
estimarea scorurilor factoriale pentru construcţia scalelor factoriale). Celelalte se referă la
generalizarea estimatelor obţinute prin analiză la nivelul întregii populaţii. Primul tip de
inferenţe este unul ce ţine de logica fenomenului studiat, cel de-al doilea este unul
statistic. Discuţia de până aici s-a referit la prima problemă. Cea de-a doua problemă
constituie un capitol separat al statisticii, şi anume inferenţa statistică. Rezolvarea acestei
probleme presupune estimarea magnitudinii şi a probabilităţii erorii pe care o facem
atunci când extindem rezultatele descoperite pe eşantion la nivelul întregii populaţii.
Dincolo de problemele de inferenţă statistică, validarea analizei factoriale are de
asemenea aspecte logic-conceptuale, extra-statistice. Metoda cea mai directă de validare a
rezultatelor este să trecem de la perspectiva exploratorie la una confirmatorie şi să
evaluăm replicabilitatea rezultatelor. Acest lucru se poate face, de exemplu, fie prin
împărţirea eşantionului în două şi compararea rezultatelor pentru cele două eşantioane, fie
prin folosirea unui alt eşantion extras din aceeaşi populaţie.
Analiza factorială confirmatorie s-a dezvoltat substanţial în ultimii treizeci de ani,
ca şi o generalizare a acesteia, modelele structurii de covarianţă (LISREL). Pentru lecturi
următoare recomandăm Scott Long 1983 a şi b, Jöreskog & Sörbom 1996.

Procedura Factor în SPSS 10.1

Pachetul statistic SPSS conţine un set de proceduri pentru realizarea analizei


factoriale. Acestea acoperă majoritatea metodelor de examinare a structurii de corelaţie
sau de covarianţă, de extragere a factorilor, de rotaţie a factorilor extraşi şi de calcul al
scorurilor factoriale.
Cum realizăm o analiză factorială? Procedura se lansează din meniul Analyze,
opţiunea Data reduction, subopţiunea Factor. Fereastra care se deschid permite
specificarea variabilelor observate care intră în analiză.
Butonul Descriptives ne dă posibilitatea să obţinem o serie de valori privind
datele iniţiale: matricea de corelaţii, valoarea determinantului acesteia, matricea anti-
imagine, ca şi valorile câtorva criterii de adecvare a aplicării analizei factoriale la date,
KMO şi coeficientul Bartlett de sfericitate.
Butonul Extraction deschide o fereastră prin care putem selecta metoda de
extragere a factorilor (sunt disponibile şapte metode de extracţie, inclusiv metoda
componentelor principale), specificăm ce anume analizăm (corelaţii sau covarianţe),
alegem criteriul de stabilire a numărului de factori extraşi (valori proprii mai mari decât 1
sau un număr predeterminat de factori) şi putem cere afişarea soluţiei iniţiale nerotite şi
testul bazat pe scree plot.
Butonul Rotation deschide o fereastră care ne dă posibilitatea să selectăm o
metodă de rotaţie a factorilor (sunt puse la dispoziţia analistului cinci metode de rotaţie,
dintre care două oblice) şi afişarea rezultatelor rotaţiei, matricial şi grafic.
Meniul Scores oferă posibilitatea calculării scorurilor factoriale prin trei metode,
salvarea acestora ca variabile noi, şi afişarea matricii coeficienţilor scorurilor factoriale.
În fine, în meniul deschis prin butonul Options, putem cere afişarea rezultatelor în
aşa fel încât citirea şi interpretarea factorilor să fie uşurată. Coeficienţii rezultaţi
(saturaţiile factoriale pentru soluţia iniţială şi pentru cea rotită) pot fi afişaţi în ordine
descrescătoare, pentru fiecare factor identificat, iar cei mai mici decât o valoare
specificată pot fi şterşi din tabel.
Pentru o prezentare mai detaliată recomandăm consultarea manualului de utilizare
SPSS 10.1, 1999 sau meniul Help din program.

Exemplu: Percepţia corupţiei în România

Una din temele care preocupă guvernul, societatea civilă şi organizaţiile


suprastatale în care România doreşte să acceadă este aceea a corupţiei. În fiecare an apar
rapoarte de ţară dedicate fie exclusiv corupţiei, fie situaţiei economice-sociale-legislative
generale. Unul din motivele pentru care conţinutul acestor rapoarte este de interes e faptul
că ele sunt folosite ca bază de decizie de multe instituţii financiare internaţionale,
investitori economici şi organe de decizie politică.
În evaluarea fenomenului corupţiei dintr-o ţară, percepţia populaţiei asupra
gradului şi răspândirii corupţiei, reprezintă, printre altele, unul din elementele care
concură la evaluarea finală. Pornind de la o serie de date furnizate de Barometrul de
Opinie Publică 2003, voi încerca să stabilesc felul în care se structurează percepţia
populaţiei asupra corupţiei. Voi încerca să identific dimensiunile latente ale opiniei
oamenilor despre acest fenomen, pentru a înţelege mai bine fenomenul, aşa cum este
reflectat în percepţia populaţiei.
Baza de date pe care o folosesc este cea a anchetei Barometrul de Opinie Publică
(BOP), finanţată de Fundaţia pentru o Societate Deschisă şi realizată, pentru anul 2003,
de Gallup Organization Romania în luna mai. 25
Variabilele pe care le-am folosit în analiza percepţiei corupţiei sunt un set de
unsprezece întrebări, CRR1, CRR2, ..., CRR11, prin care se măsoară percepţia corupţiei
în rândul unor categorii diferite de persoane. Felul în care au fost formulate acestea în
chestionar este următorul:

25
Atât baza de date, cât şi chestionarul folosit, ca şi caietul de prezentare a rezultatelor, sunt disponibile
public pe internet, la adresa www.sfos.ro
Figura 12. Percepţia corupţiei în România, chestionarul BOP 2003.

CRR. După părerea dvs, Aproape O mică O mare Aproape NS NR


cât de răspândită este niciunul parte parte toţi
corupţia printre
1. Medici 1 2 3 4 8 9
2. Profesori 1 2 3 4 8 9
3. Ziarişti 1 2 3 4 8 9
4. Poliţişti 1 2 3 4 8 9
5. Judecători 1 2 3 4 8 9
6. Primari 1 2 3 4 8 9
7. Consilieri locali 1 2 3 4 8 9
8. Funcţionari la primării 1 2 3 4 8 9
9. Parlamentari 1 2 3 4 8 9
10. Miniştri 1 2 3 4 8 9
11. Oameni de afaceri 1 2 3 4 8 9

Scala de măsură a acestor variabile nu este una metrică, însă îndeplineşte


condiţiile care le permit să fie folosite corect într-o analiză factorială. Valorile atribuite
treptelor reflectă cu suficientă acurateţe distanţele reale dintre ele şi corelaţiile dintre
variabile, având în vedere că toate variabilele sunt măsurate pe aceeaşi scală, nu sunt
distorsionate. 26
Voi alege analiza matricii de corelaţii şi voi folosi metoda de extracţie a factorilor
principali (principal axis factoring), întrucât doresc să explic cât mai mult din covarianţa
dintre variabile şi să identific factorii latenţi care stau în spatele acestora. Voi stabili
numărul de factori după criteriul valorilor proprii (eigenvalue să fie mai mare decât 1).
Voi roti soluţia originală după metoda “equamax” şi voi cere ca saturaţiile factoriale
pentru fiecare variabilă să fie afişate în ordine descrescătoare, pentru fiecare factor, iar
cele mai mici decât 0.3 să nu apară. Iată care sunt rezultatele obţinute de SPSS.

26
Pentru cei ce doresc să replice analiza, le atrag atenţia că în baza de date disponibilă pe site-ul Fundaţiei
pentru o Societate Deschisă non- răspunsurile şi răspunsurile de “nu ştiu” nu au fost codificate ca valori
lipsă (“missing values”). Pentru ca valorile 8, 9, care sunt codurile pentru cele două variante, să nu intre în
calcule, acestea trebuie definite ca valori lipsă înainte de a continua cu analiza factorială.
Figura 13. Rezultatele analizei factoriale asupra setului de date care măsoară percepţia
corupţiei în România. Extracţia factorilor.

KMO = 0.872
Testul de sfericitate Bartlett: Hi pătrat = 6243.028, sig.= 0.000

Variabile Comunalităţi iniţiale Comunalităţi extrase


CRR1 0.385 0.444
CRR2 0.629 0.674
CRR3 0.606 0.698
CRR4 0.486 0.707
CRR5 0.371 0.393
CRR6 0.519 0.520
CRR7 0.508 0.492
CRR8 0.644 0.687
CRR9 0.714 0.883
CRR10 0.609 0.720
CRR11 0.256 0.262

Total Variance Explained

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Factor Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 5.276 47.968 47.968 4.900 44.547 44.547 2.311 21.005 21.005
2 1.241 11.280 59.248 .877 7.974 52.520 2.279 20.721 41.727
3 1.037 9.430 68.679 .702 6.380 58.900 1.889 17.174 58.900
4 .796 7.240 75.919
5 .619 5.627 81.545
6 .554 5.037 86.582
7 .385 3.504 90.086
8 .360 3.270 93.356
9 .294 2.677 96.033
10 .246 2.239 98.272
11 .190 1.728 100.000
Extraction Method: Principal Axis Factoring.

Prin metoda extracţiei factorilor principali, au fost identificaţi trei factori care
explică mai mult decât varianţa unei singure variabile (eigenvalue >1. Acesta a fost
criteriul de oprire a algoritmului de extracţie). În total, aceşti trei factori explică 68.67%
din varianţa variabilelor observate analizate.
Aşa cum se întâmplă în cazul soluţiei iniţiale, primul factor explică cea mai mare
parte a varianţei comune, iar următorii, succesiv, cea mai mare parte din varianţa rămasă.
Ca atare, primul factor este saturat în diferite proporţii de toate variabilele intrate în
analiză.
Figura 14. Saturaţiile factoriale pentru soluţia iniţială.

Factor Matrixa

Factor
1 2 3
CRR7 .803 -.452
CRR6 .779
CRR8 .736
CRR4 .696
CRR9 .693 -.465
CRR10 .689 -.488
CRR5 .674
CRR2 .620 .437 .362
CRR1 .554 .350
CRR3 .528 .308
CRR11 .494
Extraction Method: Principal Axis Factoring.
a. 3 factors extracted. 15 iterations required.

Pentru a simplifica interpretarea soluţiei, am rotit factorii după metoda


“equamax”, care produce un model factorial de asemenea ortogonal. Cum am explicat
într-o secţiune anterioară, această metodă minimizează numărul de variabile care
saturează un factor şi numărul de factori necesari pentru a explica varianţa unei variabile.

Figura 15. Saturaţiile factoriale pentru soluţia rotită.

Rotated Factor Matrixa

Factor
1 2 3
CRR10 .808
CRR9 .783
CRR5 .553 .314
CRR4 .471 .469
CRR11 .393
CRR7 .877
CRR8 .730 .301
CRR6 .371 .696
CRR2 .800
CRR1 .302 .583
CRR3 .310 .535
Extraction Method: Principal Axis Factoring.
Rotation Method: Equamax with Kaiser Normalization.
a. Rotation converged in 7 iterations.

Interpretarea factorilor o vom face în funcţie de variabilele care saturează cel mai
intens factorii respectivi. Pentru a putea urmări interpretarea, voi prezenta soluţia rotită,
iar alături de numele variabilelor voi trece şi descrierea lor. În tabelul care urmează am
omis saturaţiile mai mici de 0.4, cu excepţia uneia, pentru a uşura interpretarea
semnificaţiei factorilor.
Figura 16. Interpretarea factorilor obţinuţi prin rotirea soluţiei iniţiale.

Variabile Factor 1 Factor 2 Factor 3


CRR10. Miniştri 0.808
CRR9. Parlamentari 0.783
CRR5. Judecători 0.553
CRR4. Poliţişti 0.471 0.469
CRR11. Oameni de afaceri 0.393
CRR7. Consilieri locali 0.877
CRR8. Funcţionari la primării 0.730
CRR6. Primari 0.696
CRR2. Profesori 0.800
CRR1. Medici 0.583
CRR3. Ziarişti 0.535

Semnificaţia factorilor ne apare transparentă din tabelul de mai sus. Primul factor
este saturat de variabilele care măsoară percepţia corupţiei la nivelul instituţiilor
principale ale statului: guvernul, parlamentul, judiciarul, poliţia. Acestea sunt instituţii
naţionale, care acoperă şi penetrează întreaga societate. Ele sunt principalele instituţii ale
statului, cele care guvernează, legiferează, asigură justiţia şi implementează legea. Putem
numi acest prim factor al corupţiei la nivelul instituţiilor statului. Este interesant faptul că
variabila ce măsoară corupţia printre oamenii de afaceri are cea mai mare saturaţie pentru
acest prim factor, asociind-o empiric celorlalte categorii de persoane. Oamenii de afaceri
sunt percepuţi ca având legături strânse cu politicul, relaţia politic-afaceri pe plan mare
este constitutivă societăţii româneşti şi fenomenului de corupţie.
Cel de-al doilea factor este saturat de variabile care măsoară percepţia corupţiei la
nivelul administraţiei locale: corupţia printre consilierii locali, printre funcţionarii la
primării şi printre primarii înşişi. Acest al doilea factor poate fi numit al corupţiei la
nivelul administraţiei locale.
În fine, cel de-al treilea factor este saturat de variabilele care se referă la corupţia
în rândul unor categorii profesionale aflate înafara birocraţiei de stat şi înafara structurilor
politicului. Adesea, persoanele care fac parte din rândul “profesiunilor” joacă rolul de
critici la adresa instanţelor conducătoare şi legiuitoare: profesori, medici, ziarişti. Al
treilea factor poate fi numit al corupţiei în rândul societăţii, sau, poate mai sugestiv,
corupţia în rândul oamenilor obişnuiţi.
Această configuraţie a reprezentării corupţiei dă seama de percepţia intensităţii
corupţiei în cele trei dimensiuni. Iată care sunt distribuţiile de frecvenţă pentru cele
unsprezece variabile.
Figura 17. Distribuţiile de frecvenţă pentru variabile. “Cât de răspândită este corupţia
printre...”

Variabile Aproape niciunul O mare parte & NS & NR


& o mică parte aproape toţi
CRR10. Miniştri 24.8% 75.2% 501
CRR9. Parlamentari 16.2% 83.8% 438
CRR5. Judecători 26.2% 73.8% 410
CRR4. Poliţişti 28.4% 71.6% 324
CRR11. Oameni de afaceri 28.5% 71.5% 559
CRR7. Consilieri locali 43.7% 56.3% 475
CRR8. Funcţionari la primării 46.0% 54.0% 445
CRR6. Primari 43.5% 56.3% 441
CRR2. Profesori 66.5% 33.5% 370
CRR1. Medici 33.8% 66.2% 232
CRR3. Ziarişti 75.4% 24.6% 645
(N=2100)

Se observă că dacă la nivelul primei dimensiuni, cea a instituţiilor statului,


corupţia percepută este foarte ridicată, la nivel local intensitatea percepţiei corupţiei este
mai scăzută, iar în rândul societăţii, intensitatea percepută a corupţiei este cea mai mică.
În virtutea unor practici comuniste reproduse şi după 1989, medicii sunt percepuţi a fi
mai corupţi ca restul profesiunilor. Totuşi, empiric ei sunt incorporaţi în configuraţie
alături de celelalte profesiuni liberale intrate în analiză. Acest lucru arată că, în ciuda
faptului că procentul corupţiei percepute în rândul lor este mai ridicat, pattern-ul
percepţiei corupţiei între medici este similar celor atribuit şi altor profesiuni.
Reducerea la trei dimensiuni a datelor referitoare la percepţia corupţiei în
România de la care am plecat, cea a instituţiilor de stat, a administraţiei locale, şi a
societăţii, ne ajută în mod simţitor să înţelegem felul în care populaţia resimte şi îşi
reprezintă fenomenul corupţiei. Faptul că românii văd corupţia prezentă la toate nivelurile
şi în toate sferele de activitate rezultă şi din răspunsurile lor la o altă întrebare legată de
corupţie care apare în ancheta BOP 2003 (CRN). Tabelul următor prezintă rezultatele la
această întrebare. Ultima coloană prezintă rezultatele valide, adică rezultatele care exclud
non-răspunsurile şi răspunsurile “nu ştiu”. Emfaza asupra cuvintelor “doar” şi “toate”
există în chestionar.

Figura 18. CRN: “În opinia dumneavoastră, în România...”

Procente Procente
valide
Corupţia există doar la nivelul micilor funcţionari 1.8% 2.0%
Corupţia există doar la niveluri înalte 8.7% 9.5%
Corupţia este generalizată, are loc la toate nivelurile 80.3% 88.0%
Nu există corupţie 0.4% 0.5%
NS 8.2% -
NR 0.5% -
(N=2100)
Majoritatea covârşitoare a românilor consideră că există corupţie la toate
nivelurile, că aceasta este generalizată. Analiza factorială ne-a indicat toate dimensiunile
la care oamenii percep corupţia: la nivelul instituţiilor centrale ale statului - al
conducătorilor, legislatorilor, al celor care împart dreptatea, şi al celor care menţin
ordinea, la nivelul administratorilor locali – primari, consilieri şi funcţionari ai primăriei,
şi la nivelul celor care practică profesiuni – medici, profesori, ziarişti.
Imaginea asupra percepţiei corupţiei şi semnificaţia celor trei dimensiuni
identificate este şi mai clară atunci când examinăm răspunsurile la altă întrebare a
anchetei, şi anume COR14, prin care li se cere subiecţilor să aleagă principalele două
cauze ale corupţiei în România. Cumulând răspunsurile, cauzele principale, în opinia
românilor, sunt “Dorinţa unora de a se îmbogăţi peste noapte” cu 23.9%, urmată de
“Legile nu sunt aplicate” cu 19.2%, “Legi proaste” cu 16.5%, şi “Birocraţia” cu 15.2%.
Acestea, în ultimă instanţă, se referă la activitatea instituţiilor centrale ale statului şi a
jocului politic-afaceri de care vorbeam mai sus. Iar ele devansează alte posibile cauze,
cum ar fi de exemplu ”Problemele moştenite din perioada comunismului”, care
cumulează doar 4.1% din alegeri.

S-ar putea să vă placă și