Sunteți pe pagina 1din 27

Capitolul 4

Metode de învăţare nesupervizată şi supervizată


(Analiza factorială-AF)

Prof. dr. Stelian STANCU

- necesitatea de a sintetiza relaţiile de cauzalitate;


- problema măsurării indirecte, a măsurării factorilor de natură
neobservabilă;
- probleme de măsurare şi cuantificare dintr-o mare varietate de
domenii: economic, social, politic, psihologic etc.

4.1. Introducere

Analiza factorială
- este unul dintre cele mai puternice, mai subtile şi mai utile instrumente
de analiză a datelor;
- scopul principal este acela al deducerii unor construcţii ipotetice, al
identificării unor factori esenţiali, prin intermediul cărora să poată fi
explicate interdependenţele existente între elementele unei mulţimi de
variabile indicator.
- spre deosebire de analiza în componente principale, care are ca scop
reexprimarea unei proporţii cât mai mari din variabilitatea spaţiului
cauzal iniţial, analiza factorială îşi propune să găsească cea mai bună
modalitate de reproducere a corelaţiilor manifestate între elementele
unei mulţimi de indicatori, cea mai bună modalitate de reexprimare a
interdependenţelor dintre variabilele indicator.
- este folosită pentru a rezolva două tipuri de probleme şi anume fie
reducerea numărului de variabile, în vederea creşterii vitezei de
procesare a datelor, fie în identificarea de şabloane ascunse în relaţiile
existente între date din matricea informaţională.
- se referă la o gamă largă de tehnici statistice folosite pentru a
reprezenta un set de variabile în concordanţă cu un număr redus de
variabile ipotetice, numite factori.
- poate fi privită ca o modalitate de a explica şi interpreta legăturile
dintre anumite variabile observabile (variabile indicator) în termeni de
mărimi care nu pot fi direct observabile (factori).
- Exemplu: rezultatele înregistrate la anumite teste de performanţă, care
au natură observabilă şi direct măsurabilă, pot fi explicate şi
interpretate în termenii unui factor abstract şi neobservabil în mod
direct, care este nivelul de inteligenţă al celor testaţi. Se pune astfel
problema măsurării indirecte, a măsurării factorilor de natură
2 Analiza Datelor. Teorie şi aplicaţii

neobservabilă (factori latenţi sau ascunşi), sunt cunoscuţi în analiza


factorială ca fiind factori comuni.
- a fost utilizată pentru început în fundamentarea teoriilor psihologice
referitoare la comportamentul şi abilitatea umană, constând în existenţa
posibilităţii de măsurare indirectă, de cuantificare a unor factori
neobservabili.
- se ocupă cu identificarea şi studierea unor entităţi1 informaţionale
complexe, care nu pot fi observabile în sens statistic, ceea ce înseamnă
că, în mod implicit, aceste entităţi nu pot fi direct măsurabile.
Ca exemple de entităţi informaţionale de acest tip putem menţiona:
- starea emoţională;
- statutul social;
- abilitatea profesională;
- abilitatea managerială;
- inteligenţa;
- profilul psihologic;
- etc.
Realizată cu ajutorul mai multor tehnici:
- metoda componentelor principale;
- criteriul varimax;
- criteriul quartimax;
- rotatia axelor.
Obiectiv: cercetarea legaturilor de interdependenta dintre mai multe variabile, in
scopul determinarii setului minim de explicare a unui anumit fenomen.
- presupune definirea unor factori care sa condenseze o cat mai mare parte
din informatia (variabilele) initiala.
Utilizari:
- identificarea setului de dimensiuni latente existente in variabila initiala
(analiza factoriala de tip R);
- combinarea sau condensarea componentelor unui populatii statistice si
crearea unor grupuri distincte (analiza factoriala de tip Q).

4.2. Definiţii şi aplicaţii majore ale analizei factoriale(AF)

- analiza factorială poate fi privită ca o modalitate de a explica şi interpreta


legăturile dintre anumite variabile observabile (variabile indicator) în
termeni de mărimi ale unor entităţi informaţionale care nu pot fi direct
observabile (factori).
Definiţia 4.1. Se numeşte analiză factorială acea tehnică statistică multivariată care
are ca scop extragerea unui număr de regulă mic de factori ascunşi (latenţi)
responsabili de corelaţiile dintre variabilelor originale.

1
Aceste entităţi sunt cunoscute în analiza factorială sub numele de factori comuni şi factori
specifici.
Capitolul 4. Analiza factorială(AF) 3

Exemplul 4.1. Rezultatele înregistrate la anumite teste de specialitate, care au


natură observabilă şi direct măsurabilă, prin care poate fi explicat şi interpretat un
factor abstract şi neobservabil în mod direct, care este spre exemplu nivelul de
inteligenţă al celui testat.
Dacă aceste corelaţii sunt semnificative, se poate presupune că ar fi cauzate
de existenţa unuia sau mai multor factori „ascunşi” comuni tuturor variabilelor.
Definiţia 4.2. Se numeşte factor comun sau factor latent acea entitate
informaţională de natură generală, care exprimă o caracteristică esenţială a unui
fenomen sau proces din realitate, îşi exercită influenţa asupra tuturor elementelor
unei mulţimi de indicatori şi care nu poate fi supuă unui proces direct de observare
şi măsurare.
Definiţia 4.3. Indicatorul sau testul este o variabilă ale cărei observaţii, cunoscute
sub numele de scoruri, sunt utilizate în cadrul analizei factoriale în scopul de a
produce evaluări numerice pentru factorul sau factorii comuni.
În analiza factorială se presupune că legătura dintre variabilele indicator şi
factorii comuni poate fi exprimată sub o formă liniară, exprimare care conduce la
necesitatea estimării coeficienţilor care intervin în definirea respectivei forme.
Definiţia 4.4. Factorul unic reprezintă o entitate informaţională de natură
particulară, care îşi exercită influenţa în mod unilateral, asupra unei singure
variabile indicator, şi care nu poate fi supusă unei proces direct de observare şi
măsurare.
Definiţia 4.5. Analiza factorială este o analiză multivariată, care are ca scop să
explice corelaţiile manifestate între o serie de variabile, numite indicatori sau teste,
prin intermediul unui număr mai mic de factori ordonaţi şi necorelaţi, numiţi
factori comuni.
Ca aplicaţii majore ale AF se pot evidenţia:
- în detectarea structurii în relaţiile dintre variabile;
- în reducerea numărului de variabile;
- în rezolvarea multicoliniarității în regresia multiplă;
- în validarea construcției unei scale compuse din mai mulți itemi.
Ca metodă de analiză multidimensională, analiza factorială este folosită, în
principal, în rezolvarea problemelor al căror scop este legat de:
- studierea nivelelor diferite de manifestare a interdependenţelor dintre
variabilele explicative, în special atunci când numărul acestora este foarte
mare;
- detectarea unei structuri simplificate şi clare a relaţiilor de interdependenţă
existente între variabilele explicative;
- obţinerea unei "cluster-izări", unei clasificări a variabilelor explicative prin
intermediul unor entităţi numite factori, astfel încât variabilele aparţinând
unui anumit factor să fie puternic intercorelate;
- obţinerea unor informaţii specifice, sub forma aşa-numiţilor factori, pe
baza cărora să se poată face o interpretare sintetică a relaţiilor de
cauzalitate;
4 Analiza Datelor. Teorie şi aplicaţii

- verificarea unor ipoteze cu privire la existenţa unei structuri factoriale


particulare sau cu privire la existenţa unui anumit număr de factori comuni;
- sintetizarea potenţialului cauzal comun al mai multor variabile explicative
sub forma unui număr cât mai redus de factori.
Privită în sens restrâns, ca mulţime de proceduri logice şi numerice
executate pe date de un anumit tip, analiza factorială poate fi definită ca
reprezentând un proces a cărui desfăşurare include următoarele etape
esenţiale:
- determinarea numărului minimal de factori comuni cu ajutorul căruia pot fi
explicate în mod optimal corelaţiile existente între variabilele indicator;
- efectuarea unor rotaţii ale factorilor, în scopul determinării soluţiei factor
sub cea mai simplă şi mai clară formă;
- estimarea intensităţilor factorilor, structurii legăturilor, comunalităţilor şi
varianţelor factorilor unici;
- deducerea unor interpretări adecvate pentru factorii comuni;
- estimarea scorurilor factorilor.

4.3. Modele de analiză factorială

Ideea fundamentală în analiza factorială constă în faptul că anumite


variabile nu pot fi observate (măsurate) direct, ci doar prin intermediul altora, care
sunt cunoscute:
- fie ca variabile manifeste: observate, măsurate;
- fie ca variabile latente, ce integrează de regulă informația comună a mai
multor variabile manifeste.
În categoria modelelor de tip AF se pot evidenţia:
Modelul factorului comun, în care fiecare variabilă manifestă (v) are două
componente:
- una care decurge din variabila latentă (factor) sau factor comun;
- cealaltă, care decurge din unicitatea acelei variabile (e), numiţi şi erori sau
factori reziduali.
Capitolul 4. Analiza factorială(AF) 5

Figura 4.1. Exemplu de model bazat pe factorul comun

Modelele de analiză factorială sunt de două tipuri şi anume:


- analiza factorială exploratorie (AFE);
- analiza factorială de confirmare (AFC).

A. Analiza factorială exploratorie(AFE)

Această metodă caută o structură latentă în rândul mai multor variabile,


fiind o tehnică reductivă de identificare a variabilele latente care înglobează
anumite variabile observate.
În varianta sa de analiză exploratorie, analiza factorială reprezintă o tehnică
de identificare a structurii dependenţei, de generare a unor construcţii teoretice.
Analiza factorială de tip exploratoriu nu presupune cunoaşterea apriorică a
structurii dependenţei cauzale sau cunoaşterea apriorică a factorilor.
Definiţia 4.6. Analiza factorială exploratorie reprezintă acea modalitate de
utilizare a analizei factoriale care are ca scop detectarea unei structuri a
dependenţei şi generarea unor construcţii teoretice, cunoscute sub numele de
factori comuni.
Pentru aceasta, se impun ca principale obiective:
- determinarea numărului constructelor latente;
- constituirea unui suport pentru a explica variabilitatea comună;
- definirea conținutului și semnificației factorilor.
Există două metode de realizare şi anume:
- analiza factorilor comuni - AFc (metoda lui Thurstone), putând folosi
pentru aceasta mai multe tipuri de tehnici;
- analiza în componente principale - ACP (metoda lui Hotteling).

Analiza factorilor comuni - AFc (Thurstone)

Această metodă presupune:


6 Analiza Datelor. Teorie şi aplicaţii

-estimarea varianţei comune la nivelul variabilelor manifeste;


-căutarea unui anumit număr minim de factori care ”absorb” varianța
variabilelor studiate;
- rezultă întotdeauna mai puţini factori decât numărul variabilelor existente
Totodată, AFc:
- urmărește identificarea unui număr relativ mic de factori care să explice
varianța comună a variabilelor;
- deși are caracter exploratoriu, proiectează un anumit model asupra
variabilelor manifeste, şi anume modelul liniar, iar când liniaritatea nu se
confirmă, aceasta este forţată prin modificarea variabilelor (neutralizează
tendințele curbilinii;valorile excesive etc).

Analiza în componente principale - ACP (Hotteling)

Aşa cum deja a fost specificat anterior, metoda ACP:


- se limitează la descompunerea algebrică a matricei de date într-o structură
de componente (factori) care acumulează o cantitate cât mai mare de
variabilitate comună;
- analizează matricea corelațiilor liniare dintre variabile și evaluează varianța
comună existentă, astfel:
o extrage factorul care înglobează cea mai mare cantitate de
variabilitate;
o urmează alegerea celui de al doilea factor cu cea mai mare cantitate
de variabilitate din cea rămasă;
o și așa mai departe
- soluţia finală este dată de atâţia factori câte variabile sunt disponibile la
final, chiar dacă este puţin probabil ca toţi factorii să întrunească criteriile
de retenţie.
- factorii/componentele astfel identificați sunt ortogonali;
- nu este o analiză factorială în adevăratul înțeles al cuvântului.

Analiza factorilor comuni(AFc) sau analiza în componente principale(ACP)?

Ca în orice dispută ideatică, părerile sunt împărţite: unii autori susținând


evitarea ACP, în timp ce altii o recomandă.
Totuşi, se distinge faptul că:
- metoda ACP este recomandată îndeosebi atunci când obiectivul analizei
este acela de a investiga un volum mare de date, metoda permiţând
reducerea dimensionalităţii la o structură care reține cât mai multă
variabilitate comună;
- metoda AFc este recomandată dacă scopul analizei este modelarea unei
anumite structuri a corelațiilor dintre variabilele manifeste, permiţând
astfel o reprezentare cât mai economică a relațiilor dintre variabilele
modelului analizat.
Capitolul 4. Analiza factorială(AF) 7

B. Analiza factorială de confirmare (AFC)

Această metodă se bazează pe faptul că cercetătorul are un model aprioric


cu privire la structurarea variabilelor, obiectivul AFC fiind tocmai acela de a-l
verifica/testa. Încercându-se astfel potrivirea modelului cu structura variabilelor
conţinute.
În analiza factorială de confirmare (confirmatorie), structura dependenţei
cauzale sau construcţia cauzală teoretică sunt presupuse a fi cunoscute, adică date
prin ipoteză. Prin intermediul teoriei de acest tip se urmăreşte confirmarea unei
anumite teorii şi verificarea acestei teorii pe cale empirică.
Definiţia 4.7. Analiza factorială confirmatorie reprezintă acea modalitate de
utilizare a analizei factoriale, care are ca scop confirmarea unor ipoteze şi teorii
privind structura unei dependenţe cauzale.
Ca abordări specifice ale metodei AFC pot fi evidenţiate:
- metoda tradițională;
- modelarea bazată pe ecuații de structură (Structural Equation Modeling);
- modelarea bazată pe logica inductiv-epirică;
- modelarea bazată pe logica ipotetic-deductivă.

4.4. Probleme fundamentale ale analizei factoriale (AF)

Principalele probleme ce apar în procesul de aplicare a metodei bazată pe


analiza factorială sunt:
- combinarea mai multor variabile într-un singur factor;
- alegerea metodei potrivite de extragere a factorilor;
- indicatori numerici ai factorilor;
- rotaţia factorilor;
- identificarea propriu-zisă a factorilor

Combinarea mai multor variabile într-un singur factor

Imaginea intuitivă a combinării (reducerii) variabilelor este graficul


scatterplot al corelaţiei, linia de regresie trasată prin norul de puncte al graficului
reprezentând cea mai bună aproximare a relaţiei liniare dintre cele două variabile
analizate.
Ca urmare:
- valorile care se plasează pe linia de regresie captează esenţa variaţiei
comune a celor două variabile corelate;
- acest procedeu intuitive este echivalent cu ceea ce, în analiza factorială, se
numeşte extragerea componentelor principale.

Alegerea metodei potrivite de extragere a factorilor


8 Analiza Datelor. Teorie şi aplicaţii

În contrapartidă la metoda ACP pot fi puse următoarele metode:


- unweighted least squares;
- generalized least squares;
- maximum likelihood, cu remarca de respectare a condiției de normalitate;
- principal axis factoring, atunci când nu se respectă condiția de normalitate;
- alpha factoring, ce maximizează indicele de consistență internă la nivelul
factorilor;
- image factoring, ce utilizează matricea de corelație a variabilelor prezise pe
baza regresiei multiple.

Indicatori numerici ai factorilor

Principalii indicatori numerici ai factorilor sunt:


- valorile factorilor, ce evidenţiază scorul particular compus prin contribuția
variabilelor;
- încărcarea factorilor, ce evidenţiază coeficientul de corelație dintre
variabile și factorii aferenți;
- comunalitatea, poate fi interpretată ca:
o siguranța indicatorului reprezentat de acea variabilă;
o pătratul corelației multiple pentru fiecare variabilă manifestă,
utilizată drept criteriu, și toți factorii, utilizați drept predictori;
o procentul varianței unei variabile explicată de factorii reuniți;
o .

Rotația factorilor

Rotația factorilor reprezintă rotația propriu-zisă, ca modalitate de rotire a


spațiului de variație astfel încât varianța să se distribuie optim între factori.
Vom avea astfel:
- soluție inițială, caz în care factorii înglobează o anumită cantitate de
varianță comună;
- soluția finală, caz în care se realizează maximizarea varianței încorporate
în fiecare factor;
Într-o reprezentare grafică sugestivă avem:
Capitolul 4. Analiza factorială(AF) 9

Figura 4.2.

Ca tipuri de rotație a factorilor avem:


- rotaţia ortogonală;
- rotaţia oblică.

Figura 4.3.

Figura 4.4.
10 Analiza Datelor. Teorie şi aplicaţii

Figura 4.5.

Identificarea propriu-zisă a factorilor

Aceasta presupune următoarele aspect esenţiale:


- alegerea numărului de factori;
- denumirea factorilor.

Alegerea numărului factorilor

- metoda K1 (Kaiser), presupune determinarea:


o indicilor eigenvalue (0-1);
o sumei coeficienţilor r2 dintre fiecare factor şi variabilele care intră
în compunerea lor;
o se rețin factorii cu eigenvalue ≥1;
o desi este un subiect controversat, este totuşi soluția cea mai
frecvent utilizată.
- Cattel’s Scree test, presupune:
o explorararea vizuală a graficului valorilor eigenvalue;
- principiul simplității (economiei) și al utilității practice;

Denumirea factorilor

Pentru a realiza acest aspect se au în vedere următoarele:


- atribuirea semnificației psihologice, în sensul că:
o factorii se definesc prin gradul de încărcare (saturaţie);
o cu cât un factor are o saturaţie mai mare în raport cu anumite
variabile, cu atât aceste variabile acoperă o semnificaţie comună
mai consistentă;
- reguli folosite, în sensul că factorii trebuie:
o sa fie succinţi, exprimaţi, dacă este posibil, printr-unul sau două
cuvinte;
o să exprime şi să comunice natura constructului la care se referă
(pentru AFc nu se pune problema);
Capitolul 4. Analiza factorială(AF) 11

o variabilele care intră în compunerea factorilor vor fi analizate sub


aspectul semnificaţiei (similitudinii);
o analizarea variabilelor care nu intră în componenţa unui factor.

4.5. Condiţii preliminare

În analiza specifică, se au în vedere următoarele aspecte:


- în ceea ce priveşte variabile măsurate la nivel cantitativ(interval/raport),
pot fi incluse în analiză și variabile ordinale sau chiar dihotomice, chiar
dacă, se apreciază că în acest cay factorii vor fi mai greu de interpretat;
- în ceea ce priveşte distribuţia normală, aceasta este o condiţie cu atât mai
puţin restrictivă cu cât volumul eşantionului este mai mare;
- absența valorilor extreme;
- alegerea atentă a variabilelor, în sensul că variabile nerelevante, sau
excluderea unora relevante, afectează calitatea modelului factorial;
- liniaritatea, în sensul că se urmăreşte o corelație între variabile de cel puţin
0.30;
- normalitatea multivariată, în sensul că în absența evaluării directe a
acesteia, investigarea normalității univariate este obligatore;
- existența unor constructe reale, în sensul că acestea exprimă dimensiuni
psihologice existente în realitate.
- intercorelații moderate și moderat-ridicate, fără multicolinearitate, în sensul
că:
o indicele KMO poate oferi o referinţă utilă cu privire la existența
multicolinearității;
o există un indice KMO pentru fiecare variabilă;
o suma acestora este indicele global KMO;
o indicele global KMO variază între 0 și 1, iar analiza factorială este
justificată dacă valoarea lui este mare (de regulă peste 0.60).
- un eșantion adecvat conduce la următoarele aspecte:
o o structurare factorială puternică, presupune un eșantion mai mic;
o o structurare factorială slabă, presupune un eșantion mai mare;
o este greu de pus în evidență o structură factorială pe un eșantion
mai mic de 50 de cazuri;
o cca 100 de cazuri este un eșantion mic;
o cca 200 de cazuri sunt suficiente;
o cca 300 de cazuri este un eșantion bun;
o cca 500 de cazuri este un eșantion foarte bun;
o cca 1000 de cazuri este un eşantion excellent.
12 Analiza Datelor. Teorie şi aplicaţii

4.6. Structura generală a modelului factorial

În formularea sa cea mai generală, formulare extrem de necesară pentru


precizări cu caracter terminologic şi pentru formularera unor ipoteze de natură
teoretică, modelul analizei factoriale are la bază două ipoteze fundamentale.
Ipoteza 4.1. Nivelul sau valorile unui ansamblu de variabile aleatoare (variabile
cauzale, variabile observate sau indicatori), de regulă centrate sau standardizate,
..., se formează ca rezultat exclusiv al influenţei a trei categorii de
factori:
- o mulţime formată din p factori comuni(variabile latente), ,
a căror influenţă se consideră a se exercita asupra fiecăreia dintre cele n
variabile considerate;
- o mulţime formată din n factori unici, ..., , a căror influenţă se
consideră a se exercita în mod individual, fiecare factor unic influenţând
una şi numai una dintre variabilele considerate;
- o mulţime de n factori reziduali (specifici), ..., , a căror
influenţă se consideră a fi exercitată tot în mod individual, fiecare factor
rezidual influenţând câte o singură variabilă.
Din punct de vedere statistic, se consideră că influenţele semnificative, care
trebuie reţinute în analiză, sunt cele exercitate de factorii comuni şi unici, în timp
ce influenţele factorilor reziduali, se consideră a avea caracter accidental,
nesemnificativ.
La nivelul fiecărei variabile, influenţa factorului rezidual corespunzător
poate fi considerată a fi neglijabilă şi este asimilabilă erorilor de măsurare. Din
acest motiv, factorii reziduali se mai numesc şi erori.
În ceea ce priveşte factorii comuni, există posibilitatea ca în cazul anumitor
variabile influenţa lor asupra acestor variabile să fie neglijabilă sau chiar nulă, ceea
ce înseamnă că factorii respectivi pot fi eliminaţi din lista factorilor pentru variabila
respectivă. În aceste condiţii, este posibil ca schema de influenţă pentru anumite
variabile să conţină mai mulţi factori comuni, iar pentru alte variabile mai puţini.
Numărul de factori comuni cu influenţă semnificativă asupra variabilei indicator
determină complexitatea variabilei indicator respective.
Faptul că influenţele considerate sunt structurate pe cele trei categorii de
factori, determină o anumită structură a modelului factorial general, structură
evidenţiată de reaţiile următoare:

..., ,... , pentru

unde funcţiile sunt funcţii reale de m+1 variabile, funcţii care pot fi
liniare sau nelininare în raport cu variabilele.
Cu toate că funcţiile pot fi, în principiu, liniare sau
neliniare, aproape în toate cazurile, atât în cele legate de teoria analizei factoriale,
Capitolul 4. Analiza factorială(AF) 13

cât şi în cele legate de utilizarea acesteia în aplicaţii, este considerată varianta


liniară, ceea ce înseamnă că relaţiile care definesc modelul au forma următoare:

+ , pentru

Coeficienţii factorilor comuni sunt , cunoscuţi sub


numele de intensităţi ale factorilor comuni. Prin magnitudinea sa coeficientul
măsoară intensitatea influenţei exercitate de factorul comun k asupra nivelului
variabilei indicator/cauzală j, iar prin semnul său măsoară sensul influenţei
exercitate.
Definiţia 4.8. Se numeşte intensitate a unui factor comun(variabilă latentă) în
raport cu o variabilă indicator(cauzală, observată) , mărimea (numită şi
coeficient factorial (factor loadings)), care arată cu câte unităţi se modifică nivelul
variabilei indicator , atunci când nivelul factorului comun creşte cu o unitate.
Ipoteza 4.2. Cea de-a doua ipoteză pe care se fundamentează analiza factorială este
aceea că în conţinutul informaţional al variabilelor aleatoare (indicator, cauzală,
observată) ..., se regăsesc informaţii cu privire la factorii comuni şi
unici, ceea ce înseamnă că ele pot fi folosite ca indicatori ai acestor factori, ca
semnale informaţionale generate de aceşti factori.
Având în vedere că la nivelul unei variabile indicator, nu se poate face, sub
nici o formă, o distincţie clară între factorul unic şi factorul rezidual, din motive
legate de simplificare şi de crearea posibilităţilor de soluţionare efectivă a
problemei de analiză factorială, factorul rezidual este neglijat sau, ceea ce
înseamnă acelaşi lucru, este unificat cu factorul unic.
În consecinţă, modelul factorial capătă forma următoare:
(Analiza factorială descrie fiecare variabilă cauzală ca o combinație liniară de
factori comuni (variabile latente) plus un factor unic sau specific, astfel:

+ , pentru
sau matriceal:

unde:
14 Analiza Datelor. Teorie şi aplicaţii

În raport cu această ultimă formă a modelului factorial se defineşte


conceptul de configuraţie factorială, concept care este folosit şi într-un sens mai
larg, cu referire la întregul set de ecuaţii care defineşte modelul.
În continuarea prezentării, vom nota matricea de corelaţie a variabilelor
indicator /cauzale cu R, respectiv:

unde elementele de pe diagonala principală sunt egale cu unitatea, respectiv


.
Întrucât, de regulă variabilele indicator sunt considerate a fi centrate,
matricea de corelaţie a acestora coincide cu matricea de covarianţă. În ceea ce
priveşte cei p factori comuni, vom nota matricea de covarianţă a acestora sub forma
următoare:

unde elementul diagonal din această matrice reprezintă varianţa factorului


comun , iar elementul nediagonal reprezintă covarianţa dintre factorul şi
. În anumite situaţii, pentru varianţa factorului comun se foloseşte notaţia ,
adică .
Dacă factorii comuni sunt mărimi standardizate, atunci matricea de
corelaţie a factorilor comuni coincide cu matricea de covarianţă a acestor factori. În
Capitolul 4. Analiza factorială(AF) 15

această situaţie, elementele diagonale sunt egale cu unitatea, respectiv


.

4.7. Descompunerea variabilităţii spaţiului iniţial

În mod similar cu analiza în componente principale, analiza factorială îşi


propune să reexprime variabilitatea conţinută în spaţiul cauzal iniţial, într-o
manieră diferenţiată, în funcţie de rolul pe care îl au în formarea acesteia factorii
comuni, pe de o parte, şi factorii unici, pe de altă parte.
În cadrul acestui paragraf, vom trata modul în care varianţa unei variabile
aleatoare poate fi descompusă în componente relevante din punct de vedere al
interpretărilor interdependenţelor cauzale.

4.7.1 Spaţiul factor şi exprimarea conţinutului său informaţional

Prin utilizarea tehnicile de analiză multidimensională care au ca scop reducerea


dimensionalităţii, variabilitatea spaţiului cauzal m-dimensional, determinat de
mulţimea de variabile indicator ..., , este conservată într-o proporţie,
mai mare sau mai mică, prin intermediul variabilităţii induse de un număr mai
redus de factori abstracţi, , cu , care sunt factorii comuni.
Împreună cu factorul unic, aceşti factori determină un spaţiu -dimensional
numit spaţiul test sau spaţiul factor.
Definiţia 4.9. Spaţiul test sau spaţiul factor este un spaţiu real, de dimensiune
, ale cărui axe sunt ortogonale două câte două şi sunt reprezentate de factorii
comuni şi de factorul vectorial unic ..., .
Variabilitatea ce caracterizează celor două spaţii implicate în analiză,
spaţiul original şi spaţiul test, este măsurată prin intermediul varianţei sau
dispersiei.
În analiza datelor se consideră că, pentru oricare dintre variabilele care
definesc spaţiul cauzal original, varianţa este o măsură a informaţiei conţinută în
observaţiile efectuate asupra respectivei variabile.
Între gradul de variabilitate specific unei variabile şi semnificaţia
informaţional-statistică produsă de observaţiile făcute asupra respectivei variabile
există un stabil raport de directă proporţionalitate, considerându-se că o variabilă
este cu atât mai semnificativă cu cât variabilitatea sa este mai mare.

4.7.2 Componentele varianţei

După cum am mai evidenţiat, spre deosebire de analiza componentelor


principale, în contextul căreia variabilitatea ce caracterizează spaţiul cauzal iniţial
este privită nediferenţiat, în analiza factorială variabilitatea spaţiului cauzal iniţial
este considerată a fi o compunere de variabilităţi, care se formează sub influenţa
factorilor consideraţi.
16 Analiza Datelor. Teorie şi aplicaţii

Corespunzător celor trei categorii generale de factori consideraţi a influenţa


variabila indicator , respectiv comuni, unici şi reziduali, în analiza factorială se
postulează ipoteza conformă căreia varianţa , corespunzătoare variabilei ,
poate fi împărţită în trei compomnente importante:
- componenta , numită comunalitate, care este acea parte a varianţei
totale ce exprimă informaţia comună tuturor variabilelor care definesc
spaţiul cauzal m-dimensional şi care se formează sub influenţa factorilor
comuni ;
- componenta , numită unicitate, care este acea parte a varianţei totale ce
exprimă informaţie semnificativă de natură specifică, caracteristică
variabilei particulare şi care se formează sub influenţa factorului unic
;
- componenta , numită rezidualitate sau eroare, care este acea parte a
varianţei totale formată sub influenţa factorului rezidual asociat cu
variabila respectivă şi exprimă informaţie nesemnificativă cu caracter
specific variabilei .
Pe baza celor trei tipuri de influenţe menţionate anterior, varianţa variabilei
indicator poate fi descompusă sub forma:

unde mărimile , şi reprezintă, aşa cum o să arătăm în continuare, tot


varianţe. Această relaţie defineşte descompunerea varianţei unei variabile indicator
în funcţie de varianţele celor trei categorii factori care influenţează variabila
respectivă. Deşi cele trei componente ale descompunerii au natură de varianţe, ele
nu trebuie identificate ca reprezentând varianţe ale factorilor, deoarece
descompunerea este făcută doar în funcţie de varianţele factorilor. Cu excepţia
celei de-a treia componente a descompunerii, care este chiar varianţa factorului
rezidual, primelor două componente nu li se poate atribui calitatea de varianţe ale
factorilor.
Primele două componente sunt determinate de coeficienţii care ponderează
varianţelor factorilor, ceea ce înseamnă că ele reprezintă contribuţii ale varianţelor
factorilor la formarea varianţei variabilei indicator. De fapt, în condiţiile unor
ipoteze privind necorelarea factorilor, forma completă a relaţiei de descompunere a
varianţei variabilei indicator poate fi scrisă astfel:
Capitolul 4. Analiza factorială(AF) 17

Este evident că pătratele coeficienţilor care ponderează varianţele factorilor


reprezintă contribuţii ale factorilor la formarea varianţei variabilei indicator. Forma
simplificată a descompunerii rezultă din impunerea ipotezei că varianţele factorilor
comuni şi unic sunt egale cu unitatea şi din definirea comunalităţii ca sumă a
contribuţiilor factorilor comuni la formarea varianţei indicator, respectiv:

Componenta cea mai importantă a varianţei variabilei indicator este


comunalitatea, care exprimă contribuţia factorilor comuni la formarea varianţei
variabilei indicator şi care poate fi privită, la rândul său, ca o varianţă.
Definiţiea 4.10. Comunalitatea este acea parte a varianţei unei variabile indicator,
care exprimă variabilitatea indusă de influenţa factorilor comuni
Având în vedere că la formarea variabilităţii unei variabile indicator
contribuie, în principiu, toţi cei m factori comuni, comunalitatea poate fi
descompusă, la rândul său, în raport cu cele m influenţe.
Cea de-a doua componentă a varianţei variabilei indicator, numită
unicitate, exprimă contribuţia factorului unic la formarea varianţei variabilei
indicator şi are, de asemenea, natură de varianţă. Ea se mai numeşte şi varianţă
unică, şi se defineşte astfel:
Definiţia 4.11. Unicitatea este acea parte a varianţei unei variabile indicator, care
exprimă variabilitatea indusă de influenţa factorului unic şi care nu poate fi
explicată prin intermediul factorilor comuni.
Ultima componentă a varianţei variabilei indicator, respectiv cea datorată
factorului rezidual, reflectă influenţa erorilor de măsurare asupra formării
variabilităţii variabilei indicator şi se mai numeşte şi varianţă reziduală sau
varianţă eroare. De cele mai multe ori, această influenţă este considerată a fi
neglijabilă în raport cu celelalte influenţe.
Cu excepţia varianţei reziduale, care exprimă influenţa factorilor cu natură
accidentală, a cauzelor aleatorii, imprevizibile şi nesemnificative, celelalte două
componente, comunalitatea şi unicitatea, exprimă influenţe de natură sistematică
asupra formării variabilităţii variabilei indicator, influenţe cu caracter permanent şi
stabil. Din acest punct de vedere, varianţa variabilei indicator, , poate fi privită ca
fiind suma a două tipuri de varianţe: varianţa sistematică şi varianţa reziduală.
Dacă vom nota varianţa sistematică cu , adică:

atunci varianţa variabilei indicator, , poate fi scrisă sub forma:


18 Analiza Datelor. Teorie şi aplicaţii

Din această reformulare rezultă că varianţa variabilei indicator poate fi


descompusă ca sumă a două componente numite sistematicitate şi rezidualitate.
Pe de altă parte, influenţa factorului unic şi influenţa factorului rezidual
se caracterizează prin faptul că au o direcţionalitate specifică, bine determinată,
fiind raportate numai la o anumită variabilă indicator. Din acest punct de vedere,
contribuţia celor doi factori la formarea varianţei variabilei indicator este numită
specificitate, , care se defineşte sub forma:

Pe baza acestei noi redefiniri a componentelor, varianţa variabilei


indicator, , poate fi rescrisă sub forma următoare:

4.8. Configuraţia factor şi structura factor

În analiza factorială se definesc două concepte fundamentale, care


sintetizează o serie de mărimi importante, specific analizei factoriale. Aceste
mărimi sunt reprezentate de coeficienţii factorilor şi de coeficienţii de corelaţie
dintre variabilele indicator şi factori, iar sintetizarea este făcută prin intermediul
conceptelor numite configuraţie factor şi structură factor.

4.8.1 Definirea configuraţiei factor

Conceptul de configuraţie factor sau configuraţie factorială se referă la


intensităţile factorilor comuni şi poate fi definit astfel:
Definiţia 4.12. Se numeşte configuraţie factor mulţimea intensităţilor
corespunzătoare factorilor comuni ce apar într-un model factorial.
Dacă se ţinea seama şi de intervenţia într-un model de analiză factorială a
factorului specific, atunci poate fi definit conceptul de configuraţie factor extinsă.
Configuraţia factor este foarte importantă în cadrul analizei factoriale din mai
multe puncte de vedere. În primul rând, elementele care intră în alcătuirea
configuraţiei factor caracterizează intensitatea şi sensul influenţelor exercitate de
factori asupra formării nivelului variabilelor indicator. De asemenea, configuraţia
factor, în varianta sa extinsă, este importantă deoarece ea se constituie ca o
reprezentare simplificată şi completă a modelului factorial.
Un alt element de importanţă pentru configuraţia factorială rezultă din
faptul că elementele acesteia stau la baza determină rii elementelor structurii factor
şi pot fi utilizate în reproducerea, pe diferite nivele, a corelaţiilor dintre variabilele
indicator.
Capitolul 4. Analiza factorială(AF) 19

În sfârşit, configuraţia factor este utilă în efectuarea unor comparaţii între


diferite sisteme de factori, care sunt exprimabile prin intermediul aceleiaşi
combinaţii de indicatori.

4.8.2 Definirea structurii factor

O problemă importantă a analizei factoriale, a cărei soluţionare ţine de


esenţă analizei factoriale, este aceea a determinării corelaţiilor dintre variabilele
indicator şi factorii comuni, pe de o parte, şi dintre variabilele indicator şi factorii
specifici, pe de altă parte.
Pe baza conceptului de corelaţie între variabilele indicator şi factori, poate
fi definit cel de-al doile concept, structura factor sau structura factorială. Structura
factor mai este cunoscută în teoria destinată analizei factoriale şi sub numele de
matrice factor. Matricea factor are aceeaşi interpretare cu cea dată în cazul
componentelor principale.
Definiţia 4.13. Se numeşte structură factor sau structură factorială mulţimea
coeficienţilor de corelaţie dintre variabilele indicator ale unui model factorial şi
factorii comuni incluşi în acest model.
Importanţa structurii factor în cadrul analizei factoriale constă în aceea că
ea evidenţiază corelaţiile existente între variabilele indicator şi factorii comuni şi
facilitează interpretarea esenţei factorilor comuni, prin prisma naturii pe care o au
variabilele indicator. Spre deosebire de configuraţia factorială care sintetizează
exprimarea variabilelor indicatori sub formă de combinaţii liniare de factorii
comuni şi specifici, structura factorială evidenţiază schema legăturilor existente
între indicatori şi factori.
Structura factorială este considerată în cadrul analizei factoriale ca fiind
una dintre numeroasele soluţii posibile pentru o anumită problemă concretă. De
altfel, structura factorială mai este cunoscută în literatura de specialitate şi sub
numele de soluţie factor sau soluţie factorială.
În numeroase situaţii practice, soluţia factorială obţinută iniţial nu
întruneşte toate condiţiile necesare pentru a permite o interpretare facilă a
factorilor. De multe ori, se poate întâmpla, ca elementele structurii factor să
sugereze interpretări ale factorilor care să vină în contradicţie cu posibila esenţă ce
poate fi atribuită, în mod logic, factorilor.
În aceste situaţii este necesară găsirea altor soluţii factor, care să permită o
mai bună interpretare şi o mai consistentă interpretare a factorilor. În scopul
creşterii posibilităţilor de interpretare şi a consistenţei acestor interpretări, structura
factor poate fi supusă unei proces de rotaţie, în urma căruia rezultă structura factor
rotită.

4.9. Calculul scorurilor factoriale

O anumită observaţie, corespunzătoare unui factor dat, este determinată


sub forma unui scor corespunzător respectivului factor, scor format pe baza
20 Analiza Datelor. Teorie şi aplicaţii

contribuţiei variabilelor originale. Exprimarea generică a scorurilor pentru un


anumit factor comun în funcţie de variabilele originale este dată de următoarea
relaţie:

, pentru

unde reprezintă coeficienţii scorurilor factor şi sunt elemente ale transpusei


matricei factor F. Sub formă matricială această relaţie poate fi scrisă astfel:

În mod practic, exprimarea celor m observaţii efectuate asupra variabilelor


originale sub forma scorurilor factor, respectiv calculul concret al scorurilor
factor, se bazează pe următoarele relaţii:

, pentru şi

unde reprezintă scorurile factorilor, este elementul din linia k şi coloana i a


transpusei matricii factor, iar este cea de-a i-a observaţie efectuată asupra celei
de-a j-a variabile originale.
Dacă vom considera transpusa matricei de observaţii X, ale cărei linii
reprezintă cele n variabile originale şi ale cărei coloane reprezintă cele m observaţii
făcute asupra acestor variabile, ca având forma următoare:

şi matricea factor F definită mai sus, atunci matricea Z de dimensiune p×m definită
astfel:

se numeşte matricea scorurilor factor. Scorurile factor determinate în acest fel


pot fi folosite în analize ulterioare, în locul valorilor variabilelor originale.

4.10. Criterii de alegere a numărului de factori


Capitolul 4. Analiza factorială(AF) 21

Utilizarea analizei factoriale pentru rezolvarea unor probleme specifice


presupune şi determinarea numărului de factori comuni ce vor fi reţinuţi în model.
Deşi decizia de a reţine un anumit număr de factori este, în principiu, subiectivă,
există o serie de criterii care pot să orienteze utilizatorul atunci când ia o astfel de
decizie.

4.10.1. Criteriul procentului de acoperire

În general, alegerea numărului de factori care să fie incluşi în modelul


factorial depinde de proporţia din variabilitatea comună conţinută în spaţiul cauzal
iniţial pe care utilizatorul doreşte s-o exprime prin intermediul unei succesiuni de
factori comuni. O estimaţie aproximativă a acestei proporţii, pentru cazul în care
numărul de factori reţinuţi este egal cu k, poate fi obţinută cu ajutorul formulei:

unde k reprezintă numărul de factori reţinuţi în model, n reprezintă numărul


variabilelor originale, iar reprezintă valoarea proprie în raport cu care este
definit factorul comun j.
Dezavantajul major al utilizării unei astfel de aproximaţii în problemele de
analiză factorială este dat de faptul că mărimea arată care este ponderea
varianţei primelor k componente principale în varianţa totală şi nu ponderea
varianţei explicate de primii k factori comuni în varianţa spaţiului test; acest lucru
reprezintă un inconvenient deoarece între componentele principale şi factorii
comuni există, aşa cum am mai arătat, o deosebire de esenţă.

4.10.2 Criteriul lui Kaiser

Acest criteriu poate fi folosit atunci când analiza factorială este efectuată
pe o matrice de corelaţie, adică atunci când se presupune că variabilele originale
sunt standardizate. În conformitate cu acest criteriu, numărul de factori necesari a fi
incluşi într-un model de analiză factorială este egal cu numărul de valori proprii
mai mari sau egale cu 1.
Justificarea acestui criteriu este dată de faptul că, pentru analiză, prezintă
importanţă numai acei factori comuni a căror varianţă este cel puţin egală cu
varianţa variabilelor originale, variabile care, fiind normalizate, au varianţa unitară.
În afara faptului că un astfel de criteriu poate fi folosit numai în cazul în
care se lucrează cu variabile normalizate, dezavantajul principal al criteriului
Kaiser este dat de faptul că aplicarea lui conduce la reţinerea în model a unui
număr prea mare de factori.

4.10.3 Criteriul "granulozităţii"


22 Analiza Datelor. Teorie şi aplicaţii

După acest criteriu, numărul de factori ce vor fi reţinuţi în modelul de


analiză factorială se stabileşte pe baza unei analize grafice a valorilor proprii.
Graficul pe care se face analiza se construieşte luând în abscisă numărul de ordine
al valorilor proprii, iar în ordonată valorile acestor valori proprii.
Faptul că, aşa cum ştim, valorile proprii sunt ordonate după magnitudinea
lor descrescătoare va face ca graficul să aibă forma aproximativă a unei curbe de
tipul exponenţialei negative.
Numărul de factori ce se vor reţine în model este determinat de punctul de
pe grafic în dreapta căruia panta curbei devine neglijabilă, numărul de ordine al
valorii proprii corespunzătoare acestui punct determinând numărul de factori ce se
vor reţine.
Dezavantajul acestui criteriu constă în faptul că aplicarea sa conduce la
reţinerea în modelul analizei factoriale a unui număr prea mic de factori comuni.
În practică, alegerea unui anumit număr de factori comuni este puternic
dependentă de natura problemei analizate şi de scopul urmărit în utilizarea analizei
factoriale. De multe ori, scopurile practice urmărite în analize de acest fel pot
conduce la necesitatea de a obţine un singur factor sau cel mult doi. Construirea
unui model cu unul sau doi factori comuni are şi avantajul, care nu este de neglijat,
că facilitează reprezentarea grafică a mărimilor analizei factoriale, reprezentare
care poate să fie deosebit de utilă în faza de interpretare a rezultatelor.

4.11. Aspecte problematice ale analizei factoriale (AF)

Principalele aspecte de luat în seamă în contextual analizei factoriale sunt:


- erorile de măsurare au efect asupra soluției factoriale;
- rotația, deși acceptabilă matematic, este discutabilă prin subiectivism;
- avem de-a face cu o interpretare dificilă și dependentă de intuiția
analistului;
- în cazul unui număr foarte mare de variabile, pot rezulta prea mulți factori
pentru a putea fi analizați (înțeleși);
- analiza factorială nu produce rezultate viabile cu itemi binari;

4.12. Aspecte analitice ale analizei factoriale

Întrucât analiza factorială descrie fiecare variabilă cauzală ca o combinație


liniară de factori comuni (variabile latente) plus un factor unic sau specific, avem
astfel forma analitică ce pleacă de la matricea informaţională iniţială clasică:
Capitolul 4. Analiza factorială(AF) 23

.  

unde p este numărul factorilor comuni ( ),


, , sunt variabilele cauzale (variabilele observate) centrate sau
standardizate, , , sunt factorii comuni, , pentru ,
sunt factorii specifici, iar , , sunt coeficienții
factoriali (factor loadings) corespunzători variabilei observate j şi factorul comun k.
Matriceal, legătura dintre variabilele observate și factori comuni se poate
scrie astfel:

sau

sau
, pentru

unde x este matricea observaţíilor, este transpusa matricei coeficienților


factoriali, este matricea factorilor specifici, iar este matricea factorilor comuni
ordonaţi pe coloane.

Ipotezele modelului analitic


24 Analiza Datelor. Teorie şi aplicaţii

Ipoteza 1. Factorii comuni sunt standardizați, prin urmare vor fi de varianță 1 și


medie 0.
Ipoteza 2. Factorii comuni sunt construiți după principiul separației
informaționale, deci sunt necorelați doi câte doi, adică:

, pentru ;

Ipoteza 3. Factorii specifici sunt de medie 0.


Ipoteza 4. Varianța factorilor specifici se notează cu , pentru
și se numește varianța specifică.
Ipoteza 5. Corelațiile și covarianțele dintre factorii specifici sunt zero, adică:

, pentru ;

Ipoteza 5. Între factorii comuni și factorii specifici nu există suprapunere de


informație, deci sunt absolut necorelați între ei, adică:

, pentru

Aceste ipoteze sunt necesare pentru a estima în mod unic parametrii


modelului. Având în vedere aceste ipoteze, varianța unei variabile observate este:

Suma

se numește comunalitatea variabilei sau echivalent în a scrie . Se observă că


dacă variabilele , pentru sunt standardizate, comunalitățile au
Capitolul 4. Analiza factorială(AF) 25

valori cel mult egale cu 1. Comunalitatea reprezintă variabilitatea comună, datorată


factorilor comuni.
Covarianța dintre două variabile observate este:

pentru
Covarianța dintre o variabilă observată și un factor comun este:

Ținând cont de aceste relații, matricea de covarianță a tabelului de


observații se poate scrie:

unde

este matricea diagonală a varianțelor factorilor specifici.

Estimarea existenței factorilor

Ipoteza existenței unor factori latenți este indusă de o corelație


semnificativă dintre variabilele cauzale. Variabilitatea comună a variabilelor
cauzale conduce la ideea explicării acesteia prin existența unor factori ascunși.
Deci, pe baza matricei de corelații a variabilelor cauzale se poate estima
existența factorilor comuni. Există mai multe teste prin care se poate testa ipoteza
existenței factorilor pe baza matricei de corelații.

Testul de sfericitate Bartlett

Este un test χ2 care compară matricea de corelații cu matricea unitate.


Ipotezele testului:
H0: Nu există factori comuni;
26 Analiza Datelor. Teorie şi aplicaţii

H1: Există cel puțin un factor comun.


În cazul unor variabile absolut necorelate, determinantul matricei de
corelații este 1.
Statistica testului:

unde R este matricea de corelaţie a variabilelor indicator /cauzale:

m reprezintă numărul de instanțe/observaţii/indivizi și n numărul de variabile.


Aceste valori urmează o distribuție cu n(n-1)/2 grade de libertate.
Dacă

ipoteza nulă este respinsă pentru un nivel de încredere de .

Indicele KMO (Kaiser-Meyer-Olkin)

Se bazează tot pe matricea de corelații. Indicele KMO global se calculează astfel:

unde este coeficientul de corelație liniară dintre variabilele iar


reprezintă coeficientul de corelație parțială dintre variabilele . Indicii KMO
pentru fiecare variabilă se calculează astfel:

pentru .
Capitolul 4. Analiza factorială(AF) 27

Acești indici arată care variabile sunt mai puțin corelate cu celelalte, deci
oferă mai puțină variabilitate comună.
Coeficientul de corelație parțială dintre două variabile, , se
calculează astfel:

unde este termenul general al matricei . Corelația parțială reprezintă


legătura liniară dintre două variabile în condițiile în care sunt neutralizate efectele
celorlalte variabile din model asupra celor două variabile.
Interpretarea valorilor KMO: [0.90,1.00] - foarte bună factorabilitate;
[0.80, 0.9) - bună factorabilitate; [0.70 ,0.8) – medie; [0.60, 0.7) – mediocre; [0.50,
0.6) – slabă; [0.00, 0.5) - fără factori comuni.

S-ar putea să vă placă și