Sunteți pe pagina 1din 6

Analiza factorial

Tehnic statistico-matematic pentru reducerea datelor. Prin a.f. se determin factorii (variabilele latente) care pot explica variaia unui set de variabile direct observabile (manifeste), corelaiile dintre ele i intensitatea legturii dintre factori i fiecare dintre variabilele manifeste. Factorii care explic variaia a cel puin dou variabile se numesc factori comuni. Cei care explic variaia tuturor variabilelor snt denumii factori generali, iar cei limitai la numai un set de variabile factori de grup. n cazuln care snt asociai numai cu variaia unei singure variabile se cheam c snt factori specifici. Orice variabil x, standardizat, poate fi exprimat printr-o ecuaie asemntoare cu cea de regresie multipl: xi = a1iF1 + a2i F2 +-... + aji Fj + akiFk + uj. Coeficienii aij poart numele de coeficieni de saturaie ai variabilei i n factorul j i snt o msur a influenei factorului j asupra variabilei i. n cazul n care a.f. este astfel realizat nct factorii obinui snt independeni ( a.f. ortogonal) ntre ei (precum n cazul metodei componentelor principale a lui Hetelling) a ij pot fi considerai coeficieni de corelaie simpl ntre indicatori i factori. Dac a.f. genereaz factori neindependeni, atunci saturaiiie pot fi interpretate ca echivalente cu coeficienii de regresie parial standardizat (beta). Suma ptratelor coeficienilor de saturaie pentru o variabil dat n toi factorii comuni poart numele de comunalrtate i semnific proporia din variaia variabilei respective explicat de factorii comuni. Comunalitatea are aceeai semnificaie ca i coeficientul de determinaie multipl din analiza de regresie. Diferena const doar n faptul c variabilele independente pentru calcularea comunalitii snt factori cu caracter latent. Coeficientul ui msoar influena factorilor specifici i a erorilor de msurare asupra variabilei Xj. Ptratul coeficientului ui poart numele de unicitate i indic ponderea din variaia lui Xj neexplicat de factorii comuni. Matricea n care snt nscrii pe coloane factorii obinui iar pe linii saturaiiie corespunztoare fiecrei variabile poart numele de matrice a factorilor sau a pattern-ului factorial. Dac n a.f. snt incluse p variabile atunci variaia total din matricea respectiv este egal cu suma variaiilor specifice fiecrei variabile. n cazul n care se lucreaz cu variabile normalizate, care au abaterea standard i dispersia egal cu 1, dispersia total din matricea datelor iniiale este egal cu numrul de variabile (p x 1). Fiecare factor explic o anumit parte din aceast dispersie. Contribuia factorului la explicarea dispersiei totale este dat de suma ptratelor saturaiiior din factorul respectiv i poart numele de valoare proprie a factorului (eigen-valoare"). Aceasta poate fi exprimat ca cifr absolut sau relativ prin raportare la dispersia total din matricea de date. Cei mai simplu model de a.f. este cel n care se presupune existena unui singur factor comun. Acesta este modelul pe care Charles Spearman (1904), fondatorul a.f., l-a folosit pentru analiza rezultatelor obinute de ctre bieii dintr-o coal din Anglia la ase tipuri de msurtori: notele la limbi clasice (C), englez (E), francez (F), matematic (M),

evaluarea talentului muzical (T) i o msurare a capacitii sportive (P). Coeficienii de corelaie dintre cele ase msurri snt baza de pornire pentru a.f.:
C C F E 1,00 0,83 0,78 F 0,83 1,00 0,67 0,67 0,65 0,57 E 0,78 0,67 1,00 M 0,70 0,67 0,64 P 0,66 0,65 0,54 0,45 1,00 T 0,63 0,57 0,51 0,51 0,40

M 0,70 P T 0,66 0,63

0,64 1,00 0,54 0,51 0,45 0,51

0,40 1,00

Prelucrnd aceste date cu ajutorul unei variante de a.f. (metoda centroid propus de Cyril Burt, 1917) se obin urmtoarele rezultate: Factorul comun, inteligena general, explic, deci, n principal, performanele elevilor la
C saturaie F E M P T

0,962 0,883 0,815 0,743 0,662 0,645

comunalitate unicitate

0.92 0,78 0,66 0,55

0,44 0,42

0,08 0,22 0,34 0,45

0,56

0,58

limbile clasice (92%), la francez (78%) i la englez (66%), Performanele lor muzicale i sportive au, n schimb, determinri specifice puternice, independente de inteligena general. Dac modelul factorial adoptat este adecvat datelor, atunci este de ateptat ca matricea coeficienilor de corelaie observai s poat fi ct mai fidel reconstituit pe baza coeficienilor de saturaie. n condiiile n care diferenele ntre corelaiile empirice i cele teoretice (reconstruite) snt reduse, se poate considera c modelul factorial adoptat este concordant cu datele. Procedura de reconstruire a unei matrice de corelaii din coeficienii de saturaie este extrem de simpl n cazul a.f. ortogonale (cu factori independeni). Corelaia teoretic dintre dou variabile este egal, n astfel de cazuri, cu suma produselor dintre saturaiile corespunztoare acelor variabile pentru fiecare factor. n exemplul anterior, existnd un singur factor, corelaia teoretic dintre notele la limbi clasice i matematic, spre exemplu, este egal cu 0,962 x 0,743 = 0,71. Corelaia

empiric dintre aceleai variabile este practic identic (0,70). n matricea de mai jos snt date corelaiile corespunztoare exemplului menionat i, n paranteze, corelaiile reziduale ca diferene ntre corelaiile empirice i cele teoretice:

Dac valorile corelaiilor reziduale snt neglijabile, precum n exemplul menionat, atunci modelul factorial adoptat poate fi considerat ca adecvat (testul X2 poate fi folosit pentru estimarea concordanei modelului cu datele). Diferite tehnici factoriale au capaciti diferite de identificare a modelului cel mai simplu, adecvat unui set de date. Pornind de la principiile structurii simple, formulate de Thurstone (1935, 1947), n practica statistic actual (J. Loehlin, 1987) se consider c un model factorial este cu att mai simplu cu ct a. extrage un numr mai redus de factori (criteriul parcimoniei), b. conine un numr mai redus de saturaii cu valoare diferit de 0 sau are mai multe saturaii cu valoare absolut foarte mic. Cu importan mai redus n evaluarea simplitii snt i cerinele ca: c. factorii s fie independeni i d. saturaiile s aib o distribuie egal pe factori sau pe variabile, n legtur cu primele dou exigene se definesc secvenele de baz n a.f. explo-ratorie (cea n care nu se pornete de la un set de ipoteze iniiale n legtur cu saturaiile nule, precum n a.f. de confirmare): extragerea factorilor i rotaia factorilor. n cadrul primei secvene se determin cel mai mic numr de factori care explic o parte semnificativ din variaia total a indicatorilor folosii pentru analiz. Cele mai utilizate metode pentru aceasta snt metoda centroid (C. Burt, 1917), analiza componentelor principale (H. Hotelling, 1933), metoda factorilor canonici (Rao, 1955, Harris, 1962) i cea a factorilor Alfa (Kaiser i Caffrey, 1965). Analiza componentelor principale are un statut aparte n raport cu celelalte metode. Componentele principale snt simple combinaii liniare de variabile observabile i nu factori propriu-zii n sensul de variabile latente. Prin aceast metod se transform un set de p variabile observabile corelate ntr-un set de variabile necorelate (componente principale). Numrul de factori este egal cu numrul de variabile n acest caz. Dintre acetia, pentru recalcularea comunalitilor i pentru interpretare se rein numai cei cu valori proprii mari. Pentru a decide numrul de variabile latente (factori) care pot fi considerate ca semnificative pentru a explica intercorelaiile dintre variabilele observabile, pot fi folosite mai multe procedee. Cel mai simplu este dat de regula Kaiser-Quttman prin care se indic reinerea n model a tuturor factorilor

care au o valoare proprie mai mare dect 1. Testul grohotiului" (scree test, denumit astfel de ctre R.B. Cattel, 1966) opereaz n baza unei diagrame n care se noteaz pe ordonat mrimea valorii proprii a factorilor iar pe abscis numrul factorului. Tendina este ca dup primele valori proprii de nivel ridicat s urmeze valori proprii cu nivel din ce n ce mai redus. Punctul de cotitur al liniei care poate fi trasat n funcie de cele dou axe indic numrul de factori care trebuie reinui n model. Dup extragerea factorilor se procedeaz la aa-zisa lor rotire, operaie prin care se urmrete satisfacerea criteriului 2 de simplitate a modelului factorial. Practic, n urma unei astfel de rotiri rezult cu mai mult claritate variabilele care definesc un anume factor (n cadrul aceluiai factor se accentueaz decalajele dintre valorile saturaiilor). Rotaia de tip Quartimax (Neuhaus, Wrigley, 1954) este indicat n special n cazurile n care se presupune existena unui factor general, n schimb, analizele de tip Varimax (Kaiser, 1958) snt mai potrivite n ipoteza existenei unor factori de grup. Ambele variante de rotire a factorilor permit transformri ortogonale, n care factorii rmn independeni. A.f. oblice snt indicate n situaiile n care se poate susine ipoteza c factorii nu snt independeni ntre ei. Ieirile numerice din a.f. ortogonale snt saturaii le (a cror distribuie pe factori poart numele de pattern factorial), comunaiitile, unicitatea i valorile proprii. n plus fa de acestea, a.f. oblice dau i corelaiile dintre factori (matricea intercorelaiilor factoriale) i corelaiile dintre variabile i factori (matricea structurii factoriale). Interpretarea factorilor se face n funcie de saturaiile maxime specifice fiecruia dintre ei. Utilizarea a.f. n sociologie pune o serie de probleme legate n primul rnd de natura foarte diferit a variabilelor utilizate. Standardizarea variabilelor pentru a avea media 0 i abaterea standard 1 atenueaz oarecum aceast problem dar nu o elimin. Pe ct posibil, este indicat, deci, ca n a.f. s fie incluse variabile msurate cu aceleai uniti (J. Torrens-lbern, 1972). Atunci cnd datele de intrare snt coeficieni de corelaie, rezultatele a.f. au o valabilitate local, dependent de abaterile standard nregistrate pentru variabile n eantionul folosit. Pentru a compara patternurile factoriale ale aceluiai model n eantioane sau loturi diferite este mai indicat folosirea covariantelor n locul corelaiilor ca date de intrare. n al doilea rnd, structura cauzal presupus de modelul factorial este, se pare, mai puin ntlnit n sociologie dect n psihologie. O astfel de structur are configuraia dat de o variabil latent de la care pleac influene spre variabilele msurate. ntre acestea din urm se presupune c nu exist relaii cau zale directe. Or, o astfel de situaie este destul de greu de ntlnlt n analizele de tip sociologic. Linearitatea relaiilor dintre factori i indicatori este o alt condiie a aplicrii tehnicilor obinuite de a.f. Acestea snt destul de robuste" din acest punct de vedere. Folosirea cea mai frecvent a a.f. se face n cadrul modelelor de msurare. Obiectivul acestora este de a determina ct de bine estimeaz anumii indicatori o variabil latent. Supraaprecierea importanei sau relevanei unor indicatori n raport cu o variabil latent se produce n baza unor erori de selectare a indicatorilor respectivi. Dac alturi de indicatori corelai moderat ntre ei se includ n a.f. i indicatori cu grad foarte ridicat de intercorelare, interanjabili ntre ei, atunci este de ateptat ca saturaiile i respectiv comunalitiie corespunztoare acestora din urm s fie foarte mari n detrimentul celorlalte. Omiterea unor indicatori cu relevan sporit pentru o anume variabil latent poate duce ia subestimarea saturaiilor corespunztoare respectivei variabile. Pe de alt parte, itemii care coreleaz foarte

slab n matricea de corelaii iniiale este indicat s fie eliminai din a.f. deoarece este puin probabil ca ei s fie explicai prin factori comuni adecvai pe ansamblul matricei. Calitatea rezultatelor a.f. este influenat i de numrul de variabile i de uniti utilizate. Cu ct numrul de variabile observabile luate n consideraie este mai mare, cu att este mai mic eroarea posibil asociat cu modul de estimare a comunalitiior (La peste aproximativ 40 de variabile, o astfel de eroare are influene neglijabile asupra rezultatelor a.f. ). n legtur cu numrul de uniti, n mod relativ convenional se consider c acesta ar trebui s fie de aproximativ cinci ori mai multe dect numrul de variabile. n a.f. de confirmare snt implicate att un model de msurare, care predetermin relaiile dintre variabilele latente i indicatori, ct i un model structural prin care se specific relaiile dintre variabilele latente. De obicei, acesta din urm este redus la simpla intercorelare dintre factori. n patternul factorial snt nscrise de la nceputul analizei saturaiile cu valoarea zero n baza ipotezelor referitoare la raportul dintre variabilele latente i indicatori. Restul saturaiilor se determin astfel nct corelaiile teoretice la care se ajunge pe baza lor s difere ct mai puin de corelaiile empirice. Metode iterative orientate de exigene ale metodei celor mai mici ptrate snt folosite n acest sens. Modele de analiz cu variabile latente de mare complexitate, n care snt implicate att modele de msur ct i modele structurale, snt abordate cu metode i programe de tip LISREL (Linear structural relations, Joreskog i Sorbom, 1084). D.S.

1.) La ce folosete analiza factorial


1.1 Utilizarea analizei factoriale De exemplu, dorim s intrepretm 12 variabile extrase dintr-un chestionar cu 43 de ntrebri. Chestionarul a fost administrat subiecilor fumtori care urmeaz un tratament anti-fumat. Cteva variabile reprezentau interogri cu privire la dorina respondentului de a fuma Dup o mas bun, ct de mult dorii s fumai o igar?. Fiecare ntrebare este plasat pe o scal de la 1 la 5, unde scorul inferior (1) reprezint mult i scorul superior(5) reprezint puin. Alte ntrebri se refer la starea psihologic i fizic a subiectului. S ne imaginm c am dori s studiem corelaiile ntre toate cele 43 de variabile!!! Utiliznd analiza factorial i aplicnd o rotaie ortogonal se pot reordona ntrebrile pentru a produce o matrice de corelaie. Este mai uor s se observe din matrice c 4 articole cu privire la fumat au legtur mai mare ntre ele dect n cazul altor ntrebri, iar articolele care au rmas se grupeaz n 2 grupuri. Pentru fiecare respondent, SPSS poate calcula un scor pentru fiecare din cele 3 grupuri (factori) de variabile nou formate care de fapt este o combinaie liniar a variabilelor. Scorul pentru primul factor este, de exemplu, o msur a dorinei de a fuma. SPSS calculeaz utiliznd valorile standardizate ale variabilelor iniiale (scoruri factoriale). Scorurile celor 3 factori explic aproape tot totalul varianei celor 12 variabile iniale, deci se poate spune c prin folosirea a trei factori n loc de 12 variabile se

uureaz munca i numrul de variabile de manipulat. Scorurile pot fi folosite n analize ulterioare mpreun cu alte date colectate de la respondeni. Analiza factorial este utilizat n urmtoarele situaii: 1. Pentru identificarea dimensiunilor comune, sau a factorilor, care explic corelaiile existente n cadrul unui set de variabile. De exemplu, un set de afirmaii cu privire la stilul de via sunt utilizate pentru a msura profilul psihografic al consumatorilor. Aceste afirmaii pot fi folosite intr-o analiz factorial pentru a identifica factorii psihografici care rezult de aici. 2. Pentru identificarea unui set, mai mic, de variabile necorelate pentru a nlocui setul inial de variabile ntr-o analiz ulterioar multivariat (analiz de regresie sau discriminant). De exemplu, factorii psihografici identificai pot fi folosii drept variabile independente n explicarea diferentelor dintre consumatorii loiali si neloiali. 3. Pentru identificarea unui set mai mic de variabile dintr-un set mai mare de variabile pentru utilizarea lui n analize multivariate ulterioare. De exemplu, cteva din afirmaiile cu privire la stilul de via care sunt corelate puternic cu factorii identificai pot fi folosite drept variabile independente pentru a explica diferenele ntre consumatorii loiali si neloiali. n analiza datelor procedurile analizei factoriale sunt utilizate astfel: 1. Pentru a studia corelaiile ntre un numr mare de variabile cantitative care au legtur ntre ele prin gruparea variabilelor n civa factori; dup grupare, variabilele din cadrul fiecrui factor au un nalt grad de corelare cu variabilele din acel factor dect cu variabilele din ali factori, cu care sunt necorelate; 2. Pentru a intrerpreta fiecare factor n funcie de nelesul variabilelor. De exemplu, rspunsurile la un set de 6-7 ntrebri care formeaz un factor/cluster ar putea msura satisfacia respondentului fa de un produs. 3. Rezumarea mai multor variabile n civa factori. Programul SPSS poate calcula un scor pentru fiecare factor care este folosit drept variabil de intrare pentru testele t, analiza de regresie, analiza varianei, analiza discriminant i aa mai departe.