Sunteți pe pagina 1din 84

UNIVERSITATEA TRANSILVANIA DIN BRAOV

Facultatea de Sociologie i Comunicare


Departamentul de tiine Sociale i ale Comunicrii
500030 Braov, Bd. Eroilor nr. 25, www.unitbv.ro













SUPORT DE CURS






Program de studii: SOCIOLOGIE


Disciplina: Statistic social multivariat


Titular curs: Lector univ. dr. Mesean Schmitz Luiza





Braov
2012

CONSTRUCIA INDICILOR
1

Cuprins


Lista tabelelor .................................................................................................................................. 2
Lista figurilor ................................................................................................................................... 2
1 Raportul de cercetare pentru analiza datelor cantitative ......................................................... 3
2 Explicaia cauzal .................................................................................................................. 11
2.1 Elemente definitorii ........................................................................................................ 11
2.2 Construirea unui model teoretic cauzal .......................................................................... 11
2.3 Construirea unui model empiric cauzal .......................................................................... 14
2.4 Strategii de cercetare pentru verificarea empiric a modelelor cauzale ......................... 18
2.4.1 Strategia cercetrii cantitative ................................................................................ 18
2.4.2 Strategia cercetrii calitative .................................................................................. 19
2.4.3 Strategia cercetrii comparate ................................................................................ 19
2.4.4 Strategia cercetrii cantitative combinat cu cea calitativ .................................. 20
2.5 Metode statistice utilizate pentru verificarea empiric a modelelor cauzale .................. 21
2.5.1 Metode de analiz bivariat .................................................................................... 21
2.5.2 Metode de analiz multivariat............................................................................... 22
2.6 Erori n construirea modelelor explicative cauzale ........................................................ 23
2.6.1 Erori de msurare ................................................................................................... 23
2.6.2 Erori de interpretare ............................................................................................... 23
3 Construirea indicilor .............................................................................................................. 26
3.1 Definirea indicilor ........................................................................................................... 26
3.2 Tipuri de indici ............................................................................................................... 29
3.3 Construirea indicilor cu ajutorul programului SPSS ...................................................... 32
3.3.1 Indice de numrare ................................................................................................. 32
3.3.2 Indice sumativ sau de tip medie .............................................................................. 34
3.3.3 Indice ca raport de scoruri...................................................................................... 39
3.3.4 Indici cu formule complexe ..................................................................................... 39
3.3.5 Indice de tip scor factorial ...................................................................................... 40
4 Regresia linear ..................................................................................................................... 43
4.1 Regresia i corelaia ........................................................................................................ 43
4.2 Condiii de aplicare a regresiei ....................................................................................... 49
4.3 Etape n construcia unui model de regresie .................................................................. 52
4.4 Obinerea regresiei lineare cu ajutorul programului SPSS ............................................. 52
5 Analiza factorial .................................................................................................................. 57
5.1 Noiuni introductive ........................................................................................................ 57
5.2 Factori i variabile .......................................................................................................... 58
5.3 Variaie, covariaie i corelaie ....................................................................................... 60
5.4 Derivaia structurii covariaiei din structura factorial ................................................... 61
5.5 Etapele necesare determinrii factorilor ......................................................................... 62
5.6 Limitele analizei factoriale ............................................................................................. 64
5.7 Obinerea analizei factoriale cu ajutorul programului SPSS .......................................... 65
6 Analiza Cluster ...................................................................................................................... 71
6.1 Caracteristici generale .................................................................................................... 71
6.2 Msuri ale distanei i similaritii dintre elemente ........................................................ 73
6.3 Distana dintre clusteri .................................................................................................... 75
6.4 Algoritmul de calcul al analizei cluster ......................................................................... 76
6.5 Limite ale analizei cluster ............................................................................................... 76
6.6 Obinerea analizei cluster cu ajutorul programului SPSS .............................................. 76
Bibliografie .................................................................................................................................... 81
CONSTRUCIA INDICILOR
2

Lista tabelelor
Tabelul nr. 1-1: Structura populaie i a eantionului n funcie de sex .......................................... 3
Tabelul nr. 1-2: Structura populaie i a eantionului n funcie de vrst ...................................... 4
Tabelul nr. 1-3: Structura populaie i a eantionului n funcie de etnie ........................................ 4
Tabel nr. 1-4: Structura eantionului teoretic i observat n numr de cazuri dup variabila sex4
Tabel nr. 1-5: Structura eantionului teoretic i observat n numr de cazuri dup variabila
vrst ............................................................................................................................................... 5
Tabel nr. 1-6: Structura eantionului teoretic i observat n numr de cazuri dup variabila
etnie ................................................................................................................................................. 5
Tabelul nr. 2-1: Scopurile i abordrile metodologice ale cercetrii sociale ................................ 20
Tabelul nr. 2-2: Forma general a tehnicilor de analiz multivariat de dependen ................... 22
Tabelul nr. 3-1: Dimensiuni i indicatori ai indicelui IDU .......................................................... 32
Tabelul nr. 3-2: Dimensiuni i indicatori ai indicelui IS .............................................................. 32
Tabelul nr. 3-3: Indicatori ai indicelui de numrare participare protest ..................................... 33
Tabelul nr. 3-4: Indicatori care msoar deschiderea spre situaii de risc .................................... 35
Tabelul nr. 3-5: Valorile indicelui consum monden n funcie de nivelul de educaie .................. 42
Tabelul nr. 5-1: Exemplificarea coeficienilor i variabilelor: 2 variabile, un coeficient comun: 59
Tabelul nr. 5-2 ncrederea n instituiile din Romnia, BOP mai 2006 ....................................... 65
Tabelul nr. 6-1: Descrierea instrumentelor de marketing digital din prisma firmelor din Braov 77

Lista figurilor
Figura nr. 1-1 : Eantion ponderat la nivelul firmelor din Romnia ............................................... 6
Figura nr. 2-1: Structura standard a teoriei cauzale ...................................................................... 13
Figura nr. 2-2: Exprimarea unui model teoretic printr-un graf orientat ........................................ 16
Figura nr. 2-3: Diagrama cauzal cu variabile latente .................................................................. 17
Figura nr. 2-4: Diagrama cauzal cu variabile observabile ........................................................... 18
Figura nr. 3-1: Opiunea COUNT pentru indicele de numrare, participare protest ................... 33
Figura nr. 3-2: Opiunea COUNT-Define values pentru indicele de numrare, participare protest
....................................................................................................................................................... 34
Figura nr. 3-3.: Fereastra Reliability Analysis .............................................................................. 35
Figura nr. 3-4: Opiunea Statistics n Reliability Analysis ............................................................ 36
Figura nr. 3-5: Opiunea COMPUTE pentru indicele risc de tip sumativ .................................... 37
Figura nr. 3-6: Opiunea COMPUTE pentru indicele risc de tip medie ...................................... 38
Figura nr. 3-7: Opiunea COMPUTE pentru indicele venit de tip raport ...................................... 39
Figura nr. 3-8: Opiunea COMPUTE pentru indicele animale ..................................................... 40
Figura nr. 3-9: Opiunea Analiza factorial .................................................................................. 42
Figura nr. 3-10: Opiunea Analiza factorial-salvarea rezultatelor ntr-o variabil nou-indice .. 42
Figura nr. 4-1: Scatterplot options ................................................................................................. 45
Figura nr. 5-1 : Reprezentarea grafic a unui factor cu dou variabile ......................................... 58
Figura nr. 5-2: Reprezentarea grafic a unui factor cu dou variabile conform unui set de reguli
....................................................................................................................................................... 59
Figura nr. 5-3: Reprezentarea grafic a unui factor comun cu mai multe variabile ...................... 61
Figura nr. 5-4: Reprezentarea grafic a doi factori comuni cazul ortogonal ............................... 62
Figura nr. 5-5: Reprezentarea grafic a doi factori comuni cazul ortogonal ............................... 62
Figura nr. 5-6: Comanda pentru Analiza factorial-testul KMO .................................................. 66
Figura nr. 5-7: Comanda pentru Analiza factorial-extragerea factorilor ..................................... 67
Figura nr. 5-8: Comanda pentru Analiza factorial-rotaia factorilor ........................................... 68
Figura nr. 5-9: Comanda pentru Analiza factorial-construirea unui indice ................................. 68
Figura nr. 5-10: Reprezentarea grafic a valorilor proprii ale factorilor. ...................................... 69
Figura nr. 5-11: Reprezentarea grafic a asocierii dintre variabile i factori ................................ 71
CONSTRUCIA INDICILOR
3

1 Raportul de cercetare pentru analiza datelor cantitative

1.Enunarea scopului i a obiectivelor cercetrii; enunarea ipotezelor

2. Specificarea tipului de cercetare
- Cantitativ/calitativ;
- Descriptiv/explicativ/comparativ
- Exploratorie/testarea unor teorii
- Longitudinal
- Aplicativ

3. Culegerea datelor
- Universul cercetrii
- Mrimea eantionului: P,, p, E=eroarea de estimare a valorilor eantionului: +/-
1%; +/-3%
- Metoda de eantionare: cote, stratificat, aleatorie etc.
- Metoda de culegere a datelor: randoum route, metoda pasului, metoda areolar

Tipul de cercetare: descriptiv
Volumul eantionului=384, pentru t=1,96, p=50% i e=5%
Tipul de cercetare: explicativ/sau analize pe subeantioane
Volumul eantionului=1066, pentru t=1,96, p=50% i e=3%
Reprezentativitate pe subeantioane
Volumul eantionului=2400, pentru t=1,96, p=50% i e=2%

Cum stabilim volumul eantionului pentru urmtoarele teme de cercetare?
1. Starea de sntate a populaiei
2. Sondaj politic reprezentativ la nivelul judeului Braov, reprezentativ i pentru mediul
urban/rural
3. Violena domestica asupra femeilor
4. Consumatorii de droguri
5. Fidelitatea clienilor fa de un magazin

4. Analiza datelor
4.1. Verificarea reprezentativitii eantionului
Exemplu: n anul 2008 s-a realizat o cercetare la nivelul municipiului Braov cu scopul
determinrii atitudinii locuitorilor fa de principalele instituii locale. Persoanele intervievate
aveau vrsta peste 18 ani.
n tabelele nr. 1.1, 1.2, 1.3. Este prezentat structura populaiei municipiului Braov i
structura eantionului n funcie de sex, vrst i etnie. Datele privind structura populaiei
municipiului Braov sunt preluate de la Direcia Judeean de Statistic Braov.

Tabelul nr. 1-1: Structura populaie i a eantionului n funcie de sex
Structura populaiei municipiului
Braov dup sex
Structura eantionului dup sex
masculin 47.2% 49%
feminin 52.8% 51%
Total 100% 100%



CONSTRUCIA INDICILOR
4


Tabelul nr. 1-2: Structura populaie i a eantionului n funcie de vrst
Structura populaiei municipiului Braov
dup vrsta
Structura eantionului dup vrst
18-24 ani 14.1% 14.4%
25-29 ani 11.2% 12.2%
30-34 ani 9.4% 11.6%
35-39 ani 9.0% 8.7%
40-44 ani 7.6% 7.3%
45-49 ani 8.9% 7.5%
50-54 ani 11.2% 10.9%
55-59 ani 8.6% 7.4%
peste 60 ani 19.9% 20%
Total 100% 100%

Tabelul nr. 1-3: Structura populaie i a eantionului n funcie de etnie
Structura populaiei municipiului Braov
dup etnie
Structura eantionului dup etnie
roman 90.7% 92.5%
maghiari 8.1% 6.9%
rromi 0.3% 0%
germani 0.6% 0.3%
alta 0.3% 0.3%
Total 100% 100%

n vederea stabilirii concordanei dintre structura eantionului i cea a populaiei, se va
aplica testul
2
pentru fiecare variabil n parte (sex, vrst, etnie).
Paii necesari pentru aplicarea acestui test.
Primul pas: identificarea frecvenelor observate, adic structura eantionului aa cum a
ieit din teren, pe fiecare din cele trei variabile, n numr de persoane i nu n procente. Spre
exemplu, cte persoane de sex masculin i cte de sex feminin au fost intervievate.
Al doilea pas: identificarea frecvenele teoretice (ateptate), cele care ar fi trebui s ias
din teren conform procentelor din structura populaiei, la fiecare variabil. Spre exemplu, cte
persoane de sex masculin sau de sex feminin ar fi trebuit intervievate, pentru a respecta structura
populaiei municipiului Braov, respectiv 47,2% persoane de sex masculin i 58,2% persoane de
sex feminin.
Aceste date sunt prezentate n tabelele nr.1.4

Tabel nr. 1-4: Structura eantionului teoretic i observat n numr de cazuri dup variabila sex
Sex Structura eantionului
teoretic (frecvene
teoretice, ateptate)
Structura eantionului
observat
(frecvene observate)
masculin 523 543
feminin 585 565
Total 1108 1108

Al treilea pas: Se calculeaz testul
2
pentru a se stabili dac exist diferene dintre
structura eantionului i cea a populaiei.
Testul
2
are dou ipoteze (de nul i alternativ) i n funcie de rezultatele obinute se va
accepta una din ele. Se calculeaz valoarea testului i se compara cu o valoare critic dintr-un
tabel standard. Valoarea critic se identific n funcie de numrul gradelor de libertate i a
probabilitii de garantare a rezultatelor, care de regul o lum P=95%.
CONSTRUCIA INDICILOR
5

Ipoteza de nul H
0
: Distribuia eantionului nu este semnificativ diferit de distribuia populaiei
(eantionul este reprezentativ pentru populaia municipiului Braov)
Ipoteza alternativ H
1
: Distribuia eantionului este semnificativ diferit de distribuia populaiei
(eantionul nu este reprezentativ pentru populaia municipiului Braov)
Testul calculat
2
=


teoretice
teoretice observate
F
F F
2
) (

calculat
2
=0.68+0.76=1.44
Gradele de libertate df = (2-1)*(2-1)=1; df= (nr. linii tabel-1)* (nr. coloane tabel -1)
valoarea
critic
2
pentru 1 grad de libertate i pentru o probabilitate de garantare a rezultatelor de 95% este
3.84.
calculat
2
este mai mic dect critic
2
, prin urmare se accept ipoteza de nul, deci eantionul respect
structura populaiei municipiului Braov dup variabila sex.

Tabel nr. 1-5: Structura eantionului teoretic i observat n numr de cazuri dup variabila vrst
Vrsta
Structura eantionului
teoretic
(frecvene teoretice)
Structura eantionului
observat
(frecvene observate)
18-24 ani
156 160
25-29 ani
125 135
30-34 ani
104 128
35-39 ani
100 96
40-44 ani 84 81
45-49 ani
99 83
50-54 ani
124 121
55-59 ani
95 82
peste 60 ani
221 222
Total
1108 1108

H
0
: Distribuia eantionului nu este semnificativ diferit de distribuia populaiei
H
1
: Distribuia eantionului este semnificativ diferit de distribuia populaiei

calculat
2
=0.102+0.8+5.53+0.16+0.107+2.58+0.072+1.77+0.0=11.12
df = (9-1)*(2-1)=8; df= grade de liberate= (nr. linii-1)* (nr. coloane -1)
critic
2
pentru 1 grad de libertate i pentru o probabilitate de garantare a rezultatelor de 95% este
15.51
calculat
2
este mai mic dect critic
2
, prin urmare se accept ipoteza de nul, deci eantionul respect
structura populaiei municipiului Braov dup variabila vrst.

Tabel nr. 1-6: Structura eantionului teoretic i observat n numr de cazuri dup variabila etnie
Etnia Structura
eantionului teoretic
(frecvene teoretice)
Structura eantionului
observat
(frecvene observate)
roman 1005 1012
maghiari 90 76
rromi 3 0
germani 7 3
alta 3 3
Total 1108 1108
CONSTRUCIA INDICILOR
6

H
0
: Distribuia eantionului nu este semnificativ diferit de distribuia populaiei
H
1
: Distribuia eantionului este semnificativ diferit de distribuia populaiei
calculat
2
=0.048+2.17+3+2.28+0=7.498
df = (5-1)*(2-1)=4; df= grade de liberate= (nr. linii-1)* (nr. coloane -1)
critic
2
pentru 1 grad de libertate i pentru o probabilitate de garantare a rezultatelor de 95% este
9.49
calculat
2
este mai mic dect critic
2
, prin urmare se accept ipoteza de nul, deci eantionul respect
structura populaiei municipiului Braov dup variabila etnie
n concluzie, putem afirma c eantionul are un grad ridicat de reprezentativitate n
funcie de sex, vrst, etnie, pentru populaia municipiului Braov.

4.2. Ponderarea rspunsurilor: ponderarea subiecilor/cazurilor sau a rspunsurilor la
anumite variabile.
Exemplu: n 2008 The Gallup Organization Romnia a realizat un studiu n rndul persoanelor
juridice, cu scopul de a descrie Piaa Serviciilor de Telefonie Mobil din Romnia.


Figura nr. 1-1 : Eantion ponderat la nivelul firmelor din Romnia
Sursa: The Gallup Organization Romnia: Piaa Serviciilor de Telefonie Mobil. Raport de
Cercetare, Eantion persoane juridice, iunie 2008

Eantionul a avut la baz trei componente: un eantion reprezentativ de companii, o alt
component bazat pe companii medii i mari (cu mai mult de 50 angajai). Motivul pentru care
s-a ales focalizarea pe companii medii i mari are la baz nevoia de a dispune de un numr
CONSTRUCIA INDICILOR
7

suficient de mare de astfel de companii cu scopul de a obine informaii relevante la nivelul
acestui segment. Deoarece n comparaie cu structura real a companiilor i instituiilor publice
din Romnia, eantionul final are n componen mai multe companii de mrime medie i mare
i mai puine companii mici, s-a impus ponderarea bazei de date. Se cunoate dintr-un studiu
anterior structura companiilor care utilizeaz servicii de telefonie mobil n funcie de numrul
de angajai (aa cum apare n coloana % ponderat). Pentru a fi realizat aceast structur,
rspunsurile obinute de la companiile mici au fost nmulite cu o valoare supraunitar (altfel
spus, am crescut importana rspunsurilor obinute de la companiile mici) n timp ce
rspunsurile obinute de la companiile medii i mari au fost nmulite cu un numr subunitar,
ceea ce a dus la scderea importanei lor n cadrul eantionului total.

4.3. Ratele de non-rspuns: medierea global (se nlocuiesc valorile lips cu media),
medierea pe clase (se clasific subiecii pe anumite straturi masculin/feminin, educaie) i acolo
unde se gsesc valori lipsa se nlocuiesc cu media variabilei din acel strat; imputaia obiectiv
(pe baza unei ecuaii de regresie) sau imputaia de tip hot-deck (vezi Tehnica sondajelor.
Aplicaii i teste de evaluare:
(http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=461&idb=)

4.4. Analiza datelor
Tehnicile utilizate pentru analiza datelor sunt n funcie de tipul de variabil/variabile cu
care se lucreaz. Se vor analiza datele pentru fiecare obiectiv/ipotez n parte.

a. Analiza descriptiv (univariat)
- Tabele/grafice cu o variabil pentru fiecare ntrebare din chestionar
- Indicatori ai tendinei centrale, ai dispersiei, mrimi multiple etc
- Construirea de indici
- Estimarea parametrilor la nivelul populaiei

De cele mai multe ori n tiinele sociale variabilele sunt msurate la nivelul unui
eantion extras din populaia studiat, din motive practice nefiind posibil msurarea lor n
ntreaga populaie. Este esenial s distingem ntre distribuia variabilei la nivelul eantionului
denumit n continuare statistic i distribuia n populaie denumit parametru. O dat
msurat distribuia unei variabile la nivelul eantionului suntem pui n situaia de a estima
valoarea medie pe care aceasta o are n populaie. Spre exemplu, cunoscnd distribuia venitului
pentru persoanele incluse ntr-un eantion suntem interesai s aflm intervalul n care valoarea
medie a venitului se ncadreaz n populaie. Aceasta estimare se face prin construirea unui
interval de ncredere definit de valorile limit pe care le poate lua media statisticii date.

Limitele intervalului de ncredere depind de:
Probabilitatea cu care garantm nscrierea valorii din populaie n acest interval. Dac
venitul mediu pentru un eantion reprezentativ este de 2 milioane/persoan, a estima
valoarea din populaie nseamn a afirma cu o anumit probabilitate c n populaie acest
venit se ncadreaz ntre anumite limite. Spre exemplu cu o probabilitate de 95% putem
ncadra venitul mediu din populaie ntre 1,7 i 2,3 milioane. Exist deci o probabilitate de
5% ca valoarea din populaie s nu se ncadreze n acest interval i estimarea noastr s fie
eronat. Dac dorim s micorm probabilitatea de a grei atunci vom mri limitele
intervalului de ncredere. Astfel pentru o probabilitate de 99% vom spune de exemplu c
venitul mediu din populaie se ncadreaz ntre 1,5 i 3 milioane. Aceast probabilitate este
denumit i nivel de semnificaie sau ncredere.

CONSTRUCIA INDICILOR
8

Eroarea standard de eantionare (ES) este o caracteristic a distribuiei de eantionare
pentru a crei realizare (teoretic) se construiesc toate eantioanele posibile de un anumit
volum dintr-o populaie dat i se reprezint distribuia mediei pentru caracteristica studiat
(respectiv valorile mediei funcie de frecvena cu care apar). (O proprietate important a
acestei distribuii este aceea c media tuturor mediilor obinute din eantioanele de volum n
va fi egal cu media din populaie). n practic, distribuia de eantionare, nu este cunoscut
i eroarea standard a acestei distribuii, se estimeaz prin valorile calculate la nivelul
eantionului.

Pentru a estima eroarea standard mai nti este necesar s estimm dispersia din
populaie. Aceasta este estimat pe baza dispersiei la nivelul eantionului cu formula

2 2
1
s
N
N

~ o , unde N = volumul eantionului,


1 N
N
fiind un factor de corecie. La nivelul
eantionului cunoatem dispersia
N
x x
s


=
2
2
) (
, deci
1
) (
2
2

=

N
x x
estimat o .

Eroarea standard a distribuiei de eantionare de care avem nevoie pentru a estima
media caracteristicii n populaie se calculeaz prin formula
N
ES
estimat
o
= , unde
estimat
o este
estimarea abaterii standard din populaie i N este volumul eantionului. Astfel cu ct abaterea
standard a caracteristicii este mai mare, cu att vor crete i limitele intervalului de ncredere
pentru valoarea medie estimat la nivelul populaiei.
Limitele intervalului de ncredere pentru valoarea medie a caracteristicii sunt egale cu
ES t x
mediu
- , unde t depinde de nivelul de ncredere. Pentru o probabilitate de 95% t=1,96, iar
pentru o probabilitate de 99%, z=2,58.

Exemplu 1. Estimarea unei medii la nivelul populaiei
S presupunem c s-a realizat o cercetare pe o populaie de 1159 persoane din judeul
Y. Cercetarea a fost realizat pentru identificarea unor elemente utile n campania de ntrire a
brand-ului Ciuca. Persoanele intervievate au trebuit s precizeze preul pe care l-ar da pentru
o sticl de Ciuca. Media preului care a rezultat din intervievarea persoanelor a fost de 8, 53
ron. Se pune ntrebarea la nivelul ntregii populaii din judeul Y cam care ar trebui s fie preul
unei sticle de Ciuca, avnd n vedere c exist erori de eantionare i nu putem spune cu
exactitate c acest pre ar trebui s fie de 8,53 ron aa cum a reieit din baza de date. Pentru
aceasta se va construi intervalul de ncredere dup formula menionat mai sus, ES t x
mediu
- .
x
mediu
=media preului care a rezultat din baza de date=8,53 ron
t= 1,96 pentru P=95%
ES=
n
o
, unde este deviaia standard, iar n este volumul eantionului.
Rezultatele din baza de date cu ajutorul programului SPSS sunt urmtoarele:

Descriptive Statistics

N Mean
Std.
Deviation
Care este preul pe care l-ai da
pentru o sticl de bere Ciuca
1159 8,53 1,24
Deci, deviaia standard este de 1,24 ron, iar ES va fi 1,24/ 1159 . ES=0,036
CONSTRUCIA INDICILOR
9

Intevalul de ncredere va avea urmtoarele valori:
IC: [8,53-1,96*0,036; 8,53+1,96*0,036]
IC: [8,45; 8,60]
n concluzie putem spune c la nivelul ntregii populaii preul pentru care oamenii ar
cumpra o sticl de bere Ciuca este undeva ntre 8,45 ron i 8, 60 ron.

Exemplu 2. Estimarea unei proporii la nivelul populaiei
n cazul unei variabile dihotomice x cu valori 0 i 1 (consumatori de bere, unde 0
nseamn c persoanele intervievate nu consum bere, iar valoarea 1 nseamn c persoanele
intervievate consum bere) valoarea medie va fi egal cu proporia de apariie a valorii 1 la
nivelul eantionului construit.
Tot din aceeai cercetare menionat mai sus a rezultat c 44,5% dintre persoanele
intervievate consum berea Ciuca n mod frecvent. Care va fi procentul la nivelul ntregii
populaii.
Dup cum am vzut n exemplul anterior, trebuie s cunoatem volumul eantionului,
eroarea standard, deviaia standard.
x
mediu
este dat n acest caz de procentul persoanelor care consum Ciuca.44,5%.
n=1159 persoane
= ) 1 ( q q , unde q=procentul persoanelor consumatoare de bere Ciuca transformat
n probabilitate
= ) 445 , 0 1 ( 445 , 0 =0,496
ES=
n
o
=
04 , 34
496 , 0
=0,0145 transformat n procente va fi 1,45%
IC: [44,5-1,96*1,45; 44,5+1,96*1,45]
IC: [41,6%; 47,3%]
La nivelul ntregii populaii persoanelor care consum berea Ciuca se afl undeva ntre
41,6% i 47,3% din total consumatori de bere.

- Analiza modificrilor diferiilor parametri n timp
66,5% dintre respondeni consider c actuala criza financiar ar putea contribui la
creterea gradului de utilizarea a instrumentelor marketingului digital, datorit costurilor reduse
i posibilitilor de msurarea a eficienei acestor instrumente. Dac analizm n schimb modul
cum au evoluat cheltuielile cu instrumentele de marketing digital i a gradului de utilizare a
instrumentelor de marketing digital, nu se confirm aceast ipotez. Procentul firmelor care au
crescut numrul instrumentelor de marketing digital n anul 2009 este de dou ori mai mic
dect cel din 2005-2008 sau 2003-2005. De asemenea, procentul firmelor care au alocat un
bugetul mai mare instrumentelor de marketing digital n 2009 comparativ cu ceilali ani, este de
trei ori mai mic.

Testarea diferenelor dintre procente
Procente utilizarea instrumente de marketing digital mai multe
-anul 2009 q1=33%, n1=63 persoane
-perioada 2005-2008 q2=67,1%, n2= 49 persoane
-perioada 2003-2005 q3=67,5%, n3=27 persoane
e-eroarea standard, n1, n2 volumele eantioanelor, z
obs
=raportul critic
e =

= q1 (1-q1)

= q2 (1-q2)

CONSTRUCIA INDICILOR
10

z
obs
=



1. Testm dac diferena de procente dintre cei care au spus c n anul 2009 au folosit mai
multe instrumente de marketing digital i cei care au spus c n 2005-2008 au folosit mai multe
instrumente de marketing digital este semnificativ.

e=8,95%
z
obs
=-3,79

H0: diferena dintre procente nu este semnificativ diferit de zero
H1: diferena dintre procente este semnificativ diferit de zero
Lucrm cu P=95%, iar pentru aceast probabilitate coeficientul de ncredere t=1,96.

z
obs
se afl n afara intervalului [-1,96; 1,96], prin urmare se respinge ipoteza de nul.
Diferena dintre cele dou procente este semnificativ.

2. S-a testat dac exist diferene de procente i ntre procentul persoanelor care au
declarat c folosesc instrumente de marketing digital mai multe n 2003-2005 fa de
2005-2008
z
obs
= 0,044 se afl n interiorul intervalului [-1,96; 1,96], prin urmare se accepta ipoteza de nul.
Diferena de procente dintre perioada 2003-2005 nu este diferit de perioada 2005-2008.
Cu alte cuvinte se poate spune c actuala criza economic a diminuat creterea numrului
de instrumente de marketing digital comparativ cu numrul de instrumente de marketing digital
utilizate n anul 2009 comparativ cu perioada 2003-2008. Deci ipoteza general nu se confirm.

b. Analiza explicativ: testarea ipotezelor, construirea de modele explicative
Analiza bivariat
- Tabele de contingen sau grafice cu dou variabile
- Testarea asocierii dintre dou variabile: coeficieni de asociere, testul hi patrat,
valoarea reziduala ajustat
- Analiza comparativ: testele nonparametrice, testele parametrice

Analiz multivariat
- Tehnici de interdependen: ecuaii structurale, regresie linear, Anova etc;
- Tehnici de independen: analiz factorial, analiz cluster etc

4.5. I nterpretarea datelor

Cum trebuie s redactm un raport de cercetare? Care este publicul int?

o Publicul larg dorete rezultate ;
o Specialitii au nevoie de informaii metodologice;
o Clienii/beneficiarii ateapt soluii;

- se interpreteaz fiecare grafic sau tabel, precum i rezultatele din output de la
metodele statistice utilizate;
- la fiecare metod/tehnic utilizat se explic cum s-au luat deciziile;
- se traseaz concluzii


CONSTRUCIA INDICILOR
11

2 Explicaia cauzal
2.1 Elemente definitorii
Relaia cauzal reprezint o relaie ntre dou fenomene, caracterizat prin aceea c unul
dintre ele l produce pe celalalt. Primul fenomen, cel care produce i care, n consecin, l
explic pe celalalt, este cauza iar fenomenul produs este efectul. (Zamfir, 2005, 19).
O caracteristic important a relaiei cauzale este distana de timp ntre producerea
cauzei i obinerea efectului dat.
Exemplu: Starea de sntatea determin stilul de via sau invers. Cum stabilim care a
fost prima? Nu putem ti, dar presupunem.
Lewis-Beck, Bryman i Futing Liao prezint n The Sage encyclopedia of social science
research methods (2004, pp.204-205) teoria probabilistic a cauzalitii.
Majoritatea cercettorilor tiinifici din lume care sunt adepii teoriei probabilistice a
cauzalitii au n vedere cteva criterii: consider c X este cauza lui Y dac i numai dac X
exist (probabilitatea lui X este mai mare de zero), X este aprior lui Y (X a existat n timp nainte
de Y), exist o relaie statistic ntre X i Y i aceast relaie nu dispare dac se in sub control
alte variabile. Metoda coeficienilor path a lui Sewell Wright n genetic n anii 1920, modelele
de ecuaii simultane ale lui Herman Wold n econometrie n anii 1950, modelele cauzale ale lui
Simon i Blalock n sociologie i alte tiine sociale n anii 1960 i 1970 i relaii lineare
structurale de sistem (LISREL) realizate de Karl Jreskog n anii 1970 sunt cteva exemple de
modele cauzale ce in de teoria probabilistic a cauzalitii.
1,Exist totui trei probleme referitoare la aceast teorie. Prima se refer la nsi
noiunea de probabilitate, care explic relaia statistic (corelaie) dar nu explic i
cauzalitatea.
2.A doua problema ine de faptul c relaiile statistice care se testeaz sunt dependente de
teoria care a fost aleas.
3.A treia problem ine de conceptul de apriori, cu ct certitudine putem afirma c un
eveniment a existat nainte de fenomenul considerat efect.
2.2 Construirea unui model teoretic cauzal
Lazr Vlsceanu i Ctlin Zamfir, n Dicionarul de sociologie-online prezint dou
etape n formularea i demonstrarea unei teorii cauzale sociale: construirea unui model la nivel
teoretic i construirea unui model la nivel empiric.
nainte de a contura un model teoretic cauzal este necesar o atenie deosebit etapei de
operaionalizare a conceptelor.
La ce trebuie s fim ateni:
1. Model explicativ la nivel macro/micro
2. La nivel micro:
- operaionalizarea conceptului,
- msurarea indicatorilor din aceeai dimensiune pe aceeai scal (dac este
posibil),
- selectarea indicatorilor dac modelul este prea complex
n cele mai multe cazuri n construirea unor modele cauzale lucrm cu concepte cu un
grad ridicat de abstractizare care necesit o definire ct mai detaliat. Dup definire se va
operaionaliza conceptul n dimensiuni, sub-dimensiuni i indicatori, care sunt direct msurabili.
n funcie de obiectivele studiului se poate lua n calcul doar anumite dimensiuni ale conceptului,
iar din fiecare dimensiune doar un set de indicatori respectiv variabile (n baza de date). n
spatele unui set de indicatori dintr-o dimensiune va exista o variabil latent, (care nu este direct
msurabil i se msoar prin intermediul unui set de indicatori) care va purta numele acelei
dimensiuni.
CONSTRUCIA INDICILOR
12

Astfel, n analiza factorilor care influeneaz sperana de via, avnd drept scop
construirea unui model cauzal care s indice influena fiecrui factor n parte, se vor contura
dou dimensiuni principale: factori la nivel macro i factori la nivel micro. n cadrul fiecrei
dimensiuni exist mai mult subdimensiuni, iar fiecare subdimensiune va fi compus din mai
muli indicatori.
Deoarece, n exemplul de fa, nu se pot integra n acelai model date la nivel macro i
date la nivel micro se vor contura dou modele explicative cauzale. Dac vom lua modelul
cauzal la nivelul factorilor micro, variabilele latente vor fi factorii socio-demografici, factorii
biologici, factorii psihologici, factorii socio-culturali i factorii economici.
De asemenea foarte important este ca indicatorii din aceeai dimensiune s fie msurai
pe aceeai scal, pentru a putea fi comparabili, n caz contrar crete gradul de eroare. Acolo unde
indicatorii nu sunt msurai pe aceeai scal, se pot face ajustri astfel nct scalele s fie
comparabile. Dar acest lucru va duce la o cretere a dispersiilor variabilelor latente i indirect a
erorilor. Acest lucru trebuie avut n vedere la faza de concepere a instrumentului de colectare a
datelor (dac datele nu sunt colectate din documente sociale).
Dintre indicatorii din fiecare dimensiune (variabilele direct observabile) vor fi selectai
doar cei mai importani, pentru a putea simplifica modelul, care este destul de complex, avnd n
vedere c are mai multe variabile latente i fiecare este msurat prin cel puin dou variabile
direct observabile.
n conturarea modelului teoretic cauzal exist mai multe etape: stabilirea variabilelor
incluse n model, stabilirea enunurilor cauzale i definirea modelului explicativ.

1. Prima etap: Se specific fenomenelesau variabilele incluse n model.
Se disting urmtoarele tipuri de variabile: variabila de explicat, variabile exogene,
endogene, acionale sau pragmatice i reziduale.
Variabila de explicat se refer la fenomenul efect. Ctlin Zamfir n lucrarea Spre o
paradigm a gndirii sociologice amintete dou tipuri de teorii sociologice cauzale: teorii
centrate n jurul explicrii fenomenului efect i teorii centrate pe fenomenul cauz. Cele dou
tipuri de teorii sunt similare doar c difer perspectiva de abordare. Teoriile centrate pe
fenomenul cauz, analizeaz efectele multiple ale unui fenomen social important, spre exemplu
efectele revoluiei tiinifice.
Variabilele endogene sunt acele variabile care au o influen cauzal direct, nemijlocit,
simpl asupra variabilei de explicat. Ele se refer la cauzele generale ale respectivului fenomen,
acionnd n orice context particular. Din acest motiv le-am numit variabile cauzale abstracte.
Relaiile dintre variabilele cauzale abstracte i variabila de explicat sunt universale, putnd fi
formulate ca legi cauzale. Ele reprezint enunuri teoretice fundamentale ale teoriei
explicative.(Zamfir, 2005, 39) Exemplu: genetici, alimentaia
Variabilele de explicat mpreun cu variabilele endogene i cu enunurile cauzale care
descriu relaia dintre fenomene formeaz teoria abstract general.
Trebuie fcut o distincie ntre teoriile abstracte din sociologie i teoriile fundamentale
care descriu relaii mai simple. Realitatea social fiind mult mai complex, teoriile abstracte
trebuie s prezinte scheme care s fie baza unei analize explicative dar aceste scheme sunt
specifice pentru fiecare context n parte.
Variabile contextuale sau exogene sunt acele variabile care se refer la influena
diferitelor componente ale contextului social asupra fenomenului. De exemplu, sperana de via
ar putea fi prelungit de campaniile de prevenii ale sntii realizate n ara respectiv, de
calitatea serviciilor medicale din acea ar sau de srcia existent n acea ar.
Variabilele contextuale sunt punctele n care teoria abstract se conecteaz la un context
social i acestea pot varia o dat cu contextul. Prin urmare, relaiile dintre variabila efect i
variabilele contextuale nu pot fi enunuri a unor legi universale. Generalizarea unor astfel de
enunuri poate fi vulnerabil. De aceea, aceste variabile se numesc variabile externe, tocmai
pentru a se sublinia caracterul lor relativ la context. Aceste variabile nu fac parte din teoria
CONSTRUCIA INDICILOR
13

abstract. Teoria abstract trebuie suplinit cu o teorie contextual, care are rolul de a lega
teoria abstract la un context social.
Din acest motiv n sociologie exist teorii abstracte care explic un fenomen indiferent de
societate, cum ar fi teoria stratificrii sociale, teoria delincvenei, dar n acelai timp exist teorii
contextuale care explic aceste fenomene n anumite contexte sociale: teoria delincvenei sociale
n diferite contexte.
Variabile acionale sau pragmatice sunt variabilele referitoare la aciunile individuale
sau colective, care afecteaz variabilele contextuale, iar acestea variabilele cauzale abstracte i
astfel este influenat variabila efect i sunt obiectul teoriei pragmatice. Teoriile pragmatice
analizeaz cum se poate aciona pentru a schimba acele variabile contextuale care influeneaz
fenomenul studiat. De exemplu, cum se poate aciona astfel nct s se mbunteasc starea de
sntate a oamenilor din anumite zone al rii, unde contextul este nefavorabil.
Structur standard a teoriei cauzale se prezint astfel:


Figura nr. 2-1: Structura standard a teoriei cauzale
Sursa: (Zamfir, 2005, 44)

La aceast schem pot fi adugate i variabilele reziduale care nu sunt luate n calcul n
model, dar care au efect asupra variabilelor exogene. Sunt variabile care in de contextul mai larg
n care are loc fenomenul analizat i nu pot fi msurate sau cercettorul nu le poate imagina.
Conforma acestei structuri, dac ar fi s construim o teorie privind sperana de via,
teoria abstract scoate n eviden o list de cauze generale responsabile de acest fenomen.
Teoria contextual explic durata medie de via n funcie de anumite contexte sociale: zone cu
srcie ridicat, zone cu rzboaie sau zone cu indicatori ai calitii vieii ridicai. Teoria
pragmatic rspunde la ntrebri privind modul de a aciona asupra variabilelor contextuale astfel
nct s se obin creteri semnificative n durata medie de via.
Trebuie fcut o distincie ntre explicaia teoretic (Mario Bunge-1967) sau deductiv-
nomologic (Carl. G. Hempel-1966) i explicaia pseudoteoretic, definit de Achim Mihu
(1973). Dac prima se bazeaz pe deducere explanandum-ului din explanans, cea de a doua
explic un fenomen prin apel la motivaie sau surprinderea semnificaiei unor aciuni. Cu alte
cuvinte, explicarea duratei medii de via n funcie de factorii psihologici ar fi de fapt o
pseudoteorie.
Raportul cauzal ntre dou fenomene este un raport intersistemic.
Orice relaie cauzal se stabilete ntre cel puin dou sisteme. Atunci cnd relaia cauzal
se refer la elemente din acelai sistem, nu se mai poate vorbi de o relaie cauzal chiar dac
elementele incluse n relaie sunt la niveluri diferite ale aceluiai sistem. De exemplu, a explica
durata medie de via prin starea de sntate a oamenilor este de fapt explicarea conceptului de
speran de via prin el nsui, chiar dac sunt la nivele diferite. Durata medie de via poate fi
aproximat prin starea de sntate, practic se exprim aproximativ acelai lucru dar la un alt
nivel.
Variabile acionale
pragmatice
Variabile
contextuale,
exogene
Variabile abstracte,
endogene
Variabila
efect
Teorie pragmatica, acional
Teoria contextual, concret
Teorie abstract
CONSTRUCIA INDICILOR
14


Factori versus condiii
Se remarc faptul ca nu prea se face distincie ntre cauze i condiii. Ambele contribuie
la explicare fenomenului dar n msuri diferite. Cauza are influen direct asupra fenomenului,
n timp ce condiia doar faciliteaz sau inhib producerea fenomenului. De exemplu, religia
poate influena durata medie de via dar nu este un factor direct. Prin valorile care stau la baza
religiei, fiecare persoan i poate modifica stilul de via, alimentaia, obiceiurile de consum
etc., care duc direct la modificri ale strii de sntate. Listele de factori folosite n explicarea
unui fenomen trebuie s fie bine structurate i s se precizeze influena fiecruia n parte.

2. A doua etap: Se formuleaz enunurile cauzale i se precizeaz natura i sensul
cauzrii. Se formuleaz enunurile cauzale, precizndu-se influena fiecrei variabile asupra
fenomenului studiat: dac este influen direct sau indirect, dac influeneaz pozitiv sau
negativ. Toate relaiile cauzale sunt prezentate ntr-o diagrama cauzal cu scopul vizualizrii
relaiilor presupuse. Aceast diagrama faciliteaz enunarea ecuaiilor pentru relaiile cauzale
supuse testrii empirice.
Enunul cauzal exprim relaia dintre fenomene sub forma unei legi universale i
necesare: ori de cte ori C atunci E sau C este cauza lui E. Acest enun din punct de vedere
empiric ia forma unui enun de covariaie: variaia lui C este nsoit de variaia lui E.
Enunul cauzal explic cum un fenomen C influeneaz alt fenomen E i pe baza unor
astfel de enunuri se pot face predicii. Enunurile cauzale sunt testate empiric prin ceea ce se
numete testarea ipotezelor. n tiina modern, cauzalitatea nseamn de cele mai multe ori
testarea ipotezelor. Tradiia testrii ipotezelor, utilizate adesea n cercetrile tiinifice, a fost
iniiat de filosofi pozitiviti din secolul al XIX-lea, precum August Comte i John Stuart Mill i
devin proceduri standard o dat cu cercetrile pozitiviste din secolul al XX-lea.

3. A treia etap: Se specific modelul explicativ. Nu este suficient ns relevarea unor
relaii cauzale ntre dou sau mai multe variabile, ci trebuie explicat i procesul prin care au loc
aceste asocieri, cum anume o variabil influeneaz o alt variabil i ce mecanisme sociale sunt
implicate n acest proces.
n timp ce enunul cauzal rspunde la ntrebarea de ce?, modelul explicativ rspunde la
ntrebarea cum?. De exemplu, se dorete construirea unui model explicativ al speranei de
via a persoanelor din Romnia. Enunul cauzal va scoate n eviden factorii care pot influena
sperana de via, iar modelul explicativ va identifica mecanismele prin care aceti factori se
conjug influennd sperana de via.Prin modelul explicativ, legea cauzal se integreaz ntr-
un corp teoretic mai general. (ZamfirError! Bookmark not defined., 2005, 19).
2.3 Construirea unui model empiric cauzal
Lazr Vlsceanu i Ctlin ZamfirError! Bookmark not defined., n Dicionarul de
sociologie-online prezint o serie de elemente ce trebuie luate n considerare n cea de a doua
etap a construirii unui model explicativ, etapa empiric.
Cauzalitatea social este pus n termeni de probabilitate, de aceea la nivel empiric o
relaie cauzal poate fi testat prin metode statistice. Metodele statistice care testeaz enunuri
cauzale se mpart n dou categorii: metode de asociere bivariate sau metode de analiz cauzal
lineare sau nonlineare precum i analiza path, ecuaii structurale. O explicaie nu poate fi
suficient argumentat n lipsa dovezilor statistice sau experimentale privind asocierea
variabilelor. O explicaie care nu trece de parte empiric nu poate fi considerat explicaie ci
rmne la nivel de ipotez. Pe de alt parte, testarea empiric crete gradul de credibilitate a
explicaiei dar nu i confer atributul de definitiv. n permanen un model explicativ poate fi
mbuntit i cu fiecare testare empiric crete gradul de credibilitate al acestuia.
n acelai timp un model explicativ nu poate fi construit doar pe baza unor corelaii
statistice ntre variabile fr a avea n spate justificri teoretice, care ar putea explica nu doar de
ce pot avea loc anumite relaii dar i n ce mod o serie de variabile influeneaz fenomenul
CONSTRUCIA INDICILOR
15

studiat. De exemplu, o explicaie a duratei medii de via n funcie de o serie de factori
psihologici pe baza unor corelaii statistice nu este relevant dac nu se explic i cum anume
aceti factori duc la creterea duratei medii de via. Un factor psihologic ar putea fi atitudinea
fa de via i moarte n general. Este necesar o clarificare a modului n care acest factor poate
influena durata medie de via.
De regul, metodele cantitative sunt utilizate pentru a formula explicaii asupra
fenomenelor la nivel macro, iar metodele calitative pentru explicaii la nivel meso sau micro.
Pentru a formula o explicaie sociologic adecvat fenomenelor sociale este necesar folosirea
ambelor metode de colectare i analiz a datelor. n exemplul de mai sus, se pot aplica metode
cantitative care s ne releve factorii individuali care pot influena sperana de via, dar la
ntrebrile cum anume influeneaz acei factori sperana de via vom utiliza metode calitative,
cum ar fi interviul.
n funcie de obiectivul urmrit, numrul de cazuri ar trebui s fie ct mai mare sau s fie
reprezentativ pentru o anumit populaie, altfel explicaia poate fi incorect sau n cel mai bun
caz s fie valabil doar pe anumite categorii din populaie sau n anumite contexte sociale.
Pornind de la exemplul de mai sus, explicarea speranei de via n funcie de o serie de
factori psihologici, este necesar ca testarea empiric s aib loc pe un eantion reprezentativ
pentru Romnia, pentru a putea susine c modelul explicativ este valabil n acest context. Dac
se dorete un model general valabil sau cel puin un model cu un grad ridicat de generalitate,
indiferent de populaia analizat, ar trebui aplicat testarea empiric pe oameni din diferite ri.
Analiznd date doar dintr-un ora sau numai dintr-o ar este ndoielnic gradul de acuratee a
modelului. Oricum este dificil de a construi un model general valabil, mare parte din variabilele
incluse n model sunt valabile doar n anumite contexte iar n alte contexte i pierd
credibilitatea.
Pe de alt parte, un model care este valabil ntr-un context limitat (un ora, o ar) dar
care are un grad mare de precizie n descrierea relaiilor dintre variabile i fenomenul studiat este
preferat fa de un model care are pretenie de generalitate (aplicat pe o populaie mult mai
numeroas) dar care are o acuratee mic n descrierea legturilor.
Dup colectarea datelor se va propune un model explicativ empiric. Se vor desemna
variabilele latente i relaiile dintre ele, precum i relaiile dintre indicatori i fiecare variabil
latent. Fiecare variabil latent va fi msurat prin una sau mai multe variabile direct
observabile. Dar se pune ntrebarea dac variabile direct observabile msoar ntr-adevr
variabilele latente? Prin urmare nainte de a testa modelul cauzal mai sunt cteva etape de
verificare a variabilelor incluse n model.
n primul rnd se va testa validitatea dimensiunilor, dac indicatorii dintr-o dimensiune
chiar msoar caracteristicile eseniale ale dimensiunii. Analiza se face att calitativ ct i
cantitativ prin metode statistice precum analiza factorial sau scalarea multidimensional. n
anumite cazuri o variabil latent poate fi nlocuit cu o variabil, denumit variabil de control.
Aceasta poate fi determinat de un singur indicator din dimensiune, de caracteristici msurabile
doar pentru un segment de populaie sau msurtori pe un interval de timp limitat.
n final, dup ce se parcurg paii premergtori propunerii unui model cauzal empiric se
trece la faza final de validare a dimensiunilor i variabilelor direct msurabile, iar n final la
validarea ntregului model empiric. Acest lucru se va realiza prin comparare cu alte modele
similare sau opuse. Astfel, dou modele cauzale asemntoare vor avea o comportare
relativ similar. Model <<similar>> ar putea fi considerat o parte esenial a modelului studiat,
submodel ce poate fi soluionat independent de modelul din care deriv. Exist modele cauzale,
care, din punct de vedere teoretic, se manifest n <<opoziie>>. Dac acest aspect nu se
menine i la nivelul modelelor empirice corespunztoare atunci vom fi nevoii s invalidm cel
puin unul dintre cele dou modele experimentale ce au fost propuse. (tefnescu, 1999, 94).
n analiza datelor se va porni de la un model teoretic care include toate relaiile posibile
dintre variabilele incluse n model. S presupunem c dorim s explicm o variabil Y n funcie
CONSTRUCIA INDICILOR
16

de patru variabile x,u,v,w. Modelul teoretic va cuprinde ansamblul de variabile Y,X,U,V,W i
interaciunile dintre ele i poate fi reprezentat printr-un graf orientat ca n figura nr. 4-2.



Figura nr. 2-2: Exprimarea unui model teoretic printr-un graf orientat

n descrierea i explicarea unui model teoretic apar o serie de dificulti. O prim
dificultate apare n stabilirea gradului de influen a fiecrei variabile asupra variabilei pe care
dorim s explicm, mai ales atunci cnd nu deinem suficiente informaii asupra variabilelor n
cauz. n modelul prezentat mai sus trebuie stabilit gradul de influen a variabilelor X,U,V,W
asupra variabilei Y.
O alt dificultate este dat de dificultatea stabilirii tipului de relaie dintre variabilele
independente i cea dependent. De cele mai multe ori forma funciilor dintre variabile nu este
cunoscut . n modelul prezentat n figura nr. 2-2 pot exista mai multe tipuri de funcii prin care
ar putea fi explicat variabila Y. Fie exist un efect cumulat al celor patru variabile asupra
variabilei Y, fie exist o influen a fiecrei variabile n parte asupra variabilei Y, fie exist un
efect cumulat a cte dou variabile asupra variabilei Y sau alte combinaii dintre variabile.
Pentru a se elimina aceste dificulti se va simplifica modelul teoretic ntr-un model
empiric. Modelul empiric trebuie s fie uor de neles astfel nct s poat fi testat. Se vor scoate
din modelul teoretic acele variabile care se presupune c au o influen foarte mic asupra
variabilei dependente. Dup simplificarea modelului se va trece la testarea lui pe baza datelor
empirice cu ajutorul unor proceduri statistice. i n aceast etap se mai poate simplifica
modelul, eliminnd acele variabile care au o influen nesemnificativ asupra variabilei
dependente, demonstrat statistic.
Prin modelul empiric se va testa indirect modelul teoretic. Exist proceduri statistice care
indic gradul n care modelul empiric aproximeaz modelul teoretic. Dac eroarea calculat este
prea mare atunci se poate afirma c modelul empiric nu explic bine modelul teoretic, deoarece
variabilele incluse n model explic doar o parte mic din variaia variabilei dependente, restul
variaiei variabilei Y este explicat de alte variabile care nu au fost incluse n model.
Soluionarea modelului empiric este, de regul, dificil de realizat. Din aceast cauz se
introduc ipoteze suplimentare (privind forma funciilor de dependen, restricii impuse
variabilelor i erorilor de msurare. Este esenial ca toate aceste noi ipoteze s nu contrazic
perceperea noastr asupra modelului teoretic. Ipotezele introduse au ca scop principal tocmai
simplificarea procedurilor de soluionare efectiv a modelului empiric (tefnescu, 1999,36).
Tipuri de variabile incluse n modelul cauzal empiric.
n cadrul modelului cauzal pot fi prezente trei tipuri de variabile: variabile latente,
variabile observabile precum i variabile eroare.
O variabil eroare include un set de variabile care nu au fost incluse n model i care
explic variaia variabilei dependente. Aceast variabil indic i gradul de credibilitate a
modelului.
Variabila latent reprezint un concept abstract, nu poate fi direct msurat. Se poate
msura indirect prin intermediul unui indicator sau a unui set de indicatori. Indicatorii poart
denumirea de variabile observabile.
Y
X
U
V
W
CONSTRUCIA INDICILOR
17

Variabilele (latente i observabile) ale modelului cauzal mai pot fi clasificate n variabile
endogene, proprii modelului studiat i variabile exogene, exterioare modelului. O variabil
exogen ntr-un model poate fi endogen n alt model. Variabilele endogene nu pot influena
variabilele exogene.
Modelul empiric va trebui s precizeze gradul de influen al variabilei latente asupra
fiecreia dintre indicatorii prin care este msurat.
Reprezentarea grafic a unui model cauzal empiric.
Prin reprezentarea grafic obinem o imagine global asupra raporturilor cauzale dintre
variabilele modelului studiat. Exist o serie de convenii privind grafurile cauzale (tefnescu,
1999, 47):
- Nodurile ataate variabilelor latente se ncercuiesc
- Nodurile corespunztoare variabilelor observabile se ncadreaz ntr-un
dreptunghi
- Nodurile afiliate variabilelor perturbatoare (erorilor) rmn nemodificate;
- Variabilele latente vor fi reprezentate de majuscule subliniate (W1,W2,U1);
- Variabilele observabile vor fi scrise obinuit (X1, X2, X3);
- Variabilele perturbatoare vor fi scrise cu italic (V1, V2, Z1, Z2, Z3)
Un exemplu de diagrama cauzal este prezentat mai jos n figurile nr. 4-3 i 4-4.

Figura nr. 2-3: Diagrama cauzal cu variabile latente
Sursa: tefnescu, 1999, 47

Ecuaiile de structur cuprind att variabilele latente ct i variabilele observabile.
W1: democraia politic n anul 1985 (variabil latent);
W2: democraia politic n anul 1995 (variabil latent);
U1: industrializarea n anul 1985 (variabil latent);
V1, V2, Z1, Z2: variabile care nu sunt incluse n model (erorile)
X1, X2, X3: variabile direct msurabile ale conceptului de industrializare;
X1: produsul brut pe cap de locuitor;
X2: consumul de energie convenional pe cap de locuitor;
X3: procentul forei de munc angrenat n industrie.
W1= a11*U1+V1
W2=a21*U1+b21W1+V2
X1=d1*U1+Z1
X2=d2*U2+Z2
X3=d3*U3+Z3

U
1
W
1
W
2
V1
V2
a11
a21
b21
CONSTRUCIA INDICILOR
18


Figura nr. 2-4: Diagrama cauzal cu variabile observabile
tefnescuError! Bookmark not defined., 1999, 47
O alt etap n stabilirea unui model cauzal empiric este aceea de a stabili o posibil
relaie de asociere, condiiile ca aceast asociere s devin raport de cauzalitate i precizarea
sensului cauzalitii.
Dup ce s-a conturat un model empiric, se va ncerca confirmarea sau infirmarea unei
posibile legturi dintre dou variabile oarecare ale modelului conceput. Se stabilete dac exist
corelaie ntre cele dou variabile izolndu-le de influena celorlalte variabile. Pentru acest lucru
se va folosi coeficientul de corelaie r a lui Pearsons. Dac se dovedete c ntre cele dou
variabile exist o legtur, atunci se va analiz dac aceast legtur poate fi o relaie cauzal
direct i care este sensul ei: X este cauza lui Y sau Y este cauza lui X. Se poate s existe i un
dublu sens cauzal. Nu este obligatoriu s existe aceleai ponderi de influen n ambele sensuri.
n stabilirea relaiilor cauzale se va ine cont de timpul dintre cele dou evenimente, un
eveniment nu poate fi cauza pentru un eveniment care s-a petrecut anterior lui.
De asemenea, este de preferat ca n modelul cauzal variabilele direct observabile s nu
fie corelate ntre ele. Se va testa i acest lucru, tot prin coeficientul de corelaia a lui Pearsons.
Estimarea parametrilor modelelor cauzale nu se face la ntmplare ci se bazeaz pe
respectarea unor principii (distanele dintre matrici). Dup ce se aplic aceste principii,
soluionarea modelului cauzal ine doar de aplicarea unor proceduri matematice. Este necesar s
se realizeze mai multe variante de modele cauzale pentru a alege modelul cel mai optim, care
poate reda ct mai fidel modelul teoretic. Rezultatele obinute au un caracter relativ, deoarece n
alt context, cu mai multe informaii deinute legate de variabile din model, ar putea iei alt
rezultat.
2.4 Strategii de cercetare pentru verificarea empiric a modelelor cauzale
2.4.1 Strategia cercetrii cantitative
Maxwell, MittapalliError! Bookmark not defined. (2008) prezint conotaiile
termenului de cercetare explicativ. Tradiional, cercetrile denumite prin termenul cercetri
explicative sunt cantitative (metode de colectare a datelor sunt cantitative) i testeaz ipoteze
msurnd relaiile dintre variabile iar datele sunt analizate utiliznd tehnici statistice. n sensul
cel mai strict, acest termen este uneori folosit ca sinonim pentru cercetare experimental, cu
implicaia c doar experimentele sunt capabile de a rspunde la ntrebri de cauzalitate. n linii
mari, pot fi incluse de asemenea i alte tipuri de cercetri cantitative grupate sub numele de
modele cauzale i modele de ecuaii structurale, care ncearc s identifice relaii cauzale prin
analiza corelaiei dintre variabile.
Aceast strategie de cercetare poate fi aplicat att pentru conturarea unor modele
explicative n perspectiv holist ct i individualist. n perspectiv individualismului
metodologic se va utiliza, ca i metod de colectare a datelor, ancheta sociologic pe baz de
U
1
X1 X2 X3
Z1 Z2 Z3
d1 d2
d3
CONSTRUCIA INDICILOR
19

chestionar. Construirea modelelor cauzale se va face pe baza datelor colectate n urma aplicrii
anchetei sociologice pe baz de chestionar i folosirii unor metode statistice specifice n etapa de
analiz a datelor.
n perspectiva holist nu se va mai folosi chestionarul ca i instrument, ci se va face o
analiz asupra datelor la nivel macro, exprimate prin indicatori sociali. Emile DurkheimError!
Bookmark not defined., n studiul su Sinuciderea a explicat factorii care influeneaz
sinuciderea prin alte fapte sociale, msurate prin indicatori sociali, precum rata de sinucidere,
rata de mortalitate, procentul persoanelor nebune etc.
2.4.2 Strategia cercetrii calitative
Termenii de explicaie i de cauzal au fost folosii i n diferite tipuri de cercetri calitative,
dei utilizarea lor a strnit serioase controverse i din partea celor din comunitatea cercettorilor
calitativiti ct i din afara ei. Datorit concepiei conform creia doar cercetrile cantitative pot
analiza cauzalitatea, muli cercettori calitativiti au evitat folosirea acestui termen precum i a
celui de explicaie, n timp ce alii consider chiar inadecvat i ilegitim utilizarea acestor
termeni n cercetrile calitativiste.
Maxwell, MittapalliError! Bookmark not defined. (2008): Utilizarea termenilor ca
influen, impact, afectat i a contribui la este comun n rapoartele cercetrilor calitative, iar
aceti termeni implic cauzalitatea ntr-un anumit sens. n plus, un numr tot mai mare de
cercettori (i cantitativiti i calitativiti) argumenteaz acum c n anumite circumstane,
abordrile cantitative nu sunt neaprat cele mai bune ci de a ajunge la concluzii explicative i c
metodele calitative pot fi folosite pentru a dezvolta sistematic i pentru a testa explicaii
cauzale.
Alte metode dect cele cantitative vor putea stabili concluzii de cauzalitate, nu la fel de
sigure ca n cercetrile cantitative dar care au o anumit relevan. O dat cu cderea
pozitivismului logic, care este strns legat de cercetrile cantitative a aprut realismul care vede
cauzalitatea nu ca regularitate a relaiilor dintre variabile independente i dependente ci mai
degrab ca proprietile i procesele care produc rezultatele cauzale, este mai aproape de
cercetrile calitative i sprijin cererile cercettorilor calitativiti de a fi capabili s traseze
concluzii explicative. (Maxwell, Mittapalli, 2008).
n perspectiva individualismului metodologic, n cercetarea calitativ se analizeaz
comportamentele indivizilor i semnificaiile pe care acetia le ofer diferitelor fenomene
sociale. Unitile de analiz n acest caz sunt indivizii.
n perspectiv holist, nu se mai pune accentul pe elucidarea comportamentelor dintre
indivizi ci se analizeaz n special semnificaia fenomenelor socio-culturale dar i legtura cu
fenomenele psihologice. Una din cele mai importante aplicaii ale holismului este hermeneutica
lui Wilhelm Dilthey. Ideea central este c semnificaiile psihologice a oricrei expresei de
comportament se pot distinge numai prin relatarea ca rspunsuri la alte rspunsuri. Semnificaia
unui rspuns nu este transparent ntr-un comportament unic. De exemplu, pentru a ti dac o
remarc este o glum sau o insult, trebuie s se situeze ntr-un context cu alte observaii i alte
comportamente. Prin el nsi comentariul este ambiguu. Contextul clarific elementele.
2.4.3 Strategia cercetrii comparate
Strategia comparat are ca int explorarea diversitii unui numr moderat de cazuri,
ntr-o manier comprehensiv, pentru a stabili tipologii (Larionescu, 2008, 4).
Charles Ragin (1994, 51 apud Larionescu, 2008, 58) consider cercetarea comparat ca
avnd o poziie intermediar ntre cercetarea cantitativ i cea calitativ. Numrul de cazuri
studiate este de regul mai mic de 50, iar accentul este pus n special pe cazuri (unitile de
analiz) i mai puin pe relaia dintre variabile (caracteristicile studiate). Poate fi folosit pentru
conturarea unor modele explicative la nivel macro.
Analiza comparativ poate fi realizat att prin metode calitative, viznd interpretarea
semnificaiei fenomenelor sociale, ct i prin metode cantitative, viznd explicaia cauzal.
CONSTRUCIA INDICILOR
20

Pentru o imagine mai clar a celor trei tipuri de strategii de cercetare care pot fi utilizate
voi prezenta n tabelul nr. 4-1 o sinteza prezentat de Charles Ragin. Cercetarea comparat se
bazeaz n principal pe explorarea diversitii i propunerea de noi teorii, dar secundar poate
analiza relaii cauzale, identificnd anumite pattern-uri i astfel putnd testa sau rafina teorii.

Tabelul nr. 2-1: Scopurile i abordrile metodologice ale cercetrii sociale
Scopuri Cercetarea
calitativ
Cercetarea
comparat
Cercetarea
cantitativ
1. Identificarea unor pattern-uri generale Secundar Primar
2. Testarea/rafinarea teoriei Secundar Secundar Primar
3. Realizarea de predicii Secundar Primar
4. Interpretarea semnificaiei unor fenomene
istorice sau culturale majore
Primar Secundar
5. Explorarea diversitii Secundar Primar Secundar
6. Exprimarea poziiei unei categorii sociale Primar
7. Propunerea de noi teorii Primar Primar Secundar
Sursa: Charles Raghin, 1994, 51 apud Larionescu, 2008, 58

2.4.4 Strategia cercetrii cantitative combinat cu cea calitativ
Nu putem realiza o explicaie sociologic valid doar pe baza datelor cantitative. Acestea
nu sunt suficiente i trebuie completate cu date din interviuri sau alte metode calitative pentru a
crea o imagine semnificativ pentru procesele sociale care au loc. O explicaie construit doar pe
baza unor date statistice poate exclude rolul proceselor sociale la nivel micro. Pe de alt parte, o
explicaie bazat doar pe rezultatele din cercetare calitativ risc s spun o poveste conturat
doar de indivizi, neinnd cont de influena structurilor sociale la nivel macro.
Se pot combina rezultatele metodelor cantitative i a celor calitative din cel puin trei
raiuni (Udo, 2001, 7):
1. datele rezultate din analiza cantitativ pot fi completate de datele rezultate din analiza
calitativ pentru a crea un model explicativ valid i complex; se folosesc ambele metode pentru a
se completa informaiile obinute prin intermediul uneia din metode.
2. datele rezultate din analiza cantitativ converg cu cele din analiza calitativ, duc la
aceleai rezultate; se folosesc ambele metode de analiza datelor pentru a valida informaiile
obinute cu cealalt metod.
3. datele rezultate din analiza calitativ pot da informaii despre alte poteniale cauze care
influeneaz fenomenul studiat sau pot duce chiar la explicaii contradictorii cu cele obinute din
analiza cantitativ.
De asemenea nu se poate contura o nelegere a fenomenelor sociale fr o completare cu
date de la nivel micro sau meso. Raionamentele statistice n tiinele sociale nseamn de multe
ori interpretarea faptelor statistice (care reprezint fenomene la nivel macro) n lumina
cunoaterii care rezult din nivelul meso i a pattern-urilor de aciune i orientare ale
indivizilor, la nivel micro. Acest tip de raionament face legtura dintre nivelul macro-meso-
micro (Coleman, 1990, apud Udo, 2001, 13).
i John Creswell consider c se poate face un mixaj din cele dou tipuri de metode
pentru a realiza explicaii. Datele rezultate dintr-o cercetare cantitativ pot fi explicate ulterior
printr-o investigare calitativ. i Likewise, Matthew Miles i Michael Huberman consider c
modelele cauzale sugerate de un sondaj de opinie pot fi dezvoltate sau explicate prin cercetare
calitativ, pentru a construi o explicaie general puternic.
Se apeleaz la testarea statistic atunci cnd se dorete testarea generalitii unui model
explicativ, dac este valabil i n alte contexte dect cele vizate de cercettorul sau cercettorii
care au construit respectivul model. De exemplu, Kawachi Ichiro i Kennedy Bruce P. (2006) n
The health of nations relev faptul c banii cumpr o sntate mai bun, dar pn la un punct,
acel punct fiind atins undeva n jurul valorii de 5000$ pe an pentru un individ american. Autorii
CONSTRUCIA INDICILOR
21

menionai, demonstreaz c pn la acest punct exist o relaie linear ntre venit i sperana de
via, dup care orict ar crete veniturile, sperana de via numai crete la fel i rmne cam la
acelai nivel. Probabil de la acel punct ncolo apar alte pericole: prea multe calorii n mncare,
consumul excesiv de carne, fumatul, alcoolul, drogurile, sedentarism, job-uri stresante etc. Se
poate testa dac aceast valoare limit de 5000$ este valabil i n alte ri nu numai n SUA.
Testele statistice se pot folosi i atunci cnd se dorete construirea/rafinarea unei teorii.
Pe baza datelor dintr-o cercetare pe baz de chestionar se poate analiza legtura dintre starea de
sntate a persoanelor (ce aproximeaz sperana de via) i o serie de variabile, cum ar fi
venitul, stilul de via, existena unei reele sociale, religia etc. Realiznd corelaii dintre
variabila dependent i celelalte se poate construi modelul explicativ. Dup construirea
modelului explicativ, este nevoie i de informaii obinute prin cercetarea calitativ pe baz de
interviu pentru a constata ce semnificaii dau oamenii anumitor comportamente care sunt
determinate drept cauze ale speranei de via, prin cercetarea cantitativ.
n exemplul de mai sus, cercetarea comparativ ne poate ajuta pentru a contura un model
explicativ la nivel macro, prin analiza unui numr de ri din diferite continente i a prezenei sau
absenei unor atribute, cum ar fi: politica de sntate, bugetul mare alocat sistemului sanitar,
clima, nivelul economic etc.
2.5 Metode statistice utilizate pentru verificarea empiric a modelelor cauzale
2.5.1 Metode de analiz bivariat
Ronald F. King (2005, 78-79) prezint patru aseriuni referitoare la testarea ipotezelor i
verificarea empiric a relaiilor cauzale:
1. Covariaia
Trebuie s existe o covariaie ntre variabilele analizate i s prezinte regularitate aceast
relaie. Asocierea poate fi dihotomic (cnd poate fi observat X, poate fi observat i Y), continu
(cnd X crete, crete i Y) sau combinat (cnd X este prezent n valori peste un anume prag,
apare i Y). Asocierea poate fi pozitiv (dac X ...atunci Y....) sau negativ (dac X... atunci Y
nu are loc...). Covariaia sistematic nu poate distinge dac X determin pe Y sau Y pe X.
Cauzalitatea implic direcie.
2. Direcionalitatea
Este nevoie ca cercettorul s fac distincia dintre variabila dependent i cea
independent pentru a se putea stabili direcionalitatea cauzal.
3. Raportarea non-aparent
Covariaia direcionat nu este suficient spre a se putea stabili cauzalitate. Stabilirea
influenei unei variabile independente asupra uneia dependente trebuie s persiste i dup ce se
in sub control alte variabile care ar putea s influeneze relaia dintre cele dou variabile. Exist
ns un numr infinit de variabile care ar putea influena relaia dintre cele dou variabile iar un
studiu nu le poate include pe toate.

4. Plauzibilitatea
Cnd stabilim o variabil ca fiind dependent i o variabil ca independent trebuie s fie
credibil n raport cu ce se cunoate deja n literatura de specialitate sau cel puin s avem
argumente solide.
O afirmaie cauzal nu trebuie s apar singur aproape niciodat. Totui, cercettorul
trebuie s includ doar acei factori care sunt valoroi din punct de vedere teoretic i care se
ateapt s afecteze lucrurile n mod semnificativ. Cu ct un model este mai cuprinztor, cu att
sunt mai multe trsturi ale realitii pe care le poate reda, dar, n acelai timp, elementele sale
sunt cu att mai complicate i este mai dificil s extragem implicaii clare i testabile. Cu ct un
model este mai puin cuprinztor, cu att relaiile sale intrinseci devin mai uor de identificat i
testat, dar, n acelai timp, acesta va reui mai puin s reprezinte domeniul complicat al
CONSTRUCIA INDICILOR
22

convingerilor, tipurilor de comportament i instituiilor umane (Ronald F. KingError!
Bookmark not defined., 2005, 81-82)
Instrumentul primar al analizei bivariate este tabelul de contingen. Acesta reprezint un
mod de a clasifica indivizii simultan, n funcie de dou sau mai multe caracteristici ale
populaiei studiate. Prin intermediul tabelelor se evideniaz legtura dintre dou variabile
calitative, care pe baza datelor empirice, au fost transpuse n caracteristici statistice. Exprim
deci o legtur statistic iar aceasta nu presupune neaprat o relaie de cauzalitate. Analiza
bivariat se poate realiza pe dou variabile dihotomice, dou variabile msurate la nivel nominal
sau la nivel ordinal iar pe baza tabelelor de contingen se poate constata dac dou variabile
covariaz. Cu alte cuvinte se poate stabili dac valoarea unei variabile se va schimba o dat cu
schimbarea valorilor celeilalte variabile.
Pentru a testa covariaia a dou variabile calitative se pot folosi coeficieni de asociere
specifici fiecrui tip de variabil, care se calculeaz pe baza tabelelor de contingen:
- pentru variabile dihotomice: Coeficientul Phi, Coeficientul Q a lui Yule.
- pentru variabile nominale cu mai mult de dou categorii: coeficientul de contingen C a
lui Pearson, coeficientul V a lui Cramer, coeficientul (lambda) a lui Goodman i
Kruskal.
- pentru variabile ordinale: coeficienii a lui Kendall, coeficientul al lui Goodman i
Kruskal, coeficientul d a lui Somer.
Att n interpretarea tabelelor de contingen ct i a coeficienilor de corelaie, se
consider o relaie simetric ntre cele dou variabile (Rotariu, 199, 176). Prin urmare, corelaia
variabilei X cu Y este aceeai cu a variabilei Y cu X. Exist situaii n care, prin natura relaiei
dintre cele dou variabile (sex i sperana de via) sau prin ipotezele sau obiectivele cercetrii,
vom presupune c o variabil va depinde de cealalt. n acest caz se poate folosi o serie de
metode specifice acestei situaii precum, regresia linear simpl, dac variabila considerat
dependent este cantitativ sau analiza discriminativ dac variabila dependent este calitativ.
Nici acest tip de metode nu pot reflecta un raport cauzal ntre cele dou variabile, dar pot ajuta la
prezicerea strii unei variabile cunoscnd starea unei alte variabile.
2.5.2 Metode de analiz multivariat
O analiz primar n ce privete relaia dintre trei sau mai multe variabile poate fi
realizat pe baza unor tabele de asociere cu mai mult de dou dimensiuni, care au mai multe
intrri. i acest tip de tabel, ca i cel utilizat pentru analiza relaiei dintre dou variabile stabilete
covariaia i nu cauzalitatea dintre variabile.

Tabelul nr. 2-2: Forma general a tehnicilor de analiz multivariat de dependen
Tehnica de
dependen
Forma general Tipul variabilelor
dependente Yi
Tipul variabilelor
independente Xi
Analiza de corelaie
canonic
Y1+Y2+...Yn=
X1+X2+...+Xn
Metrice i nonmetrice Metrice i nonmetrice
Analiza multivariat
de varian
(MANOVA)
Y1+Y2+...Yn=
X1+X2+...+Xn
Metrice Non-metrice
Analiza simpl de
varian (ANOVA)
Y1=X1+X2+...+Xn Metrice Non-metrice
Analiza
discriminativ
multipl
Y1=X1+X2+...+Xn Non-metrice Metrice
Analiza de regresie
multipl liniar
Y1=X1+X2+...+Xn Metrice Metrice i nonmetrice
Analiza conjoint Y1=X1+X2+...+Xn Metrice sau non-
metrice
Non-metrice
CONSTRUCIA INDICILOR
23

Analiza path/Modele
cu ecuaii structurale
(LISREL)
Y1=X11+X12+...+X1n
Y2=X21+X22+...+X2n
...
Ym=Xm1+Xm2+...+Xmn
Metrice Metrice i nonmetrice
Sursa: Culic Irina (2004,70)
La fel ca i la analiza dintre dou variabile, exist metode care pornesc demersul
stabilindu-se o variabil ca fiind dependent i mai multe variabile ca independente, dar care pot
stabili relaii de cauzalitate dar nu pot contura modele complexe de cauzalitate, cum ar fi
regresia multipl linear i metode care pot contura teorii cauzale, cum ar fi analiza path.
Analiza path este o form extins a analizei de regresie linear, care permite formalizarea unei
teorii cauzale, specificnd logica interaciunilor i determinrilor dintre variabile i fenomene, i
care produce estimate empirice ale efectelor variabilelor ce constituie un sistem cauzal
(RotariuError! Bookmark not defined., 1999, 220).
La modelele prezentate n tabelul nr. 4-2 se pot aduga i modelele de regresie non
linear, dar sunt mai greu de anticipat. Cercettorul ar trebui s presupun tipul de relaie de la
nceputul cercetrii.
Dintre toate, modelul de analiz path este cel mai complex, deoarece n acest model se
presupune c variabilele pot interaciona i c explicaia este produsul unor lanuri cauzale.
Modelul poate include ipoteza c anumite variabile-cauz sunt interdependente, c unii factori
determinani acioneaz att direct ct i indirect asupra fenomenului-efect, n timp ce ali factori
produc numai efecte indirecte, mediate prin aciunea unor variabile-cauz care, pentru acetia,
reprezint efecte. n plus n acest tip de model de analiz se poate lua n calcul i efectul timpului
asupra relaiilor cauzale.
Fa de alte modele, analiza path permite o conceptualizare mai complex a relaiilor
dintre variabile iar relaiile presupuse sunt descrise printr-o diagram cauzal. Modelele cu
ecuaii structurale se pot face n programul LISREL sau n programul AMOS, un program cu o
interfa mai accesibil.
2.6 Erori n construirea modelelor explicative cauzale
2.6.1 Erori de msurare
Toate investigaiile sociologice conin erori, care pornesc de la operaionalizarea
conceptului ajungnd pn la analiza i interpretarea datelor. Operaionalizarea poate conine
erori prin faptul c uneori este imposibil de identificat toi indicatorii posibili ai dimensiunilor
conceptului, alteori sunt eliminai din schem datorit dificultilor majore de msurare.
Operaionalizarea ine att de cunotinele dobndite, de teoriile vizate, dar i de abilitile
cercettorului. Un alt risc ar putea fi reprezentat de faptul c unele dimensiuni pot fi
suprareprezentate iar altele mai puin, i astfel unele dimensiuni sunt mai bine msurate iar altele
mai puin.
O alt surs de eroare este dat i de construirea instrumentului de msurare, modul de
transpunere a indicatorilor n elemente ale instrumentului pot distorsiona msurarea. Modul n
care este pus o ntrebare n chestionar sau un enun ntr-o scal poate duce la rezultate diferite.
2.6.2 Erori de interpretare
Erori pot aprea mai ales n faza de analiz i interpretare a datelor, unde cercettorul din
dorina de a demonstra modelul explicativ propus poate fora anumite corelaii ntre variabile sau
poate folosi anumite metode care l avantajeaz n explicaie.
Erorile n explicaie ar putea fi evitate pornind de la operaionalizarea ct mai detaliat a
conceptului, adoptarea unor instrumente specifice, transformarea indicatorilor n ntrebri care s
msoare exact ceea ce i-a propus cercettorul, adic s existe o validitate ct mai mare a
instrumentului. La analiza datelor, este de preferat respectarea condiiilor de folosirea a unor
metode statistice pentru c altfel rezultatele pot fi distorsionate. De exemplu, regresia linear
CONSTRUCIA INDICILOR
24

poate fi folosit dac variabila dependent (pe care dorim s o explicm) are distribuia normal,
altfel apar erori n analiza i interpretarea datelor. n acelai timp este nevoie i de imaginaie
pentru a crea o schem complex i pentru a putea prevedea posibile variabile care ar putea
influena factorii din schem iar acetia ar trebui inui sub control.
Pe lng aceste elemente, Cosima RughinisError! Bookmark not defined. n Explicaia
sociologic (pp.74-79) mai identific o serie de posibile erori ntr-o explicaie sociologic.
1. Cauzalitatea chimic se refer la posibilitatea ca o serie de factori combinai n diferite
forme s produc acelai efect. Cu alte cuvinte, un fenomen social poate fi explicat deseori prin
modele explicative diferite, fiecare fiind valabil ntr-un anumit context [] Multiplicitatea
combinaiilor de cauze care pot produce un efect ne induce uneori n eroare n cercetarea
cantitativ. Este posibil ca, studiind un eantion care include indivizi din contexte sociale
diferite, s construim un fel de <<model cauzal amalgamat>>, constnd dintr-un amestec al
modelelor particulare valabile n respectivele contexte( RughinisError! Bookmark not
defined., 2007,74)
2. Modele amalgamate apare atunci cnd se construiete un model explicativ privind un
fenomen fr a lua n calcul c exist diferene privind acel fenomen pe anumite categorii de
persoane. De exemplu, construirea unui model explicativ general al duratei medii de via pe o
populaie de romni i de rromi s-ar putea s nu reueasc s explice corect variabila dependent,
deoarece durate medie de via are valori mult mai mici n rndul populaiei rrom i combinaia
de factori ar putea fi alta dect la romni: srcia sever, alimentaia precar, lipsa confortului,
acces limitat la servicii medicale n timp ce pentru populaia romn principalii factori ar putea fi
alimentaia prea bogat n proteine, pre multe produse cu e-uri, stresul, singurtatea etc.
Realiznd un model explicativ general pentru ambele populaii riscm ca anumii factori s se
anuleze reciproc i s apar cu influen nesemnificativ asupra variabilei ce trebuie explicat.
De exemplu, variabila stres se poate anula reciproc, n populaia de etnie rrom este posibil s
aib valori mici iar n populaie de etnie romn s aib valori mari. Un alt exemplu semnificativ
este explicarea duratei medii de via pe populaia din urban i rural. Dac nu se fac modele
explicative diferite s-ar putea ca anumii factori s se anuleze reciproc, cum este cazul variabilei
alimentaie: n rural poate duce la o cretere a duratei medii de via, deoarece alimentaia este
bazat n special pe legume, fructe i mai puin pe carne i n plus sunt produse ecologice, n
timp ce n urban alimentaia poate scade durata medie de via, deoarece se consum alimente cu
multe e-uri, exist un consum excesiv de carne i produse de tip fast-food sau semipreparate.
3. Modelele explicative eronate. Un model explicativ este eronat atunci cnd mecanismele
identificate nu produc n realitate fenomenul explicat (RughiniError! Bookmark not
defined., 2007,218), iar Introducerea legilor cauzale din regulariti empirice poate duce
adesea la imaginarea de cauze false (Zamfir, 2005, 25).
3.1. O situaie aparte este cauzalitatea aparent, care se refer la situaia cnd statistic exist
corelaie ntre dou variabile, dar nici una din variabile nu este cauz a celeilalte. Apare
respectiva corelaie deoarece exist o a treia variabil care le influeneaz. De exemplu, se poate
observa o corelaie statistic ntre durata medie de via i nivelul de colaritate. i am putea
presupune c cu ct o persoan are nivel de colaritatea mai ridicat cu att se informeaz mai
mult despre prevenie i astfel este mai protejat mpotriva bolilor. n plus, cei cu un grad mai
ridicat de colaritate au un nivel mai ridicat de a nelege consecinele unor aciuni care pot duce
la mbolnvire. Dei modelul explicativ pare viabil, de fapt alt variabil poate s fie
responsabil de aceast corelaie. Venitul este cel care de fapt este responsabil de o corelaie
dintre cele dou variabile. Nivelul de colaritate influeneaz venitul avut i acesta influeneaz
starea de sntate. Veniturile deinute asigur oamenilor un anumit nivel de alimentaie, accesul
la servicii medicale i medicamente, un anumit confort i condiii de trai etc. O regularitate
empiric, orict de puternic ar fi ea, nu poate fi nc expresia unei legi cauzale daca nu este
valid i teoretic, prin asocierea unei explicaii a procesului de producere. n lipsa acesteia, ea
poate rmne o simpl curiozitate (ZamfirError! Bookmark not defined., 2005, 26).
3.2. Problema empirismului cauzelor i efectelor
CONSTRUCIA INDICILOR
25

n multe studii sociologice, cercettorii realizeaz tot felul de analize i corelaii n sperana
gsirii unor relaii cauzale ntre variabile. Dar corelaiile gsite pot s nu aib o semnificaie
explicativ, ca atunci cnd se gsete o corelaie statistic ntre numrul de berze dintr-o
localitate i numrul de copii care se nasc n acea localitate. Chiar dac exist o relaie statistic
ntre cele dou variabile, aceasta nu nseamn c berzele dintr-o localitate sunt o cauz a
numrului de nateri. Faptele identificate nu coincid cu cauzele i efectele cutate. De regul, ele
sunt formulate mai nti teoretic i dup aceea msurate i analizate.
4. Modele explicative simpliste. Un model explicativ simplist este o relatare compatibil cu
datele empirice existente, dar incompatibil cu teoriile tiinifice curente referitoare la fenomenul
respectiv (Rughini, 2007, 219). Cu alte cuvinte, se pornete de la analiza datelor, se emit
concluzii fr a se explic mecanismele de producere a relaiilor. Se stabilete o relaie cauzal
ntre dou variabile neinndu-se cont de variabilele intermediare ce mediaz relaia. De
asemenea, dou variabile pot fi luate drept cauze, dar ele s aib un rol explicativ fr a fi n
realitate cauze.
Ctlin Zamfir, n lucrarea sa Spre o paradigm a gndirii sociologice (2005), scoate n eviden
i alte erori ce pot aprea n modelele explicative. Acestea completeaz schema erorilor
prezentate mai sus.

5. Problema sensului cauzrii
Testele statistice pot indica o covariaie ntre dou variabile, ceea ce presupune o legtur
cauzal ntre acestea dou. Aceste teste indic doar faptul c o dat cu variaia unei variabile
variaz i cealalt, dar nu se poate afirma care din ele este cauza i care este efectul. Pentru a se
stabili care din variabile este cauza i care este efectul exist trei procedee: stabilirea succesiunii,
presupunerea unui proces de producere i independena teoretic.
n mod logic cauza precede efectul i atunci ar trebui stabilit cu claritatea succesiunea
temporal a variabilelor vizate. Dar, n cercetrile sociale este foarte greu, dac nu chiar
imposibil de a stabili aceast succesiune temporal, deoarece msurarea se face la un anumit
moment iar de cele mai multe ori procesele sociale se ntind pe perioade mari de timp.
Alt modalitate propus pentru a stabili cauza i efectul este capacitatea de a imagina un
proces plauzibil de producere a unui fenomen de ctre altul. De exemplu, n urma aplicrii
unui test statistic reiese corelaie ntre variabila starea de sntate i alimentaie i nu se
poate stabili prin procedura stabilirii succesiunii care este variabila cauz, se poate imagina un
proces prin care una din variabile influeneaz cealalt variabil. Alimentaia exprimat prin tipul
produselor consumate, cantitatea, modalitatea de preparare, poate influena starea de sntate
pozitiv sau negativ. Consumarea unor produse n mod exagerat poate genera apariia unor boli.
Spre exemplu, consumul excesiv de sare, grsimi poate genera boli ale paratului circulator. Daca
este imaginat acest proces de producere a efectului se poate stabili c alimentaia este o cauz a
strii de sntate. Pe de alt parte, se poate imagina i un proces invers, prin care starea de
sntate poate influena alimentaia. Dac o persoan sufer de anumite afeciuni i i s-a
recomandat regim, este clar c este influenat tipul de alimentaie folosit. Atunci cnd nu se poate
imagina dect un singur proces de producere a efectului lucrurile sunt clare, dar cum este situaia
de fa problema rmne cu semne de ntrebare. Dac dintre cele dou procese imaginate unul
din ele are argumente mai puternice, atunci acel model va rmne valabil.
Dac totui nici una din strategiile de mai sus nu poate fi folosit se poate recurge la
testul independenei. Se va ncerca identificarea variabilei care pare independent fa de
cealalt, cu alte cuvinte se va alege ca variabil cauz cea pentru care avem mai multe argumente
c ar putea influena fenomenul efect. Dac dorim s stabilim care este cauza i care este efectul,
ntr-o relaie de asociere ntre starea de sntate i vrst, este clar c vrsta este variabila
independent deoarece starea de sntatea nu poate influena vrsta unei persoane.
6. Problema duratei i distanei
Cauzalitatea presupune un decalaj temporal i spaial. Se pune ntrebarea ct de mare
poate fi decalajul de timp i spaiu ntre dou fenomene astfel nct s mai poat fi considerate
CONSTRUCIA INDICILOR
26

cauz i efect. Aceast dificultatea de precizare a duratei i distanei poate fi depit prin
imaginarea unui model explicativ i implicit imaginarea distanei i timpului. Bineneles c
acestea sunt doar nite presupoziii i nite aproximri care pot reduce gradul de acuratee a
modelului explicativ.

7. Riscul de a fi corect din raiuni false
Se pornete de la presupoziii false privind cauzele responsabile ale fenomenului studiat
dar corelaia empiric este corect. De exemplu, se poate presupune c variabila sex influeneaz
durata medie de via, prin faptul c femeile sunt mai atente i mai grijulii cu sntatea lor, merg
mai des la medic, se informeaz mai mult. Statistic se constat o corelaie puternic ntre cele
dou variabile, peste tot n lume femeile triesc cu o medie de 4-5 ani mai mult dect brbaii.
Corelaia empiric ne confirm presupoziiile, dar poate aceasta corelaie se datoreaz de fapt
unor factori genetici, femeile avnd se pare o predispoziie genetic de a tri mai mult, scopul
fiind procrearea speciei, la care se adug alte elemente fiziologice, cum ar fi predispoziia spre
anumite boli a femeilor i a brbailor. Dei, corelaia empiric prea s confirme modelul
imaginat, mecanismul corelrii era greit.
8. Problema interdependenei i interaciunii
n studiile realizate de sociologi, atunci cnd se analizeaz diferite fenomene, problema
principal este aceea a numrului de cazuri studiate. De multe ori cazurile studiate nu sunt
independente ntre ele i acestea pot fi considerate de fapt un singur caz. Atunci cnd un caz
reprezint o organizaie sau o localitate, o ar iar ele sunt aezate n proximitate spaial sau au
pornit anumite procese n aceeai perioad au elemente comune i de fapt acele ri sau localiti
pot fi considerate un singur caz n analiz.
Totodat fenomenele sociale analizate n cadrul diferitelor uniti, de cele mai multe ori
interacioneaz cu alte fenomene i este dificil de inut sub control influena altor factori. Metoda
utilizat pentru a controla factorii exteriori este experimentul, dar de cele mai multe ori este
dificil de realizat un experiment n tiinele sociale. De aceea s-au dezvoltate metode statistice
nonexperimentale de control a factorilor exteriori. Pe de alt parte, n statistic funcioneaz
legea numerelor mari i se consider c dac exist un numr suficient de mare de cazuri atunci
variabilele reziduale (care nu pot fi msurate dar care pot influena fenomenul) se compenseaz
reciproc. Cu alte cuvinte, abaterile, extremele de la valorile normale se elimin reciproc. De
multe ori ns, sociologul nu poate dispune dect de puine cazuri i astfel rmne problema
factorilor exteriori.
9. Variaia contextual a cauzalitii
Regularitile empirice stabilite de sociologi au un caracter relativ, deoarece respectivele
relaii s-ar putea s nu mai fie valide n alte contexte sau n alte perioade de timp. Fiecare tip de
organizare social are propriile sale legi. Ceea ce reprezint ntr-un context o cauz, n altul
poate s nu mai fie. Din acest motiv, este destul de riscant s se generalizeze o serie de
regulariti empirice descoperite ntr-un context la toate societile.
Datorit importanei deosebite a contextului n explicaia sociologic, ne putem atepta
c vom avea doar n mod excepional relaii cauzale simple. Cele mai multe dintre formulrile
cauzale simple se dovedesc curnd a fi formulri neglijente, generalizri abuzive ale unor
regulariti empirice conjuncturale. Trebuie s ne ateptm mai degrab la formularea de teorii
complexe care s precizeze ntr-o msur ct mai mare variaia relaiilor de determinare n
funcie de diferii factori contextuali (ZamfirError! Bookmark not defined., 2005, 30).

CONSTRUCIA INDICILOR
27

3 Construirea indicilor
3.1 Definirea indicilor
Prin indice (index) se nelege o variabil unidimensional cu r valori pe care sunt
ordonate v clase de posibile combinri de caracteristici dintr-un spaiu de atribute
multidimensional (Mayantz et al., 1969, 44 apud Chelcea, 2007, 144).
Conceptele cu care operm n tiinele sociale sunt att realiti manifeste, observabile n
mod nemijlocit, ct i stri latente, care nu pot fi direct observabile (msurabile), dar care pot fi
cercetate prin indicatori direct observabili. Aceste variabile latente sunt msurate printr-un set de
indicatori care pot face parte dintr-o singur dimensiune sau mai multe dimensiuni. Prin urmare,
construirea unor variabile index care s sintetizeze informaia din toi indicatorii este o operaie
indispensabil n etapa de analiz a datelor. Aceste variabile index pot fi o msur compozit
unidimensional, obinut pe baza unui set de indicatori omogeni sau o msur sintetic
multidimensional dedus prin reunirea indicatorilor care aparin unor dimensiuni diferite i au
scopul de a ordona subiecii n funcie de intensitatea i orientarea unei atitudini sau
comportament.
Spre exemplu, dorim s analizm percepia oamenilor despremass-media. Pornind de la
definiia de mai sus, variabila unidimensional va fi ncrederea n mass-media, iar spaiul de
atribute multidimensional va fi reprezentat de dimensiunile conceptului: ncrederea n
Televiziune, ncrederea n Radio, ncrederea n Presa scris. Aceste variabile sunt msurate pe o
scala de la 1 la 5, unde 1 reprezint ncrederea cea mai mic iar 5 ncrederea cea mai mare.
Variabila unidimensional creat va avea o serie de valori n funcie de combinaiile de valori
atribuite celor trei variabile (televiziune, radio, pres scris), de ctre persoanele intervievate.
Aceast variabil index va avea rolul de a ordona persoanele intervievate n funcie de
intensitatea ncrederii acordate mass-mediei i se pot ierarhiza n trei categorii: persoane cu
ncredere ridicat, persoane cu ncredere medie i persoane cu ncredere sczut. Aceast
ierarhizare va fi realizat de cercettor n funcie de o serie de valori standard stabilite de acesta.
Cu denumirea de dimensiune sunt vizate elementele (aspectele) care prezint un anumit
grad de generalitate ale domeniului cercetat la un moment dat i care sunt subordonate unui
concept. Din punct de vedere teoretic, dimensiunile, ca i indicatorii, sunt tot concepte, dar cu un
grad mai redus de generalitate comparativ cu conceptul de referin. Ceea ce ntr-un context ne
apare ca dimensiune a unui concept mai general, ntr-un alt context devine concept de referin.
Putem realiza o cercetare n care analizm factorii care influeneaz starea de sntate a
populaiei i lum ca i dimensiuni factorii la nivel macro i factorii la nivel micro sau putem
realiza o cercetare care se va axa doar pe factorii la nivel micro i n acest caz acest concept va
reprezenta conceptul de referin, n timp ce acelai concept n prima cercetare va reprezenta
dimensiune ale unui concept mai amplu. n situaiile cele mai simple, conceptul de referin este
msurat direct prin indicatori empirici, cum ar fi nivelul de educaie, veniturile etc.
Indicii (variabilele index) apar sub diferite denumiri: constructe ipotetice (Vlsceanu,
1982) indicatori generali/indici empirici (Mrginean, 2000). Indicii sau constructele ipotetice
sunt concepte cu valoare teoretic (interpretativ) elaborate pe baza condensrii informaiilor
empirice. n locul prezentrii unor mesaje empirice mai mult sau mai puin disparate se
elaboreaz un concept sintetic cu valoare interpretativ. Principala problem n construirea
indicilor este folosirea adecvat a tehnicilor statistice care permit condensarea inductiv a
informaiilor empirice. (Vlsceanu, 1982, 257-259).
Este cunoscut faptul c orict de minuios se realizeaz operaionalizarea conceptelor i
construcia variabilelor, numai dup culegerea datelor avem posibilitatea unei verificri
temeinice a operaionalizarilor. Putem, de asemenea, constata dac suntem ndreptii s reunim
indicatorii ntr-o msur unidimensional compozit sau avem de-a face cu un domeniu
multidimensional (Mrginean, 2000, 176-178).
CONSTRUCIA INDICILOR
28

Indicii empirici, de regul, pot fi simple sume ale valorilor observate pentru un indicator anume
sau valorii medii, mediana etc. Alteori sunt calculai prin combinaii matematice dintre indicatori
care msoar diferite dimensiuni, fr a fi numite explicit. Exemplu: venitul mediu ca raport
dintre venitul pe gospodrie i numrul de membri dintr-o gospodrie.
O alt cale de construire a indicilor empirici const n definirea conceptului ce urmeaz a
fi msurat, indicarea dimensiunilor conceptului, selectarea unui numr de indicatori pentru
fiecare dimensiune i n final construirea efectiv a indicilor. Primele trei etape se realizeaz n
faza de elaborarea a proiectului de cercetare, nainte de realizarea i aplicarea instrumentului de
cercetare.
Dac dorim s analizm conceptul status social, mai nti vom defini ce nseamn acest
concept, apoi vom stabili dimensiunile acestui concept. Din definiiile pe care le-am gsit n
literatura de specialitate am putut extrage cel puin trei dimensiuni: calificare profesional, nivel
de colarizare i venituri.
Pentru fiecare dimensiune n parte va trebui s alegem indicatorii care pot msura n mod
direct acele dimensiuni. n cazul de fa vom lua ultima diplom obinut pentru calificarea
profesional, ultima coal absolvit i venitul propriu al persoanei intervievate. Pentru
dimensiunea venit lucrurile sunt clare, nu exist un alt indicator care ar putea reprezenta aceast
dimensiune. Dar la dimensiunea nivel de educaie se poate lua att ultima coal absolvit ct i
numrul de ani de studiu realizai. De asemenea la dimensiunea calificare profesional se pot lua
ca indicatori att profesia avut, ct i numrul de diplome obinute pentru calificarea
profesional. Astfel cercettorul trebuie s decid care dintre indicatori ii va folosi pentru
msurarea unei dimensiuni, astfel nct s nu aleag doi sau mai muli indicatori care de fapt sunt
interanjabili i msoar aproximativ acelai lucru.
De cele mai multe ori dimensiunile unui concept au la rndul lor un grad de complexitate
ridicat, sunt abstracte i nu pot fi direct msurabile. n acest caz, dimensiunile la rndul lor vor fi
descompuse n alte componente (subdimensiuni) iar apoi se vor alege indicatorii care msoar
acea dimensiune/subdimensiune. De asemenea, dimensiunile pot fi msurate printr-un indicator
sau prin mai muli indicatori, atunci cnd dimensiune are un grad ridicat de complexitate. Este
indicat ca fiecare dimensiune a conceptului s fie msurat printr-un numr aproximativ egal de
indicatori, altfel s-ar putea ca o dimensiune s fie mai bine msurat doar pentru c n
componena ei au fost inclui mai muli indicatori.
Selectarea indicatorilor care s asigure msurarea dimensiunii ct mai adecvat este un
proces destul de dificil care poate genera erori.
Exemplu. Dorim s analizm conceptul factori la nivel macro care influeneaz starea
de sntate a populaiei i avem ca dimensiuni: factorii medicali, factorii economici, factorii
politici.
Indicatorii pentru factorii medicali pot fi numrul de medici la 10.000 locuitori, numrul
de paturi la 10.000 locuitori, calitatea serviciilor oferite. Acest indicator, calitatea serviciilor
oferite, este extrem de dificil de msurat n mod direct, eventual putem aproxima acest indicator
printr-un indicator subiectiv ce msoar percepia oamenilor despre calitatea serviciilor oferite,
dar care nu reprezint acelai lucru cu ceea ce propusesem iniial.
Dup ce au fost selectai indicatorii se va trece la etapa de construirea instrumentului
cercetrii, colectarea datelor i analiza datelor. n aceast ultim etapa se vor construi indicii.
Pornind de la indicatorii unei dimensiuni se vor uni datele ntr-o singur variabil (index) care va
exprima sintetic informaia din acei indicatori.
Cu toate c este foarte util n cercetarea fenomenelor sociale, modelul unidimensional de
msurare are o serie de limite n cunoaterea fenomenelor a cror structur nu este
unidimensional. n msurarea unidimensional trebuie s se asigure un grad nalt de
omogenitate a indicatorilor care alctuiesc indicele empiric, iar acest lucru poate fi verificat prin
metode statistice.
CONSTRUCIA INDICILOR
29

Modelul unidimensional se dovedete ntr-adevr a corespunde n mare msur nevoilor
de cunoatere a vieii sociale. De cele mai multe ori ns, cercettorii construiesc un indice
undimensional fr a mai verifica ncadrarea indicatorilor ntr-o singur dimensiune i
nemaiinndu-se cont de coninutul indicatorilor. Acest lucru se ntmpl deoarece este mult mai
uor de realizat un astfel de indice.
Fr a repudia modelul msurarii unidimensionale se impune aplicarea i a altor
modaliti de construcie a msurilor compozite, a indicilor. O modalitate o reprezint
construcia indicilor pentru care nu se mai impune cerina unidimensionalitii, dar nici nu se
identific dimensiunile ipotetice. Prin modelul index se realizeaz o msurare nondimensional
asupra unor domenii care nu sunt unidimensionale, dar crora nu li se identific cu suficient
precizie natura structurii interne i a interrelaiilor dintre elementele componente. Se constituie
astfel tehnici diverse de elaborare a indicilor empirici, de regul prin calculul unor scoruri totale
de nsumare a valorilor fiecrui indicator ce intr n structura indicatorului general.
n cadrul construirii indicilor empirici influena cercettorului este mare ncepnd de la
alegerea i definirea modelului de lucru pn la realizarea lui efectiv. Nu se cunosc relaiile
dintre indicatori iar cercettorul presupune c exist anumite relaii i n funcie de aceste
presupoziii va construi indicele. Indicii empirici obinui au n realitate o structur
multidimensional, ceea ce corespunde n mai mare msura fenomenelor i proceselor sociale
complexe, comparativ cu modelul unidimensional.
Un prim set de msuratori index se constituie direct din cadrul msurtorilor
unidimensionale, atunci cnd, dei presupus, unidimensionalitatea nu poate fi confirmat, totui
se elaboreaz indicatori generali prin reunirea elementelor ce descriu domeniul analizat.
Un al doilea set de msuratori index se realizeaz prin construcia indicilor prin reunirea
elementelor componente practica cel mai des ntlnit fr a se face vreo referire explicit la
natura multidimensional a fenomenelor cercetate. Aceast modalitate de construcie poate fi cea
mai deficitar, ntruct se caracterizeaz de cele mai multe ori pe subiectivismul cercettorului.
Totui i acest demers al construciei indicilor are o anumit valoare, mai ales dac se au
n vedere i relaiile reciproce ale indicatorilor care alctuiesc msura compozit. Dac nu se
precizeaz relaiile dintre indicatorii care compun indicele empiric, pot aprea dificulti n
privina agregrii lor.

3.2 Tipuri de indici
Indicii empirici, de regul, pot fi simple sume ale valorilor observate pentru un indicator anume
sau valorii medii, mediana etc. Alteori sunt calculai prin combinaii matematice dintre indicatori
care msoar diferite dimensiuni, fr a fi numite explicit. Exemplu: venitul mediu ca raport
dintre venitul pe gospodrie i numrul de membri dintr-o gospodrie.
O alt cale de construire a indicilor empirici const n definirea conceptului ce urmeaz a
fi msurat, indicarea dimensiunilor conceptului, selectarea unui numr de indicatori pentru
fiecare dimensiune i n final construirea efectiv a indicilor. Primele trei etape se realizeaz n
faza de elaborarea a proiectului de cercetare, nainte de realizarea i aplicarea instrumentului de
cercetare.
Dac dorim s analizm conceptul status social, mai nti vom defini ce nseamn acest
concept, apoi vom stabili dimensiunile acestui concept. Din definiiile pe care le-am gsit n
literatura de specialitate am putut extrage cel puin trei dimensiuni: calificare profesional, nivel
de colarizare i venituri.
Pentru fiecare dimensiune n parte va trebui s alegem indicatorii care pot msura n mod
direct acele dimensiuni. n cazul de fa vom lua ultima diplom obinut pentru calificarea
profesional, ultima coal absolvit i venitul propriu al persoanei intervievate. Pentru
dimensiunea venit lucrurile sunt clare, nu exist un alt indicator care ar putea reprezenta aceast
dimensiune. Dar la dimensiunea nivel de educaie se poate lua att ultima coal absolvit ct i
CONSTRUCIA INDICILOR
30

numrul de ani de studiu realizai. De asemenea la dimensiunea calificare profesional se pot lua
ca indicatori att profesia avut, ct i numrul de diplome obinute pentru calificarea
profesional. Astfel cercettorul trebuie s decid care dintre indicatori ii va folosi pentru
msurarea unei dimensiuni, astfel nct s nu aleag doi sau mai muli indicatori care de fapt sunt
interanjabili i msoar aproximativ acelai lucru.
De cele mai multe ori dimensiunile unui concept au la rndul lor un grad de complexitate
ridicat, sunt abstracte i nu pot fi direct msurabile. n acest caz, dimensiunile la rndul lor vor fi
descompuse n alte componente (subdimensiuni) iar apoi se vor alege indicatorii care msoar
acea dimensiune/subdimensiune. De asemenea, dimensiunile pot fi msurate printr-un indicator
sau prin mai muli indicatori, atunci cnd dimensiune are un grad ridicat de complexitate. Este
indicat ca fiecare dimensiune a conceptului s fie msurat printr-un numr aproximativ egal de
indicatori, altfel s-ar putea ca o dimensiune s fie mai bine msurat doar pentru c n
componena ei au fost inclui mai muli indicatori.
Selectarea indicatorilor care s asigure msurarea dimensiunii ct mai adecvat este un
proces destul de dificil care poate genera erori.
Exemplu. Dorim s analizm conceptul factori la nivel macro care influeneaz starea
de sntate a populaiei i avem ca dimensiuni: factorii medicali, factorii economici, factorii
politici.
Indicatorii pentru factorii medicali pot fi numrul de medici la 10.000 locuitori, numrul
de paturi la 10.000 locuitori, calitatea serviciilor oferite. Acest indicator, calitatea serviciilor
oferite, este extrem de dificil de msurat n mod direct, eventual putem aproxima acest indicator
printr-un indicator subiectiv ce msoar percepia oamenilor despre calitatea serviciilor oferite,
dar care nu reprezint acelai lucru cu ceea ce propusesem iniial.
Dup ce au fost selectai indicatorii se va trece la etapa de construirea instrumentului
cercetrii, colectarea datelor i analiza datelor. n aceast ultim etapa se vor construi indicii.
Pornind de la indicatorii unei dimensiuni se vor uni datele ntr-o singur variabil (index) care va
exprima sintetic informaia din acei indicatori.
Cu toate c este foarte util n cercetarea fenomenelor sociale, modelul unidimensional de
msurare are o serie de limite n cunoaterea fenomenelor a cror structur nu este
unidimensional. n msurarea unidimensional trebuie s se asigure un grad nalt de
omogenitate a indicatorilor care alctuiesc indicele empiric, iar acest lucru poate fi verificat prin
metode statistice.
Modelul unidimensional se dovedete ntr-adevr a corespunde n mare msur nevoilor
de cunoatere a vieii sociale. De cele mai multe ori ns, cercettorii construiesc un indice
undimensional fr a mai verifica ncadrarea indicatorilor ntr-o singur dimensiune i
nemaiinndu-se cont de coninutul indicatorilor. Acest lucru se ntmpl deoarece este mult mai
uor de realizat un astfel de indice.
Fr a repudia modelul msurarii unidimensionale se impune aplicarea i a altor
modaliti de construcie a msurilor compozite, a indicilor. O modalitate o reprezint
construcia indicilor pentru care nu se mai impune cerina unidimensionalitii, dar nici nu se
identific dimensiunile ipotetice. Prin modelul index se realizeaz o msurare nondimensional
asupra unor domenii care nu sunt unidimensionale, dar crora nu li se identific cu suficient
precizie natura structurii interne i a interrelaiilor dintre elementele componente. Se constituie
astfel tehnici diverse de elaborare a indicilor empirici, de regul prin calculul unor scoruri totale
de nsumare a valorilor fiecrui indicator ce intr n structura indicatorului general.
n cadrul construirii indicilor empirici influena cercettorului este mare ncepnd de la
alegerea i definirea modelului de lucru pn la realizarea lui efectiv. Nu se cunosc relaiile
dintre indicatori iar cercettorul presupune c exist anumite relaii i n funcie de aceste
presupoziii va construi indicele. Indicii empirici obinui au n realitate o structur
multidimensional, ceea ce corespunde n mai mare msura fenomenelor i proceselor sociale
complexe, comparativ cu modelul unidimensional.
CONSTRUCIA INDICILOR
31

Un prim set de msuratori index se constituie direct din cadrul msurtorilor
unidimensionale, atunci cnd, dei presupus, unidimensionalitatea nu poate fi confirmat, totui
se elaboreaz indicatori generali prin reunirea elementelor ce descriu domeniul analizat.
Un al doilea set de msuratori index se realizeaz prin construcia indicilor prin reunirea
elementelor componente practica cel mai des ntlnit fr a se face vreo referire explicit la
natura multidimensional a fenomenelor cercetate. Aceast modalitate de construcie poate fi cea
mai deficitar, ntruct se caracterizeaz de cele mai multe ori pe subiectivismul cercettorului.
Totui i acest demers al construciei indicilor are o anumit valoare, mai ales dac se au
n vedere i relaiile reciproce ale indicatorilor care alctuiesc msura compozit. Dac nu se
precizeaz relaiile dintre indicatorii care compun indicele empiric, pot aprea dificulti n
privina agregrii lor.
Se impune a se face o difereniere dintre indicatorii sociologici i indicii empirici, pe de o
parte i indicatorii i indicii statistici, pe de alt parte. n termeni statistici, indicatorul este o
carcateristic, exprimat numeric, a unei categorii economice, sociale, fiind noiunea pentru o
expresie numeric determinat pe baza observaiilor statistice, iar indicele este un raport ntre
mrimea unui indicator la momentul
1
t i marimea lui la momentul
0
t sau un raport ntre dou
mrimi coexistente. Uneori se consider numrul propriu-zis ca fiind o statistic, iar raportul este
definit drept indicator statistic (social, economic, etc.). Sociologul opereaz adesea i cu mrimi
statistice pentru analiza i interpretarea fenomenelor i proceselor sociale, fr a reduce
problematica indicatorilor la acestea. n cazul cercetrii fenomenelor relativ simple este suficient
un singur indicator, pe cnd n studiul fenomenelor complexe sunt necesari mai muli indicatori,
pentru a le surprinde n mod adecvat.
Cu alte cuvinte n statistic termenul de indicator se refer la o caracteristic a unui
fenomen exprimat numeric, iar indicele un raport. Pentru sociologi, indicatorii sunt elementele
direct msurabile ale unui concept iar indicii reprezint variabile compozite create pe baza unei
formule care exprim sintetic informaia din mai muli indicatori.
n funcie de numrul caracteristicilor a cror evoluie o msoar exist indici elementari
i indici sintetici.
Indicii elementari (individuali) msoar evoluia unei singure caracteristici. O
caracteristic oarecare este msurat la dou momente diferite: perioada de baz sau de referin,
iniial, notat cu 0, i perioada curent sau final, a doua perioad, notat cu 1. Aceti indici nu
depind de unitile de msur utilizate, permind compararea evoluiei unor mrimi diferite.
Indicii sintetici (de grup) permit msurarea global a evoluiei simultane a mai multor
caracteristici statistice. Nu exist o formul general, dar n cele mai multe cazuri se exprim ca
sum ntre diferite caracteristici calitative sau cantitative.
O alt clasificare este n funcie de existena sau inexistena unei formule prestabilite:
indici care au o formul prestabilit de calcul, indici care nu au o formul prestabilit de calcul
i indici fr formule de calcul. Prima categorie de indici este folosit n special pentru studierea
fenomenelor economice: indicele valorii produciei, indicele productivitii medii, indicele
preurilor consumatorilor (Dugulean, 1999, 216-218). A doua categorie de indici este folosit n
general pentru studierea fenomenelor sociale, iar construirea lor ine de intuiia, imaginaia i
competena profesional a cercettorului precum i de obiectivele de msurare ale cercetrii. De
asemenea, atunci cnd lucrm pe date la nivel macro sau facem analiz de date secundare,
construcia indicilor depinde i de datele pe care le avem la dispoziie.
Indicii care sunt creai dup formule stabilite de fiecare cercettor n parte sunt calculai
astfel:
- indice medie aritmetic (satisfacia fa de munc-media scorurilor obinute pe o scal de la
1 la 5 n Sandu, 1999);
- indice sum (vezi indicele sumativ informarea politic din studiul realizat de FSD-Gallup,
septembrie 2005, Romnia urban n Sandu, 1999);
CONSTRUCIA INDICILOR
32

- indice raport de scoruri (venitul mediu pe membru de familie n Sandu, 1999);
- indice pe baza unor formule complexe (vezi indicele capitalului social sau n
Berevoescu, Chiribuc, Coma, Grigorescu, Lzroiu A,, Lzroiu S., Pan, Pop, Stnculescu,
1999);
- indice scor factorial (vezi indicele dotarea material din studiul realizat de FSD-Gallup,
septembrie 2005, Romnia urban n Sandu, 2006);
Indicii care nu au formule de calcul sunt indici de numrare, unde se numr prezena
unei anumite caracteristici la mai muli indicatori.( vezi indicicele bunuri moderne n
gospodrie n Berevoescu, Chiribuc, Coma, Grigorescu, Lzroiu A,, Lzroiu S., Pan, Pop,
Stnculescu, 1999)
n funcie de datele prelucrate pentru construirea indicilor, exist indici la nivel macro,
realizai pe baza datelor colectate din documente sociale cum ar fi anuarele statistice sau alte date
oficiale) i indici la nivel micro
1
, realizai pe baza datelor colectate prin anchete sociologice sau
sondaje de opinie.
Voi enumera dou exemple de indici la nivel macro, care se regsesc n Raportul Naional al
Dezvoltrii Umane, Romnia, 2007: indicele dezvoltrii umane (IDU-vezi tabelul nr. 9.1) i
indicele srciei umane (IS-vezi tabelul nr. 9.2)

Tabelul nr. 3-1: Dimensiuni i indicatori ai indicelui IDU
Dimensiuni Indicatori selectai
Longevitatea Sperana de via la natere
Nivelul de
educaie
-gradul de alfabetizare a populaiei;
-rata brut de cuprindere n nvmntul
superior
Standardul
de via
-produsul intern brut pe locuitor calculat la
paritatea puterii de cumprare n dolari SUA

n componena fiecrui indice vor intra indicatori la nivel macro, msurai pe date
valabile la nivelul ntregii societi.
Se observ c cei doi indici au trei dimensiuni comune, dar indicatorii luai n calcul
pentru msurarea acelor componente sunt diferii. Prin urmare, n construirea indicilor pe baza
unor date la nivel macro, alegerea indicatorilor pentru fiecare dimensiune ine n primul rnd de
obiectivul msurrii i n al doilea rnd de datele care pot fi disponibile pentru msurarea direct
a conceptelor.

Tabelul nr. 3-2: Dimensiuni i indicatori ai indicelui IS
Dimensiuni Indicatori selectai
Longevitatea Proporia persoanelor care nu se ateapt s
supravieuiasc vrstei de 60 ani
Nivelul de
educaie
Ponderea populaiei adulte (de 15 ani i
peste) analfabete
Standardul
de via
Proporia persoanelor care se afl sub pragul
srciei stabilit la 60% din venitul median
disponibil pe adult
Excluderea
social
Rata omajului pe termen lung (12 luni i
peste)


1
Se consider c datele colectate pe baza unor anchete sociologice nu sunt dect agregri ale rspunsurilor indivizilor i nu pot fi
considerate date la nivel macro.
CONSTRUCIA INDICILOR
33

3.3 Construirea indicilor cu ajutorul programului SPSS
3.3.1 I ndice de numrare
Comanda COUNT numr de cte ori apar anumite valori ntr-un set de variabile
specificate. Noua variabil creat prin aceast comand va avea pentru fiecare individ n parte o
valoare egal cu numrul de rspunsuri care au valoarea specificat.
Sintaxa comenzii este urmtoarea:
COUNT nume_var=lista_var (lista_valori).
Exemplu: folosind baza de date BOP iunie 1998 s se construiasc un indice de tip COUNT al
participrii la activiti de protest.
Variabilele folosite sunt prezentate n tabelul nr. 9.6.
Tabelul nr. 3-3: Indicatori ai indicelui de numrare participare protest
Dup 1990, dvs. personal ai da nu NR
POL1. Participat la o manifestaie de strad,
miting
1 2 9
POL2. Participat la o grev 1 2 9
POL3. Semnat o petiie de protest 1 2 9
POL4. Contactat o instituie oficial pentru
rezolvarea unor probleme
1 2 9

Ne intereseaz la cte activiti a participat fiecare individ n parte pentru a putea
diferenia ntre cei activi i cei mai puin activi. Vom numra deci de cte ori apare valoarea 1
(Da) pentru setul de variabile POL1, POL2, POL3, i POL4.
Comanda se scrie n modul urmtor, POL fiind numele indicelui nou creat :
COUNT POL= POL1 (1) POL2 (1) POL3(1) POL4(1).
Atunci cnd valoarea numrat este aceeai pentru toate variabilele, comanda se poate
scrie prescurtat i:
COUNT POL = POL1 POL2 POL3 POL4 (1).

Din meniul principal se selecteaz TRANSFORM/ COUNT, i se va deschide fereastra
urmtoare. n dreptul rubricii Target Variable se tasteaz numele noii variabile ce va fi creat,
i dac se dorete se introduce i o etichet pentru acest nume n csua Target Label. Se
selecteaz din lista de variabile cele care vor fi folosite la construcia indicelui (dup ce se
selecteaz numele unei variabile, se apas butonul cu sgeat). n final se selecteaz opiunea
Define Values. Se va deschide o nou fereastr, i n coloana din stnga se va tipri valoarea
ce urmeaz a fi numrat, se apas butonul Add (Adaug). Dac sunt mai multe valori se repet
procedura, iar apoi se selecteaz Continue i va apare din nou fereastra de mai jos, unde se
selecteaz OK.

CONSTRUCIA INDICILOR
34



Figura nr. 3-1: Opiunea COUNT pentru indicele de numrare, participare protest



Figura nr. 3-2: Opiunea COUNT-Define values pentru indicele de numrare, participare protest


n continuare rulm comanda Frequencies (de calculare a frecvenelor) fie din meniul
principal ANALYZE/ DESCRIPTIVE STATISTICS/ FREQUENCIES, fie tastnd n fereastra
de sintax comanda frequencies nume variabil., n acest caz fre pol..
Deducem din tabelul de mai jos c 903 subieci nu au participat la nici una din cele 4
activiti menionate, 176 au participat la o activitate, 62 la 2 activiti, 48 la 3 activiti i 23 la 4
activiti.



3.3.2 I ndice sumativ sau de tip medie
Atitudinile fiind fenomene latente inobservabile n mod direct pot fi msurate rareori
printr-o singur ntrebare, de obicei folosindu-se un set de ntrebri. Orice scal cuprinde un set
de enunuri care alctuiesc un spaiu unidimensional gradat (de la negativ la pozitiv). Funcie de
903 74,5 74,5 74,5
176 14,5 14,5 89,0
62 5,1 5,1 94,1
48 4,0 4,0 98,1
23 1,9 1,9 100,0
1212 100,0 100,0
1212 100,0
,00
1,00
2,00
3,00
4,00
Total
Valid
Total
Frequency Percent
Valid
Percent
Cumulat iv e
Percent
POL
CONSTRUCIA INDICILOR
35

rspunsurile individului la fiecare enun n parte se obine un scor general care indic orientarea
si intensitatea atitudinii. Dac acest scor este obinut prin nsumarea rspunsurilor indicele se
numete sumativ.
Indicii sumativi se construiesc cu ajutorul comenzii COMPUTE.
Sintaxa comenzii este COMPUTE V = V
1
+ V
2
+ V
3
++V
n
, unde V este indicele, iar V
1,

V
n
variabilele folosite n construcia scalei. Uneori indicele este definit ca media celorlalte
variabile, n acest caz comanda fiind: COMPUTE V = (V
1
+ V
2
+ V
3
++V
n
)/n.
Pentru a construi acest indice trebuie s determinm care dintre valori indic
deschiderea/respingerea fa de risc. Deschiderea fa de risc este indicat de acordul cu prima
ntrebare i dezacordul cu ultimele trei. Prin urmare, dac dorim s construim un indice care s
msoare deschiderea fa de risc va trebui s recodm ultimele trei variabile (pentru a inversa
scala) i s eliminm nonrspunsurile din analiz.

Comenzile corespunztoare sunt:
RECODE RISC1 (9=sysmis) (else=copy) INTO R1.
RECODE RISC2 (4=1) (3=2) (2=3) (1=4) (9= sysmis) INTO R2.
RECODE RISC3 (4=1) (3=2) (2=3) (1=4) (9=sysmis) INTO R3.
RECODE RISC4 (4=1) (3=2) (2=3) (1=4) (9=sysmis) INTO R4.
COMPUTE RISC= R1+R2+R3+R4.
Noua variabil astfel creat va avea valori de la 4 (toate rspunsurile pentru R1, R2, R3,
R4 sunt 1) la 16 (toate rspunsurile sunt 4), unde 4 indic toleran minim fa de risc, iar 16
toleran maxim.
O alt variant ar fi fost s calculm media celor 4 variabile:
COMPUTE RISC = (R1+R2+R3+R4)/4. n acest caz indicele ar avea valori de la 1 la 4.
Exemplu: Pe baza ntrebrilor folosite n BOP iunie 1998 cu privire la atitudinea fa de
risc vom construi un indice sumativ.

Tabelul nr. 3-4: Indicatori care msoar deschiderea spre situaii de risc
n ce msur suntei de acord cu
urmtoarele afirmaii
n foarte
mare
msur
n mare
msur
n mic
msur
n foarte mic
msur
NS/
NR
RISC1. Cine nu risc, nu ctig 4 3 2 1 9
RISC2. n via, omul ar trebui s se
cluzeasc dup obinuin
4 3 2 1 9
RISC3. Este mai bun un loc de munc
prost pltit, dar sigur, dect un loc de
munc bine pltit, dar nesigur
4 3 2 1 9
RISC4. Lucrurile vechi, verificate prin
experien sunt mai bune dect cele
noi pe care nu le cunosc
4 3 2 1 9

Coeficientul Cronbach (alfa) pentru a verifica validitatea scalei (Reliability)
Ori de cte ori construim un indice sumativ exist riscul ca indicatorii s nu fac parte
dintr-o singur dimensiune i astfel demersul nostru statistic s nu fie corect. Se presupune c
ntrebrile msoar aceeai atitudine i atunci rspunsurile vor fi puternic corelate ntre ele. Dac
se observ c rspunsurile la o ntrebare nu coreleaz cu restul rspunsurilor i cu indicele (scala)
se poate presupune c acel indicator nu face parte din aceeai dimensiune, msoar altceva i
prin urmare este indicat s fie exclus din componena indicelui. Verificarea se face cu ajutorul
coeficientul Cronbach (alfa) bazat pe calculul corelaiilor dintre itemi. Dac alfa>0,6 se
presupune c itemii formeaz o singur dimensiune i astfel putem construi indicele sumativ din
indicatorii inclui n analiz.
CONSTRUCIA INDICILOR
36

Pentru a verifica validitatea unei scale cu ajutorul programului SPSS 17 se selecteaz din
meniul principal ANALYZE/ SCALE/ RELIABILITY ANALYSIS. n fereastra care se deschide
se selecteaz din lista de variabile cele care vor fi introduse n indice.

Figura nr. 3-3.: Fereastra Reliability Analysis

Se selecteaz apoi butonul Statistics i se deschide o nou fereastr, unde am ales
corelaiile dintre variabile (inter item correlations) i indicatorii pentru fiecare variabil, pentru
scal i pentru indice (scal) fr itemul respectiv. Se selecteaz apoi Continue i OK.

Figura nr. 3-4: Opiunea Statistics n Reliability Analysis

Rezultatul afiat este urmtorul:
****** Method 2 (covariance matrix) will be used for this analysis ******
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Au fost calculate mediile i abaterea standard pentru fiecare variabil n parte:
Mean Std Dev Cases
1. R1 3,1629 ,8164 933,0
2. R2 2,6774 ,9345 933,0
3. R3 2,1468 ,9864 933,0
4. R4 2,1908 ,8959 933,0

Matricea de corelaie conine toate corelaiile bivariate ntre variabile i observm c
primul item (R1) coreleaz negativ i foarte slab cu celelalte variabile deci se presupune c de
fapt msoar slab tolerana fa de risc.

Correlation Matrix
R1 R2 R3 R4
R1 1,0000
R2 -,0829 1,0000
R3 ,0009 ,3576 1,0000
R4 -,0191 ,3786 ,4357 1,0000
CONSTRUCIA INDICILOR
37


N of Cases = 933,0
Este calculat media i dispersia pentru indice (scal) construit ca sum a variabilelor:

Statistics for Mean Variance Std Dev Variables
Scale 10,1779 5,2258 2,2860 4

Sunt calculai coeficienii Cronbach pentru scal i pentru scal fr itemul respectiv.
Item-total Statistics







Scale Scale Corrected
Mean Variance Item- Squared Alpha
if Item if Item Total Multiple if Item
Deleted Deleted Correlation Correlation Deleted
R1 7,0150 4,7122 -,0432 ,0080 ,6568
R2 7,5005 3,1859 ,3497 ,1952 ,3501
R3 8,0311 2,8220 ,4317 ,2338 ,2549
R4 7,9871 3,0470 ,4400 ,2468 ,2630
Reliability Coefficients 4 items
Alpha = ,4874 Standardized item alpha = ,4649

Analiznd datele de mai sus observm c dac eliminm primul item din analiz,
coeficientul Cronbach crete de la 0,48 (aflat sub limita acceptabil) la 0,65. n concluzie,
indicele final va fi format numai dintre R2, R3 i R4 i va avea un coeficient Cronbach de 0,65.
Noua variabil astfel creat va avea valori de la 3 (dac pentru R2, R3, R4 persoanele au
rspuns cu codul1) la 12 (toate rspunsurile sunt 4), unde 3 indic toleran minim fa de risc,
iar 12 toleran maxim.
Comanda n SPSS 17 este: TRANSFORM/COMPUTE VARIABLES. n fereastra de
dialog la Target variables se trece numele noii variabile create (indicele) risc, iar n dreapta la
Numeric Expresion se introduc variabilele care vor fi adunate i se pune semnul + ntre ele,
dup care se apas butonul ok. Noua variabil creat se va regsi la sfritul bazei de date.
Acum, n loc s folosim cei trei indicatori, R2, R3, R4 pentru descrierea deschiderei fa de risc,
vom utiliza indicele care va exprima sintetic informaia din cei trei indicatori.

CONSTRUCIA INDICILOR
38


Figura nr. 3-5: Opiunea COMPUTE pentru indicele risc de tip sumativ

Indicii sunt variabile msurate la nivel metric i prin urmare pentru descrierea acestora se
vor folosi indicatori precum, media, mediana, modul.



n concluzie, putem afirma c romnii (baza de date este reprezentativ pentru populaia
Romniei) nu au o deschiderea prea mare pentru situaiile de risc, scorul de 6,96 plasndu-se la
mijlocul scalei indicelui, unde 3 este minimul i 12 maximul de deschidere pentru risc. Cu
aceast variabil se pot face i analize mai complexe stabilindu-se dac sunt diferene n funcie
de vrst, regiuni sau sex, aplicndu-se testul ANOVA i testul t pentru dou eantioane
independente.

O alt variant ar fi fost s calculm media celor 3 variabile:
COMPUTE RISC= (R2+R3+R4)/3. n acest caz indicele ar avea valori de la 1 la 4.
Comanda n SPSS 17 este: TRANSFORM/COMPUTE VARIABLES. n fereastra de
dialog la Target variables se trece numele noii variabile create (indicele) risc, iar n dreapta la
Numeric Expresion se introduc variabilele care vor fi adunate i se pune semnul + ntre ele i
mprite la 3, dup care se apas butonul ok.

Statistics
risc
974
238
6,9682
7,0000
6,00
3,00
12,00
Valid
Missing
N
Mean
Median
Mode
Minimum
Maximum
CONSTRUCIA INDICILOR
39


Figura nr. 3-6: Opiunea COMPUTE pentru indicele risc de tip medie


Rezultatele duc la aceeai concluzie, romnii au un grad mediu de deschidere fa de
situaiile riscante. Pe o scala de la 1 la 4, unde 1 reprezint lipsa deschiderii fa de risc i 4
deschiderea maxim fa de risc, scorul de 2.32 reprezint valoarea de mijloc.

3.3.3 I ndice ca raport de scoruri
Folosind aceeai baz de date BOP iunie 1998, dorim s calculm un indice, denumit
venit, care s msoare venitul pe fiecare persoan n parte. n baza de date avem variabila
ven,venitul per gospodrie i numrul de membrii din gospodrie, denumit nrmem. Indicele
venit va fi calculat ca raport dintre ven i nrmem.



Figura nr. 3-7: Opiunea COMPUTE pentru indicele venit de tip raport

Comanda n SPSS 17 pentru calcularea TRANSFORM/COMPUTE VARIABLES. n
fereastra de dialog la Target variables se trece numele noii variabile create (indicele) venit, iar n
Statistics
risc
974
238
2,3227
2,3333
2,00
1,00
4,00
Valid
Missing
N
Mean
Median
Mode
Minimum
Maximum
CONSTRUCIA INDICILOR
40

dreapta la Numeric Expresion se introduc variabilele care vor fi mprite, dup care se apas
butonul ok. Variabila nou creat se va regsi la sfritul bazei de date i se pot face prelucrri
ulterioare cu ea.

3.3.4 I ndici cu formule complexe
Construcia indicelui opiniei majoritare, propus de R. Hofsttter (1966)
Indicele propus de R. Hofsttter (1966) se deosebete de indicii anteriori prin faptul c ia
n considerare att opiniile pozitive, ct i cele negative i nonrspunsurile. El poate fi deci
calculat numai atunci cnd avem de a face cu ntrebri ce msoar opinia.
Formula de calcul a lui Hofsttter este:
100
) 100 ( * ) (
0
p p p
I

=
+
unde
p
+
este procentul rspunsurilor pozitive
p
-
este procentul rspunsurilor negative
p
0
este procentul celor care au o opinie neutr sau nu au rspuns la ntrebare.
Indicele opiniei dominante propus de Dumitru Sandu se calculeaz dup formula:
100 *
) ( * ) (
2
0
n
f n f f
IOPD

=
+
, unde f
+
, f
-
, i f
0
sunt frecvenele corespunztoare procentelor
din formula precedent, iar n este numrul de variabile. Indicele ia valori ntre -100 i 100,
valorile negative indicnd opinie dominant negativ, iar cele pozitive o opinie dominant
pozitiv.
Aceti indici pot fi calculai pentru o singur variabil sau pentru un set de variabile.
Pentru calcul lor vor fi combinate dou comenzi n programul SPSS: COUNT i COMPUTE.
Pentru un set de variabile numrul rspunsurilor pozitive, negative i neutre se calculeaz
cu comanda COUNT. Vom crea deci trei variabile:
- POZ: indice de tip COUNT care indic cte rspunsuri pozitive a dat fiecare individ
- NEG: indice de tip COUNT care indic cte rspunsuri negative a dat fiecare individ
- NEU: indice de tip COUNT care indic cte rspunsuri neutre a dat fiecare individ
n final vom rula comanda COMPUTE I=(POZ NEG)*(nrdevar-NEU)*100/nrdevar
2
.
Exemplu: folosind exemplu anterior vom calcula IOPD pentru atitudinea fa de risc.
Variabilele incluse sunt RISC2, RISC3 i RISC4 deoarece aa cum am vzut este preferabil s
eliminm RISC1 din scal. Rspunsurile care indic o atitudine pozitiv fa de risc sunt pentru
toate cele trei variabile variantele foarte puin i puin, respectiv valorile 1 i 2, care indic
dezacordul fa de afirmaii. Rspunsurile negative sunt variantele 3 i 4 (foarte mult i
mult), iar cel neutru este 9 (nonrspuns).
Setul de comenzi este:
COUNT POZ= RISC2 RISC3 RISC4 (1,2).
COUNT NEG= RISC2 RISC3 RISC4 (3,4).
COUNT NEU= RISC2 RISC3 RISC4 (9).
COMPUTE RISC= (POZ NEG)*(3-NEU)*100/9

.
EXECUTE.

Construcia indicelui animale, propus de Berevoescu, Chiribuc, Coma, Grigorescu,
Lzroiu A,, Lzroiu S., Pan, Pop, Stnculescu (1999)
Acest indice a fost construit pe baza formulei:
ANIMALE=SEP1+0.35*SEP2+0.12*SEP3+0.04*SEP4, unde
SEP1= numr bovine
SEP2= numr porcine
SEP3= numr ovine
SEP4= numr psri curte
Acest indice se va realiza cu ajutorul comenzii COMPUTE.

CONSTRUCIA INDICILOR
41


Figura nr. 3-8: Opiunea COMPUTE pentru indicele animale

3.3.5 I ndice de tip scor factorial
Se poate construi un indice ca scor factorial, denumit CONSUM MONDEN din
variabilele din baza de date BOP IUNIE 1998, p7-Ct de des mergei la cinema, p9- Ct de des
mergei la discotec, p10-ct de des mergei la bar. Fa de indicele de tip sumativ unde toate
variabilele au aceeai importan n cadrul dimensiunii la indicele de tip scor factorial fiecare
indicator are o pondere diferit n indicele final.
Toate variabilele incluse au urmtoarele variante de rspuns:
1-o dat pe an/mai rar
2-de cteva ori pe an
3-de cteva ori pe lun
4-de cteva ori pe sptmn;
9-ns/nr
ANALIZA MULTIVARIAT
42

n programul SPSS 17 se intr n meniul ANALYZE/DIMENSION
REDUCTION/FACTOR. Aa cum am vzut n seciunea despre analiza factorial, se va bifa de
la opiunea DESCRIPTIVES, testul KMO, de la opiunea EXTRACTION, valoarea factorului
extras mai mare de 1, de la ROTATION, metoda de rotaie VARIMAX i de la SCORES, SAVE
AS VARIABLES prin metoda regresiei. Prin aceast ultim opiune se va salva indicele nou
creat ntr-o variabil nou n baza de date. Cu aceast variabil se pot face prelucrri ulterioare.
Conform rezultatelor prezentate n tabelul nr.9.8 se constat c cele trei variabile fac parte
dintr-o singur dimensiune, un singur factor fiind extras cu o valoare de 2,417. Prin urmare cei
trei indicatori pot fi reuniti ntr-o singur dimensiune, denumit consum monden.





Valoarea testului KMO (vezi tabelul nr.9.10, 0.714>0,50) indic faptul c modelul este
valid, astfel c 71,4% din variaia din variaia indicelui CONSUM MONDEN este dat de cele
trei variabile incluse n indice, restul de 35% este dat de alte variabile care nu au fost incluse n
model.
Din tabelul Component Matrix reiese c toi indicatorii se coreleaz puternic cu indicele
dar au ponderi diferite n componena indicelui n funcie de coeficienii de corelaie a fiecrui
indicator cu indicele (factorul)

Total Variance Explained
2,417 80,555 80,555 2,417 80,555 80,555
,374 12,459 93,015
,210 6,985 100,000
Component
1
2
3
Total % of Variance Cumulativ e % Total % of Variance Cumulativ e %
Initial Eigenvalues Extraction Sums of Squared Loadings
Extraction Method: Principal Component Analysis.
KMO and Bartl ett's Test
,714
2012,579
3
,000
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Approx. Chi-Square
df
Sig.
Bart lett 's Test of
Sphericity
Component Matri x
a
,884
,930
,877
p7 merget i la cinema
p9 merget i la disco
p10 merget i la bar
1
Compone
nt
Extraction Method: Principal Component Analysis.
1 components extract ed.
a.
ANALIZA MULTIVARIAT
43


Figura nr. 3-9: Opiunea Analiza factorial



Figura nr. 3-10: Opiunea Analiza factorial-salvarea rezultatelor ntr-o variabil nou-indice

Se pot face analize cu indicele nou construit n funcie de variabilele socio-demografice.
Se observ un consum monden ridicat n rndul persoanelor care au liceu i studii superioare.

Tabelul nr. 3-5: Valorile indicelui consum monden n funcie de nivelul de educaie
nivelul de educaie
consum monden-
media
fr coal -0,3739848
coal elementar -0,5114359
gimnaziu 0,0064969
coal profesional -0,0286908
liceu 0,2283183
postliceal -0,1202818
studii superioare 0,1150175




ANALIZA MULTIVARIAT
44

4 Regresia linear
4.1 Regresia i corelaia
n cazul variabilelor cantitative nainte de a vorbi de regresie este necesar s trecem n
revist corelaia.
De exemplu, exist o corelaie puternic ntre mrimea purtat la pantof i greutate, dar
ntre mrimea salariului i satisfacia la locul de munc exist o corelaie slab.

Coeficientul de corelaie ia valori [-1, 1]

O corelaie de 0 presupune c nu exist nici o relaie ntre cele dou variabile. De
exemplu, ne ateptm ca ntre mrimea purtat la pantof i satisfacia la locul de munc s nu
existe nici un fel de corelaie.
Covariana celor dou variabile; poate fi pozitiv sau negativ.
n cazul n care pe msur ce o variabil crete iar alta scade avem de a face cu ceea ce se
numete corelaie negativ. De exemplu, exist o corelaie negativ ntre satisfacia la locul de
munca i absenteism cu ct oamenii sunt mai mulumii la locul de munc, cu att vor lipsi mai
puin.
Cnd variabilele au fost msurate pe o scal cu intervale folosim coeficientul de corelaie
al lui Pearson, iar cnd datele sunt de natur ordinal folosim coeficientul de corelaie al lui
Spearman.
y x
n
i
i i
n
y y x x
r
o o

=

=
1
) )( (

Coeficientul de corelaie (Pearson) - r
xy
= r
yx
reprezint acelai lucru.
Indiferent de tipul coeficientului ales, trebuie s ntocmim i o diagram scater a
relaiei dintre cele dou variabile pentru a verifica dac relaia poate fi acceptat ca fiind liniar.
Corelaia simpl indic dac exist o relaie liniar ntre dou variabile. ntr-o relaie,
valorile mici ale lui X sunt asociate cu valori mici ale lui Y, valorile medii ale lui X se asociaz
cu valori mari ale lui Y, i valorile mari ale lui X se asociaz cu valorile mici ale lui Y. Aceast
relaie nu este surprins de coeficientul de corelaie care va avea valoare mic (aproximativ 0),
dar va fi surprins dac cele dou seturi de date vor fi prelucrate grafic.
Cnd avem de a face cu o diagrama scater este posibil s reprezentm teoretic linia
cea mai potrivit care s exprime relaia ntre X i Y. Aceasta dreapt poart numele de regresie
i poate fi exprimat sub forma unei ecuaii de forma: X = c +bY.
Ptratul coeficientului de corelaie r
2
indic msura n care variaia lui y este explicabil
de variaia lui x. Aadar dac x coreleaz cu 0,6 y atunci 0,36 din variaia lui y este explicabil
prin variaia lui x .
Nu trebuie s uitm c, corelaia nu este unul i acelai lucru cu cauzalitatea - dac
variabilele A i B sunt corelate, nu se poate spune c A este cauza lui B. S-ar putea ntmpla ca
amndou s fie legate de un alt factor care produce variaia ambelor variabile.
De exemplu, absenteismul i satisfacia la locul de munc sunt dou variabile care
coreleaz negativ, dar nu se poate concluziona c satisfacia profesional sczut cauzeaz
absenteismul; se poate ca neprezentarea la locul de munc s cauzeze insatisfacia. Corelaia
pozitiv dintre mrimea purtat la pantof i greutate nu nseamn neaprat c cei care au mrime
mare la pantof sunt i nali. Mrimea piciorului i nlimea nu sunt generate de acelai factor
genetic. Cu toate acestea corelaiile sunt folosite pentru prezicerea unei variabile cu ajutorul
alteia. Cunoscndu-i cuiva mrimea piciorului, putem anticipa mai bine ct de nalt este, dect
dac nu i-am ti-o.
ANALIZA MULTIVARIAT
45

Corelaia parial este folosit cnd corelaia dintre dou variabile poate aprea din cauza
c sunt corelate cu o a treia variabil. Corelaia pariala este o tehnic ce ii permite s examinezi
corelaia dintre dou variabile cnd efectul celei de-a treia variabile a fost ndeprtat.
Regresia multipl se refer la folosirea mai multor variabile pentru prezicerea variabilelor
dependente. Satisfacia la locul de munc este corelat cu salariul i cu nivelul ocupaiei. Astfel,
cineva ar putea prezice satisfacia la locul de munc pornind de la salariu, iar altcineva pornind
de la ocupaie. Oricum o mai bun descriere o vom face folosind ca variabile explicative att
salariile ct i nivelul ocupaiei. Atunci vom avea o ecuaie de forma:
Satisfacia la locul de munc = salariul ponderat cu a + nivelul ocupaiei ponderat cu b.
Fiecare variabil explicativ este ponderat, adic nmulit cu un coeficient (coeficienii
fiind cu att mai mari cu ct influeneaz variabila dependent mai mult). Acest coeficient este
cunoscut ca fiind coeficientul de regresie pentru respectiva variabil. Cu ajutorul regresiei
multiple se investigheaz care variabile i n ce proporie ar trebui luate n considerare pentru a
crete puterea predictiv asupra variabilei dependente.

Diagrama Scatter
Pentru a obine o diagram ntre dou variabile selectai din meniu GRAPHS/SCATTER.
Opiunea Simple va fi ignorat, aa c accesai Define button care deschide o fereastr n care
putei specifica care variabil va fi pe y i care pe x. Accesnd opiunea Titles putei da o
denumire graficului.
Un exemplu al comenzilor i a diagramei pe care acestea o produc n fiierul de rezultate
se gsete n urmtoarea figur:
GRAPH/ SCATTERPLOT(BIVAR) = att2 WITH att1/ MISSING = LISTWISE
/ TITLE = Scattergram of att1 versus att2

Exemplu de diagram scatter nsoit de comenzile pentru obinerea ei. Dac dorim ca
graficul s includ i linia de regresie dm dublu click pe diagrama din Output wiewer astfel
nct s intrm n opiunile Chart editor. Denumirea ferestrei se va shimba n Chart 1. Selectai
din meniu :
Chart
Options
n fereastra care va aprea, accesm opiunea Total din seciunea numit Fit line i apoi,
comanda Fit options care va face s apar fereastra din
figur, selectm opiunea Linear regresion.
ANALIZA MULTIVARIAT
46


Figura nr. 4-1: Scatterplot options

Coeficientul de corelaie al lui Pearson i Coeficientul de corelaie al lui Spearman
(Parametric - Pearson and rank - Spearman corelation).

Pentru a obine coeficientul de corelaie ntre dou variabile, alegem din meniu
Analyze
Corelate
Bivariate

Variabilele ce urmeaz s fie analizate trebuie introduse n Variables list controlnd
alternativele n rubrica Corelation coeficient din fereastra de dialog.
SPSS indic nivelul pn la care corelaia este semnificativ. Putem cere s ni se arate
dac corelaia este semnificativ prin nsoirea rezultatelor cu asteriscuri: unul indic faptul c
sunt semnificative pentru un nivel de 0,05 i dou c sunt semnificative la un nivel de 0,01.
Pentru a obine asteriscurile, trebuie s ne asigurm c a fost accesat opiunea Significant
corelation din fereastra Bivariable corelations.
Semnificaia corelaiei este de la sine prezentat n output folosindu-se o probabilitate
nedirecionat (two tailed). Dac anticipm direcia relaiilor dintre variabile suntem ndreptii
s folosim probabilitatea direcionat (one tailed); putem opta pentru acest lucru n fereastra
Bivariable corelation
Procedura de calcul a corelaiei va exclude din start orice caz n care lipsesc informaii
despre una din variabilele aflate n discuie. Aceast funcie poart denumirea Exclude Cases
Pairwise.

Mediile i abaterile standard ale variabilelor care sunt corelate
Pentru a obine mediile i abaterile standard ale valorilor variabilelor corelate care apar n
rezultate, selectai comanda Options din fereastra de dialog Bivariate Corelations i bifai
opiunea Means and Standard deviations.

ANALIZA MULTIVARIAT
47

Corelaia parial

Corelaia dintre dou variabile poate aprea prin faptul c ambele variabile coreleaz cu o
a treia variabil. Corelaia parial este o tehnic ce permite examinarea corelaiei dintre dou
variabile cnd efectele altor dou variabile au fost nlturate.
Analiza corelaiei pariale se obine accesnd din meniu:

Analyze
Corelate
Partial

Introducem cele dou variabile ce urmeaz s fie corelate i n Controling for,
variabilele a cror influen asupra celor dou variabile urmeaz s fie nlturat .
Pentru a obine mediile i abaterile standard ale fiecrei variabile i/sau matricea care
arat corelaia normal (zero order = corelaia obinut fr nlturarea efectelor de control)
accesm Options.
Exist dou tipuri de coeficieni pornind de la regresia multipl parial ntre x
1
i x
2

cnd x
3
, x
4
sunt controlabile.
r
12. 34
r
12. 3
= r
12
r
13
r
23

) 1 )( 1 (
2
23
2
13
23 13 12
3 . 12
r r
r r r
r


=

Modelele de regresie liniar cu unul sau mai muli predictori sunt foarte des folosite n
tiinele sociale pentru explicarea fenomenelor i proceselor sociale. Cu ajutorul modelelor de
regresie putem explica i prezice diferenele n valorile unei variabile cantitative msurate la
nivel global (cum ar fi rata migraiei, a natalitii, etc.) sau individual (indici atitudinali sau date
factuale cum ar fi venitul). Modelele de regresie se compun dintr-o variabil dependent (cea a
crei variaie urmrim s o explicm) i variabilele independente sau predictorii care se afl ntr-
o relaie liniar de asociere (covariaie) cu dependenta. Relaia de regresie este o relaie
asimetric deoarece presupune c numai variaia dependentei este explicat de predictori nu i
invers. n plus se presupune c nu exist efecte de interaciune ntre predictori.
Forma ecuaiei de regresie liniar este urmtoarea:

(1) Y = a + b
1
X
1
+ b
2
X
2
++ b
n
X
n
, unde: Y este variabila dependent, X
1,
X
2.
X
n
sunt
predictorii, a este constanta ecuaiei, iar b
1,
b
2,
b
n
sunt coeficienii de regresie.

Pentru a construi o ecuaie de regresie n SPSS se selecteaz din meniul principal
ANALYZE/ REGRESSION/ LINEAR, se selecteaz variabila dependent din lista de variabile
i se introduce n csua Dependent, iar cele independente se introduc n dreptul rubricii
Independents. Celelalte opiuni pentru realizarea ecuaiei de regresie disponibile prin
selectarea butoanelor de jos (Statistics, Plots (grafice), Save, Options) vor fi discutate pe
parcursul acestui capitol. Pentru a vizualiza graficele regresiei liniare dintre Y i fiecare predictor
n parte selectm din ANALZYE/ REGRESSION/ LINEAR subopiunea PLOTS i csua
produce all partial plots.
Putem specifica metoda de regresie la comanda:
Enter introduce toate variabilele ntr-un singur pas;
Forward introduce variabilele una cte una;
Backward introduce toate variabilele i apoi nltur una cte una n funcie de ndeplinirea
criteriilor statistice;
Stepwise combinare a procedurilor Forward i Backward;
ANALIZA MULTIVARIAT
48

Remove variabilele sunt nlturate ntr-o etap.

Valori ateptate (prezise) i observate ale lui Y
Valorile Y obinute prin ecuaia de regresie (1) reprezint valorile ateptate ale lui Y
(prezise pe baza combinaiei liniare dintre predictori), notate n continuare cu Y*. ntre valorile
ateptate ale lui Y (Y*) i cele observate (Y) va exista o diferen numit reziduu sau variabil
rezidual. Pentru a trasa graficul ecuaiei de regresie este folosit metoda celor mai mici ptrate
(Ordinary Least Squares sau prescurtat OLS). Aceast metod determin valorile Y* astfel nct
suma ptratelor valorilor reziduale s fie minim.
n SPSS valorile prezise sunt notate cu termenul PRED, iar ZPRED referindu-se la
valorile prezise standardizate. Valorile reziduale sunt notate cu RESID iar cele reziduale
standardizate cu ZRESID.

Coeficienii de regresie
Coeficientul de regresie se calculeaz ca raportul dintre cov(x,y) i dispersia lui x.
Valoarea coeficientului indic faptul ca o cretere de o unitate pe scara lui X, este nsoit
de o creterea, n medie, cu b uniti a lui Y, celelalte variabile fiind inute sub control.
Atenie coeficienii de regresie nu se interpreteaz n sens cauzal, ei exprim covariaia
dintre variabila dependent i cea independent, nefiind posibil testarea unei relaii
cauzale.
Coeficientul b reprezint panta dreptei de regresie a lui Y funcie de un predictor X. Cu
ct b este mai mare panta (nclinarea) dreptei crete. Independena este redat printr-o linie de
regresie paralel cu axa OX.
Dac b>0, relaia dintre Y i X este direct proporional, iar graficul va arta n felul
urmtor:
y


x

Dac b>0, relaia dintre Y i X este invers proporional, o cretere a lui x de o unitate
conducnd n medie la scderea lui Y cu b uniti.
y


x


Intervalul de ncredere pentru coeficientul de regresie
Valoarea coeficientului de regresie este calculat la nivelul eantionului. De obicei ns
urmrim s formulm concluzii despre populaia din care a fost extras eantionul. Calculnd
limitele intervalului de ncredere aflm valorile ntre care se ncadreaz coeficientul n populaia
cercetat. Probabilitatea cu care putem ncadra coeficientul n acest interval este de obicei de
95% sau 99%, n ultimul caz, bineneles obinndu-se un interval mai mare pentru coeficient.
Dac intervalul de ncredere conine valoarea zero, atunci impactul predictorului asupra
dependentei este nesemnificativ din punct de vedere statistic.
Pentru a calcula n SPSS limitele intervalului de ncredere selectm opiunea Confidence
intervals din ANALYZE/ REGRESSION/ LINEAR/ STATISTICS.
Testarea semnificaiei coeficientului de regresie se face cu ajutorul testului T, ipoteza de
nul fiind aceea c B=0 n populaie. Variabilele pentru care nivelul de semnificaie al testului T
(notat cu Sig. n SPSS) este >0,05 sunt de obicei eliminate din model, deoarece nseamn c
ANALIZA MULTIVARIAT
49

probabilitatea ca ipoteza de nul s fie adevrat este mai mare dect pragul convenional de 5%
i deci nu o putem respinge.
SPSS calculeaz i coeficienii de regresie standardizai (beta) care au avantajul de a fi
adimensionali i permit compararea importanei predictorilor n cadrul aceluiai model de
regresie. Coeficienii standardizai sunt egali cu coeficienii de regresie n condiiile n care
variabilele din ecuaie sunt standardizate cu scorul z. Pentru a face o comparaie ntre populaii
diferite se folosesc ns coeficienii nestandardizai. Regula de citire pentru coeficienii
standardizai (beta) este urmtoarea: creterea cu o abatere standard pe scala variabilei
independente este nsoit n medie cu o cretere cu beta abateri standard pe scala variabilei
dependente, celelalte variabile fiind inute sub control.

Coeficientul de determinaie
Aa cum am menionat, scopul construciei unui model de regresie este de a explica
variaia dependentei. n afar de coeficienii de regresie care msoar impactul fiecrui predictor
avem nevoie i de o msur global a gradului n care variaia dependentei este explicat de tot
setul de predictori. Un astfel de indicator este R
2
calculat pe baza raportului dintre variaia
lui Y explicat de predictori i variaia total a lui Y. R
2
*100 ne indic deci ct la sut din
variaia lui Y este explicat de predictori.
n absena modelului de regresie, predicia cea mai bun a lui Y ar fi fost chiar valorile
sale medii din populaia studiat. Spre exemplu atunci dac dorim s prezicem nlimea unui
copil fr a avea alte informaii predicia cea mai bun va fi valoarea medie din populaie. Dac
ns cunoatem nlimea prinilor i exist o corelaie ntre nlimea prinilor i nlimea
copilului atunci ne putem mbunti predicia. Variaia explicat de modelul de regresie (VE)
este suma ptratului diferenelor dintre valorile Y ateptate i Y mediu. VE este deci o msur a
gradului n care s-a mbuntit predicia lui Y pe baza modelului comparativ cu predicia pe
baza valorii medii.
Variaia total (VT) este suma ptratului diferenelor dintre valorile Y observate i Y
mediu, adic indic cu ct se abat valorile observate de la valorile medii. Din aceast variaie
total modelul explic doar cu ct se abat valorile ateptate de la valorile medii, restul, adic
diferena dintre valorile observate i cele ateptate, alctuind variaia neexplicat (VN). VN este
calculat ca suma ptratului diferenelor dintre valorile observate i cele ateptate.

= =

=
2
2
2
) (
) (
R
mediu observat
mediu asteptat
Y Y
Y Y
VT
VE
VT
VN VT

Pentru a testa semnificaia lui R i implicit a gardului n care modelul explic variaia
dependentei se folosete testul F. Dac nivelul de semnificaie calculat de SPSS prob(F)<0,05,
ipoteza de nul se respinge i se accept ipoteza conform creia modelul mbuntete
semnificativ predicia valorilor lui Y.

Coeficientul de corelaie
Coeficientul de corelaie Bravais Pearson, notat cu R, reprezint radical din coeficientul
de determinaie. R este adimensional i are valori ntre 1 i +1. Valorile apropiate de 1 indic o
corelaie puternic pozitiv, cele apropiate de 1 indic corelaie puternic negativ, iar cele
apropiate de 0 indic independena dintre variabile.
n SPSS putem calcula corelaia bivariat dintre dou variabile selectnd opiunea
ANALYZE/ CORRELATE/ BIVARIATE. Obinem totodat i nivelul de semnificaie (notat cu
Sig), iar dac acesta este <0,05 respingem ipoteza de nul conform creia R este egal cu 0 n
populaie.
Tot n SPSS avem i opiunea de a calcula coeficientul de corelaie parial. Acesta, notat
n mod obinuit cu rxy.z, ne indic corelaia dintre X i Y innd Z sub control (X= variabila
ANALIZA MULTIVARIAT
50

independent, Y= variabila dependent i Z= variabila de control). Dac coeficientul de corelaie
dintre X i Y este semnificativ diferit de zero, dar aceast corelaie dispare atunci cnd inem sub
control Z, nseamn c avem de a face cu o corelaie superficial (spurious correlation) care se
datora asocierii dintre X i Z, i respectiv ntre Y i Z.
Formula de calcul pentru r este:
y
x
y x
s
s
b
s s
y x
r = =
) , cov(
, unde cov(x,y) este covariana dintre x i y, iar s
x
, respectiv s
y
sunt
dispersiile lui x i y. Din aceast ecuaie reiese de asemenea c ntr-un model de regresie
multipl r este egal cu coeficientul de regresie standardizat beta, reflectnd impactul unui
predictor asupra dependentei atunci cnd ceilali predictori sunt inui sub control.
Pentru a calcula coeficientul de corelaie parial selectm din meniul SPSS opiunea
ANALYZE/ CORRELATE/ PARTIAL i introducem variabila dependent, cea independent, i
setul de variabile care dorim s le inem sub control. Ca i n cazul coeficientului de regresie
bivariat urmrim s obinem un nivel de semnificaie (Sig) care s fie <0,05.
4.2 Condiii de aplicare a regresiei
1. Modelul de regresie trebuie s fie specificat corect, adic s nu fie inclui predictori
nerelevani sau s fie omii cei relevani;
2. S existe o relaie liniar ntre variabile i nu de alt natur, de exemplu exponenial;
3. Variabilele s fie msurate fr erori (s fie satisfcut cerina de validitate a msurrii);
4. Variabilele incluse n model s fie msurate la nivel metric sau s fie variabile fictive
(dummy) discutate ntr-un curs anterior. Regresia fiind o metod robust uneori se accept
includerea unor variabile ordinale n model, ns n mod obligatoriu, variabilele nominale
trebuie transformate n variabile fictive (variabile dihotomice pentru care valoarea 1 indic
prezena atributului iar 0 absena lui).
5. Variabilele incluse n model trebuie s aib o distribuie normal. Normalitatea distribuiei se
verific cu teste i msuri specifice calculate de SPSS (indicele de aplatizare i oblicitate).
6. Condiia de necoliniaritate n cazul regresiei multiple stipuleaz necesitatea independenei
dintre predictori. n caz contrat apare fenomenul de multicoliniaritate.
Pentru a verifica dac aceast condiie este ndeplinit SPSS-ul calculeaz tolerana
(Tolerance, notat cu T) i VIF (variance-inflation factor). Dac T>0,2 sau VIF<5 atunci
condiia de necoliniaritate este respectat.
Pentru a calcula valorile T i VIF se selecteaz ANALYZE/ REGRESSION/ LINEAR, se
introduce variabila dependent i cele independente iar apoi din opiunea STATISTICS se
selecteaz Collinearity diagnostics, Continue i OK.
n afar de acestea mai trebuie menionate trei condiii auxiliare:
1. Clasele de valori reziduale Y
observat
-Y
ateptat
pentru fiecare valoare a lui X trebuie s aib
dispersii egale (omoscedasticitate n limba romn i homoscedasticity n englez). Pentru
aceasta se recomand inspecia diagramei Y
observat
-Y
ateptat
funcie de Y
ateptat
).
Dac graficul valorilor reziduale funcie de Y
ateptat
are forma unei benzi perpendiculare
pe axa OY, dispersiile sunt egale. Dac acest grafic se distribuie dup un alt pattern,
nseamn c relaia nu este liniar i dispersiile condiionate nu sunt egale. n SPSS acest
grafic se obine din ANALYZE/ REGRESSION/ LINEAR, iar pentru opiunea PLOTS se
selecteaz pe axa OX valoarea standardizat (normalizat cu scorul z) a lui Y
ateptat
notat
ZPRED i pe axa OY ZRESID, adic valorile reziduale standardizate.
Tot n cadrul opiunii PLOTS putem selecta Standardized Residual Plots n varianta
histogram (histogram) sau curb a probabilitii (normal probabilty plot) pentru a verifica
dac valorile reziduale au o distribuie normal.
ANALIZA MULTIVARIAT
51

2. Absena fenomenului de autocorelare ntre valorile reziduale sau termenii eroare se refer la
independena observaiilor. Aceasta poate fi testat prin indicele Durbin Watson. n SPSS
acesta se calculeaz selectnd ANALYZE/ REGRESSION/ LINEAR. Se introduce apoi
variabila dependent i cele independente iar din opiunea STATISTICS se selecteaz
Residuals/Durbin-Watson.
Dac valoarea indicelui Durbin-Watson tinde spre 2, nseamn c termenii eroare sunt
independeni. D tinde spre 0 indic o corelaie pozitiv intens, iar D >2 o corelaie negativ
ntre termenii eroare.
3. Excluderea valorilor extreme atunci cnd modelul de regresie se calculeaz la nivelul
eantionului i nu al populaiei. Atunci cnd valorile extreme nu sunt excluse din analiz,
coeficientul de corelaie poate fi supraestimat sau subestimat, depinznd de sensul abaterii
valorilor extreme de la medie. Analiza valorilor extreme se face selectnd ANALYZE/
REGRESSION/ LINEAR, STATISTICS i Casewise Diagnostics cu opiunea Outliers
outside 3 Std Dev. Programul SPSS permite calcularea unor msuri ale distanei sau ale
influenei pe care un singur caz o poate avea asupra pantei dreptei de regresie. Pentru aceasta
se selecteaz din meniu ANALYZE/ REGRESSION/ LINEAR, apoi n SAVE se pot selecta
urmtoarele msuri ale distanei: Mahalanobis, Cooks Distance i Leverage values (h). n
general se urmrete ca valoarea h care poate varia de la 0 lipsa influenei - la 1 influen
total - s nu aib valori mai mari dect 0,2. Mahalanobis i Cook sunt msuri similare ale
influenei unui caz.

Regresia variabilelor fictive
n analiza regresiilor, variabila dependent este frecvent influenat nu doar de variabile
care pot fi cuantificate pe o scal bine definit (spre exemplu venitul), ci i de variabile care
sunt n mod esenial calitative n realitate (spre exemplu sexul) .
De exemplu, pstrnd toi ceilali factori constani, s-a constatat c profesorii universitari
de sex feminin ctig mai puin dect colegii lor de sex masculin.
De vreme ce asemenea variabile calitative indic, de obicei, prezena sau absena
calitii sau un atribut, ca de exemplu masculin sau feminin, o metod de a cuantifica
asemenea atribute, este de a construi variabile artificiale ce iau valori de la 0 sau 1, 0 indicnd
absena unui atribut, iar 1 prezena acelui atribut. De exemplu, 1 poate indica c persoana este de
sex masculin, iar 0 poate desemna o persoan de sex feminin.
Variabilele care i asum valori de 0 i 1 se numesc variabile fictive (variabile
indicatoare, binare, categorice, calitative sau dihotomice).
Variabilele fictive pot fi folosite n modele de regresie la fel de uor ca i variabilele
cantitative. De fapt, un model de regresie poate conine variabile explicatorii care sunt exclusiv
fictive sau calitative. Asemenea modele sunt numite ANOVA.

Ca exemplu, avem urmtorul model:
Y
i
= o + | D
i
+ u
i
(1)
Unde
Y = salariul anual al unui profesor universitar
D
i
= 1 dac profesorul e de sex masculin
= 0 dac profesorul e de sex feminin

Modelul regresiei ce conine un amestec de variabile cantitative i calitative este numit
ANCOVA.



ANALIZA MULTIVARIAT
52

Regresia unei variabile cantitative i a unei variabile calitative cu dou categorii

Ca exemplu, avem urmtorul model :
Y
i =
o
1 +
o
2
D
i
+ |X
i
+ui
(2)
Unde
Y
i =
salariul

anual al unui profesor universitar
X
i
= vechimea n nvmnt
D
i
= 1 daca e de sex masculin
= 0 daca e de sex feminin

Modelul (2) conine o variabil cantitativ (vechimea n nvmnt) i una calitativ
(sex) care are 2 categorii (masculin i feminin).

Regresia la o variabil cantitativ i una calitativ cu mai mult de dou categorii

De exemplu, dorim s facem regresia cheltuielilor anuale pentru sntate.
Presupunem c avem 3 nivele de educaie : mai puin de liceu, liceu i facultate.

Ca exemplu, avem urmtorul model :

Y
i
= o
1
+ o
2
D
2i
+ o
3
D
3i
+|X
i
+ u
i
(3)
Unde
Y
i
= cheltuieli anuale cu sntatea
X
i
= veniturile anuale
D
2
= 1 dac e absolvent de liceu
= 0 dac nu e
D
3
= 1 dac e absolvent de facultate
=0 dac nu e

Regresia pe o variabil cantitativ i dou variabile calitative
Tehnica variabilelor fictive poate fi uor extins pentru a putea lucra cu mai mult de o
variabil calitativ.
ntorcndu-ne la regresia salariului profesorilor universitari, vom presupune c n relaie
cu vechimea i sexul, naionalitatea e de asemenea determinat pentru salariu; pentru a simplifica
vom atribui 2 categorii: romn sau nu.
Ca exemplu, avem urmtorul model:

Y
i
= o
1
+ o
2
D
2i
+ o
3
D
3i
+|X
i
+ u
i
(4)
Unde
Yi = salariul anual
X
i
= vechimea
D
2
= 1 dac e de sex masculin
D
2
= 0 dac e de sex feminin
D
3
= 1 dac e roman
D
3
= 0 dac nu e



ANALIZA MULTIVARIAT
53

4.3 Etape n construcia unui model de regresie
n concluzie, pentru a construi un model de regresie trebuie parcuri urmtorii pai:
1. Se alege variabila dependent i dac este cazul se construiete un indice pe baza
ntrebrilor din chestionar. Se verific nivelul de msurare i normalitatea distribuiei.
2. Pe baza ipotezelor formulate se aleg predictorii i n mod similar se construiesc indici, se
transform variabilele nominale n variabile fictive i se verific normalitatea distribuiei (dac
este cazul).
3. Se verific dac exist o corelaie bivariat semnificativ ntre variabila dependent i
fiecare predictor n parte i se selecteaz predictorii pentru care corelaia este semnificativ. Se
poate ntmpla s existe o corelaie bivariat semnificativ ntre predictor i variabila dependent
i totui predictorul s nu aib o influen semnificativ n modelul de regresie multipl. Aceasta
se datoreaz faptului c n modelul final, impactul unui predictor asupra dependentei este
msurat innd sub control ceilali predictori.
4. Se verific corelaia ntre predictori i se selecteaz predictorii, astfel nct s fie
independeni ntre ei.
5. Se construiete modelul de regresie i n continuare se verific dac condiiile de aplicare
sunt ndeplinite conform msurilor discutate n seciunea anterioar. Se analizeaz impactul
valorilor extreme; pentru condiia de necoliniaritate se verific valoarea indicilor T i VIF
(pct.6); pentru condiia de egalitate a dispersiilor se analizeaz diagrama Y
observat
-Y
ateptat
funcie
de Y
ateptat
(pct.7); pentru condiia de independen a reziduurilor se verific valoarea indicelui
Durbin-Watson (pct.8).

4.4 Obinerea regresiei lineare cu ajutorul programului SPSS
n acest exemplu urmrim s explicm printr-un model de regresie liniar variaia
ncrederii n minoriti etnice, respectiv n maghiari, germeni, evrei i rromi. Baza de date
folosit este Barometru de Opinie Public din luna iunie 1998. Pentru aceasta am construit pe
baza celor 4 ntrebri din chestionar un indice de tip IOPD care are valori de la 100 la +100.
Predictorii inclui n model sunt CRISANA, variabil fictiv care are valoarea 1 pentru cei ce
locuiesc n Criana i 0 pentru restul rii, TRANS, tot o variabil fictiv cu valoarea 1 pentru
Transilvania. LOCORD indic mrimea localitii, MAGHIAR este o variabil fictiv pentru
care valoarea 1 i desemneaz pe cei ce s-au declarat maghiari, i 0 pe restul. CDR are valoarea 1
pentru cei care n 1998 i declarau intenia de a vota cu CDR, iar SUBSCOAL msoar
educaia subiectului.
Ipotezele formulate se refer pe de o parte la influena factorilor ecologici (de mediu) i
la variabile individuale. Astfel am presupus c ncrederea va fi mai mare n localiti mici i n
zone multietnice cum ar fi Criana i Transilvania, acolo unde oamenii au contact mai direct cu
membrii acestor minoriti. De asemenea ncrederea se ateapt s fie mai mare pentru subiecii
cu un nivel ridicat de educaie, pentru cei mai n vrst (care au avut mai multe astfel de
contacte), pentru cei care aparin unei minoriti (respectiv maghiarii singurii reprezentai n
eantion), i pentru cei care intenioneaz s voteze cu CDR. Intenia de vot cu CDR era un
predictor bun n 1998 al suportului fa de democraie i privatizare i a unei politici de integrare
a minoritilor n viaa politic a rii. Alternativ am luat n considerare nlocuirea variabilei
CDR cu acordul fa de privatizare, ns aceasta corela foarte puternic cu educaia subiectului i
mrimea localitii, aa c n modelul final a rmas variabila CDR.
Fiierul de comand folosit a fost urmtorul:
count poz = et2 et3 et4 et5 (4,3).
count neg = et2 et3 et4 et5 (1,2).
count neu= et2 et3 et4 et5 (9).
compute IOPD =(poz-neg)*(4-neu)/16*100.
ANALIZA MULTIVARIAT
54


recode provinc (2=1) (else=0) into crisana.
recode provinc (1=1) (else=0) into trans.
recode localit (6=1) (5=2) (4=3) (3=4) (2=5) (1=6) into locord.
recode votpar (1=1) (else=0) into cdr.
recode etn1 (2=1) (else=0) into maghiar.

REGR
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI
/DEP IOPD
/ENT SUBVIRST SUBSCOAL MAGHIAR LOCORD CRISANA TRANS CDR.
/PARTIALPLOT ALL
/SCATTERPLOT=(*ZRESID ,*ZPRED )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(3) .


OUTPUT
R
2
reprezint procentul din variaia dependentei care este explicat de predictori. n acest
caz modelul explic 17,2% din variaie, restul datorndu-se unor variabile care nu sunt incluse n
model.
R
2
ajustat este valoarea lui R
2
pentru care se elimin efectul numrului de predictori (cu
ct sunt mai muli predictori, cu att R
2
crete).
Eroarea standard este de aproximativ 52 de uniti, ceea ce nseamn c valoarea Y din
populaie se ncadreaz cu o probabilitate de 95% n intervalul Y mediu 1,96*52. Rezult deci
c prediciile realizate cu ajutorul acestui model sunt foarte slabe.
Valoarea indicelui Durbin-Watson <2 indic faptul c reziduurile sunt independente.
Testul F din tabelul de ANOVA testeaz ipoteza c modelul nu mbuntete
semnificativ predicia dependentei. Nivelul de semnificaie fiind <0,05 respingem aceast
ipotez.



,414
a
,172 ,167 52,5322 1,646
Model
1
R R Square
Adjusted
R Square
Std. Error
of the
Estimate Durbin-Watson
Model Summary
b
Predictors: (Const ant ), MAGHIAR, LOCORD, CRI SANA, CDR, SUBVIRST,
TRANS, SUBSCOAL
a.
Dependent Variable: IOPD
b.
688230,3 7 98318,608 35,627 ,000
a
3322603 1204 2759,637
4010833 1211
Regression
Residual
Total
Model
1
Sum of
Squares df
Mean
Square F Sig.
ANOVA
b
Predictors: (Const ant ), MAGHIAR, LOCORD, CRISANA, CDR, SUBVIRST, TRANS,
SUBSCOAL
a.
Dependent Variable: IOPD
b.
ANALIZA MULTIVARIAT
55

Din tabelul de mai sus putem afla valoarea coeficienilor de regresie i a constantei.
Ecuaia de regresie se poate scrie astfel:
IOPD=-99 + 46*CRISANA + 4*LOCORD + 30*TRANS + 3*SUBSCOAL + 0,3*SUBVIRST
+ 18*CDR +37*MAGHIAR.
Cu alte cuvinte, a locui n Criana versus restul rii conduce n medie la o cretere cu 46
de uniti pe scala indicelui ncrederii n minoriti (indice care are valori de la 100 la +100),
ceilali predictori fiind inui sub control. Restul coeficienilor de regresie se citesc n mod
similar. Se observ c ipotezele iniiale au fost confirmate.
De asemenea din tabel se pot citi i coeficienii beta care, fiind adimensionali, permit
compararea predictorilor, i aflm astfel c predictorul cel mai important este CRISANA.
Ipoteza de nul pentru testul T este respins (Sig.<0,05) n cazul tuturor predictorilor, deci
coeficienii B din populaie sunt diferii de 0. De altfel se observ c nici unul din intervalele de
ncredere nu conine valoarea 0. Limitele acestui interval pentru o probabilitate de 0,95 sunt date
de valoarea B 1,96*eroarea standard. De exemplu n cazul predictorului CRISANA limita
inferioar este 46,05 - 1,96*5,36, adic 35,5, iar cea superioar este 46,05+10,5=56,5.
Corelaia de ordin zero (zero order correlation) din tabel este corelaia simpl, bivariat
dintre predictor i dependent. Corelaia parial (partial correlation) este cea dintre predictor i
variabil atunci cnd ceilali predictori sunt inui sub control. Al doilea tip de corelaie parial
(part correlation) difer de primul prin faptul c efectul variabilelor inute sub control este
ndeprtat doar pentru variabila independent nu i pentru cea dependent. Se folosete atunci
cnd se presupune c variabila de control afecteaz variabila independent, dar nu i pe cea
dependent (David Garson, An Online Textbook).
Ultimele dou coloane din tabel conin indicatori ai multicolinearitii, adic ai gradului
de corelaie care exist ntre predictori. Pentru o variabil tolerana este egal cu 1-R2 a regresiei
variabilei respective funcie de ceilali predictori. Valorile apropiate de 0 indic probleme cu
multicolinearitatea, ceea ce nu este cazul n exemplul de fa. VIF (variance inflation factor) este
inversul toleranei i deci valorile mari (>4) vor indica probleme de acest gen.



n tabelul de mai jos sunt prezentate cazurile extreme (aberante) pentru care valoarea
prezis se situeaz la mai mult de 3 deviaii standard de valoarea medie. De obicei aceste cazuri
sunt excluse din analiz sau pentru ele se construiete un model de regresie separat.
Urmtorul tabel conine informaii despre valorile reziduale (valorile prezise minus cele
observate) i msuri ale influenei unui caz asupra modelului de regresie. Acestea pot fi folosite
pentru a determina cazuri extreme sau aberante. Valorile extreme sunt cele care au o valoare a
lui H (centered leverage value) >0,5 (ceea ce nu este cazul n acest exemplu unde maximul este
0,32), sau pentru care valorile reziduale se situeaz n afara intervalul 3*valoarea medie a
ANALIZA MULTIVARIAT
56

reziduului. Exist trei moduri similare de a calcula reziduurile: Standardized residual, Deleted
residual, i Studentized Deleted residual. De asemenea SPSS calculeaz pe lng H (centered
leverage value), nc 2 msuri similare ale distanei propuse de Cook i Mahalanobis.


Printr-o inspecie a graficelor de mai jos se verific dac este satisfcut condiia ca
valorile reziduale s aib o distribuie normal. Deviaiile uoare sunt acceptate, regresia fiind o
metod robust.


-76,6024 40,4726 -41,6667 23,8394 1212
-1,465 3,446 ,000 1,000 1212
1,9408 9,5610 4,0393 1,3788 1212
-77,0425 40,2350 -41,6666 23,8483 1212
-125,3848 163,1599 2,204E-15 52,3802 1212
-2,387 3,106 ,000 ,997 1212
-2,405 3,112 ,000 1,001 1212
-127,3352 163,8407 -6,57E-05 52,7546 1212
-2,410 3,124 ,000 1,001 1212
,654 39,115 6,994 5,693 1212
,000 ,012 ,001 ,002 1212
,001 ,032 ,006 ,005 1212
Predicted
Value
St d.
Predicted
Value
St andard
Error of
Predicted
Value
Adjusted
Predicted
Value
Residual
St d.
Residual
St ud.
Residual
Delet ed
Residual
St ud.
Delet ed
Residual
Mahal.
Dist ance
Cook's
Dist ance
Centered
Leverage
Value
Minimum Maximum Mean
St d.
Deviation N
Residual s Stati stics
a
Dependent Variable: IOPD
a.
Regression Standardized Residual
3
,
0
0
2
,
5
0
2
,
0
0
1
,
5
0
1
,
0
0
,
5
0
0
,
0
0
-
,
5
0
-
1
,
0
0
-
1
,
5
0
-
2
,
0
0
-
2
,
5
0
Histogram
Dependent Variable: IOPD
F
r
e
q
u
e
n
c
y
300
200
100
0
Std. Dev = 1,00
Mean = 0,00
N = 1212,00
ANALIZA MULTIVARIAT
57




Prin acest grafic se verific condiia de egalitate a dispersiilor valorilor reziduale, i
normalitatea distribuiei reziduurilor. Ideal aceast band ar trebui s fie perpendicular pe OY.
Distribuia reziduurilor se abate uor de la normalitate, aa cum am vzut mai sus, ns faptul c
dispersia punctelor din grafic nu variaz odat cu Y ateptat sugereaz egalitatea dispersiilor
claselor de valori reziduale.

Graficele de regresie parial permit vizualizarea relaiei dintre un predictor i
dependent precum i identificarea cazurilor extreme.

Normal P-P Plot of Regression Standardized Residual
Dependent Variable: IOPD
Observed Cum Prob
1,00 ,75 ,50 ,25 0,00
E
x
p
e
c
t
e
d

C
u
m

P
r
o
b
1,00
,75
,50
,25
0,00
Scatterplot
Dependent Variable: IOPD
Regression Standardized Predicted Value
4 3 2 1 0 -1 -2
R
e
g
r
e
s
s
i
o
n

S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
4
3
2
1
0
-1
-2
-3
ANALIZA MULTIVARIAT
58



5 Analiza factorial
5.1 Noiuni introductive
Analiza factorial este o tehnica ce are ca obiectiv reducerea numrului de variabile ce
caracterizeaz o mulime de obiecte la un numr mai mic de variabile, de obicei diferite de cele
iniiale. Variabilele trebuie sa fie de interval sau de raport.
Problema general creia i se adreseaz analiza factorial poate fi descrisa astfel: fie o
mulime de obiecte caracterizate de mai multe variabile de interval sau de rapoarte. Daca aceste
variabile pot fi considerate drept masuri ale unor concepte neobservabile direct, sau, altfel spus,
daca in cadrul teoretic ce se aplica datelor respective variabilele sunt determinate de ctre un
numr de factori care pot sa fie comuni, atunci are sens s cutam un rspuns pentru fiecare
dintre urmtoarele ntrebri:

1. Care este numrul minim de factori (dimensiuni) necesari pentru a descrie cu
precizie sursele de variaie intre indivizii statistici considerai ?
2. Ct de bun este precizia n reprezentarea pentru un numr dat de factori ?
3. Care dintre variabilele observate sunt determinate de fiecare dintre factori i care este
intensitatea acestor determinri ?
4. Care este valoarea care corespunde fiecrui individ statistic pentru fiecare dintre
factori?
Spre exemplu, s presupunem c am intervievat o mie de indivizi care au fost selectai
aleator din populaie i i-am ntrebat despre opiniile lor politice cu privire la taxe, drepturile
civile, legile muncii i altele. Rspunsurile la aceste ntrebri constituie atunci variabile
observate.
n general, primul pas n analiz implic o examinare a interrelaiilor dintre aceste
variabile. Presupunem c am folosit coeficientul de corelaie ca mod de msurare pentru
asocierile fcute i am pregtit un tabel de corelaie. Verificnd matricea corelaiei putem vedea
c exist relaii pozitive ntre aceste variabile i c relaiile dintre aceste subseturi de variabile
sunt mai eficiente dect aceste subseturi. Un factor analitic poate fi utilizat pentru a se vedea
dac aceste corelaii observate pot fi explicate prin existena unui numr mic de variabile
ipotetice.
Analiza factorial poate fi folosit ca o modalitate eficace de asigurare a unui numr
minim de factori ipotetici care pot fi explicai din covariaia observat i ca un mod de a explora
datele n scopul unei posibile reduceri de date. Aceast form de utilizare este analiza factorial
Partial Regression Plot
Dependent Variable: IOPD
SUBVIRST
60 40 20 0 -20 -40
I
O
P
D
200
100
0
-100
-200
ANALIZA MULTIVARIAT
59

exploratorie (Exploratory Factor Analysis EFA), majoritatea aplicaiilor din tiinele sociale
aparinnd acestei categorii.
Dar folosirea analizei factoriale nu trebuie s fie limitat la explorarea dimensiunilor de
baz ale datelor. Metoda poate fi folosit ca un mijloc de testare specific ipotezelor. De exemplu,
cercettorul poate anticipa sau face ipoteze asupra faptului c exist dou dimensiuni de baz
diferite i variabilele sigure aparin unei dimensiuni, n timp ce toate celelalte aparin celei de-a
doua dimensiuni. Dac analiza factorial este folosit pentru pretestarea acestei presupoziii,
atunci ea este folosit ca un mijloc de confirmare a ipotezei sigure, nu ca un mijloc de explorare
a dimensiunilor de baz. Astfel, se refer la o analiz factorial confirmatoare (Confirmatory
Factor Analysis CFA).
Diviziunea dintre aceste dou moduri nu este ntotdeauna clar. De exemplu, este posibil
ca cercettorul s poat specifica faptul c exist doi factori dar nu poate anticipa ce variabile
reprezint fiecare. Sau pentru a ilustra una dintre numeroasele strategii care pot fi folosite,
cercettorul poate utiliza o jumtate din eantion pentru a explora structura posibil a
coeficienilor i apoi s utilizeze cealalt jumtate din eantion pentru a testa ipotezele care au
fost dezvoltate din examinarea primei jumti.

Elemente de baza n analiza factorial
1. Saturatia reprezint proporia cu care factorul respectiv contribuie la varianta unei
variabile;
2. Comunalitate este proporia n care cei k factori alei reprezint mai bine structura
din datele iniiale; cu ct valoarea comunalitilor este mai aproape de unu cu att reprezentarea
este mai buna;
3. Valoarea proprie a unui factor (eigen value) reprezint contribuia unui factor la
explicarea variantelor tuturor variabilelor; cu cat aceasta valoare este mai mare cu att explicarea
variantei variabilelor este mai buna;
5.2 Factori i variabile
Analiza factorial este bazat pe presupoziia fundamental c factorii de baz care sunt
mai puin numeroi dect variabilele observate, sunt responsabili de covariaia dintre variabilele
observate.
O astfel de presupoziie poate fi expus ntr-o diagram analitic cauzal dup cum
urmeaz:

d
b X U

F
d2
b2 X2 U2

Figura nr. 5-1 : Reprezentarea grafic a unui factor cu dou variabile
Aceast diagram implic : X1 esta suma dintre F i U i X2 este suma dintre F i U2.
Deoarece F este comun i pentru X1 i pentru X2 poate fi numit factor comun; n acelai fel,
deoarece U1 i U2 sunt unice pentru variabila observat, ele pot fi atribuite ca un factor unic. n
form algebric, diagrama implic urmtoarele dou egaliti:

X1 = b1 F + d1 U1
X2 = b2 F + d2 U2 [1]
n plus, diagrama de asemenea, indic faptul c nu exist covariaie ntre F i U1, ntre F
i U2 sau ntre U1 i U2.

ANALIZA MULTIVARIAT
60

cov ( F, U1 ) = cov ( F, U2 ) =cov ( U1 U2 ) = 0 [2]

Cele trei ecuaii descriu un sistem liniar de analiz factorial.

Exemplu presupunem c exist trei variabile F, U1 i U2 i opt cazuri ( sau entiti ) ca n
tabelul nr. 5-1.
Fiecare variabil are dou valori posibile: 1 sau 1 i acestea nu sunt corelate ntre ele. S
presupunem c ni se cere s stabilim variabile din aceast surs de date conform unui set de
reguli. Aceste reguli specifice sunt indicate de diagrama cauzal din figura nr. 5-2. Aceste reguli
sunt pentru a-l creea pe X1 din combinaia dintre F i U1 cu influenta .8 i .6 i pentru a-l creea
pe X2 din combinaia dintre F i U2 cu influenta .6 si .8.
Un astfel de set de operaii poate fi nsumat i n urmtoarele dou ecuaii:
X1 = .8 F +.6 U1
X2 = .6 F + .8 U2

.6
.8 X U

F
.8
.6 X2 U2
Figura nr. 5-2: Reprezentarea grafic a unui factor cu dou variabile conform unui set de reguli

Diagrama de fapt conine mai multe informaii dect aceste dou ecuaii; n diagram,
absena conexiunilor directe sau indirecte dintre variabile indic faptul c nu exist corelaie ntre
ele, pe cnd relaiile dintre variabile sunt nespecificate n cele dou ecuaii. Pentru a indica faptul
c variabilele X1 i X2 sunt create prin utilizarea variabilelor necorelate trebuie adaugate
urmtoarele condiii la ecuaii:
cov ( F, Ui ) = cov ( Ui, Uj ) = 0

Tabelul nr. 5-1: Exemplificarea coeficienilor i variabilelor: 2 variabile, un coeficient comun:
Cazuri F U1 U2 X=.8F+.6U X2=.6F+.8U2
1 1 1 1 1.4 1.4
2 1 1 -1 1.4 -0.2
3 1 -1 1 0.2 1.4
4 1 -1 -1 0.2 -0.2
5 -1 1 1 -0.2 0.2
6 -1 1 -1 -0.2 -1.4
7 -1 -1 1 -1.4 0.2
8 -1 -1 -1 -1.4 -1.4
Variabilele create prin aplicarea acestor reguli sunt prezentate n coloanele 4 i 5 ale
tabelului.
Dac vom considera X1 i X2 ca variabile observate i F, U1, U2 ca variabile
neobservate, vom avea cel mai simplu model de factor comun.
De reinut, c exist mai muli factori ( Fs i Us ) dect variabile observate (Xs) ns doar
factorul F este comun ambelor variabile X1 i X2, iar numrul factorilor comuni este mai mic
dect numrul variabilelor observate.
n crearea variabilei Xs am utilizat numai operaii matematice: (1) multiplicarea
variabilelor prin constante; (2) adunarea acestor produse. Intr-un limbaj tehnic, am utilizat doar
operaii liniare i prin urmare, s-a creat un sistem linear.
Vom rezuma aceast secvena descriind modul n care sunt folosii i relatai termenii,
variabilele i factorii.
ANALIZA MULTIVARIAT
61

O variabil este un concept care are dou sau mai multe valori. n exemplul anterior, F,
U1 i U2 au dou valori. Vom presupune c aceste variabile sunt date, X1 i X2, care sunt create
din sursa de date prin intermediul operaiilor liniare sunt de asemenea variabile fiecare avnd
patru valori posibile. Pentru a indica faptul c sursa variabilelor nu este observat de ctre
cercettor i c variabilele observate sunt extrase de acolo, vom numi aceast surs de variabile
factori fundamentali. Deoarece nu am participat la crearea universului real de variabile prin
aplicarea operaiilor descrise anterior, vom numi aceste surse factori ipotetici (constructe sau
variabile ipotetice).
Factorii care sunt implicai n crearea mai multor variabile observate sunt numii factori
comuni, iar aceia care sunt folosii pentru crearea unei singure variabile observate sunt numii
factori unici.

5.3 Variaie, covariaie i corelaie
Exist dou proprieti ale unei variabile care joac roluri importante n statistic: media
i variaia.
Media indic tendina central a unei variabile i variaia indic gradul de dispersie (sau
variabilitate).

Media= (Xi)/N (i=1, 2, , N)
=E(X)=X
[3]
Variaia=[Xi-E(X)]/N (i=1, 2, ..., N)
=E[X-E(X)] =Vx [4]

Vom folosi notaia E ca o prescurtare pentru suma tuturor valorilor i mprirea acestei
sume la numrul total de cazuri. Dac variabila este distribuit normal atunci aceste dou teste
statistice sunt suficiente pentru caracterizarea distribuiei probabile a variabilei.
Cele 5 variabile din exemplul nostru (F, U1, U2, X1 si X2) au media 0 i variaia 1.
Aceste variabile sunt numite variabile normale sau standard. Fiecare variabil poate fi
transformat ntr-o astfel de variabil standard scznd rdcina ptrat a variaiei.
n caracterizarea relaiilor liniare dintre variabile, covariaia joac un rol important.
Formula acesteia este:

cov(X, Y)=[(Xi-X)(Yi-Y)]/N (i=1, 2,..., N)
=E[(X-X)(Y-Y)]
[5]
De reinut, faptul c, acele cazuri care se abat de la media fiecrei variabile nu contribuie
la mrimea covariaiei:
- dac un caz are o valoare mai mare dect media pentru una dintre variabile, dar o valoare mai
mic pentru cealalt, va contribui cu o valoare negativ la covariaie;
- dac un caz are valori mari sau valori mici pentru ambele variabile va crete covariaia.
Astfel, covariaia msoar extensia pentru care valorile unei variabile tind s covarieze cu
valorile altei variabile. Covariaia dintre variabilele standard este denumit specific: coeficient
de corelaie sau coeficientul de corelaie al lui Pearson .

cov(X, Y) =E(XY)
[6]
dac X=Y=0
rxy
dac Vx=Vy=1
[7]
ANALIZA MULTIVARIAT
62


Dac o variabil poate fi exprimat ca o funcie liniar a celeilalte, ca n Y=a+bx (sau ca
o combinaie liniar a celeilalte), coeficientul de corelaie va fi 1 sau 1 i coeficientul de
determinaie va fi 1. Dac cele dou variabile sunt independente din punct de vedere statistic
mrimea corelaiei va fi 0. Altfel, mrimea lui r va varia ntre 1 i 1 (dac distribuia este
bivariat, media, variaia i corelaia dintre ele vor specifica distribuia bivariat).
Este important de notat c noiunea de covariaie este independent de structura cauzal
de baz; cele dou variabile le poate acoperi pe ambele deoarece o variabil este cauza celeilalte
sau ambele variabile au n comun cel puin o cauz, sau ambele. n sistemul liniar artat n prima
figur exist covariaie ntre X1 i F deoarece F este una dintre variabilele de baz. Totui, exist
covariaie ntre X1 i X2 pentru c ambele au o variabil de baz comun (F).

5.4 Derivaia structurii covariaiei din structura factorial
n descrierea unui model factorial comun, este necesar s introducem dou concepte
suplimentare: complexitatea factorial a unei variabile i gradul de determinare factorial al
variabilelor.
Complexitatea factorial se refer la numrul coeficienilor de saturaie pentru o
variabil dat. n acest exemplu fiecare variabil este saturat cu un factor comun simplu, de
aceea, complexitatea factorial a fiecrei variabile este 1. Dar faptul c factorul comun ine de
structura covariaiei nu ne spune nimic despre gradul n care variabilele observate sunt
determinate de factorul comun. De aceea, pentru informaii se are n vedere un index ce indic
gradul unei astfel de determinri. Pentru acest scop, noi folosim proporia variaiei explicat de
factorul comun:

bi /m

1. Un factor comun cu multe variabile
Figura 3 arat un exemplu de model de un factor comun cu mai multe variabile
observate:
d
1
b X U

F b
2
X
2
d
2
U
2

d
m
bm

X
m
U
m
Figura nr. 5-3: Reprezentarea grafic a unui factor comun cu mai multe variabile

Diagrama implica: cov( F, Ui) = 0, si cov(Ui, Uj) = 0 si combinatia liniara este:

X = bF + d U
X2 = b2F + d2 U2

Xm = bmF +d m Um








ANALIZA MULTIVARIAT
63

2. Doi factori comuni: cazul ortogonal
Figura nr. 5-4 arat un exemplu de model cu doi factori comuni cu cinci variabile
observate (cazul ortogonal):
d
X1 U
b
d2
F b21 X2 U2

b22
b3 d3
X3 U3
b32
b41
b51 d4
F2 X4 U4

b52 d5
X5 U5

Figura nr. 5-4: Reprezentarea grafic a doi factori comuni cazul ortogonal

3. Doi factori comuni: cazul oblic
Figura nr. 5-5 arat un exemplu de model de doi factori cu apte varabile de baz, dar cu
o complicaie: dou variabile de baza sunt corelate ntre ele, iar acestea dou sunt folosite ca
factori comuni.

d
X U
b
b21 d2
F b21 X2 U2

b22
b3 d3
X3 U3
b32
b41
b51 d4
F2 X4 U4

b52 d5
X5 U5


Figura nr. 5-5: Reprezentarea grafic a doi factori comuni cazul ortogonal
5.5 Etapele necesare determinrii factorilor
a) Alegerea variabilelor;
b) Matricea de corelaii;
c) Specificarea criteriului de alegere a factorilor i a numrului de factori (daca este
cazul)
ANALIZA MULTIVARIAT
64

d) Rotirea factorilor (alegerea tipului de rotire);
e) Realizarea scorului factorial.

a) Primul pas este alegerea variabilelor, care trebuie sa fie de tip cantitativ si anume: se
alege un grup de variabile pe baza presupoziiei c ele ar msura acelai concept.
n ce privete introducerea variabilelor n analiza factorial se impune o anumit cerin:
standardizarea variabilelor.. Pentru ca atunci cnd variabilele nu au aceeai unitate de msur
ele nu pot fi introduse in sisteme de ecuaii, este nevoie ca datele iniiale s fie transformate n
variabile care nu au uniti de msur.
Pentru fiecare variabila
i
x standardizarea presupune o transformare de forma (
standardizare cu scorul z ):
i
i ij
ij
x x
z
o

= , i= 1m ,
unde
i
x este media iar
i
o dispersia variabilei respective.
Noile variabile au media egala cu 0 si dispersia 1.
De asemenea o variabila poate fi standardizata prin scorul lui Hull:
i
i
x x
H
o

+ = 14 50
b) Matricea de corelaii se realizeaz pornind de la asumpia c este puin probabil ca
variabilele ntre care corelaiile sunt mici s mprteasc un factor comun. Aceasta matrice de
corelaii ne d informaii despre intensitatea asocierii ntre variabile luate dou cte dou precum
i nivelul de acceptare a acestei asocieri.
Legat de aceasta matrice de corelaii exista doua teste Testul Bartletts de sfericitate
(Bartletts Test of Sphericity ) i KMO (Keiser-Meyer-Olkin Measure of Sampling Adequaci)
prin care se verific dac variabilele alese de noi reprezint un model viabil.
KMO analizeaz cazul de raportare la cazul ideal i pornete de la presupoziia c,
corelaiile pariale trebuie s fie ct mai mici deoarece se datoreaz unui factor unic. Valoarea
acestui test trebuie s fie mai mare de 0.50 pentru ca modelul respectiv s poat fi acceptat.
Daca KMO este mai mare de 0.60 atunci modelul respectiv este bun. Cu ct valoarea
KMO-ului este mai aproape de 1 cu att modelul este mai bun.
Testul Bartletts de sfericitate se interpreteaz ca i testul
2
. Dac nivelul de
probabilitate este mai mic de 0.05 atunci modelul este bun sau se compar valoarea afiat cu cea
existent n tabele pentru numrul respectiv de grade de libertate i daca valoarea este mai mare
dect cea din tabele atunci modelul este bun.
c) n privina numrului de factori exista dou posibiliti, ori specificam ci factori
vrem s avem, ori nu specificm acest lucru, lsnd calculatorul s ne gseasc un numr de
factori n funcie de diferite corelaii. n primul caz putem avea erori mai mari dect n cel de al
doilea caz, deoarece s-ar putea ca unele variabile s nu se coreleze prea bine cu celelalte
variabile, dar pentru c trebuie gsit doar un numr fix de factori, acestea vor fi introduse n
anumii factori. Recomandabil este deci cea de a doua metod.
Extragerea factorilor se face dup anumite metode, dintre care cele mai des folosite sunt:
alpha factoring, maximum likelihood, image factoring, principal axis factoring, principal
components etc.
n alpha factoring asumptia de la care se pornete este aceea ca variabilele introduse au o
parte care este determinat de factorul comun i o parte de factorul unic al fiecrei variabile.
ANALIZA MULTIVARIAT
65

Maximum likelihood este o metod care maximizeaz determinantul matricei corelaiei
pariale reziduale.
Image factoring porneste de la presupoziia c variabilele pot fi descompuse n dou
pari, una determinat de factorul comun i una determinat de factorul unic i celelalte variabile.
Principal axis factoring se bazeaz pe variana comun a variabilelor i pe corelaiile
dintre variabile.
Principal components pornete de la ntreaga variana a variabilelor, dup care ncearc
s selecteze o aa numit component principal. Aceasta metod se consider de fapt analiza
factorial i este cel mai des utilizat.
Extragerea factorilor se face n funcie de valoarea proprie a fiecruia. Aceasta trebuie s
fie mai mare dect 1, pentru c astfel el va explica mai mult dect oricare din variabile. De
asemenea, proporia explicat de factorul extras trebuie s fie cea mai mare. n plus pstrarea,
variabilelor n factorii respectivi se face n funcie de saturaie i de schimbrile intervenite dup
eliminarea sau adugarea lor. De asemenea se poate face un grafic din care s rezulte variabilele
cu influena cea mai mare n factor.
Interpretarea factorilor se face n funcie de variabilele cu care au ceva n comun.
n plus dac prin metode diferite de extragere a factorilor obinem aceeai factori putem
afirma cu certitudine ca modelul este valid.
d) Rotaia factorilor uureaz la interpretarea factorilor. Prin rotirea factorilor se
urmrete s se aib o situaie n care fiecare dintre variabile s se afle ct mai aproape de unul
dintre factori, deci conceptul de apropiere n raport cu factorii nu mai este aplicat global, ci
pentru variabile sau grupuri de variabile. Cu alte cuvinte se ncearc s se gseasc cea mai buna
structura a fiecrui factor. Prin rotirea factorilor se pot obine aceeai factori sau factori cu o
componen diferit. Dac prin rotirea factorilor se obin aceeai factori, atunci exist un motiv
n plus s afirmm c aceti factori reprezint un model valid.
Principalele metode de rotire sunt: varimax, oblimin, quartimax.
Varimax minimizeaz numrul de variabile cu saturaii mari pentru un factor, quartimax
minimizeaz numrul de factori necesari pentru explicarea unor variabile, iar oblimin se
folosete cnd se presupune c factorii sunt corelai. Aceasta din urm ne arat i intensitatea
corelaiei dintre factori
e) Calcularea scorurilor se face n scopul unor prelucrri ulterioare (clasificri, asocieri,
segmentri, etc). Scorul se calculeaz pornind de la valorile fiecrei variabile i a saturaiei ei n
cadrul unui factor. Scorul factorial se calculeaz n majoritatea cazurilor pe baza metodei
regresiei. Se calculeaz o ecuaie de regresie dintre saturaiile fiecrei variabile i valorile
individuale ale fiecrei variabile. SPSS-ul calculeaz automat acest scor.

5.6 Limitele analizei factoriale
n primul rnd, asumpiile care permit aplicarea modelului factorial sunt uneori nerealiste.
S presupunem c am construit un indicator multiplu pentru un concept, folosind analiza
factorial. Aceasta nseamn c pentru un numr de indicatori am validat ipoteza privind
unidimensionalitatea lor i am construit factorul comun care le corespunde. Dac vom folosi
acelai indicator pentru doua momente de timp i vom ncerca s vedem n ce msur valorile
luate prima data le explica pe cele luate a doua oara, condiia de covariaie nula ntre factorii
unici va fi implauzibil.
O alt problem este aceea a interpretrii rezultatelor. Prin rotirea factorilor se poate
obine o infinitate de soluii. Astfel, rezultatele pot fi interpretate doar prin termeni de genul ar
putea sa fie aa i nu prin exista 95% anse sa fie aa. Mai sigure sunt concluziile de tipul
sunt anse mari s nu fie aa referitoare la variante care difer semnificativ de toate soluiile
posibile prin rotirea factorilor.
Interpretarea rezultatelor este dificil mai ales n cazul cnd analiza cuprinde un numr
mare de variabile i se obin muli factori semnificativi. Dac numrul factorilor este mai mare
ANALIZA MULTIVARIAT
66

de trei, acetia nu pot fi reprezentai grafic, fapt care ne ngreuneaz interpretarea lor. Rmn
doar intuiia, experiena cercettorului i abilitatea n utilizarea calculatorului.

5.7 Obinerea analizei factoriale cu ajutorul programului SPSS
Pornind de la o serie de date furnizate de Barometrul de Opinie Public din luna mai
2006, voi ncerca s identific felul n care se structureaz percepia populaiei privind ncrederea
n instituiile din Romnia. Am luat n calcul zece variabile i am ncercat s identific cu ajutorul
analizei factoriale dac exist o serie de factori (componente) care s sintetizeze cea mai mare
parte din informaia deinut n respectivele variabile, pentru a simplifica procesul de analiz i
interpretare a datelor.
Variabilele incluse n analiz sunt prezentate n tabelul nr. 5-2. Scala de msurare a
acestor variabile nu este una metric, ns ndeplinete condiiile care permit s fie folosite ntr-o
analiz factorial: valorile atribuite treptelor reflect distanele reale dintre ele iar variabilele sunt
msurate toate pe aceeai scal.

Tabelul nr. 5-2 ncrederea n instituiile din Romnia, BOP mai 2006
Foarte
puin Puin Mult
Foarte
mult
NS NR
i2_b Preedinie 1 2 3 4 8 9
i2_c Guvern 1 2 3 4 8 9
i2_d Parlament 1 2 3 4 8 9
i2_e Justiie 1 2 3 4 8 9
i2_f Armat 1 2 3 4 8 9
i2_g Poliie 1 2 3 4 8 9
i2_h Primria localitii 1 2 3 4 8 9
i2_k Televiziune 1 2 3 4 8 9
i2_l Radio 1 2 3 4 8 9
i2_m Presa scris 1 2 3 4 8 9


n programul SPSS 17 se va selecta din meniul ANALYZE opiunea DIMENSION
REDUCTION/FACTOR. n fereastra de dialog vor fi definite cele zece variabile care trebuie
incluse n analiz i se vor bifa o serie de opiuni de analiz. nainte de a aplica analiza factorial
se vor declara valorile de 8, 9 ca valori missing values.
Butonul DESCRIPTIVES ne ofer mai multe opiuni referitoare la descrierea variabilelor
incluse n model:Univariate descriptives, pentru calcularea mediilor fiecrei variabile n parte,
Initial solution pentru furnizarea valorilor proprii ale tuturor componentelor Coefficients
pentru calcularea coeficienilor de corelaie dintre variabile i KMO and Bartletts test of
sphericity pentru validarea modelului extras.


ANALIZA MULTIVARIAT
67



Figura nr. 5-6: Comanda pentru Analiza factorial-testul KMO

Primele rezultate furnizate sunt mediile pentru fiecare variabil inclus n model. Se
observ c la nivelul celor 1565 persoane intervievate s-au obinut medii diferite, indicnd faptul
c persoanele intervievate acord grade diferite de ncredere instituiilor.


Mean Std. Deviation Analysis N
i2_b Preedinie 2,48 ,827 1565
i2_c Guvern 1,99 ,729 1565
i2_d Parlament 1,85 ,705 1565
i2_e Justiie 2,02 ,763 1565
i2_f Armat 2,76 ,795 1565
i2_g Poliie 2,33 ,812 1565
i2_h Primria localitii 2,36 ,891 1565
i2_k Televiziune 2,65 ,676 1565
i2_l Radio 2,65 ,694 1565
i2_m Presa scris 2,51 ,725 1565

Programul calculeaz de asemenea coeficienii de corelaie dintre cele zece variabile Se
observ corelaii puternice ntre ncrederea n televiziune, radio i pres scris precum i ntre
instituii precum Guvernul, Preedinia, Armata i Poliie i Poliie i Justiie.
ANALIZA MULTIVARIAT
68


Correlation Matrix

Preedinie Guvern Parlament Justiie Armat Poliie
Primria
localitii
Televizi
une Radio
Presa
scris
Preedinie 1,000 ,550 ,461 ,416 ,391 ,401 ,357 ,306 ,313 ,294
Guvern ,550 1,000 ,788 ,556 ,291 ,450 ,364 ,269 ,281 ,306
Parlament ,461 ,788 1,000 ,578 ,281 ,437 ,368 ,259 ,252 ,286
Justiie ,416 ,556 ,578 1,000 ,374 ,543 ,351 ,270 ,277 ,263
Armat ,391 ,291 ,281 ,374 1,000 ,516 ,347 ,343 ,354 ,302
Poliie ,401 ,450 ,437 ,543 ,516 1,000 ,475 ,290 ,295 ,293
Primria
localitii
,357 ,364 ,368 ,351 ,347 ,475 1,000 ,264 ,231 ,272
Televiziune ,306 ,269 ,259 ,270 ,343 ,290 ,264 1,000 ,766 ,702
Radio ,313 ,281 ,252 ,277 ,354 ,295 ,231 ,766 1,000 ,725
Presa scris ,294 ,306 ,286 ,263 ,302 ,293 ,272 ,702 ,725 1,000

n urma aplicrii metodei Componentelor principale s-au extras doi factori care ar
putea sintetiza informaia din cele zece variabile. Extragerea factorilor se face intrnd n butonul
EXTRACTION iar aici se bifeaza metoda Principal components, se bifeaz Unrotated factor
solution pentru a ne prezenta coeficienii de corelaie dintre variabile i factorii extrai nainte
de rotirea factorilor, Scree plot pentru efectuarea unei reprezentri grafice a valorilor proprii
pentru componentele principale
Tot n aceast fereastr se poate selecta opiunea Number of factors dac dorim
extragerea unui anumit numr de factori care s exprime informaia din variabilele incluse n
model. Dac nu dorim s form repartizarea variabilelor ntr-un numr prestabilit de factori i s
lsm programul s extrag numrul de factori optimi care s explice variaia variabilelor, atunci
vom lsa bifat opiunea Eigenvalues greater than 1 (valoarea factorului s fie mai mare de 1).


Figura nr. 5-7: Comanda pentru Analiza factorial-extragerea factorilor

Butonul Rotation ne ofer posibilitatea de a alege metoda de rotire a factorilor astfel
nct s identificm varianta cea mai optim. Se poate bifa metoda Varimax, care este metoda
cea mai des utilizat pentru rotirea factorilor. Se bifeaz i opiunea Rotated solution pentru
calcularea coeficienilor de corelaie a variabilelor cu factorii nou selectai dup rotire i
ANALIZA MULTIVARIAT
69

Loading plots pentru reprezentarea grafic a variabilelor. Factorii identificai pot fi salvai ca o
variabil nou n baza de date bifnd opiunea Scores Save as variables, iar metoda de
calcularea a noilor variabile poate fi regresia.




Figura nr. 5-8: Comanda pentru Analiza factorial-rotaia factorilor




Figura nr. 5-9: Comanda pentru Analiza factorial-construirea unui indice

Cele zece variabile s-au grupat n doi factori, ambii factori avnd valori proprii mai mari
de 1. Primul factor explic 45,16% din variaia variabilelor incluse, iar cel de al doilea factor
explic doar 16,74% din variaia variabilelor incluse. Dup rotirea factorilor diferena dintre
valorile factorilor s-a micorat, dar tot primul factor are valoarea cea mai mare i explic cel mai
mult din variaia variabilelor, 35,75%, iar cel de al doilea factor 26,16%.








ANALIZA MULTIVARIAT
70

Total Variance Explained
Component
Initial Eigenvalues
Extraction Sums of
Squared Loadings
Rotation Sums of Squared
Loadings
Total % of Variance Cumulative % Total
% of
Variance
Cumulati
ve % Total
% of
Variance
Cumulati
ve %
1 4,52 45,16 45,16 4,52 45,16 45,16 3,57 35,75 35,75
2 1,67 16,74 61,91 1,67 16,74 61,91 2,62 26,16 61,91
3 0,95 9,46 71,37
4 0,67 6,67 78,04
5 0,63 6,29 84,33
6 0,45 4,49 88,82
7 0,39 3,91 92,73
8 0,3 2,98 95,71
9 0,23 2,3 98,01
10 0,2 1,99 100
Extraction Method: Principal Component Analysis.

Testul KMO are o valoarea apropiat de 1 (0,846) asigurndu-ne c modelul poate fi
considerat valid. 84,6% din variaia celor zece variabile este explicat de cei doi factori extrai.

KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,846
Bartlett's Test of Sphericity Approx. Chi-Square 7697,069
df 45
Sig. ,000

Reprezentarea grafic a celor 10 factori (dac fiecare variabil ar fi considerat un factor)
este reprezentat n figura nr. 5-6. Se constat c primele dou componente au valorile cele mai
mari.


Figura nr. 5-10: Reprezentarea grafic a valorilor proprii ale factorilor.


ANALIZA MULTIVARIAT
71

Component Matrix
a

Component
1 2
i2_b Preedinie ,671 -,201
i2_c Guvern ,738 -,386
i2_d Parlament ,716 -,402
i2_e Justiie ,698 -,334
i2_f Armat ,615 ,001
i2_g Poliie ,702 -,236
i2_h Primria localitii ,588 -,178
i2_k Televiziune ,659 ,620
i2_l Radio ,664 ,629
i2_m Presa scris ,656 ,586
Extraction Method: Principal Component Analysis.
a. 2 components extracted.


Rotated Component Matrix
a

Component
1 2
i2_b Preedinie ,664 ,222
i2_c Guvern ,826 ,109
i2_d Parlament ,817 ,083
i2_e Justiie ,763 ,128
i2_f Armat ,503 ,355
i2_g Poliie ,710 ,211
i2_h Primria localitii ,583 ,193
i2_k Televiziune ,182 ,887
i2_l Radio ,181 ,897
i2_m Presa scris ,199 ,856
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Rotation converged in 3 iterations.

Se observ o modificare a coeficienilor de corelaie a variabilelor cu cei doi factori dup rotire,
eficientizndu-se astfel componena lor
Factorul 1 cuprinde : ncrederea n Preedinie, Guvern, Parlament, Justiie, Armat,
Poliie, Primria localitii.
Factorul 2 cuprinde : ncrederea n Televiziune, Radio, Presa scris.
Factorul 1 poate fi numit ncrederea n instituiile statului, iar Factorul 2 poate fi
denumit ncrederea n instituia mass-media. Se observ o corelaie mare a variabilei
ncredere n Armat din primul factor cu cel de al doilea factor. Probabil oamenii percep c
instituiile mas-media au un rol n protejarea cetenilor i astfel s-ar putea explica i corelaia cu
variabila ncredere n Armata, conferindu-se i acestei instituii acelai rol.





ANALIZA MULTIVARIAT
72

Component Transformation Matrix
Component 1 2
1 ,818 ,576
2 -,576 ,818
Extraction Method: Principal
Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.

Coeficientul de corelaie de 0,576 indic o corelaie puternic ntre cei doi factori. Prin
urmare putem concluziona c n spatele acestor doi factori exist o singur component, pe care
am putea-o denumi ncrederea n instituiile din Romnia.
n figura nr.8.2 se prezint asocierea dintre variabile i cei doi factori. Se observ c
prima component este determinat de ncrederea n Preedinie, Guvern, Parlament, Justiie,
Armat, Poliie, Primria localitii (i2_b, i2_c, i2_d, i2_e, i2_f, i2_g, i2_h), iar cea de a doua
component de ncrederea n Televiziune, Radio, Presa scris (i2_k, i2_l, i2_m)



Figura nr. 5-11: Reprezentarea grafic a asocierii dintre variabile i factori



6 Analiza Cluster
6.1 Caracteristici generale
Prin aceasta metod, numrul de atribute ce caracterizeaz o mulime de obiecte este
redus la unul singur. Variabilele de input sunt cantitative, iar variabila care rezult n urm
aplicrii metodei este de tip nominal. Analiza cluster are n comun cu modelul factorial tipul de
structur a datelor care urmeaz s fie analizate - de tip stimul unic i de nivel cantitativ precum
i faptul ca algoritmii specifici ambelor metode prelucreaz mulimi de valori care exprim
gradul de similaritate n cadrul unor perechi de obiecte. n analiza factorial datele sunt
transformate ntr-o matrice de corelaii. i n analiza cluster se ajunge la o matrice n care fiecare
ANALIZA MULTIVARIAT
73

element
ij
a exprim gradul de asemnare ntre dou elemente, ns acestea sunt indivizi statistici
i nu variabile.
Obiectivul analizei cluster este de a clasifica obiecte, pornind de la o serie de atribute
cunoscute, astfel nct elementele fiecrei clase s fie ct mai asemntoare ntre ele. Poate s fie
vorba despre oameni care sunt mprii n categorii n funcie de rspunsurile dintr-un
chestionar.
Analiza cluster este realizata n dou etape:
1) n primul rnd este construit o matrice de disimilaritate, apoi este aplicat un
algoritm de aglomerare a elementelor n grupe, pornind de la distanele din matrice. Valoarea
distanei este zero pentru valori identice i este cu att mai mare cu ct valorile difer mai mult.
- Se pornete de la o matrice a proximitilor dintre toate perechile de uniti de clasificat .
Aceasta furnizeaz setul de date de intrare.
- n matricea proximitilor se identific unitile i i j cele mai apropiate. Acestea sunt
atribuite aceluiai cluster k.
- Se recalculeaz matricea proximitilor pentru a determina distanele dintre noul cluster k
i gruprile anterioare. Ulterior, dup mai multe cicluri, gruprile anterioare pot fi
formate ele nsele din mai multe uniti, aa cum au rezultat din paii precedeni ai
algoritmului.
n noua matrice recalculat se caut din nou perechea de grupri cu maxima similaritate.
Gruprile corespunztoare acestei perechi sunt contopite ntr-o nou grupare. Cicluri de grupare
continu pn la un anumit prag de tiere sau stopare a aglomerrilor.
2) O alt posibilitate este s calculam coeficientul de corelaie Pearson ntre variabila
care ia n ordine valorile
n
a a a
1 12 11
,... , i variabila care ia valorile
mn
a a a ,... ,
22 21
n matricea de
disimilaritate. Gradul de disimilaritate va fi exprimat de msura apropierii de zero n valoare
absolut. Algoritmul de mprire n k clusteri este acelai ca n primul caz.
Cele doua metode conduc la matrice de disimilaritate diferite i, n cele din urm, la
clasificri diferite.
Cnd folosim o anumit metod ?
Prima metod va mpari o serie de elemente n funcie de mrime, iar a doua n funcie
de tipul de elemente. Putem spune ca prima metoda este cantitativa, iar cea de a doua metoda
este calitativ. Aplicm prima metoda sau a doua n funcie de ceea ce vrem s obinem prin
mprirea n clusteri.
Spre exemplu, dac ncercm s clasificm elevi care provin de la mai multe coli n
funcie de mediile pe care le au la mai multe materii, prima metoda va distinge ntre elevii care
au avut note mari de elevii cu note mai mici, n timp ce a doua metoda va produce categorii de
genul mai bun la romn dect la matematic. n funcie de asumpiile care descriu realitatea
studiat, fiecare metod ar putea fi aplicat. Dac afirmm c notele nu pot fi comparate ntre
licee diferite, atunci a doua metoda este preferabil celei dinti. n caz contrar, prima metoda
poate s produc i ea clasificri cu sens.
Pentru a se grupa diferite obiecte este necesar s se cunoasc profilul lor specific. Prin
profilul unui obiect se nelege poziia pe care acesta o ocup simultan pe un set de criterii prin
care se specific punctul de vedere de referin.
Componente ale unui profi.
Pentru a se compara ntre ele diferite profile este util s distingem ntre forma, nivelul i
variaia sau mprtierea lor.
1. Forma se refer la reprezentarea grafica. Dou profile au forme identice dac
graficul lor urmeaz aceeai linie.
2. Nivelul unui profil este dat de media scorurilor sale.
3. Variaia profilului poate fi estimat prin coeficientul de variaie, abaterea standard,
dispersia sau, cel mai simplu, prin radicalul din suma ptratelor abaterilor pe care le au valorile
de profil fa de nivelul acestuia.
ANALIZA MULTIVARIAT
74

Gradul de convergen sau divergen dintre formele unei perechi de profile este estimat
de obicei prin coeficientul de corelaie.
Din aceast disecare a profilelor rezult c, la un nivel mai analitic, gruparea diferitelor
entiti trebuie s precizeze clar, n funcie de ce anume se realizeaz: asemnri de forma, de
nivel, de mprtiere sau de combinaii ale acestora.
6.2 Msuri ale distanei i similaritii dintre elemente
1. Pentru a ndeplini cerina de a obine clusteri compaci, cu elemente asemntoare,
este nevoie de un procedeu de apreciere a asemnrii (sau diferenierii). n general, acest rol este
ndeplinit de o funcie definita pe mulimea perechilor de elemente, numita distan, care
ndeplinete urmtoarele cerine:
- Ia valori mai mari sau egal cu zero;
- Este zero daca i numai dac elementele perechii sunt identice;
- Distana dintre dou elemente nu poate fi mai mare dect suma distanelor de la fiecare dintre
cele dou elemente la un al treilea.
Tipurile de distan mai des folosite n analiza cluster i care sunt utilizate i n programul
SPSS sunt urmtoarele:
- SEUCLID ptratul distanei euclediene;
( ) ( )
2
,

=
i
i i
y x y x d
- EUCLID distanta euclidiana;
( ) ( )

=
i
i i
y x y x d
2
,
- BLOC (Manhattan) suma abaterilor;
( )

=
i
i i
y x y x d ,
- CHEBYCHEV abaterea maxima;
( )
i i
i
y x y x d = max ,
- MINKOWSKI distanta euclidiana generalizata;
( )
p
i
p
i i
y x y x d
1
, |
.
|

\
|
=


- POWER distanta MINKOWSKI generalizata
( )
r
i
p
i i
y x y x d
1
, |
.
|

\
|
=


Se observ c pentru toate aceste msuri conteaz unitatea de msur a variabilelor care
intervin. Din aceasta cauz, nainte de utilizare, variabilele sunt transformate n variabile fr
unitate de msur, de regul n variabile cu medie 0 i dispersie 1 ( numite variabile Z score n
SPSS). Alte standardizri uzuale sunt : transformarea liniar n intervalul [-1,+1] sau n intervalul
[0,1] (daca se dorete evitarea utilizrii zecimalelor, se poate trece la intervale de forma [0,10],
etc.
Msurile distanei ordoneaz raporturile de proximitate de la identitate, n cazul distanei
zero, la diferen foarte mare pentru valori corespunztoare ale indicelui respectiv. n acest caz
nu mai apar distinciile dintre convergena divergena formelor, certitudine incertitudine n
raporturile dintre profile. La prima vedere, msurile distanei sunt mai bogate pentru ca includ
informaii despre toate cele trei aspecte ale profilului-nivel, forma i mprtiere. Acesta poate fi
ns i un dezavantaj daca avem n vedere faptul c indicii de distan cumuleaz indistinct toate
cele trei efecte. Nu se mai tie, n finalul unei clasificri realizat pornind de la msuri ale
ANALIZA MULTIVARIAT
75

distanelor ce anume a dus la gruparea obiectelor n aceeai clas- forma profilului lor, nivelul
profilelor sau mprtierea acestora.
2. Exista i posibilitatea de a defini mrimi care nu verific axiomele distanei; acestea
sunt construite astfel nct cea mai mic difereniere (cea mai mare asemnare) se obine pentru
valoarea maxim a mrimii calculate.
Cele mai uzuale mrimi de acest tip numite similitudini- sunt:

- COSINE cosinusul vectorilor x si y :
( )
|
.
|

\
|
|
.
|

\
|
=

i
i
i
i
i
i i
y x
y x
y x s
2 2
,
- CORELATIA PEARSON- corelaia vectorilor x si y
( )
1
,

=

M
z z
y x s
i
y x
i i

unde
i
x
z sunt valorile standardizate Z score a variabilei x, iar M este numrul vectorilor.
Coeficientul de corelaie Pearson este cel mai utilizat.
Intervalul de variaie al acestui coeficient de corelaie este intre 1 si +1. Similaritatea
este cu att mai mare cu cat valoarea coeficientului este mai aproape de 1. Valorile apropiate de
1 indica un raport de opoziie sau de distanta maxim ntre profilele comparate. Pentru dou
profile identice r va avea valoarea 1. n schimb, dac liniile de profil variaz exact n sens invers
i cu aceeai amplitudine, r va avea valoarea 1. n cazul n care r este 0 vom spune ca profilele
comparate au asemnri i deosebiri egale sub aspectul frecvenei i intensitii.
Coeficienii de corelaii msoar raportul dintre forma profilelor. Ei nu spun nimic ns n
legtur cu raportul dintre nivelurile i mprtierile profilelor comparate
3. O poziie intermediar ntre coeficienii de corelaie i msurile distanei o ocup
coeficienii de congruen.
Un astfel de coeficient estimeaz raportul dintre doua profile n funcie de forma i
nivelul lor, egaliznd mprtierile.

=
i i
i i
i
i i
y x
y x
rc
2 2
*

unde x si y sunt valorile profilelor comparate.
Msurile de similaritate pe care le genereaz sunt foarte mult afectate de tipul de
normalizare a variabilelor care i precede aplicarea. n plus, dac variabilele sunt normalizate pe
o scal pozitiv, valorile coeficienilor de congruen, cu variaie ntre 1 i 0 tind s se
aglomereze spre limita maxim a intervalului de variaie. Din acest motiv, raporturile de
similitudine dintre perechile de uniti comparate se difereniaz foarte puin ntre ele.
Alegerea celei mai bune msuri n analiza cluster este departe de a fi o problema
elucidat.
n principiu, se poate spune c o astfel de alegere trebuie s fie fcut n funcie de
scopurile sau ipotezele de cercetare dar i n funcie de natura datelor.
Dac se urmrete gruparea obiectelor n funcie de forma profilelor atunci este oportun
folosirea coeficienilor de corelaie. De asemenea, acetia sunt indicai n special n condiiile n
care mediile corespunztoare seriilor de profile sunt relativ puin difereniate ntre ele.
Dac itemii pe baza crora se determin profilele sunt relativ slab corelai intre ei (sau
corelai toi n sens pozitiv) se recomand, de asemenea, apelul la corelaii ca msuri de
similitudini.
ANALIZA MULTIVARIAT
76

6.3 Distana dintre clusteri
Algoritmul analizei cluster utilizeaz noiunea de distanta dintre clusteri. Aceasta
distant se definete cu ajutorul distanei dintre elemente i este nc o sursa de difereniere ntre
modelele de clasificare. Urmtoarele distane ntre mulimi de elemente sunt mai des folosite:
- SINGLE (Single linkage or nearest neighbor) se consider ca distana dintre o unitate
candidat h oi gruparea n care aceasta ar putea fi inclusa k este dat de cea mai mic dintre
distanele care exist ntre h i oricare dintre membrii gruprii de incluziune; se mai numete i
metoda celui mai apropiat vecin;
( ) ( ) y x d D
y x
, min ,
, |
|
e e
=
- COMPLETE (Complete linkage or furthest neighbor) se considera ca distanta dintre o
unitate candidat h si gruparea in care aceasta ar putea fi inclusa k este data de cea mai mare
dintre distanele care exist ntre h i oricare dintre membrii gruprii de incluziune; se mai
numete i metoda celui mai deprtat vecin;
n ce privete cea de a doua metod, unitatea admis n cadrul unei grupri are, n raport
cu toate unitile anterior admise n grupa respectiv, o distan egal sau mai mic dect cea
dat de cel mai ndeprtat vecin. n cazul primei metode nu este specificat distana dintre toi
vechii membri ai grupei i ultima unitate admis. Se tie numai c aceasta din urm are un raport
de asemnare maxima cu numai una dintre unitile vechi ale grupei de incluziune.
Analiza cluster cu legturi complete este, deci, mult mai restrictiv dect cea cu o singura
legtur. Corespunztor, accesul ntr-o grupare constituit n funcie de prima metoda este mult
mai dificil dect dac se aplica cea de-a doua metod. Gruprile rezultate n primul caz sunt mai
compacte dect n cel de-al doilea. Altfel spus, omogenitatea sau gradul mediu de asemnare n
interiorul grupelor este mai mare dac se folosete metoda completa dect cea simpl.
- BAVERAGE (Average linkage between groups, UPGMA) este o metod intermediar
ntre primele dou; se calculeaz media distanelor dintre elementele celor dou grupe;
( ) ( )

e e
=
| |
|
x y
y x d
N N
D ,
*
1
,
- WAVERAGE (Average linkage within groups) se calculeaz media distanelor dintre
elementele posibilului cluster reunit pentru fiecare pereche de clusteri existeni la acel moment i
se alege perechea pentru care aceasta medie este cea mai mic.
( )
( )
( )

=
e
+ +
=
y x
y x
y x d
N N N N
D
| | |
|
,
,
1 ) (
1
,
Toate aceste metode opereaz pe baza determinrii legturilor n sens de distane
intergrupale fr a lua n consideraie diferenele intragrupale.
O serie de metode iau n calcul i distanele intragrupale. Se lucreaz prin compararea
unor profiluri standard calculate la nivel de grup. Se contopesc gruprile care au profilurile
standard cele mai apropiate.
- CENTROID (Centroid clustering, UPGMC) realizeaz o astfel de clasificare n termeni
de medii: pentru uniti care aparin aceleiai grupe, se calculeaz media pentru fiecare variabil
a profilului; irul sau vectorul de medii astfel calculate definete profilul standard al grupei; se
contopesc grupele care au cele mai apropiate profiluri.
- MEDIAN (Median clustering, WPGMC) pentru a se reduce efectele de compensare
asociate cu calculul mediei, poate fi utilizata mediana. Profilul standard al grupei se determin
calculnd medianele pentru fiecare variabil de profil la nivelul unitilor din grup.
Cele doua metode se aplic numai pe matrici de distane euclidiene i nu pe cele de
similitudini.
- WARD (Wards method) utilizeaz numai distana euclidiana la ptrat; se calculeaz
pentru fiecare cluster media fiecrei variabile (rezultnd un element mediu), dup care distana
ANALIZA MULTIVARIAT
77

de la un cluster la altul este media distanelor de la elementul mediu la toate elementele celuilalt
cluster.
6.4 Algoritmul de calcul al analizei cluster
Sunt dou posibiliti de analiz cluster mai uzuale. Dac vrem s realizm o clasificare
doar pe o singur variabila, cu un numr fix de clusteri (stabilii apriori) i nu avem o alt
variabil de referin dup care s facem clasificarea se poate folosi n SPSS K-Means Cluster .
Aceast opiune realizeaz de fapt o clasificare dup distana euclidiana dintre elemente i ca
distan dintre clusteri Baverage (adic media distantelor dintre elementele celor dou grupe).
Dac dorim s realizm o clasificare a cazurilor unei variabile nominale n funcie de un
set de variabile cantitative vom folosi opiunea din SPSS Hierachical Cluster .
Se aleg variabilele (parametrii) care urmeaz a fi clasificai. Apoi se alege variabila de
calcul i de identificare a cazurilor. Se fixeaz cerina de afiare a tabelului distanelor i
eventual de afiare a dendogramei (aceasta ne arat n ce mod s-au unit clusterii), se specific
apoi tipul de distan dintre elemente, dar i dintre clusteri. De asemene,a putem opta pentru
standardizarea sau nu a variabilelor introduse, precum i a rangului soluiei la care vrem s ne
oprim (aceasta din urma este opional).
6.5 Limite ale analizei cluster
Exist o mulime de tipuri de distane dintre elemente sau clusteri, iar n funcie de tipul
ales se obin rezultate foarte diferite. Dac la acestea mai adugam i tipuri diferite de
standardizare diferenele aprute ntre rezultate sunt i mai mari. Se pune problema cnd aplicm
un anumit tip de distan, metod i cum interpretm diferenele dintre rezultate?
De asemenea SPSS-ul are o problema n ce privete analiza cluster. Dac exist o baz
mare de date (mai mare de 500 cazuri), computerul va genera erori sau se va bloca, chiar dac
computerul este performant. Ce facem cnd avem baze mari de date i vrem s utilizam analiza
cluster?
6.6 Obinerea analizei cluster cu ajutorul programului SPSS
S-a realizat o cercetare n care s-a dorit o clasificare a 35 instrumente de marketing
digital utilizate de ctre firmele din Braov, n funcie de frecvena utilizrii, procentul alocat din
bugetul de marketing marketingului digital, eficiena instrumentelor, numrul componentelor
mixului de marketing pentru care este utilizat, intenia de a investi n viitor n acele instrumente.
Aceste variabile sunt descrie n tabelul nr. 6-1.
S-a folosit opiunea ANALYZE/CLASSIFY/ HIERARCHICAL CLUSTER ANALYSIS,
iar numrul de factori n care s-a dorit s se grupeze datele a fost de minim 3 maxim 6. Scopul
este de a identifica dac aceste instrumente de marketing se pot grupa n 4 dimensiuni care s se
suprapun pe cele patru componente ale mixului de marketing: produs, pret, promovare,
distribuie.
Metoda de grupare a instrumentelor a fost Between group linkage, iar msura distanei
dintre valori a fost Squared Euclidean distance.











ANALIZA MULTIVARIAT
78

Tabelul nr. 6-1: Descrierea instrumentelor de marketing digital din prisma firmelor din Braov
intrumente de marketing
digital
frecvena
de
utilizare
procent din
bugetul de
marketing
eficienta
instrumentului
numrul
componentelor
de marketing
intenia de
a investi
n viitor
E-mail marketing 4,3 7,3% 3,8 4 2,8
Site-uri web 4,3 17,7% 4,3 4 3,3
SEM 3,4 5,8% 4,0 4 2,4
Newsletter electronic 3,9 8,0% 3,8 4 2,6
Publicitate online prin
bannere
3,8 9,3% 4,0 4 2,5
Marketing prin bloguri 3,6 3,0% 4,0 2 2,2
SEO 3,4 5,9% 4,2 4 2,3
Mrci mixte online-offline 3,5 3,8% 3,8 4 2,2
Aplicatii Widget 4,1 4,8% 3,9 3 2,2
Publicitate online-rich media 3,5 6,8% 4,0 4 3,1
Portaluri video 3,2 4,7% 3,8 4 2,2
Co-branding online 4,5 12,9% 3,9 4 2,3
Call center 4,2 6,0% 4,0 4 2,2
Marketing prin RSS 4,7 2,6% 4,3 3 2,1
Marketing mobil 3,7 4,5% 3,8 4 2,2
Cercetri de marketing
online
3,5 5,8% 3,7 4 2,5
Produse de tip TRIAL sau
DEMO
2,9 6,0% 2,9 4 2
Mrci exclusiv online 4,6 8,2% 3,2 4 2,1
Construirea de comunitti
virtuale online
3,3 5,8% 3,8 4 2,2
Location Based Marketing 2,7 2,3% 3,3 2 2,3
Managementul electronic al
relatiilor cu clientii
4,2 7,5% 4,0 4 2,5
Marketing viral 3,7 4,5% 3,3 4 2,2
Aplicaii WEB 2.0 2,8% 4 2,2
Marketing cu ajutorul
bazelor de date
4,8 7,5% 3,8 4 2,6
Sisteme electronice de
planificare a utilizrii
resurselor organizatiei
3,7 4,6% 3,8 4 2,3
Adaptarea la comand si
personalizarea n mas
4,3 1,0% 3,9 4 2,2
Promovarea vnzrilor
online
4,0 10,6% 4,2 4 2,7
Strategii de stabilire
dinamic a preturilor online
4,0 4,7% 3,9 4 2,4
Publicitatea online 3,3 12,3% 3,7 4 2,6
Marketing prin SMS / MMS 4,1 4,8% 4,3 4 2,1
Affiliate marketing 3,1 4,5% 3,1 3 2,2
Procesarea de comenzi
automat online
4,0 7,8% 3,8 4 2,4
Publicare online de continut
informational
4,3 5,9% 4,0 4 2,5
Microsite-uri 3,7 9,1% 3,6 3 2,4
ANALIZA MULTIVARIAT
79

n figura de mai jos apare lista ciclurilor de grupare a instrumentelor de marketing digital.
Din tabel reiese c unitatea 1 se unete cu grupul 15-25 la nivelul 0.02 n cadrul celui de al
aselea ciclul de grupare, c unitatea 2 se grupeaz cu grupul 3-7 n cadrul celui de al aptelea
ciclu de grupare.
Expresia grafic a gruprilor apare n dendogram. Numrul de grupuri pe care le putem lua
n considerare depinde de distana prag avut. La o distan mai mic de 5 exist urmtoarea
grupare a instrumentelor de marketing.
Cluster 1: Co-branding online, Publicitatea online
Cluster 2: Marketing prin bloguri, Location Based Marke, Marketing prin RSS, Adaptare la
comanda.
Cluster 3: Newsletter electronic, Procesare de comenzi, E-mail marketing, Managementul
electronic al relatiilor cu clientii, Marketing cu ajutorul bazelor de date, Mrci exclusiv online,
Publicitate online prin banner, Microsit-uri, Promovarea vnzrilor, Publicitatea online, ,
Promovarea vnzrilor.
Cluster 4: Marketing mobil, Sisteme electronice de planificare a utilizrii resurselor
organizaiei, Strategii de stabilire dinamic a preturilor online, Marketing viral, Portaluri video,
Marketing prin SMS / MMS, Mrci mixte online-offline, Aplicatii Widget, Affiliate marketing,
Call center, Publicare online de continut informational, SEM, SEO , Cercetri de marketing
online, Produse de tip TRIAL sau DEMO, Construirea de comunitti virtuale online, Publicitate
online de tip rich media.

Unitatea singular: Site-uri web.
Prin urmare se poate concluziona c instrumentele de marketing digital se suprapun peste
cele patru componente ale mixului de marketing.
ANALIZA MULTIVARIAT
80



Agglomeration Schedul e
15 25 ,020 0 0 6
3 7 ,060 0 0 7
4 32 ,090 0 0 12
13 33 ,110 0 0 14
16 19 ,140 0 0 7
15 28 ,150 1 0 9
3 16 ,175 2 5 14
1 21 ,180 0 0 10
15 22 ,350 6 0 11
1 24 ,370 8 0 12
11 15 ,448 0 9 13
1 4 ,598 10 3 17
11 30 ,722 11 0 15
3 13 ,828 7 4 19
8 11 ,938 0 13 18
5 34 1,220 0 0 24
1 18 1,290 12 0 27
8 9 1,503 15 0 22
3 10 1,682 14 0 23
6 20 1,800 0 0 28
12 29 1,930 0 0 31
8 31 2,075 18 0 25
3 17 2,261 19 0 25
5 27 2,800 16 0 27
3 8 3,232 23 22 29
14 26 3,890 0 0 28
1 5 5,237 17 24 29
6 14 6,430 20 26 30
1 3 12,599 27 25 30
1 6 23,491 29 28 32
2 12 27,625 0 21 32
1 2 84,764 30 31 0
St age
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Clust er 1 Clust er 2
Clust er Combined
Coef f icients Clust er 1 Clust er 2
St age Cluster First
Appears
Next St age
ANALIZA MULTIVARIAT
81



















ANALIZA MULTIVARIAT
82

Bibliografie
Berevoescu, Ionica, Chiribuc, Dan, Coma, Mircea Ioan, Grigorescu, Narcisa, Aldea Lzroiu,
Andra, Lzroiu, Sebastian, Pan, Marilena, Pop, Lucian, Stnculescu, Sofia Manuela.
(1999). Feele schimbrii. Romnii i provocrile tranziiei. Bucureti: Editura Nemira.
Chelcea, Septimiu, [2001]. (2007). Metodologia cercetrii sociologice. Metode cantitative i
calitative (ediia a treia). Bucureti:Editura Economic
Clocotici, Valentin, Stan, Aurel. (2000). Statistic aplicat n psihologie. Iai : Editura Polirom.
Coman, Claudiu. (2011). Statistic aplicat n tiinele sociale. Iai: Editura Institutul European.
Constantin, Cristinel. (2006). Sisteme informatice de marketing. Analiza i prelucrarea datelor
de marketing. Aplicaii n SPSS. Braov: Editura Infomarket.
Culic, Irina. (2004). Metode avansate n cercetarea social. Bucureti: Editura Polirom.
Dugulean, Liliana. (1999). Statistic economic i social. Braov: Editura Infomarket.
Fielding, Jane, Gilbert, Nigel. (2007). Understanding social statistics. Published by Los Angeles
; London ; New Delhi [etc.]: Sage Publications.
Howitt, Dennis, Cramer, Duncan. (2010). Introducere n SPSS pentru psihologie. Iai: Editura
Polirom.
Jaba, Elisabeta. (2000). Statistic (ediia a doua). Bucureti: Editura Economic.
King, Ronald F. (2005). Strategia cercetrii. Bucureti: Editura Polirom.
Labr, Adrian Viceniu. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
Larionescu, Maria. (2008). Sociologie comparat -Suport de curs.
Lefter, Constantin. (2004). Cercetarea de marketing. Teorie i aplicaii. Braov: Editura
Infomarket.
Lewis-Beck, Michael S, Bryman, Alan, Futing Liao, Tim (coord). (2004). The Sage
Encyclopedia of Social Science research methods (volume 2). USA: Printed by Sage
Publication.
Maxwell, Joseph A., Mittapalli, Kavita. (2008). Explanation in The Sage Encyclopedia of
Qualitative Research Methods. SAGE Publications. (http://www.sage-
ereference.com/research/Article_n163.html)
Maxwell, Joseph A., Mittapalli, Kavita. (2008). Theory in The Sage Encyclopedia of Qualitative
Research Methods. SAGE Publications. (http://www.sage-
ereference.com/research/Article_n457.html)
Maxwell, Joseph A., Mittapalli, Kavita. (2008). Explanatory Research in The Sage Encyclopedia
of Qualitative Research Methods. SAGE Publications. (http://www.sage-
ereference.com/research/Article_n164.html)
Mrginean, Ioan. (2000). Proiectarea cercetrii sociologice. Iai: Editura Polirom.
Niculescu-Aron, Ileana-Gabriela. Tehnica sondajelor. Aplicaii i teste de evaluare. Curs n
format digital (http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=461&idb=)
Rdulescu, M. Sorin. (1994). Ipotez i euristic n cunoaterea social. Bucureti: Editura
Academiei Romne.
Rotariu, Traian (coord). (1999). Metode statistice aplicate n tiinele sociale. Iai: Editura
Polirom.
Rughini, Cosima. (2007). Explicaia sociologic. Bucureti: Editura Polirom.
Sandu, Dumitru. (1992). Statistica n tiinele sociale. Bucureti: Editura Universitii Bucureti.
Sandu, Dumitru. (1999). Spaiul social al tranziiei. Bucureti: Editura Polirom.
Sandu, Dumitru (coordonator). (2006). Viaa social n Romnia urban. Bucureti: Editura
Polirom.

tefnescu, Poliana. (1996). Analiza cauzal cu variabile latente: aplicaii n tiinele sociale.
Bucureti: Editura Universitii Bucureti.
tefnescu, Poliana. (1999). Modele cauzale n sociologie. Bucureti: Editura Universitii
Bucureti.
ANALIZA MULTIVARIAT
83

Udo, Kelle. (2001). Sociological Explanations between Micro and Macro and the Integration of
Qualitative and Quantitative Methods, Forum: Qualitative Social Research, volume 2, nr.1.
Vlsceanu, Lazr. (1982). Metodica cercetrii sociologice. Bucureti: Editura tiinific i
Enciclopedic.
Vlsceanu, Mihaela (1985). Contiin i cauzalitate. Bucureti: Editura tiinific i
Enciclopedic.
Zamfir, Ctlin. (2005). Spre o paradigm a gndirii sociologice. Bucureti: Editura Polirom.
Zamfir, Ctlin, Vlsceanu, Lazr (coordonatori). Dicionar de sociologie online
(http://www.dictsociologie.netfirms.com/)