Sunteți pe pagina 1din 59

Capitolul 1

Mediul de lucru SPSS

Rolul acestui scurt capitol introductiv este acela de a readuce n memoria studentului
principalele comenzi din programul statistic SPSS programul cu care se va lucra n cadrul cursului
de Metode cantitative.
Informaiile cuprinse n acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim
desigur de la premisa c toi studenii tiu s utilizeze sistemul de operare Windows, fie i numai la
nivel elementar.
Programul SPSS 10.0 conine zece meniuri. Prezentm n continuare coninutul fiecruia
dintre acestea.
File cuprinde n special comenzile utilizate pentru crearea unor documente noi i
deschiderea sau salvarea documentelor create anterior
Edit cuprinde comenzile utilizate pentru editarea documentelor (tergere, copiere, lipire
etc.)
View din acest meniu se pot seta caracteristicile vizuale ale documentelor
Data cu ajutorul comenzilor acestui meniu se realizeaz o serie de operaiuni de baz
asupra datelor statistice (inserare, sortare, agregare, fuzionare fiiere etc.)
Transform cuprinde comenzi utilizate pentru transformri (cantitative sau calitative) ale
datelor (crearea de noi variabile plecnd de la cele existente, recodificarea datelor,
ierarhizarea datelor etc.)
Analyze n acest meniu se gsesc toate comenzile necesare pentru realizarea analizelor
statistice
Graphs este meniul n care se gsesc comenzile pentru grafice (SPSS permite realizarea
ctorva zeci de tipuri de grafice)
Utilities este un meniu pe care nu-l vom folosi la acest curs. El cuprinde n special
comenzi care permit automatizarea facilitilor din SPSS
Window permite manipularea ferestrelor n care este deschis programul SPSS
Help asigur accesul la asistena (ajutorul) pentru utilizatori
ntruct meniul Analyze va fi de departe cel mai utilizat n cadrul acestui curs, vom detalia
n continuare comenzile existente n acest meniu.
Reports este un submeniu care conine comenzi pentru elaborarea rapoartelor sintetice
asupra datelor
Descriptive Statistics comenzile din acest submeniu se folosesc n principal pentru
generarea indicatorilor statistici pentru variabilele studiate
Custom Tables submeniu folosit atunci cnd dorim sa construim tabele pornind de la
datele dintr-un fiier
1

Compare Means submeniu folosit pentru realizarea testelor de comparare a mediilor


(Student, ANOVA univariat)
General Linear Model comenzile din acest submeniu servesc la executarea analizei
ANOVA multivariat
Correlate cuprinde comenzile pentru studierea corelaiei bivariate i pariale dintre
variabile
Regression submeniu util pentru realizarea diverselor tipuri de analiz de regresie (liniar
i neliniar)
Loglinear cuprinde comenzi utlie pentru analizele de regresie de tip logaritmic
Classify cuprinde procedurile utilizate pentru gruparea obiectelor din baza de date (analiza
de tip cluster, analiza discriminantului)
Data Reduction cuprinde procedurile utilizate pentru gruparea variabilelor studiate
(analiza factorial, analiza corespondenelor)
Scale cuprinde proceduri avansate pentru lucrul cu scalele de msurare (scalarea
multidimensional, analiza ncrederii)
Nonparametric Tests aa cum i arat numele, acest submeniu grupeaz toate testele
neparametrice (binomial, hi ptrat, Wilcoxon etc.)
Time Series cuprinde procedurile de analiz a seriilor de timp
Survival cuprinde procedurile utilizate n analizele de supravieuire
Multiple Response cu ajutorul comenzilor din acest submeniu sunt gestionate datele
provenind din ntrebrile cu rspunsuri multiple
Missing Value Analysis procedura utilizat pentru analiza valorilor lips
Comenzile pentru gestionarea fiierelor n SPSS sunt foarte asemntoare cu cele din orice
aplicaie Windows. Astfel, pentru crearea unei noi baze de date comenzile utilizate sunt:
File > New > Data
Primul lucru pe care trebuie s-l facem este s definim variabilele (cmpurile) noii baze de
date. n parte din stnga jos putem observa butoanele Data View/Variable View. Apsnd butonul
Variable View, SPSS ne prezint ecranul de dialog pentru definirea variabilelor. Pentru fiecare
variabil va trebui s specificm, printre altele:
numele
tipul (numeric, caracter etc.)
lungimea (numrul de caractere)
numrul de zecimale (pentru variabilele numerice)
descrierea variabilei (opional)
valori posibile (opional) etc.
Odat variabilele introduse, apsm pe butonul Data View pentru a putea introduce datele n
fiier.
Pentru deschiderea unei baze de date existente vom utiliza comenzile:
File > Open > Data
2

SPSS-ul ne va deschide o caset de dialog pentru deschiderea unui fiier.


n momentul n care rulm o analiz asupra unui set de date, SPSS-ul ne prezint rezultatele
acestei analize sub forma unui fiier special numit output. Fiierele de output pot fi desigur salvate
i apelate ulterior prin comanda:
File > Open > Output
Aspectele practice legate de lucrul cu fiierele, precum i de utilizarea procedurilor de
analiz vor fi lmurite la seminar.

Capitolul 2

Statistic descriptiv elemente de baz

Aspecte teoretice - recapitulare


I. Variabil, scor, distribuie
O variabil este acea proprietate a unui fenomen care poate lua diferite valori. De exemplu:
zilele saptmnii (luni, mari, , duminic), nlimea, venitul impozabil, notele studenilor la
examenul de Statistic etc.
Orice variabil este descris de un set de valori. Valoarea particular pe care o ia variabila
pentru un anumit membru al populaiei studiate poart numele de scor. Exemple de scoruri ale
diverselor variabile: persoana X are nlimea de 1.68 metri, persoana Y are un salariu lunar de 1500
de lei, studentul Z a obinut nota 9 la examenul de Statistic.
Distribuia unei variabile este dat de frecvena de apariie a diverselor scoruri (sau valori)
care descriu variabila respectiv. Frecvena poate fi absolut sau relativ. Distribuia poate fi
ilustrat cu ajutorul unui tabel de frecvene, sau reprezentat grafic prin intermediul unei
histograme.
Orice distribuie statistic este definit prin trei caracteristici:
1. modalitatea, care se refer la numrul de maxime (ale frecvenelor) pe care l prezint
distribuia. Distribuiile cu un singur maxim (cum este cea de mai sus) se numesc unimodale,
iar cele cu mai multe maxime se numesc multimodale.
2. nclinarea (skewness), care ne arat dac n distribuie predomin valorile mici (cazul
distrubuiilor nclinate spre stnga) sau valorile mari (cazul distrubuiilor nclinate spre
dreapta).
3

3. boltirea (kurtosis), care ne arat ct de mult variaz scorurile. O distribuie turtit (sau
aplatizat) prezint toate valorile posibile ale scorurilor, de la cele mai mici la cele mai
mari, pe cnd n cazul unei distribuii ascuite scorurile variaz mai puin (valorile extreme
au frecvene de apariie reduse).
II. Indicatorii (parametrii) unei distribuii
Aceti indicatori se mpart n dou mari categorii: indicatorii tendinei centrale i indicatorii
mprtierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie.

A. Indicatorii tendinei centrale


Aceti indicatori exprim tendina scorurilor unei variabile de a se grupa n jurul unor valori
semnificative. Cei trei indicatori ai tendinei centrale luai n discuie aici sunt media, mediana i
modul.
Media este desigur cel mai cunoscut indicator al tendinei centrale. Iat formula de calcul a
mediei ponderate:

x n
m
n
i

unde cu x am notat valorile, iar cu n frecenele absolute de apariie.


Mediana este acea valoare care mparte o distribuie n dou pri egale. Pentru a o
determina, trebuie mai nti s aezm scorurile n ordine cresctoare. n cazul n care numrul de
scoruri este par, mediana va fi media artimetica a scorurilor din mijloc. Dac numrul de scoruri este
impar, mediana este dat de valoarea scorului din mijloc al seriei.
S presupunem c tim c mediana salariilor lucrtorilor dintr-o firm este de 5300 de lei.
Cum interpretm acest fapt? n felul urmtor: jumtate din lucrtori au un salariu de pn la 5300 de
lei, iar cealalt jumtate au un salariu de peste 5300 de lei.
Modul unei distribuii este acea valoare a distribuiei care are cea mai mare frecven de
apariie. n cazul anterior, modul distribuiei este egal cu 2, deoarece acest punctaj apare cel mai des
(de cinci ori). n exemplul ilustrat n tabelul 1, modul distribuiei este 3, deoarece aceast valoare
apare cel mai des (de 16 ori). Dup cum precizam anterior, exist posibilitatea ca o distribuie s
prezinte mai multe moduri, caz n care o vom numi multimodal.

B. Indicatorii mprtierii
Cel mai des folosit indicator al mprtierii unei variabile este dispersia sau variana. Ea este
notat cu 2 sau uneori cu Var i se calculeaz cu formula:
4

(x

m) 2

N 1

sau:

( x m) n

n 1
2

Cu ct valoarea dispersiei este mai mare, cu att distribuia respectiv este mai mprtiat.
Abaterea ptratic sau abaterea standard nu este altceva dect rdcina ptrat a dispersiei:
2

Abaterea ptratic se noteaz uneori cu SD (de la cuvintele englezeti standard deviation


abatere standard). De remarcat c abaterea standard are aceeai unitate de msur ca i variabila.
Se poate demonstra c majoritatea scorurilor unei variabile (i anume cam 68%) se gsesc n
interiorul intervalului care are drept capete valorile m- i m+ . Aceste scoruri se mai numesc
scoruri medii, normale sau tipice pentru acea distribuie. Valorile care se gsesc n afara intervalului
(m- ; m+ ) poart numele de valori atipice.
Atunci cnd cunoatem media i abaterea standard a unui eantion dat de volum n, putem
determina dispersia de selecie (sau eroarea standard) pentru eantionul respectiv, cu formula:
m

Aceast eroare standard reprezint de fapt abaterea mediilor tuturor eantioanelor de acelai
volum n de la media populaie totale. Pentru a determina un interval de ncredere al acestei din urm
medii, cu un nivel de ncredere de 95%, vom calcula:
m 1.96 * m
unde m este media eantionului nostru.
III. Distribuia normal
Cunoscut i sub denumirea de distribuia Gauss-Laplace, distribuia normal este fr
ndoial cea mai important dintre toate tipurile de distribuie ntlnite n statistic. Principala sa
caracteristic: curba frecvenelor se prezint sub form de clopot (de unde i denumirea de clopotul
lui Gauss). Iat formula prin care se exprim legea normal:

p( x)

2
5

( xm)2
2 2

unde p(x) este probabilitatea (frecvena) de apariie a unei valori oarecare x, iar m i sunt deja
notaii familiare (media i abaterea ptratic a distribuiei). Aadar, aceti doi parametri (media i
abaterea standard) definesc complet o distribuie normal. S mai spunem c distribuia normal de
~

medie m i abatere se noteaz prescurtat astfel: N (m, 2 ) .


IV. Distribuia normal standard. Scorurile z
Fie o variabil aleatoare ce are media m i abaterea standard . Pentru o valoare oarecare x a
acestei variabile, scorul z se calculeaz astfel:
z

xm

Se observ c acest scor are un caracter sintetic, reunind ntr-o singur formul media i
abaterea standard a distribuiei. Scorurile z nu au unitate de msur. Tocmai acest lucru face
posibil compararea sau adunarea lor.
Distribuia scorurilor z se numete distribuie normal standard (sau normat). Ea are media
~

0 i dispersia 1 i se noteaz uneori astfel: N (0,1) .

Generarea indicatorilor statistici i a rapoartelor n SPSS


n cadrul acestei sectiuni vom exemplifica pas cu pas urmtoarele proceduri:
1. generarea indicatorilor statistici i a tabelului de frecvene, cu ajutorul comenzilor
Frequencies i Descriptives;
2. generarea indicatorilor statistici pe substraturi ale populaiei, cu ajutorul comenzii
Explore;
3. crearea tabelelor ncruciate, folosind comanda Crosstabs;
4. crearea rapoartelor cu ajutorul unor opiuni din submeniul Reports.
Pentru realizarea exemplelor practice vom folosi baza de date Employee data.sav, care
prezint informaii privind cei 474 de salariai ai unei bnci din Statele Unite, informaii obinute n
urma unui studiu organizat la nceputul anilor 1990.
I. Generarea indicatorilor statistici i a tabelului de frecvene
Vom cere n continuarea programului SPSS S ne furnizeze principalii parametri statistici
pentru variabila salary, reprezentnd salariul curent (anual) al lucrtorilor din banc. n acest scop
apelm comanda:
Analyze > Descriptive Statistics > Frequencies
6

SPSS-ul deschide o caset de dialog (o vom vizualiza atunci cnd vom face aplicaiile
practice). Alegem pentru analiz variabila salary i apsm butonul Statistics. Ni se deschide o nou
caset de dialog n care selectm rmtoarele opiuni pentru calcul: Quartiles, Mean, Median, Mode,
Std. Deviation (abaterea standard), Variance, S.E. mean (abaterea de selecie), Skewness, Kurtosis.
Apsm butonul Continue i apoi butonul OK.
n fiiereul de output SPSS-ul ne prezint rezultatele urmtoare:
-

tabelul frecvenelor pentru variabila salary (redm aici doar o mic parte a lui, pentru
economie de spaiu):
Current Salary
Frequency Percent
Valid

$15,750
$15,900
$16,200
$16,350
$16,500
$16,650
$16,800
$16,950
$17,100
$17,250

Total

1
1
3
1
1
1
1
3
2
1

474

.2
.2
.6
.2
.2
.2
.2
.6
.4
.2

100.0

Valid Cumulative
Percent
Percent
.2
.2
.2
.4
.6
1.1
.2
1.3
.2
1.5
.2
1.7
.2
1.9
.6
2.5
.4
3.0
.2
3.2

100.0

n prima coloan se gsesc valorile variabilei, n cea de-a doua frecvenele absolute, iar n
cea de-a treia frecvenele relative (n procente). Ultima coloan prezint frecvenele relative
cumulate.
Din acest tabel se poate vedea, de exemplu, c nivelul salariului de 16950 de dolari apare la
trei salariai, reprezentnd 0.6% din totalul salariailor.
-

tabelul indicatorilor statistici:


Current Salary
N

Valid
Missing

Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Percentiles

25
50
75

474
0
$34,419.57
$784.31
$28,875.00
$30,750
$17,075.66
$291,578,214.45
2.125
.112
5.378
.224
$24,000.00
$28,875.00
$37,162.50

Analiza n detaliu a acestui tabel o vom face la seminar.


Dac nu ne intereseaz s obinem tabelul de frecvene al variabilei, putem folosi pentru
statistica descriptiv comanda (care are o plaj de opiuni mai redus):
Analyze > Descriptive Statistics > Descriptives
Dup ce apsm butonul Options al casetei de dialog de la aceast procedur, SPSS-ul ne d
posibilitatea de a alege indicatorii statistici pe care-i dorim calculai. Noi vom alege, pentru ilustrare,
doar indicatorii Mean, Standard Deviation i S.E. mean. Iat tabelul pe care ni-l afieaz programul:
Descriptive Statistics
N
Statistic
Current Salary
474
Valid N (listwise)
474

Mean
Statistic
$34,419.57

Std. Error
$784.31

Std. Deviation
Statistic
$17,075.66

II. Generarea indicatorilor statistici pe straturi


S presupunem acum c dorim s analizm comparativ salariile brbailor i cele ale
femeilor din populaia studiat. Pentru a realiza aceasta, ne st la dispoziie procedura Explore, pe
care o apelm astfel:
Analyze > Descriptive Statistics > Explore
SPSS-ul ne cere s precizm care sunt variabilele dependente (adic variabilele pentru care
se vor calcula parametrii), precum i care sunt variabilele-factor (cele dup care sunt definite
straturile). n cazul nostru, variabila dependent este salary, iar factorul este gender.
n afar de tabelele de sinteza, i vom solicita programului SPSS s ne furnizeze i graficul
de tip boxplot, precum i un test de normalitate pentru variabila studiat.
Redm n continuare cteva din rezultatele acestei analize (discuiile asupra lor vor avea loc
la seminar).
n tabelul de mai jos se gsesc principalii indicatori statistici ai variabilei salary, pe cele
dou substraturi: brbai i femei.

Current
Salary

Descriptives
Gender
Female

Statistic
$26,031.92

Mean

95% Confidence Interval for


Mean

Lower
Bound
Upper

$25,018.29
$27,045.55

Std. Error
$514.26

Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Male
Mean
95% Confidence Interval for
Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis

Lower
Bound
Upper
Bound

$25,248.30
$24,300.00
57123688.268
$7,558.02
$15,750
$58,125
$42,375
$7,012.50
1.863
4.641
$41,441.78
$39,051.19

.166
.330
$1,213.97

$43,832.37
$39,445.87
$32,850.00
380219336.303
$19,499.21
$19,650
$135,000
$115,350
$22,675.00
1.639
2.780

.152
.302

Rezultatele testului de normalitate Kolmogorov-Smirnov se gsesc n tabelul ce urmeaz:

Current Salary

Tests of Normality
Kolmogorov-Smirnov
Gender
Statistic
Female
.146
Male
.208

df
216
258

Sig.
.000
.000

n sfrit, figura de mai jos prezint graficul boxplot pentru variabila salary, pe cele dou
segmente de angajai studiate (brbai i femei).

160000
140000

29

120000
32
18
343
446
103
34
106
454
431

100000
80000

Current Salary

60000

371
348
468
240
72
80
168
413
277
134
242

40000
20000
0
N=

216

258

Female

Male

Gender

III. Crearea tabelelor ncruciate


Tabelele ncruciate sunt foarte utile atunci cnd dorim s studiem legtura dintre dou
variabile categoriale. Asupra lor vom reveni ntr-un capitol ulterior, atunci cnd vom studia testele
neparametrice. Acum vom arta doar, foarte pe scurt, cum se genereaz un asemenea tabel.
S presupunem c ne intereseaz s studiem interdependena dintre variabile gender i
variabile jobcat (ambele categoriale) pentru a vedea unde se ntlnesc majoritatea managerilor din
banc: n rndul brbailor sau n rndul femeilor. Pentru aceasta vom apela opiunea:
Analyze > Descriptive Statistics > Crosstabs
Vom cere programului s afieze categoriile variabile gender pe liniile, iar pe cele ale
variabilei jobcat pe coloane. Alte opiuni nu formulm, deocamdat.
Rezultatul analizei este afiat n tabelul de mai jos.
Gender * Employment Category Crosstabulation
Count
Employment
Category
Clerical Custodial
Manager

10

Total

Gender

Female
Male

206
157
363

Total

10
74
84

27
27

216
258
474

Dup cum se poate observa, marea majoritate a managerilor sunt brbai (74), iar
femeile sunt mult mai puin reprezentate n structurile de conducere (numai 10).
IV. Crearea de rapoarte sintetice
Opiunea Reports din meniul Analyze conine o serie de comenzi care permit crearea unei
mari varieti de rapoarte. Noi nu vom intra n toate detaliile aici, ci vom genera doar un raport
sintetic privind principalii indicatori ai variabilei salary, att pe subgrupul brbailor ct i pe cel al
femeilor.
Vom selecta opiunile:
Analyze > Reports > Case Summaries
n cmpul Variables vom introduce variabile de studiu (salary), iar n cmpul Grouping
Variable(s), variabile gender. Apoi vom deselecta opiunea Limit cases to first pentru a-i cere
programului s calculeze indicatorii pentru toate cazurile din eantion, precum i opiunea Display
cases (pentru a evita afisarea valorii variabilei la fiecare caz n parte). n continuare apsm butonul
Statistics i cerem s fie generai pentru fiecare subgrup urmtorii indicatori: numrul de cazuri
(deja selectat), media, mediana i abaterea standard. Apoi apsm butoanele Continue i OK.
Tabelul de mai jos, care conine rezultatul final al analizei, nu are nevoie de prea multe explicaii.
Case Summaries
Current Salary
Gender
N
Female
216
Male
258
Total
474

Mean
$26,031.92
$41,441.78
$34,419.57

Median
$24,300.00
$32,850.00
$28,875.00

Std. Deviation
$7,558.02
$19,499.21
$17,075.66

Capitolul 3

Corelaia

Aspecte teoretice - recapitulare


Corelaia statistic este util pentru a analiza legtura dintre dou variabile aleatoare,
cantitative sau ordinale.
Corelaia este msurat de regul cu ajutorul unuia dintre urmtorii coeficieni:
11

coeficientul de corelaie ro al lui Pearson


coeficientul de corelaie al lui Spearman
coeficientul de corelaie tau al lui Kendall.
Coeficientul lui Pearson se folosete numai atunci cnd ambele variabile luate n studiu sunt
cantitative (metrice). Ceilali doi coeficieni se pot folosi att pentru variabile metrice, ct i ordinale
(ei mai sunt numii i coeficieni de corelaie neparametrici).
Coeficientul de corelaie al lui Pearson (notat cu ) se determin dup formula:

(x

m1 )( x 2 m 2 )
n 1 2

unde cu m i s-au notat mediile, respectiv abaterile standard ale celor dou variabile, iar cu n
numrul de cazuri din eantion.
Coeficientul de corelaie poate lua valori cuprinse n intervalul [-1; 1]. Analiza sa
presupune luarea n calcul a trei elemente:
valoarea absolut a coeficientului. Cu ct aceasta este mai aproape de 1, cu att
corelaia este mai strns. Valoarea 0 (zero) nseamn absena oricrei corelaii.
semnul coeficientului. Valorile pozitive indic o legtur direct ntre variabile, iar
valorile negative o legtur indirect.
semnificaia coeficientului. Aceasta poate fi determinat cu ajutorul testului t.
Valoarea acestui test pentru coeficientul de corelaie se calculeaz cu formula:
t

n2
1 2

Atenie! Un coeficient de corelaie mare nu indic neaprat existena unei legturi de


cauzalitate ntre cele dou variabile; pur i simplu ne arat faptul c dou fenomene merg
mpreun, fr a fi n mod necesar interdependente.
Coeficientul de corelatie al lui Spearman (numit i coeficient de corelaie al rangurilor) se
determin cu formula:
S 1

6 Di2

n(n 2 1)

unde D este diferena rangurilor observate n cele dou variabile ordinale.


Coeficientul de corelaie a rangurilor este cuprins ntre 0 i 1. Cu ct este mai apropiat de 1,
cu att legtura dintre variabile este mai puternic.
i pentru coeficientul lui Spearman se poate calcula statistica t, n vederea determinrii
gradului de semnificaie. Formula este urmtoarea:
12

S n2
1 S 2

Coeficientul de corelaie Kendall (notat cu ) se calculeaz cu expresia:

2C
n n
2

unde cu C am notat aici suma scorurilor pentru toate cele n(n-1)/2 combinatii posibile. Scorul este
considerat +1 ori de cte ori o combinaie este concordant (are acelai clasament) i -1 ori de cte
ori o combinaie este discordant (clasamentele difer).
Coeficientul lui Kendall ia valori ntre -1 i 1. Interpretarea sa este exact la fel ca aceea a
coeficientului Pearson.

Analiza corelaiei n SPSS


n cele ce urmeaz vom studia procedurile din programul SPSS utilizate pentru calculul
coeficienilor de corelaie. Vom folosi din nou, ca i n capitolul anterior, variabilele din fiierul
Employee data.sav.
S presupunem c ne intereseaz legtura dintre salariul actual al anagajailor din banc i
nivelul lor de educaie (exprimat n ani de studii). salariul de nceput al lucrtorilor din banc. Pentru
a calcula coeficienii de corelaie apelm comanda:
Analyze > Correlate > Bivariate
Odat ce SPSS-ul deschide caseta de dialog pentru calculul corelaiei, selectm din fereastra
din dreapta variabilele care ne intereseaz (cel puin dou). n cazul nostru, ele vor fi salary i educ.
Dac alegem trei sau mai multe variabile pentru aceast analiz, programul ne va calcula corelaile
dintre aceste variabile luate dou cte dou. Apoi cerem programului s calculeze toi cei trei
coeficieni de corelatie (Pearson, Spearman i Kendall). Toate celelalte opiuni care ne intereseaz
sunt deja selectate; aadar, putem apsa butonul OK pentru a rula analiza.
Output-ul se prezint n felul urmtor:
Correlations
Current Salary Educational Level
(years)
1.000
.661
.
.000
474
474
.661
1.000

Current Salary Pearson Correlation


Sig. (2-tailed)
N
Educational Pearson Correlation
Level (years)
Sig. (2-tailed)
.000
N
474
** Correlation is significant at the 0.01 level (2-tailed).

Correlations

13

.
474

Current
Salary
1.000

Kendall's
tau_b

Current Salary Correlation


Coefficient
Sig. (2.
tailed)
N
474
Educational Level Correlation
.554
(years) Coefficient
Sig. (2.000
tailed)
N
474
Spearman's
Current Salary Correlation
1.000
rho
Coefficient
Sig. (2.
tailed)
N
474
Educational Level Correlation
.688
(years) Coefficient
Sig. (2.000
tailed)
N
474
** Correlation is significant at the .01 level (2-tailed).

Educational
Level (years)
.554
.000
474
1.000
.
474
.688
.000
474
1.000
.
474

Primul tabel conine valoarea coeficientului Pearson, iar cel de-al doilea valorile
coeficienilor de corelaie neparametrici.
Interpretarea n detaliu a datelor din aceste tabele va fi fcut la seminar. Aici dorim doar s
subliniem urmtorul lucru; pentru fiecare coeficient de corelaie, SPSS-ul calculeaz automat
valoarea Sig, cu ajutorul creia putem stabili dac respectivul coeficient este semnificativ sau nu.
Dac parametrul Correlation Sig. este mai mic dect nivelul de semnificaie ales iniial de noi (de
regul 5%), atunci putem accepta faptul c avem de-a face cu o corelaie semnificativ statistic.
Dup cum se poate observa, programul SPSS marcheaz cu dou asteriscuri (**) valorile
semnificative la un nivel de 0.01 (sau 1%). Valorile semnificative la un nivel de 0.05 (sau 5%) sunt
marcate cu un singur asterisc (*).

Capitolul 4

Teste statistice

14

Aspecte teoretice - recapitulare


n cadrul studiilor statistice, suntem adesea interesai n a compara mediile unei variabile pentru
dou populaii diferite (pentru a vedea dac exist diferene semnificative ntre ele), sau media
unui eantion cu media populaie din care province acesta (pentru a vedea dac eantionul este
reprezentativ pentru populatia din care face parte). n acest scop putem folosi fie testul z, fie
testul t.
I. Testul z
Testul z se folosete atunci cnd cunoatem dispersia populaiei din care provine eantionul
studiat (lucru care se ntmpl rareori).
Fr a intra n toate aspectele de detaliu privind testarea unei ipoteze statistice, vom reaminti
doar principiul de baz al testului z: valoarea calculat a statisticii z se compar cu cea tabelar
(aleas n functie de nivelul de semnificaie dorit). Dac valoarea calculat este mai mare dect cea
tabelar (n valoare absolut), atunci vom respinge ipoteza nul i vom spune c exist diferene
semnificative ntre grupurile studiate. n caz contrar vom accepta ipoteza nul, afirmnd c
diferenele sunt nesemnificative.
S ne amintim acum modul de calcul al statisticii z.
Atunci cnd se pune problema comparrii medie unui eantion cu media populaiei din care a
fost extras, statistica z se calculeaz cu formula:
zc

m
m

unde m este media eantionului, este media ntregii populaii, iar m este abaterea de selecie
(explicat n capitolul 2).
Dac trebuie s comparm mediile a dou grupuri diferite, vom folosi urmtoarea formul:
zc

m1 m2
m1 m 2

nde m1 i m2 sunt mediile celor dou eantioane, iar la numitor se gsete o abatere ptratic
(estimat) a diferenelor dintre aceste medii, calculat astfel:
m1 m 2

12 22

n1 n2

1 i 2 fiind, desigur, abaterile standard ale celor dou grupuri.


II. Testul t
n marea majoritate a situaiilor din realitate, nu cunoatem dispersia populaiei din care
provine eantionul, aadar testul z nu ne mai este util. Vom folosi aadar testul t.
n analiza statistic sunt cunoscute trei tipuri de test t: univariat, bivariat pe eantioane
independente i bivariat pe eantioane perechi. Le vom descrie pe scurt n rndurile ce urmeaz.
15

A. Testul t univariat (pentru un singur eantion)


Acest test se folosete pentru a compara media unui eantion cu media populaiei totale,
atunci cnd cunoatem doar media populaiei (nu i dispersia).
Statistica t se calculeaz, pentru acest caz, exact la fel ca statistica z:
tc

m
sm

Diferena const n faptul c abaterea de selecie (valoarea de la numitor) nu se mai


calculeaz pornind de la abaterea standard a populatie () care este necunoscut ci de la o
estimare a acestei abateri (s). Aadar, formula pentru sm este:
sm

s
n

(n fiind volumul eantionului).


B. Testul t bivariat pe eantioane independente
Acest test este folosit pentru a detecta existena unor diferene semnificative ntre mediile a
dou eantioane (grupuri) independente. Valoarea statisticii t calculate este:
tc

m1 m2
s m1m 2

unde abaterea standard a diferenelor se calculeaz astfel:


s m1 m 2 s c

1
1

n1 n 2

sc fiind la rndul su determinat cu expresia:


sc

s12 (n1 1) s 22 (n 2 1)
n1 n 2 1

C. Testul t bivariat pe eantioane perechi


Dou eantioane se numesc perechi sau dependente atunci cnd modul de alegere a unitilor
unui eantion este determinat de modul de alegere a unitilor celuilalt. ntre unitile din dou
eantioane perechi se poate stabili o coresponden biunivoc. Statistica t utilizat pentru evaluarea
semnificatiei diferentei dintre medii se calculeaz cu formula:

16

d
sd / n

unde d este media diferenelor di dintre valorile perechi, iar sd este abaterea ptratic a acestor
diferene.

Utilizarea programului SPSS pentru testul t


Fiierul pe care-l vom folosi un aceast seciune este tot Employee data.sav. Vom ilustra n
continuare, cu ajutorul a cte unui exemplu, modul de analiz pentru fiecare din cele trei tipuri de
test t.
A. Testul t univariat
S presupunem c deinem urmtoarea informatie: c salariul mediu al unui angajat dintr-o
banc american este de 36.000 de dolari. Respect eantionul nostru (de 474 de angajai) condiia
de reprezentativitate din acest punct de vedere? Dac o respect, atunci salariul mediu pe acest
eantion nu va fi semnificativ diferit de cel de la nivelul populaiei. n unul din capitolele anterioare
am calculat acest salariu mediu i am vzut c era egal cu 34419.57 dolari. S vedem dac este
semnificativ diferit de cel de 36000 de dolari. Vom fixa pentru studiul nostru un nivel de
semnificaie de 5%, adic un nivel de ncredere de 95%.
11
Pentru a rula testul t univariat vom apela comanda:
Analyze > Compare Means > One-Sample T Test
n caseta de dialog care apare, n fereastra Test Variable(s) vom introduce variabila
salary, iar n cmpul Test Value com introduce valoarea 36000. Apsnd butonul OK obinem
urmtorul tabel:
One-Sample Test
Test Value = 36000
t

Current
Salary

-2.015

df

Sig. (2tailed)
473

Mean
Difference

.044 -$1,580.43

95% Confidence Interval of the


Difference
Lower
-$3,121.60

Upper
-$39.27

Coloana a patra a acestui tabel este cea mai important, deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este urmtoarea: dac valoarea
lui Sig. din aceast coloan este mai mic dect nivelul de semnificaie ales de noi, atunci vom
respinge ipoteza nul (cu alte cuvinte, vom afirma c ntre cele dou valori exist o diferen
semnificativ); n caz contrar, vom accepta ipoteza nul.
17

ntruct avem 0.044<0.05 vom respinge ipoteza nul i vom spune c salariul mediu pe
eantion este semnificativ diferit de salariul mediu pe populaia total, cu un nivel de ncredere de
95%. Aadar, eantionul nu poate fi considerat reprezentativ din acest punct de vedere.
B. Testul t bivariat pentru dou eantioane independente
S presupunem, c dorim s verificm dac salariul mediu al brbailor din banc este
semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe eantioane
independente, apelat cu comanda:
Analyze > Compare Means > Independent-Samples T Test
n fereastra Test Variables vom introduce din nou variabila salary, iar n cmpul
Grouping Variable vom introduce variabila gender. Observm c se activeaz butonul Define
Groups. Dac l apsm se deschide o nou caset de dialog. Aici, n cmpul Group 1 vom
introduce m (fr asteriscuri), iar n cmpul Group 2 vom introduce f (deasemenea fr
asteriscuri). Apsm butonul Continue i observm c n cmpul Grouping Variable din prima
caset de dialog apare: gender(m f). n acest fel am definit cele dou eantioane. Apsm OK
pentru a rula analiza.
Iat o poriune (cea mai relevant) din tabelul de analiz pe care ni-l furnizeaz SPSS-ul:

Independent Samples Test


Levene's Test for
Equality of Variances
F
Current
Equal 119.669
Salary variances
assumed
Equal
variances
not
assumed

t-test for Equality of Means

Sig.

df

Sig. (2-tailed)

.000

10.945

472

.000

11.688

344.262

.000

Informaiile din acest tabel vor fi comentate i interpretate la seminar.


C. Testul t bivariat pentru dou eantioane perechi
S presupunem n continuare c dorim s determinm dac exist o diferen semnificativ
ntre salariul mediu iniial al lucrtorilor i salariul mediu actual. Testul t pentru eantioane perechi
ne este de util n acest scop. Procedura pe care trebuie s o apelm este:
18

Analyze > Compare Means > Paired-Samples T Test


Acum va trebui s introducem n fereastra Paired Variables variabilele supuse analizei.
Vom selecta simultan (folosind butonul CTRL al tastaturii) variabilele salary i salbegin. Apsnd
OK obinem urmtorul output:
Paired Samples Test
Paired Differences
Mean
Pair 1

Std.
Deviation

Current $17,403.48 $10,814.62


Salary Beginning
Salary

df

Sig. (2tailed)

Std. Error
Mean
$496.73 35.036

473

.000

S privim ultima coloan: avem acolo valoarea parametrului Sig, utilizat pentru aprecierea
semnificaiei statistice. ntruct acest parametru este mai mic dect 0.05, vom deduce c ntre
salariul actual i cel iniial exist o diferen semnificativ. Media acestei diferene pentru populaia
total (17403.48 dolari) poate fi gsit din coloana a treia a tabelului.

Capitolul 5

Operaii cu date i variabile

Se pot ntlni n practic foarte multe situaii n care, nainte de a trece la analiza statistic
propriu-zis, este necesar s operm o serie de transformri sau modificri asupra datelor i/sau
variabilelor din baza de date. Aceasta se ntmpl fie din cauz c analistul este interesat doar de un
anumit segment al datelor (un anumit subgrup din populaia total), fie din cauz c informaiile din
baza de date nu sunt prezente n forma cea mai convenabil pentru analist.
Iat cteva posibile exemple de astfel de situaii:
dorim s analizm corelaia dintre anumite variabile pe un singur segment al angajailor
(de pild, numai pentru angajaii brbai);
dorim s obinem anumite informaii statistice, simultan, pentru mai multe segmente de
angajai (de exemplu, att pentru brbai, ct i pentru femei) n scopul de a compara mai
uor aceste informaii;
dorim s creem o nou variabil pornind de la una sau mai multe variabile deja existente
(de exemplu, avem numrul de ore lucrate pe lun i salariul orar, i dorim s le nmulim
pentru a calcula salariul lunar);
dorim s transformm o variabil numeric ntr-una categorial (de exemplu, pentru a-i
mpri pe angajai n trei grupuri: cu salarii mici, medii i mari);
19

dorim s sortm datele dup un anumit criteriu (de exemplu, s-i sortm pe angajai n
funcie de nivelul de educaie).
n continuare, vom vedea cum se rezolv efectiv problemele de acest fel cu ajutorul
facilitilor disponibile n programul SPSS. Baza de date folosit va fi, ca i n capitolele precedente,
Employee data.sav.

Sortarea datelor
Este una din cele mai simple operaiuni cu datele. Ea ne permite s sortm cazurile din baza
de date, ascendent sau descendent, n functie de variabila pe care am ales-o. Aceast variabil poate
fi numeric sau categorial.
Sortarea se realizeaz apelnd comanda:
Data > Sort Cases
n fereastra din dreapta a casetei de dialog se introduc variabilele dup care se face sortarea.
Dac dorim, de exemplu, s-i sortm pe angajati dup saalriu i categorie, un ordine ascendent),
vom selecta variabilele salary i jobcat, precum i opiunea Ascending. La final, angajaii se vor
regsi grupai pe cele trei categorii profesionale (funcionari, salariai, manageri), iar n cadrul
fiecrei categorii vor fi ierarhizai n ordinea cresctoare a salariilor.
Sortarea este util, de exemplu, dac dorim s aplicm procedura Explore (vezi capitolul 2)
pe un grup anume de angajai de exemplu, cei care au salariul mai mic sau cel mult egal cu 50000
de dolari pe an. Prin comanda Sort Cases vom ordona angajaii dup salariu, n mod ascendent, iar
apoi vom rula procedura Explore numai pentru acele cazuri care ndeplinesc condiia noastr.

Selectarea cazurilor
S presupunem n cele ce urmeaz c ne intereseaz, dintr-un anumit motiv, s rulm o serie
de analize statistice numai pentru angajaii de sex masculin. n acest caz va trebui ca din eantion s
selectm doar salariaii care aparin acestui grup. Pentru a face acest lucru vom folosi comanda:
Data > Select Cases
SPSS-ul deschide o caset de dialog pentru selectare. n partea dreapt vom alege opiunea
If condition is satisfied i vom apsa butonul If. Se deschide o nou caset n care vom introduce
condiia noastr sub forma: gender=m (aadar, urmeaz s fie reinui doar salariaii brbai).
Apsm butonul Continue i apoi OK.
Observm c acele cazuri din baza de date pentru care are loc gender=f (aadar, cele
corespunztoare salariailor femei) au fost barate (aadar vor fi excluse de la analiz). Mai mult, n
partea din dreapta jos a ferestrei SPSS-ului se poate citi meniunea Filter on, ceea ce nseamn c
respectivei baze de date i-a fost aplicat un filtru.
S calculm acum, cu titlu de exemplu, coeficientul de corelaie ntre salariul de nceput i
cel actual la nivelul unui acestui segment al populaiei noastre angajaii brbai.
Aplicm procedura pentru analiza corelaiei, aa cum a fost prezentat n capitolul 3, i
obinem urmtorul rezultat:
20

Correlations
Current Salary
Pearson
1.000
Correlation
.
Sig. (2-tailed)
258
N
Beginning
Pearson
.860**
Salary
Correlation
.000
Sig. (2-tailed)
258
N
** Correlation is significant at the 0.01 level (2-tailed).
Current
Salary

Beginning Salary
.860**
.000
258
1.000
.
258

Se observ c numrul total de cazuri pentru care a fost rulat analiza este de 258 (aadar,
numai salariaii de sex masculin)..
Pentru a nltura filtrul definit pentru o baz de date, atunci cnd nu mai avem nevoie de el,
va trebui s apelm din nou comanda:

Data > Select Cases


n caseta de dialog care apare se selecteaz opiunea All cases i apoi se apas butonul
OK.

Divizarea fiierului
S presupunem c ntr-o baz de date oarecare cazurile pot fi mprite n 10 subgrupuri
distincte, iar cercettorul dorete s ruleze o anumit analiz pentru fiecare subgrup n parte. Dac ar
folosi procedura de selectare a cazurilor, descris anterior, ar trebui s repete aceast procedur de
10 ori, ceea ce ar fi incomod. Pentru a evita acest lucru, el poate utiliza o comand de divizare a
fiierului (file split) pus la dispoziie de SPSS.
Dac este necesar, de exemplu, determinarea coeficientul de corelaie dintre salariul iniial
i cel actual att pentru brbai, ct i pentru femei, se va apela mai nti la comanda de divizare a
fiierului:
Data > Split File
Apare din nou o caset de dialog, n care vom selecta opiunea Compare Groups. n
fereastra denumit Groups Based on vom introduce variabila gender. Odat ce apsm butonul
OK, vom observa c n partea din dreapta jos a ferestrei SPSS apare meniunea Split File On.
Rulnd din nou comanda pentru analiza corelaiei obinem dou tabele, cte unul pentru fiecare
subgrup analizat:
Gender = Female
Correlations
Current Salary Beginning Salary
1.000
.759**

21

Current
Salary

Pearson
.
Correlation
Sig. (2-tailed)
216
N
Beginning
Pearson
.759**
Salary
Correlation
.000
Sig. (2-tailed)
216
N
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Female

.000
216
1.000
.
216

Gender = Male
Correlations
Current Salary Beginning Salary
Current Pearson
1.000
.860**
Salary Correlation
.
.000
Sig. (2tailed)
258
258
N
Beginning Pearson
.860**
1.000
Salary Correlation
.000
.
Sig. (2tailed)
N
258
258
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Male

Atunci cnd fiierul este divizat n funcie de o anumit variabil, toate analizele statistice
vor fi rulate pe subgrupuri, n funcie de valorile respectivei variabile.
Pentru a transforma un fiier divizat ntr-unul normal, vom apela din nou comanda Split
File, iar n caseta de dialog vom alege opiunea Analyze all cases, do not create groups.

Recodificarea variabilelor
Pot fi imaginate multe situaii n care este necesar s recodificm una dintre variabilele din
baza de date. S ne gndim, de exemplu, la un posibil caz n care dorim s transformm o variabil
numeric ntr-una categorial.
S presupunem c dorim s constatm dac exist o diferen semnificativ ntre salariul
mediu al lucrtorilor cu studii medii (maxim 12 ani) i cel al lucrtorilor cu studii superioare (peste
12 ani). ntruct variabila education nu este categorial, ci numeric, va trebui s o recodificm.
Pentru aceasta vom executa comanda:
Transform > Recode > Into Different Variables

22

Am ales opiunea Into Different Variables deoarece dorim s pstrm i valorile iniiale
ale variabilei respective. n caz contrar, am fi ales opiunea alternativ Intro Same Variables.
In fereastra principal a casetei de dialog vom introduce variabila pe care dorim s o
recodificm educ iar n cmpul din dreapta introducem numele noii variabile create o vom
numi educ2 i apoi apsm butonul Change pentru a salva aceast nou variabil. Ea va fi ulterior
variabila dup care vom face gruparea n cadrul testului t. Apsm apoi butonul Old and New
Values.
Noua caset de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariailor
care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom atribui
codul 2. Dup terminarea operaiunii de recodificare apsm butonul Continue i apoi OK. SPSS-ul
a salvat n baza de date variabila educ2, care are numai dou valori: 1 i 2.
n aceste condiii, este foarte uor s rulm testul t pentru compararea mediilor a dou
grupuri independente, utiliznd pentru grupare noua variabil categorial educ2.

Calcularea valorilor unei noi variabile


n cazul n care avem nevoie, pentru analiz, de o variabil care nu exist ca atare n baza de
date, dar ale cror valori pot fi calculate utiliznd variabilele existente, programul SPSS ne d
posibilitatea de a obine aceast nou variabil.
n baza noastr de date exist dou variabile care se refer la vechimea angajatului. Este
vorba de jobtime (vechimea la locul de munc actual) i prevexp (experiena anterioar). Ambele
sunt exprimate n luni. S presupunem c dorim s calculm experiena total a angajailor,
nsumnd pur i simplu valorile acestor dou variabile. Pentru aceasta apelm comanda:
Transform > Compute
n cmpul din dreapta sus al casetei de dialog vom introduce numele noii variabile (de
exemplu, exper). Apoi vom introduce n fereastra din dreapta expresia de calcul a noii variabile:
jobtime + prevexp.
Dup ce apsm butonul OK, programul creaz noua variabil exper.
Comanda Compute poate fi folosit i n alte scopuri. Programul ne pune la dispoziie un
numar foarte mare de funcii predefinite (circa 70), funcii care pot fi utilizate cu variabilele
numerice, ir de caractere sau dat. De exemplu, dac avem dou variabile, coninnd prenumele i
numele angajailor, putem utiliza funcia CONCAT (concatenare) pentru a creea o nou variabil
care s conin numele complet al angajatului.

Capitolul 6

Teste neparametrice

23

Testele neparametrice reprezint o categorie aparte de teste statistice, folosite n situatia n


care datele implicate n analiz sunt de tip categorial, cum ar fi sexul, mediul de via (urban/rural),
tipul de cafea preferat etc.

Aspecte teoretice - recapitulare


Testele neparametrice pe care le vom studia la acest curs sunt: testul binomial, testul hi
ptrat, testul de normalitate Kolmogorov-Smirnov, testele Mann-Whitney i Wilcoxon W pentru
compararea a dou eantioane independente, testul Wilcoxon Z pentru compararea a dou eantioane
perechi. S le prezentm n continuare pe scurt.
1. Testul binomial
Acest test este folosit n cazul variabilelor categoriale care pot lua doar dou valori (cum ar
fi, de exemplu, sexul). Rolul lui este de a compara proporia celor dou valori n eantion cu
proportia din populaia total sau cu o alt proporie teoretic dat.
ntruct, pentru un volum suficient de mare al eantionului, distribuia binomial poate fi
aproximat cu una normal, testul binomial se realizeaz cu ajutorul statisticii z. Formula de calcul a
acesteia este:
p

sp

zc

p
p ( p 1) n

unde p este proporia observat, iar este proporia teoretic. Valoarea calculat a statisticii z se
compar cu cea tabelar corespunztoare nivelului de semnificaie dorit de cercettor.
2. Testul hi ptrat (2)
Acest test se foloste atunci cnd studiem variabile categoriale avnd trei sau mai multe
categorii. Exist dou tipuri de teste hi ptrat: univariat i bivariat.
Testul hi ptrat univariat este folosit pentru a compara o distribuie observat cu una
teoretic i a determina dac exist diferene ntre cele dou distribui. Iat formula de calcul a
statisticii 2, cazul univariat:
(Oi Ti ) 2

Ti
i 1
k

unde cu Oi s-au notat valorile observate ale distribuie, iar cu Ti valorile teoretice.
Valoarea teoretic a statisticii hi ptrat se caut n tabele corespunztor nivelului de semnificaie ales
i numrului de grade de libertate (acesta este numrul de categorii al variabilei minus unu).
Testul hi ptrat bivariat este folosit pentru a studia legtura dintre dou variabile categoriale.
Statistica se calculeaz cu formula:


2
c

(Oij Tij ) 2

24

Tij

Dac aceast valoare este mai mare dect valoarea tabelar (teoretic) vom putea afirma c
exist o legtur ntre variabilele studiate; n caz contrar, vom spune c ele sunt independente.
La fel ca la testul hi ptrat bivariat, valoarea teoretic depinde de nivelul de semnificaie i
numrul de grade de libertate. Acesta din urm se determin cu relatia: (K-1)(L-1), unde cu K i L am notat
numrul de categorii ale celor dou variabile.
3. Testul de normalitate Kolmogorov-Smirnov
Acest test compar o distribuie observat cu una normal i ne spune dac respectiva distribuie
poate fi considerat normal sau nu. Aparatul matematic utilizat pentru efectuarea acestui test este destul de
complicat; ca urmare, nu vom insista aici asupra formulelor matematice.

4. Testul Mann-Whitney (U) pentru compararea a dou eantioane independente


Testul mann-Whitney este echivalentul testului t pe eantioane independente studiat la
capitolul 4. El se utilizeaz atunci cnd avem de-a face cu variabile ordinale.
Pentru a efectua testul Mann-Whitney se calculeaz doua valori ale lui U, n felul urmtor:
U1 = n1n2 + n1(n1 + 1)/2 R1
U2 = n1n2 + n2(n2 + 1)/2 R2
n aceste formule, cu n s-au notal volumele eantioanelor, iar cu R sumele rangurilor pentru
grupurile 1 i 2, respectiv (valorile celor dou grupuri se amestec, sunt ordonate cresctor, iar apoi
rangurile sunt a atribuite ncepnd de la 1). Statistica U se alege ca fiind cea mai mic dintre valorile
U1 i U2. Se poate demonstra c aceast statistic urmeaz o repartiie aproximativ normal. Scorul z
se calculeaz cu formula:
zc

U U
U

unde este media lui U, iar este abaterea sa ptratic. Ele se calculeaz astfel:

n1 n2
2
n1 n 2 (n1 n 2 1)

12

5. Testul Wilcoxon W
Testul W al lui Wilcoxon se folosete n acelai scop ca i testul U, fiind o alternativ la
acesta. La fel ca la testul Mann-Whitney valorile celor dou grupuri se amestec i se ordoneaz
cresctor, iar apoi sunt acordate rangurile ncepnd de la 1 pn la cel mai mare (suma volumelor
eantioanelor). Nici la acest test nu vom insista asupra formulelor matematice folosite.
6. Testul Wilcoxon Z

25

Acest test, care mai poart i denumirea de testul semnului i al rangului este folosit pentru
a determina dac dou eantioane dependente (perechi) sunt diferite sau nu. Din acest punct de
vedere este asemntor cu testul t pentru eantioanele perechi, dar se utilizeaz atunci cnd variabila
studiat este ordinal.
Pentru a rula acest test, valorile variabilei sunt ordonate, iar fiecrei valori i se atribuie un
rang afectat de un semn. Suma rangurilor (notat cu T) este repartizat dup distribuia t, calculat
cu formula:
tc

T T
T

Media i abaterea ptratic se calculeaz cu ajutorul expresiilor de mai jos (n este volumul
eantionului):
T
U

n(n 1)
4

n( n 1)(2n 1)
24

Utilizarea programului SPSS pentru testele neparametrice


n cadrul acestei seciuni vom utiliza, alturi de fiierul Employee data.sav (cu care suntem
deja familiarizai), alte dou baze de date Prima dintre ele este voter.sav, care conine date
nregistrate pe un eantion de 1847 de alegtori americani, privitoare la alegerile prezideniale din
1992 din SUA. A doua baz de date este 1991 U.S. General Social Survey.sav, unde gsim
rezultatele unei anchete de opinie realizat n Statele Unite n anul 1991, pe un eantion de 1517
persoane. Toate aceste baze de date conin variabile categoriale i ordinale utile scopului nostru.
I.

Testul binomial

Pentru a demonstra aplicarea acestui test vom folosi fiierul voter.sav. S presupunem c
dorim s verificm dac proporia brbai/femei n acest eantion de alegtori americani corespunde
cu cea presupus a fi ntlnit n populaia total (50/50). Vom utiliza comanda:
Analyze > Nonparametric Tests > Binomial
n fereastra Test Variable List vom introduce variabila sex. n cmpul Test Proportion
se afl trecut deja valoarea 0.50, reprezentnd distribuia teoretic (50/50) cu care vom compara
distribuia din eantion. Dac distribuia teoretic este alta, vom schimba desigur variabila din acest
cmp.
n partea din stnga jos a casetei de dialog se observ un cadran intitulat Define
Dichotomy cu dou opiuni: Get From Data i Cut Point. Dac variabila cu care lucrm este
una categorial, va rmne selectat prima opiune (cea implicit). Dac variabila este cantitativ, o
putem transforma ntr-una categorial alegnd opiunea a doua i indicnd valoarea unde se face
26

diviziunea dintre cele dou categorii. De exemplu, dac s-ar pune problema s testm proportia
alegtorilor n vrst de peste 40 de ani, am alege opiunea Cut Point i am introduce n cmpul
respectiv valoarea 40.
Odat ce apsm butonul OK, SPSS-ul ne d rezultatul analizei:
Binomial Test
Category
RESPONDE Group 1
NTS SEX
Group 2
Total
a Based on Z Approximation.

N Observed Test Prop.


Prop.

male

804

.44

female

1043
1847

.56
1.00

.50

Asymp.
Sig. (2tailed)
.000

Se poate observa c din 1847 de alegtori din eantion, 804 (44%) sunt brbai, iar 1043
(56%) sunt femei. Regula de decizie este cea cunoscut: dac valoarea lui Sig. este mai mic dect
nivelul de semnificaie ales (0.05), atunci putem spune c exist o diferen semnificativ ntre cele
dou proporii. Este i cazul nostru de fa: nu putem afirma c proporia brbai femei din eantion
o reproduce pe cea din populaia total femeile predomin ntr-o proporie semnificativ.
II.

Testul hi ptrat univariat

Baza de date folosit pentru acest test va fi tot voter.sav. Dorim s analizm acum distribuia
inteniilor de vot pentru candidaii Clinton, Bush sau Perot (variabila pres92). Testul hi ptrat
univariat ne va spune dac voturile tind a se ndrepta n mod hotrtor ctre unul din candidai sau
dac, dimpotriv, tind a se mpri n mod egal ntre cei trei candidai. Pentru a rula acest test apelm
comanda:
Analyze > Nonparametric Tests > Chi-Square
n fereastra Test Variable List introducem variabile pres92. Observm apoi c n cadranul
Expected Values ni se d posibilitatea s definim distribuia teoretic cu care vom face
comparaia. Dac dorim ca ea s fie o echirepartiie, vom selecta opiunea All Categories Equal
(aceasta corespunde cazului teoretic n care inteniile de vot s-ar mpri egal ntre cei trei candidai).
n caz contrar, vom introduce pe rnd valorile distribuiei teoretice folosind opiunea Values.
Apsnd butonul OK obinem:
VOTE FOR CLINTON, BUSH, PEROT
Observed Expected
N
N
Bush
661
615.7
Perot
278
615.7
Clinton
908
615.7
Total
1847

Residual
45.3
-337.7
292.3

Test Statistics
Chi-Square

VOTE FOR CLINTON,


BUSH, PEROT
327.341

27

df
2
Asymp.
.000
Sig.
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell
frequency is 615.7.

n primul tabel observm valorile distribuiei reale (coloana a doua), cele ale distribuiei
teoretice, care sunt egale (coloana a treia), precum i diferenele dintre ele.
n tabelul al doilea avem datele analizei. Valoarea lui hi ptrat este 327.341, iar numrul de
grade de libertate este 2 (numarul categoriilor variabilei minus unu). ntruct Sig. este mai mic
dect 0.05, putem spune c ntre cele dou distribuii exist diferene semnificative. Cu alte cuvinte,
inteniile de vot nu tind a se mpri egal ntre candidai; prerea lor este deja format, iar
majoritatea opiunilor merg spre Bill Clinton, dup cum se poate observa din primul tabel.
III.

Testul hi ptrat bivariat

n cele ce urmeaz, vom deschide fiierul Employee data.sav i vom studia relaia dintre
variabilele gender i jobcat (categoria angajatului). ntruct ambele variabile sunt categoriale va
trebui s folosim testul hi ptrat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere
programului s realizeze un tabel ncruciat, cu ajutorul comenzii (vezi capitolul 2):
Analyze > Descriptive Statistics > Crosstabs
Apsm butonul Statistics, iar n noua caset de dialog care se deschide selectm opiunea
Chi-square. Rezultatele analizei se gsesc n tabelele ce urmeaz.

Gender * Employment Category Crosstabulation


Count
Employment
Category
Clerical
Gender
Female
206
Male
157
Total
363

Total
Custodial
27
27

Manager
10
74
84

216
258
474

Chi-Square Tests
Value

df Asymp. Sig. (2sided)


2
.000
2
.000

Pearson Chi-Square
79.277
Likelihood Ratio
95.463
N of Valid Cases
474
a 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30.

28

Din cel de-al doilea tabel ne intereseaz cu precdere prima linie, care prezint rezultatele
testului hi patrat. ntruct valoarea Sig este mai mic dect 0.05, vom deduce c exist o legtur
ntre cele dou variabile. Aadar, brbaii si femeile nu sunt repartizai proporional pe cele trei
categorii profesionale (funcionari, paznici i manageri).
IV.

Testul de normalitate Kolmogorov-Smirnov

S ne ntoarcem la baza de date voter.sav. Problema pe care ne-o punem acum este dac
variabila educ (nivelul studiilor respondenilor, exprimat n ani) se prezint sub forma unei
distribuii normale. Pentru aceasta vom apela comanda:
Analyze > Nonparametric Tests > 1 Sample K-S
n caseta de dialog deschis vom introduce variabila educ ca variabil de analiz. n chenarul
Test Distribution este deja selectat distribuia normal; apsm aadar butonul OK i obinem
urmtorul tabel:
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters
Most Extreme Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a Test distribution is Normal.
b Calculated from data.

HIGHEST YEAR OF
SCHOOL COMPLETED
1845
Mean
13.93
Std.
2.84
Deviation
Absolute
.134
Positive
.134
Negative
-.133
5.749
.000

Interpretarea datelor din acest tabel se va face la ora de seminar.


V.

Testul Mann-Whitney pentru eantioane independente

Vom folosi n continuare baza de date voter.sav. Vom presupune c ne intereseaz dac
brbaii i femeile din eantion difer n mod semnificativ ntre ei sub aspectul studiilor. Pentru
aceasta vom folosi variabila degree, care este una ordinal (0 corespunde sudiilor medii, iar 4
studiilor superioare). Vom apela comanda:
Analyze > Nonparametric Tests > 2 Independent Samples
n fereastra Test Variable List introducem variabile degree, iar n cmpul Grouping
Variable variabila sex. Apoi apsm butonul Define Groups i definim cele dou grupuri exact
cum am fcut pentru testul t bivariat pentru eantioane independente (vezi capitolul 3). n cadranul
Test Type este deja selectat testul Mann-Whitney (U), aa nct apsm butonul OK i obinem:
Test Statistics

29

RS HIGHEST DEGREE
Mann-Whitney U
409502.000
Wilcoxon W
953948.000
Z
-.932
Asymp. Sig. (2-tailed)
.351
a Grouping Variable: RESPONDENTS SEX

Acest tabel este cel mai important pentru analiz, deoarece ne d semnificaia testului. Se
observ c programul ne furnizeaz i valoarea testului W al lui Wilcoxon. Regula de decizie este
cea cu care ne-am obisnuit deja: trebuie s comparm valoarea lui Sig. cu cea a nivelului de
semnificaie ales de noi (0.05). ntruct aici avem 0.351>0.05, vom tage concluzia c brbaii si
femeile nu difer ntre ei n ceea ce privete nivelul de educaie. Dac diferena ar fi fost
semnificativ, atunci sensul ei ar fi fost dat de semnul notei Z de pe rndul patru al tabelului.
VI.

Testul Wilcoxon Z pentru eantioane perechi

Pentru a exemplifica acest test vom deschide fiierul 1991 U.S. General Social Survey.sav.
Vom lua n considerare urmtoarele variabile din baza de date: obey (ct de important este pentru
respondent supunerea, ascultarea de autoriti) i popular (ct de important este faptul de a fi
popular, de a fi iubit i apreciat). Dorim s vedem dac exist o diferen untre aceste dou variabile
atitudinale.
Deoarece aici nu avem de-a face cu variabile cantitative, ci mai degrab ordinale, este
necesar s apelm la testul semnului i al rangului (testul Z al lui Wilcoxon) pentru a rezolva
problema. Comanda utilizat este:
Analyze > Nonparametric Tests > 2 Related Samples
La fel ca la testul t pe eantioane perechi (capitolul 4), trebuie s introducem n fereastra din
dreapta a casetei de dialog perechile de variabile care fac obiectul comparaiei (n cazul nostru, obey
popular). Se observ c un caseta Test Type este deja selectat testul wilcoxon, singurul care ne
intereseaz n acest moment. Apsnd butonul OK obinem urmtorul rezultat:
Ranks
N
To Be Well Liked Negative Ranks
or Popular - To
Obey
Positive Ranks
Ties
Total

205
777
0
982

Mean
Rank
337.99

Sum of Ranks

532.00

413365.00

69288.00

Test Statistics
Z
Asymp. Sig. (2-tailed)

To Be Well Liked or Popular - To Obey


-19.742
.000

Interpretarea n detaliu a tabelelor o vom face la seminar. Aici vom observa doar c exist o
diferen semnificativ ntre cele dou variabile (statistica Sig este mai mic dect 0.05). Sensul
30

diferenei este dat de semnul scorului Z. Se observ c acest semn este minus. ntruct pentru fiecare
din cei doi itemi scorul crete pe msur ce importana scade (1 cel mai important, 5 cel mai
puin important) deducem c pentru americani este mai important a fi popular dect a te supune n
faa autoritilor.

Capitolul 7

Populaie i eantion

n tiinele sociale, populaia total supus studiului are cel mai adesea dimensiuni foarte
mari de ordinul miilor, sutelor de mii sau chiar milioanelor de uniti (aceste uniti pot fi persoane
individuale, familii/gospodrii sau organizaii). ntruct efectuarea unor studii pe ntreaga populaie
ar fi foarte costisitoare, se apeleaz de regul la cercetrile statistice conduse pe un eantion de
volum mult mai redus dect cel al populaiei totale.
Dou probleme se pot pune n legtur cu eantionarea:
- determinarea erorii de estimare a unui parametru (de regul media unei variabile), pe care
ne-o permite un eantion dat i
- stabilirea volumului eantionului care permite estimarea parametrului cu o eroare maxim
impus.
S presupunem c dintr-o populaie total format din N uniti se extrage un eantion de volum
n. Modul de calcul al indicatorilor statistici, att pentru populaia total ct i pentru eantion, este
prezentat n tabelul urmtor:
Caracteristic nealternativ
Populaia total (N)
N

Media:

x
i 1

Media:

N
N

Dispersia:

Eantion (n)
n

(x
i 1

x
i 1

n
n

Dispersia:

s2

(x
i 1

m) 2

n 1

Caracteristic alternativ
Populaia total (N)
Eantion (n)
Media: (frecvena de apariie a strii da Media: p (frecvena de apariie a strii da
sau 1 n eantion)
sau 1 n populaia total)
Dispersia: 2 (1 )

Dispersia: s2=p(1-p)

31

Tabelul 1. Parametrii populaiei i cei ai eantionului


Se observ c pentru a nota parametrii populaiei totale am folosit caractere greceti, iar
pentru cei ai eantionului caractere latine.
Media eantionului m este un estimator (mai mult sau mai puin precis) pentru media
populaiei totale , care de regul nu este cunoscut. Diferena E=m- poart numele de eroare de
estimare. Pe aceasta ne intereseaz s o determinm.
Teoria statistic ne spune c dac o variabil are o distribuie normal de medie i dispersie
2, atunci mediile (m) ale eantioanelor de volum dat n vor avea tot o distribuie normal, de medie
i dispersie 2/n (aceasta poart numele de dispersie de selecie). Proprietatea aceasta este foarte
important pentru eantionare.
S reprezentm curba normal a distribuiei mediilor eantioanelor de volum n:

N(, 2/n)

95%
2.5%
-E

2.5%

+E

Figura 1. Curba normal a distribuiei mediilor eantioanelor de volum n


Eroarea de estimare E este de regul fixat (impus) de ctre cercettor. Intervalul simetric
( E, +E) poart numele de interval de ncredere. Aria suprafaei de sub bolta curbei lui Gauss
care corespunde acestui interval se numete nivel de ncredere. Nivelul de ncredere ne arat cu ce
probabilitate garantm estimarea noastr. n tiinele sociale se folosete de obicei un nivel de
ncredere de 95%, ceea ce nseamn c putem garanta n proporie de 95% c eroarea de estimare nu
va depi nivelul E fixat. Cu alte cuvinte, exist un risc de 5% ca eroarea real s depeasc aceast
limit. Acest risc mai poart denumirea de nivel de semnificaie al studiului.
Cum vom estima eroarea n condiiile n care nu-l cunoatem pe ? Fcnd apel la scorurile z
. Pentru media m a unui eantion oarecare, scorul z se calculeaz astfel:
z

/ n

32

ntruct dispersia populaiei totale nu este de regul cunoscut, ea se estimeaz cu ajutorul


unei anchete preliminare pe un eantion pilot de 30-200 de persoane. Se presupune c dispersia s2 a
acestui eantion aproximeaz dispersia 2 a populaiei. n acest caz putem rescrie ultima formul:
m

s/ n

De aici putem determina cu uurin eroarea m- pe care n-o asigur un eantion de volum
dat n:
Ez

s
n

n ceea ce-l privete pe z, l vom prelua din tabelele statistice. precizm c vom folosi n
exemplele noastre un nivel de ncredere al cercetrii de 95.44%, cruia i corespunde o valoare z=2.
Dac dorim s estimm media populaiei cu o eroare maxim admisibil E, volumul
eantionului necesar pentru aceasta se calculeaz cu urmtoarea formul (dedus din cea anterioar):
n

z 2s2
E2

n cazul n care avem de-a face cu o caracteristic alternativ, formula este aceeai; se
schimb doar modalitatea de calcul a dispersiei (vezi tabelul 1):
n

z 2 p (1 p )
E2

S dm acum dou exemple concrete de calcul al volumului eantionului: unul pentru


caracteristicile cantitative, altul pentru cele alternative.
Exemplul 1
S presupunem c din cei 5000 de lucrtori ai unei mari companii se extrag n mod aleator
100. Media de vrst a eantionului extras (m) este de 44 de ani, iar abaterea medie ptratic (s) de
15 ani. Se pune ntrebarea care este eroarea cu care media acestui eantion estimeaz media de
vrst a lucrtorilor din companie, cu un nivel de ncredere de 95.44% (z=2).
Un calcul simplu, cu ajutorul formulei de determinare a erorii prezentate mai sus, ne arat c
aceast eroare este de 3 ani. Aadar, putem spune c media de vrst a lucrtorilor este situat ntre
41 i 47 de ani (443), cu un nivel de ncredere de 95.44%.
Dac aceast eroare de 3 ani este mult prea mare i nu poate fi tolerat, va trebui s mrim
volumul eantionului. S presupunem c se dorete estimarea vrstei medii a lucrtorilor cu o eroare
maxim admisibil (E) de numai 1 an.
n urma calculelor, utiliznd formula de determinare a volumului eantionului, rezult c
volumul eantionului ar trebui s fie de 900 de lucrtori, adic de 9 ori mai mare dect cel iniial.
33

Exemplul 2
La fel ca la exemplul 1, desfurm studiul nostru ntr-o companie cu 5000 de angajai, din
care alegem la ntmplare 100. Dintre acetia, 62 sunt cstorii (62%), iar 38 necstorii. Aplicnd
formula de calcul a erorii, ajungem la concluzia c acest eantion aproximeaz procentajul
angajailor cstorii cu o eroare de 9.7% (52.3%-71.7%). Dac dorim o eroare de estimare mai
redus, de exemplu 5%, volumul eantionului de studiu trebuie s fie de 377 de angajai.

Eantionarea aleatoare n SPSS


Dac dorim ca dintr-o baz de date de mari dimensiuni s extragem un mod aleatoriu un
numr de cazuri, putem face acest lucru cu ajutorul comenzii de filtrare cunoscute:
Data > Select Cases
n caseta de dialog pe care ne-o prezint programul selectm opiunea Random sample of
cases i apsm butonul Sample. Se deschide o nou caset, n care ni se ofer dou posibiliti:
s extragem un anumit procent din totalul cazurilor
s extragem un numr exact de cazuri.
Dup ce ne exprimm opiunea, SPSS-ul alege n mod aleator cazurile care din eantion i le
bareaz pe cele excluse.
S presupunem c dorim s extragem aleatoriu circa 25% cei 474 angajai din fiierul
Employee data.sav. n urma efecturii pailor descrii mai sus, SPSS-ul a selectat circa 118 cazuri
din total. Toate analizele statisitce vor fi rulate acum doar pentru aceste cazuri.
Pentru a elimina filtrul, procedm aa cum am artat la capitolul 5: executm din nou
comanda Data > Select Cases i alegem opiunea All cases.

Capitolul 8

Analiza de regresie

Aspecte teoretice - recapitulare


Analiza de regresie studiaz legtura dintre o variabil dependent i una sau mai multe
variabile independente, prin intermediul unei ecuaii de regresie. n cadrul cursului de fa vom
discuta doar despre regresia liniar, a crei ecuaie are forma:
y b0 b1 x1 b2 x 2 ... bk x k e

unde:
34

y este variabila dependent (numit i cauzat sau endogen);


x1, , xk sunt variabilele independente (numite i cauzale sau exogene);
b0 este aa-numitul termen liber;
b1, , bk sunt coeficienii (sau parametrii) de regresie;
e este numit variabil rezidual sau de perturbaie. Apariia sa n modelele de regresie se
datoareaz faptului c relaia dintre variabila dependent i cele independente nu este una
strict, determinist, ci una statistic. Pentru fiecare unitate din eantion, variabila rezidual
se calculeaz ca diferen ntre valoarea real (sau observat) a lui y i cea calculat (sau
estimat) prin ecuaia de regresie de mai sus. Variabila e colecteaz aadar influenele
tuturor factorilor necunoscui sau ntmpltori, dificil de estimat, precum i erorile de
msurare.

Toate variabilele care intervin ntr-o analiz de regresie sunt variabile cantitative (metrice). Dac
exist o singur variabil independent n model, vorbim de o regresie simpl, iar dac intervin dou
sau mai multe variabile independente avem de-a face cu o regresie multipl.
Rezultatele cele mai importante ale unei analize de regresie sunt:
-

coeficienii (sau parametrii de regresie). Acetia ne arat cu ct se modific variabila


dependent n urma modificrii cu o unitate a uneia din variabilele independente.
coeficientul de corelaie multipl (notat R2), care ne arat procentajul din variaia lui
y care este explicat de influena variabilelor independente. De pild, o valoare a lui
R2 de 0.90 ne indic faptul c evoluia variabilei y este determinat n proporie de
90% de variabilele independente x1, , xk, iar restul de 10% se explic prin alte
influene, neluate n considerare n model.
valoarea testului F. Acest test verific existena unei dependene liniare ntre
variabila y i variabilele independente. n cazul n care testul F este nesemnificativ,
legtura ar putea s nu fie liniar.
valoarea testelor de semnificaie pentru coeficienii de regresie. Dac parametrul de
regresie al uneia din variabilele independente nu difer semnificativ de 0, este posibil
ca variabila respectiv s fie redundant.

ntr-o serie de situaii particulare, pot fi introduse n modelel de regresie i anumite variabile
calitative (nemetrice), i anume variabilele de tip dummy. O variabil dummy este o variabil care
poate lua doar dou valori (da/nu, brbai/femei, mediu urban/mediu rural etc.), notate convenional
cu 1 i 0. Desigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummy,
dar acest lucru ar duce la o serie de inconveniente. O asemenea variabil poate fi utilizat ntr-o
ecuaie de regresie n acelai mod ca o variabil cantitativ.

Analiza de regresie n SPSS


n exemplul de analiz de regresie ce urmeaz vom folosi tot baza de date Employee
data.sav. Ca variabil dependent vom considera salariul actual (salary), iar ca variabile
independente salariul de nceput (salbegin), vechimea n banc (jobtime) i nivelul de educaie
(educ). Pentru a rula analiza de regresie vom apela comanda:

Analyze > Regression > Linear


35

n cmpul Dependent introducem variabila salary, iar n cmpul Independent(s)


introducem cele trei variabile independente. Apsm OK pentru a rula analiza.
Iat tabelele de output care ne intereseaz:
Model Summary
Model

R Square Adjusted R Std. Error


Square
of the
Estimate
1
.895
.801
.800 $7,646.00
a Predictors: (Constant), Educational Level (years),
Months since Hire, Beginning Salary
b Dependent Variable: Current Salary

n acest tabel ne este prezentat un sumar al analizei. Cea mai interesant pentru noi este
penultima coloan, unde putem vedea coeficientul de corelaie multipl, egal cu 0.80 pentru aceast
analiz. Aceasta nseamn c salariul curent al unui lucrtor este determinat n proporie de 80% de
cele trei variabile independente i n proporie de 20% de alte influene, neluate n calcul aici.
ANOVA
Model

Sum of
df
Mean
F
Sig.
Squares
Square
1 Regression 11043969433
3 368132314
629.703
.000
9.523
46.508
Residual 27476801096
470 58461278.9
.817
29
Total 13791649543
473
6.340
a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salary
b Dependent Variable: Current Salary

Acest tabel ne prezint rezultatele analizei ANOVA pentru modelul nostru de regresie. Dup
cum spuneam n seciunea anterioara, testul F ne arat dac ipoteza relaiei liniare ntre variabilele
noastre este corect. Regula de decizie este simpl: ipoteza relaiei liniare este corect dac valoarea
factorului Sig. din ultima coloan este mai mic dect nivelul de semnificaie ales de noi (0.05).
n caz contrar, va trebui s lum n considerare construirea unui alt tip de relaii (neliniar) ntre
variabilele n cauz.
Coefficients
Unstandar
Standardiz
dized
ed
Coefficient
Coefficient
s
s
Model
B
Std. Error
Beta
1 (Constant)
3236.616
19986.502
Beginning 1.689
.058
.779
Salary
Months 155.701
35.055
.092
since Hire
Education 966.107 157.924
.163
al Level

36

Sig.

-6.175

.000

29.209

.000

4.442

.000

6.118

.000

(years)
a Dependent Variable: Current Salary

Din acest tabel ne intereseaz cu precdere dou coloane: cea a coeficienilor (a treia) i cea
a valorii testelor de semnificaie pentru coeficieni (ultima). Aici putem observa c toi coeficienii
sunt semnificativi (valorile factorilor Sig. sunt mai mici dect 0.05). Ecuaia noastr de regresie se
scrie astfel:
salary = -19986.502 + 1.689 * salbegin + 155.701 * jobtime + 966.107 * educ + e
Pe baza acestei ecuaii putem face diverse analize asupra variabilei dependente (salariul
curent), n funcie de ceea ce ne intereseaz mai mult. Astfel, putem constata c:
- dac doi lucrtori au aceeai vechime n banc i acelai nivel de educaie, dar unul i-a
nceput slujba cu un salariu cu 1000 de dolari mai mare, acesta din urm va avea acum (n
medie) un salariu anual cu 1689 dolari mai mare dect cellalt;
- un lucrtor care are o vechime mai mare cu 10 luni dect cellalt va avea un salariu cu cca
1557 de dolari mai mare, dac toate celelalte (salariul iniial i nivelul de educaie) sunt
aceleai;
- orice an n plus adugat la nivelul de educaie se traduce ntr-un spor mediu de salariu de cca
966 dolari.
Residuals Statistics
Minimum
Maximum
Mean Std. Deviation
Predicted Value
$16,662.55 $145,355.69 $34,419.57
$15,200.31
Residual
-$29,580.63 $49,218.41
$.00
$7,780.02
Std. Predicted
-1.168
7.298
.000
1.000
Value
Std. Residual
-3.794
6.313
.000
.998
a Dependent Variable: Current Salary

N
474
474
474
474

S introducem acum n nodelul nostru o variabil de tip dummy. Pentru aceasta vom
transforma prin recodificare variabila gender n variabila dummy gendum, care are valorile 1 pentru
brbai i 0 pentru femei. Apoi vom rula din nou analiza de regresie, introducnd variabila gendum
alturi de cele dou variabile independente iniiale.
Tabelele de output sunt urmtoarele:
Model Summary
Model

R Square Adjusted R Std. Error


Square
of the
Estimate
1
.896
.802
.800 $7,631.68
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary
ANOVA
Model

Sum of
Squares
1 Regressio 110600724
n 690.831

df

37

Mean
Square
4276501811
72.708

F
474.742

Sig.
.000

Residual 27315770
469 58242581.
745.509
547
Total 13791649
473
5436.340
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary

Coefficients
Unstandar
Standardiz
dized
ed
Coefficient
Coefficient
s
s
Model
B Std. Error
Beta
(Constant)
- 3246.282
19455.828
Beginning
1.656
.061
.763
Salary
Months 151.152
35.097
.089
since Hire
Education 942.136 158.286
.159
al Level
(years)
GENDUM 1325.787 797.334
.039

Sig.

-5.993

.000

27.143

.000

4.307

.000

5.952

.000

1.663

.097

Din punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o
mbuntire: R2 este acelai. Ipoteza liniaritii modelului se verific (tabelul al doilea), n schimb
coeficientul variabilei gendum nu este semnificativ (tabelul al treilea, coloana Sig., ultimul rnd).
Dac acceptm totui variabila gendum ca variabil independent, putem deduce din valoarea
coeficientului su c brbaii au n medie un salariu cu cca 1326 dolari mai mare dect femeile.

Capitolul 9

Analiza de varian

Aspecte teoretice - recapitulare


Analiza de varian este o procedur statistic folosit pentru a studia relaia ntre o variabil
dependent cantitativ i una sau mai multe variabile independente calitative (categoriale). Ea se
mai numete i analiz dispersional sau, prescurtat, ANOVA (acronim de la cuvintele englezeti
ANalysis Of VAriance).

Atunci cnd n model este inclus o singur variabil independent (numit i


factor) vorbim de ANOVA unifactorial, iar dac avem doi sau mai muli factori
atunci ne aflm n faa unui model ANOVA multifactorial. Vom trata aceste dou
tipuri de analiz de varian separat.
1. ANOVA unifactorial
38

Analiza de varian unifactorial descompune variana (sau dispersia) populaiei studiate n


dou componente:
- variana inter-grupuri (between groups variance), cauzat de diferenele care exist ntre
mediile grupurilor din populaia total (grupuri care sunt de fapt categoriile factorilor);
- variana intra-grupuri (within groups variance) care ne arat ct de dispersate sunt, n medie,
valorile individuale ale variabilei n cadrul fiecarui grup.
Cu ct valoarea raportului dintre variana inter-grupuri i cea intra-grupuri este mai mare cu
att mai mare este influena factorului asupra variabilei independente. Aceast influen se exprim
n mod concret prin diferenele semnificative dintre mediile pe grupuri ale variabilei dependente.
Acest raport se testeaz statistic utiliznd testul F, denumit astfel dup numele statisticianului
britanic Ronald Fisher, creatorul su.
Testul F ne indic faptul c exist probabil diferene ntre nivelele factorilor, dar nu ne spune
unde se gsesc aceste diferene i ct de mari sunt ele. De asemenea, el nu ne ofer o ordonare a
nivelelor factorilor dup influena lor asupra vaiabilei dependente.
Aceast problem poate fi rezolvat introducnd noiunea de contrast. Contrastul, notat aici
cu K, este definit ca o combinatie liniar a mediilor grupurilor (nivelelor factorilor).
K

c m
i

unde cu m sunt notate mediile grupului, iar cu c reprezint nite ponderi care ndeplinesc relaia:

Pentru a nelege cum se stabilesc ponderile la definirea unui contrast, vom apela la un
exemplu. S presupunem c variabila categorial implicat n model are trei nivele, mediile fiecrui
nivel fiind m1, m2 i m3. Dorim s studiem diferena dintre primele dou grupuri, luate mpreun, i
grupul al treilea. Ipoteza nul, care afirm c ntre aceste grupuri nu exist nici o diferen, se
exprim prin relaia:
m1 m 2
m3 0
2
Aceast relaie se poate rescrie astfel:
m1 m 2 2m3 0

Aadar, primelor dou grupuri le va fi atribuit ponderea 1, iar grupului al treilea ponderea
-2. Suma ponderilor este, desigur, zero.
Dac dorim s estimm diferenele dintre nivelele factorilor n mod simultan, putem folosi
testele de comparaie multipl. Programul SPSS ne pune la dispoziie multe teste de acest fel. Unele
dintre ele se folosesc atunci cnd varianele grupurilor sunt presupuse a fi egale (Sidak, Bonferroni,
LSD, Scheffe, Tukey etc.) iar altele atunci cnd varianele sunt presupuse a fi diferite (Tamhane,
39

Games-Howell). Pentru a ti ce teste trebuie folosite, programul SPSS ne ofer rezultatul testului F
al lui Levene pentru egalitatea varianelor.
n cadrul orelor de seminar vom demonstra n detaliu modul de utilizare a procedurilor SPSS
pentru ANOVA unifactorial.
2. ANOVA multifactorial
Aceast tehnic de analiz a datelor se folosete atunci cnd avem de studiat legtura dintre o
variabil dependent numeric i dou sau mai multe variabile independente categoriale (factori).
Factorii ce intervin n aceast analiz pot fi de dou tipuri:
- factori fici, al cror efect poate fi controlat;
- factori aleatori, al cror efect este incontrolabil.
Alturi de factori, n model pot aprea i covariatele. Aceste covariate sunt variabile de tip
numeric presupuse a fi corelate cu variabila dependent. Prin introducerea covariatelor se verific
dac factorii fici au influen asupra variabilei dependente indiferent de aciunea factorilor
covariani.
Un model de analiz ANOVA multifactorial poate fi de dou feluri:
- complet (full factorial), atunci cnd conine toate efectele posibile i toate
combinaiile de factori;
- modificat (custom), atunci cnd, un vederea simplificrii modelului, sunt luate n
considerare numai efectele unor anumii factori sau combinaii de factori.
Efectele studiate n cadrul unui model pot fi:
- efecte principale;
- efecte ale interaciunii dintre variabile.
Ca i n cazul modelului unifactorial, este posibil determinarea diferenelor dintre nivelele
factorilor, cu ajutorul contrastului. n programul SPSS sunt disponibile urmtoarele tipuri de
contraste:
- Deviation: compar media fiecrui nivel cu media general. Nivelurile factorilor pot fi n
orice ordine;
- Simple: compar media fiecrui nivel cu media unui nivel specificat. Acest tip de comparaii
este util atunci cnd exist un grup de control. Se poate alege ca grup de referin primul sau
ultimul;
- Difference: compar media fiecarui nivel (cu excepia primului) cu cea a nivelelor
anterioare;
- Helmert: compara media fiecrui nivel (cu excepia ultimului) cu cea a nivelelor urmtoare;
- Repeatet: compar media fiecrui nivel (cu exceptia ultimului) cu cea a nivelului urmtor;
- Polynomial: compar efectele liniar, patratic, cubic etc. Primul grad de libertate contine
efectul liniar comparat cu toate categoriile; al doilea grad de libertate efectul patratic, etc.
Aceste comparatii sunt deseori folosite pentru estimarea trend-urilor polinomiale.
De asemenea, dac dorim s comparm simultan media variabilei dependente pe diverse
nivele ale factorilor, putem face acest lucru cu ajutorul analizei post-hoc. De reinut totui c att
contrastele, ct i comparaiile multiple se realizeaz numai pentru factorii care au cel puin trei
nivele.

40

Analiza de varian n SPSS


n aceast secinue vom da cte un exemplu pentru fiecare din cele dou tipuri de analiz de
varian: unifactorial i multifactorial.
I.

ANOVA unifactorial

n cadrul bazei de date Employee data.sav vom analiza diferenele ntre salariul mediu pe
cele trei categorii de lucrtori (variabila jobcat): 1 clerical (funcionari), 2 custodial
(paznici) i 3 manager. Pentru aceasta trebuie s utilizm analiza de varian unifactorial.
De asemeenea, ne mai intereseaz urmtoarele lucruri:
- s comparm ntre ei salariaii, cu paznicii, lsndu-i la o parte pe manageri;
- s comparm managerii cu non-managerii;
- s comparm simultan mediile celor trei grupuri.
Vom merge n meniu la:

Analyze > Compare Means > One-Way ANOVA


n fereastra Dependent List introducem variabila studiat (salary), iar n cmpul Factor
variabila jobcat. Procednd astfel, ne asigurm c programul va compara mediile celor trei grupuri,
n mod global.
Pentru a compara mediile grupurilor care ne intereseaz, n mod separat, apsm butonul
Contrasts. Caseta de dialog care se deschide ne permite s definim oricte contraste dorim. Noi
avem nevoie de dou contraste, astfel:
- un prim contrast pentru care valorile coeficienilor vor fi: 1 pentru salariai, -1 pentru paznici
i 0 pentru manageri;
- un al doilea contrast pentru care valorile coeficienilor vor fi: 1 pentru salariai, 1 pentru
paznici i -2 pentru manageri.
Pentru a defini un nou contrast, se apas butonul Next.
n final, s apsm butonul Post Hoc pentru a deschide o caseta de dialog pentru testele de
comparaie multipl. Selectm testul Bonferroni, apoi apsm butonul Continue. n final, apsm
OK pentru a rula analiza.
Tabelele de output arat n felul urmtor:
ANOVA
Current Salary
Sum of Squares
df
Between 89438483925.943
2
Groups
Within 48478011510.397 471
Groups
Total 137916495436.340 473

Mean Square
F
Sig.
44719241962.971 434.481
.000
102925714.459

Contrast Tests
Contras
t

Value of Std. Error


Contrast

41

df

Sig. (2tailed)

Current Assume equal


Salary
variances

1 -$3,100.35 $2,023.76

-1.532

471

.126

- $2,999.47
$69,178.1
7
1 -$3,100.35 $568.68

-23.063

471

.000

-5.452

93.072

.000

-17.201

86.389

.000

2
Does not
assume equal
variances

- $4,021.75
$69,178.1
7

Multiple Comparisons
Dependent Variable: Current Salary
Bonferroni
Mean
Std. Error
Sig.
95% Confidence Interval
Difference (IJ)
(I)
(J)
Lower Bound
Upper Bound
Employme Employme
nt
nt
Category Category
Clerical Custodial -$3,100.35
$2,023.76
.379
-$7,962.56
$1,761.86
Manager -$36,139.26
$1,228.35 .000* -$39,090.45
-$33,188.07
Custodial
Clerical
$3,100.35
$2,023.76
.379
-$1,761.86
$7,962.56
Manager -$33,038.91
$2,244.41 .000* -$38,431.24
-$27,646.58
Manager
Clerical $36,139.26
$1,228.35 .000* $33,188.07
$39,090.45
Custodial $33,038.91
$2,244.41 .000* $27,646.58
$38,431.24
* The mean difference is significant at the .05 level.

Analiza n detaliu a cifrelor din aceste tabele o vom face la seminar.


II.

ANOVA multifactorial

S presupunem c ne intereseaz s studiem, n baza de date Employee data.sav, care este


legtura dintre salariul unui angajat, pe de o parte, i variabilele: categorie, sex i minoritate rasial,
pe de alt parte. ntrut variabilele independente sunt categoriale, vom folosi analiza de varian.
42

nainte de a trece la rularea analizei propriu-zise, am creat o nou variabil (gendum), care
codific astfel cele dou sexe: brbai 1, femei 0.
Pentru a rula ANOVA multifactorial, selectm urmtoarea opiune:
Analyze > General Linear Model > Univariate
n cmpul Dependent Variable vom introduce variabila salary, iar n cmpul Fixed Factors,
cele trei variabile independente. Apsm apoi butonul Model. Observm c SPSS-ul ne ofer
posibilitatea de a alege modelul complet, sau de a opta pentru un model modificat. n cazul de fa,
numrul variabilelor fiind redus, vom rmne la modelul full factorial.
S apsm acum butonul Contrasts. Vom cere programului sa ne calculeze contrastele
pentru variabila jobcat (singurul factor cu mai mult de dou nivele). Tipul de contrast ales va fi
Simple, nivelul de referin fiind ultimul 3 (aadar, vom compara managerii cu celelate dou
categorii de anagajai). n final s apsm butonul Post Hoc i s-i cerem programului s realizeze
testele de comparaie multipl pentru aceeai variabil jobcat. Testul ales va fi, la fel ca la analiza
precedent, Bonferroni.
Iat tabelele de output care ne intereseaza, i care vor fi comentate n cadrul orelor de
seminar.
Tests of Between-Subjects Effects
Dependent Variable: Current Salary
Source Type III Sum of Squares
df
Mean Square
F
Corrected
97506289892.260
8 12188286236.532 140.251
Model
Intercept
144392738098.723
1 144392738098.723 1661.526
JOBCAT
20060883718.826
2 10030441859.413 115.420
MINORIT
61989119.657
1
61989119.657
.713
Y
GENDUM
4756876309.700
1 4756876309.700
54.737
JOBCAT *
690053398.059
2
345026699.030
3.970
MINORITY
JOBCAT *
981526335.890
1
981526335.890
11.294
GENDUM
MINORIT
27977363.932
1
27977363.932
.322
Y*
GENDUM
JOBCAT *
.000
0
.
.
MINORITY
*
GENDUM
Error
40410205544.080 465
86903667.837
Total
699467436925.000 474
Corrected
137916495436.340 473
Total
a R Squared = .707 (Adjusted R Squared = .702)

Sig.
.000
.000
.000
.399
.000
.020
.001
.571

Contrast Results (K Matrix)


Dependent Variable
Current Salary

Employment Category
Simple Contrast

43

Level 1 vs. Level 3

Level 2 vs. Level 3

Contrast Estimate
Hypothesized Value
Difference (Estimate Hypothesized)
Std. Error
Sig.
95% Confidence Interval
for Difference
Contrast Estimate
Hypothesized Value
Difference (Estimate Hypothesized)
Std. Error
Sig.
95% Confidence Interval
for Difference

-33946.454
0
-33946.454

Lower
Bound
Upper
Bound

1966.958
.000
-37811.682
-30081.226
-39930.865
0
-39930.865

Lower
Bound
Upper
Bound

2994.148
.000
-45814.603
-34047.128

a Reference category = 3

Multiple Comparisons
Dependent Variable: Current Salary
Mean
Difference (IJ)

Std. Error

(I)
(J)
Employme Employme
nt
nt
Category Category
Bonferroni
Clerical Custodial
-$3,100.35 $1,859.59
Manager -$36,139.26 $1,128.70
Custodial
Clerical
$3,100.35 $1,859.59
Manager -$33,038.91 $2,062.33
Manager
Clerical $36,139.26 $1,128.70
Custodial $33,038.91 $2,062.33

Sig.

.288
.000
.288
.000
.000
.000

Based on observed means.


* The mean difference is significant at the .05 level.

Capitolul 10

Analiza factorial
44

95%
Confidence
Interval
Lower Bound

-$7,568.33
-$38,851.16
-$1,367.63
-$37,994.02
$33,427.35
$28,083.79

Upper
Bound
$1,367.63
-$33,427.35
$7,568.33
-$28,083.79
$38,851.16
$37,994.02

Aspecte teoretice - recapitulare


Atunci cnd la adoptarea unei decizii trebuie luat n considerare un numr foarte mare de
variabile, este convenabil (i adesea posibil) reducerea acestui numr prin gruparea variabilelor
iniiale, fie pe baza corelaiei ridicate (pozitive sau negative), fie pe baza legturii logice dintre unele
variabile. n mod concret, analiza factorial de termin un numr de factori (de regul 2-4) care
sintetizeaz informaia coninut n variabilele de plecare. Fiecare factor este o combinaie liniar
a variabilelor care l alctuiesc:
Fi w1i x1 w2i x 2 ... wki x k

unde wki arat ponderea cu care particip variabila k la formarea factorului i. Ponderile w sunt
calculate astfel nct s fie ndeplinite urmtoarele dou condiii:
- suma ptratelor coeficienilor de corelaie dintre factorul i i variabilele x1-xk s fie
maxim (cu alte cuvinte, fiecare factor s fie puternic corelat cu variabilele care l
compun);
- factorii obinui n final s fie complet necorelai doi cte doi (altfel spus, s fie
ortogonali).
Factorii rezultai n final vor fi definii i interpretai de analist n funcie de corelaia lor cu
diversele variabile iniiale. Trebuie spus aici c analiza factorial reprezint o combinaie de
tehnici obiective i subiective. Programele de analiz statistic prelucreaz datele introduse de
cercettor i rein un numr de factori relevani (dup criteriile pe care le vom vedea ndat),
indicnd coeficienii de corelaie dintre fiecare factor i variabilele care intervin n model. Din
acest moment intr n joc priceperea i discernmntul analistului: el trebuie s stabileasc dac
ntre variabilele corelate exist o legtur logic i, pe aceast baz, s dea fiecrui factor o
interpretare semnificativ i util scopului cercetrii.
Spre exemplu, s presupunem c n cadrul unui recensamnt al populaiei, fiecare cetean este
descris prin variabilele urmtoare: sexul, vrsta, venitul anual, averea, educaia, profesia. n mod
natural, variabilele sex i vrst ar putea fi grupate ntr-un factor demografic, variabilele
venit i avere ntr-un factor care s-ar numi situaie economic iar variabilele educaie i
profesie ntr-un factor numit statut social. Astfel, cele ase variabile iniiale au fost reduse la
45

trei. ntruct n acest exemplu avem de-a face n special cu variabile calitative, gruparea s-a
realizat n funcie de asociaiile logice care se pot face ntre diversele variabile.
Variabilele cu care se lucreaz n analiza factorial sunt variabile cantitative (la fel ca la analiza
de regresie), dei se pot folosi i variabile de tip dummy (care iau valorile 0 i 1).
Rezultatele cheie ale rulrii unei analize factoriale sunt:
-

matricea corelaiilor ntre fiecare factor i variabilele iniiale. Aceste corelaii mai
sunt numite i ncrcrile factorilor (factor loadings). Pe baza acestor corelaii,
analistul va stabili variabilele care intr n definiia fiecrui factor, dup cum se va
arta n exemplul practic de mai jos. Ca regul general, fiecare variabil va fi
atribuit factorului cu care este cel mai puternic corelat (este preferabil ca ncrcarea
s fie de peste 0,50 n valoare absolut);
valorile proprii (eigenvalues) ale fiecrui factor. De regul, programele statistice
rein pentru analiz acei factori ale cror valori proprii sunt mai mari dect 1; totui,
dac dorim, le putem impune s extrag numrul de factori pe care l considerm noi
necesar;
scorurile factorilor, care reprezint de fapt ponderile w cu care intervin variabilele de
plecare n formarea factorilor. Cunoscnd aceste scoruri putem calcula valorile
factorilor pentru fiecare caz din eantion n parte. n acest fel, factorii rezultai pot fi
tratai ca noi variabile. Programul SPSS ofer opiuni de calculare i salvare a
scorurilor factorilor.

Rezultatele care se obin din prima extragere a factorilor sunt de cele mai multe ori confuze
i dificil de interpretat. Acesta este motivul pentru care i cerem programului s roteasc factorii
iniiali, astfel nct noii factori s fie mai bine corelai cu variabilele de plecare i deci mai uor de
interpretat.
Pentru a ilustra grafic rotaia factorilor s considerm un caz ipotetic n care avem de-a face
cu trei variabile iniiale (V1, V2 i V3), pe baza crora analiza factorial a extras doi factori (F1 i
F2). Variabilele iniiale le putem reprezenta ca vectori n spaiul definit de axele de coordonate F1 i
F2 (vezi figura din stnga). Corelaia dintre variabila V1 i factorul F1, de exemplu, este cu att mai
bun cu ct vectorul V1 este mai apropiat de axa F1.
Pe graficul din partea stng se observ c F1 este corelat ntr-o anumit msur cu V1, dar
slab corelat cu V2 i V3. Ct despre F2, el nu este corelat satisfctor cu nici una din cele trei
variabile.
F2
V3

F2
V2

V3

V1

V2
V1

F1
46

F1

Pentru a rezolva aceasta, vom roti axele F1 i F2 n sens invers acelor de ceasornic, ca n figura
din dreapta (respectnd condiia ca axele F1 i F2 s rmn ortogonale, adic factorii s fie
necorelai ntre ei). Se vede clar c n urma rotirii factorul F1 este corelat cu variabilele V1 i
V2, iar factorul F2 cu variabila V3. Interpretarea factorilor are acum mai multe anse s ne ofere
nite informaii utile despre fenomenul analizat.

Analiza factorial i gsete multiple utilizri n cercetarea economic i social.


n primul rnd, reducerea numrului de variabile simplific prezentarea concluziilor raportului
de cercetare: este mult mai uor de parcurs un raport care se concentreaz asupra a doi sau trei
factori eseniali dect unul care ia n discuie 10-20 de variabile. n plus, gruparea variabilelor
poate pune datele ntr-o nou lumin: este posibil ca cercettorul s detecteze corelaii pe care nu
le bnuise mai nainte.
n al doilea rnd, factorii rezultai dintr-o asemenea analiz pot fi folosii mai departe; pot fi
inclui de exemplu ntr-o analiz de regresie, ca noi variabile. Dup cum am artat n seciunea
anterioar, analiza factorial poate fi utilizat pentru a grupa variabilele redundante care intervin
ntr-un model de regresie, eliminnd astfel fenomenul de multicoliniaritate.
n sfrit, o aplicaie foarte util a analizei factoriale este gruparea unitilor populaiei sau
eantionului care prezint valori apropiate ale factorilor. Aceasta este denumit analiz
factorial de tip Q i este folosit n special n cercetarea de marketing, pentru segmentarea
pieei sau pentru construirea hrilor perceptuale (mapping).
47

Analiza factorial n SPSS


Prezentm n cele ce urmeaz modul de rulare a unei analize factoriale cu ajutorul
programului SPSS, folosind datele din fiierul World95.sav. Acest fiier conine o serie de
informaii cantitative i calitative din 109 ri ale lumii, la nivelul anului 1995.
Pentru a rula analiza selectm:
Analyze > Data Reduction > Factor
Variabilele care intr n analiz sunt:
- populatn (populaia rii n mii de locuitori);
- urban (procentajul populaiei din mediul urban);
- lifeexpm (sperana de via a brbailor);
- literacy (procentajul populaiei alfabetizate);
- babymort (mortalitatea infantil);
- gdp_cap (produsul intern brut pe locuitor);
- calories (numrul de calorii zinice asigurate unei persoane).
n continuare vom indica programului opiunile noastre privind numrul de factori reinui i
rotaia factorilor, n felul urmtor:
- pentru prima opiune (numrul factorilor extrai) vom apsa butonul Extraction i vom
selecta alternativa Number of factors. n cmpul respectiv introducem valoarea 2 (dorim
s reinem doi factori pentru analiza noastr). Apoi apsm butonul Continue.
- pentru a doua opiune (rotaia factorilor) apsm butonul Rotation i cerem utilizarea
metodei de rotaie Varimax. Apsm din nou butonul Continue pentru a merge mai
departe.
- n final, apsm butonul Save i selectm ambele opiuni din caseta de dialog respectiv
(Save as variables i Display factor score coeffcient matrix).
Odat ce toate opiunile sunt stabilite, apsm butonul OK pentru a rula analiza.
Iat n continuare tabelele de output rezultate n urma acestei analize.
Total Variance Explained
Initial
Eigenvalue
s

Extraction
Sums of
Squared
Loadings
Compone
Total
% of Cumulativ
Total
nt
Variance
e%
1
4.735
67.638
67.638
4.735
2
1.025
14.650
82.287
1.025
3
.504
7.201
89.488
4
.341
4.871
94.359
5
.226
3.226
97.585
6
.140
1.996
99.581
7 2.930E-02
.419 100.000
Extraction Method: Principal Component Analysis.

48

% of
Variance
67.638
14.650

Rotation
Sums of
Squared
Loadings
Cumulativ
Total
e%
67.638
4.722
82.287
1.038

% of Cumulative
Variance
%
67.455
67.455
14.833
82.287

Acest tabel prezint valorile proprii ale factorilor (coloana a doua). Coloana % of Variance
ne arat n ce msur explic fiecare factor cele cinci variabile de plecare. n coloana Cumulative
% se observ c primii doi factori reinui acoper 82.29% din variana total a variabilelor iniiale,
ceea ce este satisfctor. Analiza poate fi considerat eficient dac factorii reinui explic cel puin
70% din variana total.
Component Matrix
Component
1
-9.031E-02
.841
.936
.894
-.958

2
.989
-.160
.109
7.295E-02
-5.257E-02

.811

-2.736E-02

.876

3.297E-02

Population in thousands
People living in cities (%)
Average male life expectancy
People who read (%)
Infant mortality (deaths per
1000 live births)
Gross domestic product /
capita
Daily calorie intake
Extraction Method: Principal Component Analysis.
a 2 components extracted.

Rotated Component Matrix


Component
1
-3.205E-02
.830
.941
.897
-.960

Population in thousands
People living in cities (%)
Average male life expectancy
People who read (%)
Infant mortality (deaths per
1000 live births)
Gross domestic product / capita
.808
Daily calorie intake
.877
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 3 iterations.

2
.993
-.209
5.361E-02
2.030E-02
3.809E-03
-7.493E-02
-1.856E-02

Cele dou tabele de mai sus prezint coeficienii de corelaie dintre variabile i fiecare din
cei doi factori, nainte i dup rotirea factorilor. Analiznd ambele tabele ajungem uor la
urmtoarele concluzii:
- primul factor este puternic corelat cu toate variabilele, n afar de una singur: mrimea
populaiei;
- al doilea factor este puternic corelat cu mrimea populaiei.
Variabilele cu care este corelat primul factor (procentajul populaiei urbane, sperana de
via, procentajul populaie alfabetizate etc.) sunt indicatori ai standardului de via din ara
49

respectiv. Deci, factorul 1 l putem numi standard de via. n ceea ce privete factorul 2, corelat
doar cu mrimea populaiei, l vom putea numi mrimea rii.
Dup cum se poate observa, rotirea factorilor nu aduce, un acest caz particular, o
mbuntire semnificativ a rezultatelor finale.
Component Score Coefficient Matrix
Component
1
.038
.168
.204
.193
-.205

2
Population in thousands
.964
People living in cities (%)
-.166
Average male life expectancy
.094
People who read (%)
.060
Infant mortality (deaths per 1000
-.039
live births)
Gross domestic product / capita
.169
-.037
Daily calorie intake
.187
.021
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser
Normalization. Component Scores.

n tabelul de mai sus se gsesc coeficienii asociai fiecrei variabile, pentru fiecare factor n
parte. Cu ajutorul acestor scoruri SPSS calculeaz valorile celor doi factori pentru fiecare ar. La
cererea noastr, programul a salvat aceste scoruri n dou variabile separate. innd cont de
semnificaiile celor doi factori, definite anterior, pe prima variabil am numit-o livstan (living
standard), iar pe a doua size (mrimea rii respective). De menionat c scorurile au fost calculate
numai pentru acele ri pentru care nu exist valori lips ale variabilelor considerate n analiz.
Aceste noi variabile pot fi folosite pentru alte analize (de exemplu, o analiz de regresie sau
una de tip ANOVA).

Capitolul 11

Analiza cluster

Aspecte teoretice
Analiza cluster este o clas de tehnici folosite la clasificarea obiectelor i claselor n grupuri
relativ omogene, numite clustere. Mai este denumit analiza clasificrii, analiz tipologic sau
tiina clasificrii numerice.
n analiza de cluster nu exist informaii a priori despre apartenena vreunui obiect la un
grup, nici despre componena grupurilor. Grupurile sau clusterele sunt sugerate de date nedefinite
anterior.
Spre deosebire de analiza factorial, care urmrete redyucerea numrului de variabile,
analiza clasificrii are drept scop sintetizarea datelor prin reducerea numrului de indivizi,
grupndu-i pe acetia n clase.
Etapele rulrii unei analize cluster sunt urmtoarele:
50

1. Alegerea variabilelor folosite la analiz. Aceste variabile pot fi de tip metric, interval,
categorial, binomial.
2. Stabilirea indicatorilor de proximitate ntre indivizi. Pe baza acestor indicatori vor fi
create ulterior clusterele. Pentru variabilele metrice sau interva, se poate folosi distana
euclidian sau alte tipuri de distane (Minkowski, city block etc.). Dac avem de-a face
cu variabile categoriale, se folosete n general hi ptrat ca msur a disimilaritii.
Pentru datele binomiale, SPSS-ul ne pune la dispoziie cca 30 de metode de msurare a
distanei (proximitii).
3. Alegerea metodei de formare clusterelor. Aceasta va depinde n mod esential de tipul de
clasificare ales. Exist dou categorii de analize cluster: ierarhic i neierarhic (sau
nodal). n cazul analizei ierarhice, numrul de clustere nu este cunoscut dinainte, ci
urmeaz a se stabili ulterior. Pentru acest tip de analiz exist 7-8 metode (algoritmi) de
formare a grupurilor, printre care: legtur inter-grupuri, legtur intra-grupuri, metoda
vecinului cel mai apropiat, metoda Ward etc. Clasificarea neierarhic, n schimb,
presupune stabilirea anticipat a numrului de clustere, urmnd ca analiza s identifice
indivizii din fiecare cluster. Pentru acest tip de analiz exist dou metode de clasificare:
clasificare simpl, pe de o parte, i iteraie i clasificare, pe de alt parte. n general, este
bine ca la clasificarea neierarhic s se lucreze cu variabile standardizate, mai ales dac
variabilele iniiale au uniti de msur foarte diferite.
4. Definirea i etichetarea (numirea) clusterelor. Aceasta se face , un general, studiind
caracteristicile fiecrui cluster i descriind un profil al indivizilor din fiecare grup un
parte.
5. Validarea clusterelor. Muli analiti evit aceast ultim etap, deoarece este dificil i nu
exist o metod standard pentru realizarea sa. O posibil metod de validare este aceea
de a aplica o analiz de discriminant pentru clusterele formate i a vedea dac aceste
clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor folosite
iniial n clasificare.
n cele ce urmeaz vom da dou exemple de realizare a analizei cluster, pentru fiecare din
cele dou categorii: ierarhic i nodal.

Realizarea analizei cluster n SPSS


Vom rula o analiz cluster de tip ierarhic pe o baz de date numit judete.sav, care cuprinde
o serie de date economico-sociale despre judeele rii i despre municipiul Bucureti. Din cele 23
de variabile prezente n fiier, am ales pentru analiza cluster circa 10, printre care: populaia,
suprafaa, efectivul salariailor, salariul brut, numrul omerilor etc. Vom apela urmtoarea
comand:
51

Analyze > Classify > Hierachical Cluster


Variabilele de analiz vor fi introduse un cmpul Variable(s). Pentru a alege metoda de
grupare, se apas butonul Method. Dintre metodele propuse de SPSS, vom alege Between-group
linkage (gruparea poate fi realizat succesiv prin mai multe metode i compara eficiena fiecreia).
ntrucd datele folosite de noi sunt de tip numeric, vom utiliza ca indicator de proximitate distana
euclidian.
S apsm acum butonul Statistics, pentru a preciza o serie de aspecte legate de outputul
final. n cadranul Cluster Membership selectm opiunea Range of solutions, iar n cmpurile From
i Through introducem valorile 2 i 4, respectiv. Aceasta nseamn c i cerem programului s ne
indice apartenena judeelor la fiecare cluster pentru trei tipuri de soluii posibile, avnd fiecare 2, 3
i 4 grupuri respectiv.
n final, s apsm butonul Save pentru a-i cere programului s salveze ca variabile soluiile
finale, cu 2, 3 i 4 grupuri respectiv (selectm exact aceleai opiuni ca la butonul Statistics).
Tabelul cel mai important care se obine n urma realizrii analizei de cluster de tip ierarhic
este cel de mai jos:
Cluster Membership
Case
1:teleorman
2:mehedinti
3:olt
4:arges
5:valcea
6:botosani
7:suceava
8:iasi
9:neamt
10:vaslui
11:bacau
12:vrancea
13:covasna
14:galati
15:braila
16:buzau
17:tulcea
18:harghita
19:constanta
20:calarasi
21:giurgiu
22:prahova
23:ilfov
24:dolj
25:bucuresti
26:mures
27:brasov
28:ialomita
29:bistritanasaud
30:dambovita
31:gorj

4 Clusters
1
2
1
3
1
1
3
3
1
1
3
1
2
3
1
1
2
2
1
2
2
3
2
3
4
3
3
2
2

3 Clusters
1
1
1
2
1
1
2
2
1
1
2
1
1
2
1
1
1
1
1
1
1
2
1
2
3
2
2
1
1

2 Clusters
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1

1
1

1
1

1
1

52

32:sibiu
33:maramures
34:cluj
35:hunedoara
36:satu-mare
37:alba
38:bihor
39:carasseverin
40:timis
41:arad
42:salaj

1
1
3
1
1
1
3
2

1
1
2
1
1
1
2
1

1
1
1
1
1
1
1
1

3
1
2

2
1
1

1
1
1

Acest tabel ne indic apartenena fiecrui jude la un cluster, pentru cele trei soluii posibile
(2-4 clustere). Se observ c n fiecare situaie municipiul Bucureti aparine unui cluster separat.
Alte tabele, precum i dendrograma, vor fi discutate la orele de seminar.
n afar de generarea tabelelor, SPSS-ul a respectat opiunea noastr de a salva apartenena
fiecrui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite
pentru a studia ulterior clusterele formate.
S rulm n cele ce urmeaz o analiz cluster de tip nonierarhic. Vom folosi pentru aceasta
datele din fiierul World995.sav. Variabilele alese pentru analiz sunt: populaia, procentajul
locuitorilor de la orae, sperana de via pentru brbai i femei, procentajul populaiei alfabetizate,
PNB-ul pe locuitor i numrul mediu de calorii asigurat zilnic unei persoane. ntruct unitile de
msur sunt foarte diferite, am standardizat n prealabil toate aceste variabile. Pentru a realiza
analiza, vom apela comanda:
Analyze > Classify > K-Means Cluster
Mai nti vom introduce n cmpul Variables valorile standardizate generate anterior, iar n
cmpul Label Cases by vom introduce variabile country.
Numrul de opiuni disponibil aici este mult mai mic dect cel de la analiza tipologic
ierarhic. n cmpul Number of clusters introducem valoarea 3 (aadar, i impunem programului) s
genereze trei grupuri). Metoda de grupare aleas va fi Iterate and classify. Rmne acum s
precizm o serie de elemente ale outputului final, astfel:
- apsm butonul Save i selectm opiunea Cluster membership (aceasta nseamn c
programul va salva apartenena la clustere ntr-o variabil categorial);
- apsm butonul Options i selectm opiunea Cluster information for each case.
Iat cele mai importante tabele generate de aceast analiz cluster.
Cluster Membership
Case
Number
1
2
3
4
5

COUNTRY

Cluster

Distance

Afghanistan
Argentina
Armenia
Australia
Austria

.
2
.
2
2

.
1.215
.
1.349
1.665

53

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

Azerbaijan
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Bolivia
Bosnia
Botswana
Brazil
Bulgaria
Burkina Faso
Burundi
Cambodia
Cameroon
Canada
Cent. Afri.R
Chile
China
Colombia
Costa Rica
Croatia
Cuba
Czech Rep.
Denmark
Domincan R.
Ecuador
Egypt
El Salvador
Estonia
Ethiopia
Finland
France
Gabon
Gambia
Georgia
Germany
Greece
Guatemala
Haiti
Honduras
Hong Kong
Hungary
Iceland
India
Indonesia
Iran
Iraq
Ireland
Israel
Italy
Japan
Jordan
Kenya
Kuwait

54

.
.
3
.
.
.
3
.
3
2
.
3
3
3
3
2
3
2
1
2
2
.
.
.
2
2
2
3
3
.
3
2
2
3
.
.
2
2
3
3
3
.
2
.
1
3
3
2
2
.
2
2
2
3
2

.
.
1.470
.
.
.
1.560
.
1.298
2.416
.
2.137
1.780
1.485
.353
1.779
2.452
1.572
1.383
1.619
1.806
.
.
.
1.731
2.191
1.937
2.136
1.717
.
2.027
1.217
1.680
.884
.
.
1.520
1.437
1.219
1.695
1.838
.
1.351
.
1.383
1.959
2.394
2.145
1.439
.
1.490
1.884
1.711
.840
1.367

61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109

Latvia
Lebanon
Liberia
Libya
Lithuania
Malaysia
Mexico
Morocco
N. Korea
Netherlands
New Zealand
Nicaragua
Nigeria
Norway
Oman
Pakistan
Panama
Paraguay
Peru
Philippines
Poland
Portugal
Romania
Russia
Rwanda
S. Korea
Saudi Arabia
Senegal
Singapore
Somalia
South Africa
Spain
Sweden
Switzerland
Syria
Taiwan
Tanzania
Thailand
Turkey
U.Arab Em.
UK
USA
Uganda
Ukraine
Uruguay
Uzbekistan
Venezuela
Vietnam
Zambia

.
.
3
2
.
2
2
.
.
2
2
3
3
2
.
.
2
2
3
3
.
.
2
.
3
.
2
3
2
3
.
2
2
2
.
.
3
3
2
.
2
2
3
.
2
.
2
3
3

.
.
.924
2.065
.
1.954
1.086
.
.
1.497
1.091
1.590
.531
1.430
.
.
1.761
1.787
2.356
2.055
.
.
1.397
.
2.098
.
1.665
.885
1.438
1.625
.
1.098
1.407
2.259
.
.
2.016
2.431
1.253
.
1.306
2.816
2.259
.
1.523
.
1.645
2.014
1.898

Acest tabel ne arat n ce cluster se afl fiecare ar (numai pentru rile pentru care nu exist
date lips), precum i distana (n abateri standard) de la fiecare ar la centrul clusterului cruia i
aparine.
55

Final Cluster Centers


Zscore: Population in thousands
Zscore: People living in cities (%)
Zscore: People who read (%)
Zscore: Gross domestic product / capita
Zscore: Daily calorie intake
Zscore: Average female life expectancy
Zscore(LIFEEXPM) Average male life
expe

Cluster
1
6.88817
-1.26130
-.58281
-.85403
-.56325
-.58230
-.26070

2
-.10045
.66244
.53741
.61702
.65015
.64508
.65596

3
-.09917
-.97875
-.97188
-.77073
-.87343
-1.14375
-1.13562

Acest tabel conine distanele dintre media fiecrui cluster i media general, exprimat n
abateri standard. De exemplu, se observ c grupul 1 cuprinde ri cu populaie mare i foarte mare
media populaiei lor este cu 6.88 abateri standard mai mare dect media general iar grupurile 1
i 2 cuprind ri cu populaie mai redus media populaiei lor este cu 0.10, respectiv 0.01 abateri
standard mai mic dect media general.
Distances between Final Cluster Centers
Cluster
1
2
3
1
7.732
7.088
2
7.732
3.953
3
7.088
3.953

Acest tabel ne arat ct de apropiate (asemntoare) sau ndeprtate (diferite) sunt grupurile.
Se observ c grupurile cele mai asemntoare sunt 2 i 3, iar cele mai diferite sunt 1 i 2.
Number of Cases in each Cluster
Cluster
1
2.000
2
41.000
3
31.000
Valid
74.000
Missing
35.000

Tabelul acesta indic numrul de cazuri aflate n fiecare cluster i nu necesit, credem,
explicaii suplimentare.
La cererea noastr, SPSS-ul a creat i o variabil categorial special, care indic apartenena
fiecrei ri la unul din clustere. Aceast variabil poate fi folosit pentru a face diferite tipuri de
analize cu privire la fiecare grup descoperit prin analiza cluster.

Capitolul 12

Analiza discriminantului
Aspecte teoretice
Analiza discriminantului este o tehnic statistic de tip explicativ dei poate fi inclus i n
categoria celor descriptive. Ea are rolul de a analiza dou sau mai multe grupruri disctincte i a
56

stabili care sunt variabilele care difereniaz cel mai bine grupurile respective. Aadar, spre
deosebire de analiza cluster, la analiza discriminantului grupurile pentru care se face analiza sunt
cunoscute (definite) dinainte.
n cercetrile sociale (respectiv n analiza resurselor umane), analiza discriminantului poate
rspunde la ntrebri de tipul:
- prin ce anume difer angajaii brbai dintr-o firm de angajaii femei?
- prin ce difer agenii de vnzri performani de cei neperformani?
- exist diferene de performan ntre angajaii familiti i cei nefamiliti?
n analiza discriminant intervin dou tipuri de variabile: o variabil dependent (sau de
grupare) i una sau mai multe variabile independente. Variabile de grupare este de tip categorial, iar
variabilele independente sunt metrice sau binomiale, i ar trebui s fie distribuite normal.
Analiza discriminantului este de dou categorii: pe dou grupuri, atunci cnd variabila
dependent are dou categorii, i multipl, caz n care variabila dependent are trei sau mai multe
categorii.
Discriminarea dintre grupuri se face cu ajutorul unei combinaii liniare a variabilelor
independente, numit funcie discriminant, de forma:
D b0 b1 X 1 b2 X 2 b3 X 3 ... bk X k

unde D este scorul discriminant, X sunt variabilele independente, iar b coeficienii funciei
discriminant.
Coeficienii b sunt estimai astfel nct grupurile s difere maxim posibil in ceea ce privete
valorile funciei discriminant. Aceasta are loc atunci cnd raportul dintre suma ptratelor intergrupuri i suma ptratelor intra-grupuri este maxim i din orice alt combinaie liniar a predictorilor
va rezulta un raport mai mic.
Principalii indicatori statistici care rezult n urma unei analize a discriminantului sunt:
- testul F pentru compararea mediilor grupurilor;
- corelaia ntre scorurile discriminant i fiecare variabil n parte;
- coeficienii funciei discriminant;
- testul lambda al lui Wilks, care ne arat puterea funciei discriminant;
- centroizii grupurilor.

Analiza discriminantului n SPSS


n cele ce urmeaz vom efectua o analiz a discrminantului pe dou grupuri, folosind
variabilele din fiierul Employee data.sav. Dorim s vedem n ce msur difer brbatii i femeile
din banc, din punctul de vedere al urmtoarelor variabile: salariul actual, nivelul de educatie,
vechimea n banc (la actualul loc de munc), vechimea la angajare.
nainte de analiza propriu-zis, am transformat variabila gender ntr-o variabil de tip
dummy (0 femei, 1 brbai) denumit de noi gendum.
Analiza discriminantului se apleaz cu ajutorul comenzii:
Analyze > Classify > Discriminant
Variabila gendum va fi variabila dependent, iar variabilele independente sunt cele
enumerate mai sus. Ele se introduc n cmpurile corespunztoare. Ca metod de analiz alegem
57

metoda direct (Enter independents together). Aceasta nseamn c variabilele independente vor fi
introduse simultan n model, indiferent de puterea lor de discriminare.
Pentru ca SPSS-ul s ne furnizeze datele statistice eseniale pentru analiza modelului,
apsm butonul Statistics i selectm urmtoarele: n chenarul Descriptives, opiunea Univariate
ANOVAs, iar n chenarul Function Coefficients, opiunea Unstandardized. Apsm n continuare
butonul Classify i selectm opiunea Summary Table din chenarul Display.
n final, pentru a salva scorurile discriminat, precum i apartenena fiecrui caz la un grup
anume, apsm butonul Save i selectm dou opiuni din caseta de dialog care apare: Predicted
group membership i Discriminant scores.
Iat principalele tabele pe care ni le furnizeaz programul SPSS.
Tests of Equality of Group Means
Wilks'
F
Lambda
Current Salary
.798 119.798
Educational Level
.873
68.495
(years)
Months since Hire
.996
2.094
Previous
.973
13.186
Experience (months)

df1

df2

Sig.

1
1

472
472

.000
.000

1
1

472
472

.148
.000

Acest tabel ne arat care sunt variabilele pentru care exist diferene ntre grupuri, ca medie.
Se observ c singura variabil pentru care nu exist diferene este Months since Hire.
Structure Matrix
Function
1
Current Salary
.838
Educational Level (years)
.634
Previous Experience
.278
(months)
Months since Hire
.111
Pooled within-groups correlations between discriminating variables and
standardized canonical discriminant functions Variables ordered by absolute size of
correlation within function.

Matricea de structur ne arat corelatiile dintre scorurile discriminant i fiecare variabil n


parte. Cu ct aceast corelaie este mai mare, cu att variabila respectiv discrimineaz mai bine cele
dou grupuri.
Canonical Discriminant Function Coefficients
Function
1
Current Salary
.00004614
Educational Level (years)
.146
Months since Hire
.006
Previous Experience
.005
(months)
(Constant)
-4.576
Unstandardized coefficients

58

Tabelul de mai sus conine coeficienii nestandardizati ai funciei discriminant. Cu ajutorul


acestor coeficieni sunt calculate scorurile discriminant.
Functions at Group Centroids
Function
GENDUM
1
0
-.656
1
.549
Unstandardized canonical discriminant
functions evaluated at group means

Centroizii fiecrui grup nu sunt altceva dect mediile scorurilor discriminant pentru fiecare
grup.

Wilks' Lambda
Test of
Function(s)
1

Wilks' Chi-square
Lambda
.734 145.026

df

Sig.

.000

Testul lambda al lui Wilks este foarte important pentru analiza discriminantului. El ne arat
proporia din variana total care nu este explicat de diferenele dintre grupruri (n cazul nostru,
73%). Sig-ul din ultima coloan ne arat dac exist diferene semnificative ntre centroizii celor
dou grupuri.
Classification Results
Predicted Group
Membership
GENDUM
0
Original Count
0
173
1
97
%
0
80.1
1
37.6
a 70.5% of original grouped cases correctly classified.

Total
1
43
161
19.9
62.4

216
258
100.0
100.0

Tabelul de mai sus ne arat, untr-o form sintetic, apartenea cazurilor din eantion la un
grup sau altul. Vom comenta acest tabel pe larg la seminar.

59