Rolul acestui scurt capitol introductiv este acela de a readuce n memoria studentului
principalele comenzi din programul statistic SPSS programul cu care se va lucra n cadrul cursului
de Metode cantitative.
Informaiile cuprinse n acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim
desigur de la premisa c toi studenii tiu s utilizeze sistemul de operare Windows, fie i numai la
nivel elementar.
Programul SPSS 10.0 conine zece meniuri. Prezentm n continuare coninutul fiecruia
dintre acestea.
File cuprinde n special comenzile utilizate pentru crearea unor documente noi i
deschiderea sau salvarea documentelor create anterior
Edit cuprinde comenzile utilizate pentru editarea documentelor (tergere, copiere, lipire
etc.)
View din acest meniu se pot seta caracteristicile vizuale ale documentelor
Data cu ajutorul comenzilor acestui meniu se realizeaz o serie de operaiuni de baz
asupra datelor statistice (inserare, sortare, agregare, fuzionare fiiere etc.)
Transform cuprinde comenzi utilizate pentru transformri (cantitative sau calitative) ale
datelor (crearea de noi variabile plecnd de la cele existente, recodificarea datelor,
ierarhizarea datelor etc.)
Analyze n acest meniu se gsesc toate comenzile necesare pentru realizarea analizelor
statistice
Graphs este meniul n care se gsesc comenzile pentru grafice (SPSS permite realizarea
ctorva zeci de tipuri de grafice)
Utilities este un meniu pe care nu-l vom folosi la acest curs. El cuprinde n special
comenzi care permit automatizarea facilitilor din SPSS
Window permite manipularea ferestrelor n care este deschis programul SPSS
Help asigur accesul la asistena (ajutorul) pentru utilizatori
ntruct meniul Analyze va fi de departe cel mai utilizat n cadrul acestui curs, vom detalia
n continuare comenzile existente n acest meniu.
Reports este un submeniu care conine comenzi pentru elaborarea rapoartelor sintetice
asupra datelor
Descriptive Statistics comenzile din acest submeniu se folosesc n principal pentru
generarea indicatorilor statistici pentru variabilele studiate
Custom Tables submeniu folosit atunci cnd dorim sa construim tabele pornind de la
datele dintr-un fiier
1
Capitolul 2
3. boltirea (kurtosis), care ne arat ct de mult variaz scorurile. O distribuie turtit (sau
aplatizat) prezint toate valorile posibile ale scorurilor, de la cele mai mici la cele mai
mari, pe cnd n cazul unei distribuii ascuite scorurile variaz mai puin (valorile extreme
au frecvene de apariie reduse).
II. Indicatorii (parametrii) unei distribuii
Aceti indicatori se mpart n dou mari categorii: indicatorii tendinei centrale i indicatorii
mprtierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie.
x n
m
n
i
B. Indicatorii mprtierii
Cel mai des folosit indicator al mprtierii unei variabile este dispersia sau variana. Ea este
notat cu 2 sau uneori cu Var i se calculeaz cu formula:
4
(x
m) 2
N 1
sau:
( x m) n
n 1
2
Cu ct valoarea dispersiei este mai mare, cu att distribuia respectiv este mai mprtiat.
Abaterea ptratic sau abaterea standard nu este altceva dect rdcina ptrat a dispersiei:
2
Aceast eroare standard reprezint de fapt abaterea mediilor tuturor eantioanelor de acelai
volum n de la media populaie totale. Pentru a determina un interval de ncredere al acestei din urm
medii, cu un nivel de ncredere de 95%, vom calcula:
m 1.96 * m
unde m este media eantionului nostru.
III. Distribuia normal
Cunoscut i sub denumirea de distribuia Gauss-Laplace, distribuia normal este fr
ndoial cea mai important dintre toate tipurile de distribuie ntlnite n statistic. Principala sa
caracteristic: curba frecvenelor se prezint sub form de clopot (de unde i denumirea de clopotul
lui Gauss). Iat formula prin care se exprim legea normal:
p( x)
2
5
( xm)2
2 2
unde p(x) este probabilitatea (frecvena) de apariie a unei valori oarecare x, iar m i sunt deja
notaii familiare (media i abaterea ptratic a distribuiei). Aadar, aceti doi parametri (media i
abaterea standard) definesc complet o distribuie normal. S mai spunem c distribuia normal de
~
xm
Se observ c acest scor are un caracter sintetic, reunind ntr-o singur formul media i
abaterea standard a distribuiei. Scorurile z nu au unitate de msur. Tocmai acest lucru face
posibil compararea sau adunarea lor.
Distribuia scorurilor z se numete distribuie normal standard (sau normat). Ea are media
~
SPSS-ul deschide o caset de dialog (o vom vizualiza atunci cnd vom face aplicaiile
practice). Alegem pentru analiz variabila salary i apsm butonul Statistics. Ni se deschide o nou
caset de dialog n care selectm rmtoarele opiuni pentru calcul: Quartiles, Mean, Median, Mode,
Std. Deviation (abaterea standard), Variance, S.E. mean (abaterea de selecie), Skewness, Kurtosis.
Apsm butonul Continue i apoi butonul OK.
n fiiereul de output SPSS-ul ne prezint rezultatele urmtoare:
-
tabelul frecvenelor pentru variabila salary (redm aici doar o mic parte a lui, pentru
economie de spaiu):
Current Salary
Frequency Percent
Valid
$15,750
$15,900
$16,200
$16,350
$16,500
$16,650
$16,800
$16,950
$17,100
$17,250
Total
1
1
3
1
1
1
1
3
2
1
474
.2
.2
.6
.2
.2
.2
.2
.6
.4
.2
100.0
Valid Cumulative
Percent
Percent
.2
.2
.2
.4
.6
1.1
.2
1.3
.2
1.5
.2
1.7
.2
1.9
.6
2.5
.4
3.0
.2
3.2
100.0
n prima coloan se gsesc valorile variabilei, n cea de-a doua frecvenele absolute, iar n
cea de-a treia frecvenele relative (n procente). Ultima coloan prezint frecvenele relative
cumulate.
Din acest tabel se poate vedea, de exemplu, c nivelul salariului de 16950 de dolari apare la
trei salariai, reprezentnd 0.6% din totalul salariailor.
-
Valid
Missing
Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Percentiles
25
50
75
474
0
$34,419.57
$784.31
$28,875.00
$30,750
$17,075.66
$291,578,214.45
2.125
.112
5.378
.224
$24,000.00
$28,875.00
$37,162.50
Mean
Statistic
$34,419.57
Std. Error
$784.31
Std. Deviation
Statistic
$17,075.66
Current
Salary
Descriptives
Gender
Female
Statistic
$26,031.92
Mean
Lower
Bound
Upper
$25,018.29
$27,045.55
Std. Error
$514.26
Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Male
Mean
95% Confidence Interval for
Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Lower
Bound
Upper
Bound
$25,248.30
$24,300.00
57123688.268
$7,558.02
$15,750
$58,125
$42,375
$7,012.50
1.863
4.641
$41,441.78
$39,051.19
.166
.330
$1,213.97
$43,832.37
$39,445.87
$32,850.00
380219336.303
$19,499.21
$19,650
$135,000
$115,350
$22,675.00
1.639
2.780
.152
.302
Current Salary
Tests of Normality
Kolmogorov-Smirnov
Gender
Statistic
Female
.146
Male
.208
df
216
258
Sig.
.000
.000
n sfrit, figura de mai jos prezint graficul boxplot pentru variabila salary, pe cele dou
segmente de angajai studiate (brbai i femei).
160000
140000
29
120000
32
18
343
446
103
34
106
454
431
100000
80000
Current Salary
60000
371
348
468
240
72
80
168
413
277
134
242
40000
20000
0
N=
216
258
Female
Male
Gender
10
Total
Gender
Female
Male
206
157
363
Total
10
74
84
27
27
216
258
474
Dup cum se poate observa, marea majoritate a managerilor sunt brbai (74), iar
femeile sunt mult mai puin reprezentate n structurile de conducere (numai 10).
IV. Crearea de rapoarte sintetice
Opiunea Reports din meniul Analyze conine o serie de comenzi care permit crearea unei
mari varieti de rapoarte. Noi nu vom intra n toate detaliile aici, ci vom genera doar un raport
sintetic privind principalii indicatori ai variabilei salary, att pe subgrupul brbailor ct i pe cel al
femeilor.
Vom selecta opiunile:
Analyze > Reports > Case Summaries
n cmpul Variables vom introduce variabile de studiu (salary), iar n cmpul Grouping
Variable(s), variabile gender. Apoi vom deselecta opiunea Limit cases to first pentru a-i cere
programului s calculeze indicatorii pentru toate cazurile din eantion, precum i opiunea Display
cases (pentru a evita afisarea valorii variabilei la fiecare caz n parte). n continuare apsm butonul
Statistics i cerem s fie generai pentru fiecare subgrup urmtorii indicatori: numrul de cazuri
(deja selectat), media, mediana i abaterea standard. Apoi apsm butoanele Continue i OK.
Tabelul de mai jos, care conine rezultatul final al analizei, nu are nevoie de prea multe explicaii.
Case Summaries
Current Salary
Gender
N
Female
216
Male
258
Total
474
Mean
$26,031.92
$41,441.78
$34,419.57
Median
$24,300.00
$32,850.00
$28,875.00
Std. Deviation
$7,558.02
$19,499.21
$17,075.66
Capitolul 3
Corelaia
(x
m1 )( x 2 m 2 )
n 1 2
unde cu m i s-au notat mediile, respectiv abaterile standard ale celor dou variabile, iar cu n
numrul de cazuri din eantion.
Coeficientul de corelaie poate lua valori cuprinse n intervalul [-1; 1]. Analiza sa
presupune luarea n calcul a trei elemente:
valoarea absolut a coeficientului. Cu ct aceasta este mai aproape de 1, cu att
corelaia este mai strns. Valoarea 0 (zero) nseamn absena oricrei corelaii.
semnul coeficientului. Valorile pozitive indic o legtur direct ntre variabile, iar
valorile negative o legtur indirect.
semnificaia coeficientului. Aceasta poate fi determinat cu ajutorul testului t.
Valoarea acestui test pentru coeficientul de corelaie se calculeaz cu formula:
t
n2
1 2
6 Di2
n(n 2 1)
S n2
1 S 2
2C
n n
2
unde cu C am notat aici suma scorurilor pentru toate cele n(n-1)/2 combinatii posibile. Scorul este
considerat +1 ori de cte ori o combinaie este concordant (are acelai clasament) i -1 ori de cte
ori o combinaie este discordant (clasamentele difer).
Coeficientul lui Kendall ia valori ntre -1 i 1. Interpretarea sa este exact la fel ca aceea a
coeficientului Pearson.
Correlations
13
.
474
Current
Salary
1.000
Kendall's
tau_b
Educational
Level (years)
.554
.000
474
1.000
.
474
.688
.000
474
1.000
.
474
Primul tabel conine valoarea coeficientului Pearson, iar cel de-al doilea valorile
coeficienilor de corelaie neparametrici.
Interpretarea n detaliu a datelor din aceste tabele va fi fcut la seminar. Aici dorim doar s
subliniem urmtorul lucru; pentru fiecare coeficient de corelaie, SPSS-ul calculeaz automat
valoarea Sig, cu ajutorul creia putem stabili dac respectivul coeficient este semnificativ sau nu.
Dac parametrul Correlation Sig. este mai mic dect nivelul de semnificaie ales iniial de noi (de
regul 5%), atunci putem accepta faptul c avem de-a face cu o corelaie semnificativ statistic.
Dup cum se poate observa, programul SPSS marcheaz cu dou asteriscuri (**) valorile
semnificative la un nivel de 0.01 (sau 1%). Valorile semnificative la un nivel de 0.05 (sau 5%) sunt
marcate cu un singur asterisc (*).
Capitolul 4
Teste statistice
14
m
m
unde m este media eantionului, este media ntregii populaii, iar m este abaterea de selecie
(explicat n capitolul 2).
Dac trebuie s comparm mediile a dou grupuri diferite, vom folosi urmtoarea formul:
zc
m1 m2
m1 m 2
nde m1 i m2 sunt mediile celor dou eantioane, iar la numitor se gsete o abatere ptratic
(estimat) a diferenelor dintre aceste medii, calculat astfel:
m1 m 2
12 22
n1 n2
m
sm
s
n
m1 m2
s m1m 2
1
1
n1 n 2
s12 (n1 1) s 22 (n 2 1)
n1 n 2 1
16
d
sd / n
unde d este media diferenelor di dintre valorile perechi, iar sd este abaterea ptratic a acestor
diferene.
Current
Salary
-2.015
df
Sig. (2tailed)
473
Mean
Difference
.044 -$1,580.43
Upper
-$39.27
Coloana a patra a acestui tabel este cea mai important, deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este urmtoarea: dac valoarea
lui Sig. din aceast coloan este mai mic dect nivelul de semnificaie ales de noi, atunci vom
respinge ipoteza nul (cu alte cuvinte, vom afirma c ntre cele dou valori exist o diferen
semnificativ); n caz contrar, vom accepta ipoteza nul.
17
ntruct avem 0.044<0.05 vom respinge ipoteza nul i vom spune c salariul mediu pe
eantion este semnificativ diferit de salariul mediu pe populaia total, cu un nivel de ncredere de
95%. Aadar, eantionul nu poate fi considerat reprezentativ din acest punct de vedere.
B. Testul t bivariat pentru dou eantioane independente
S presupunem, c dorim s verificm dac salariul mediu al brbailor din banc este
semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe eantioane
independente, apelat cu comanda:
Analyze > Compare Means > Independent-Samples T Test
n fereastra Test Variables vom introduce din nou variabila salary, iar n cmpul
Grouping Variable vom introduce variabila gender. Observm c se activeaz butonul Define
Groups. Dac l apsm se deschide o nou caset de dialog. Aici, n cmpul Group 1 vom
introduce m (fr asteriscuri), iar n cmpul Group 2 vom introduce f (deasemenea fr
asteriscuri). Apsm butonul Continue i observm c n cmpul Grouping Variable din prima
caset de dialog apare: gender(m f). n acest fel am definit cele dou eantioane. Apsm OK
pentru a rula analiza.
Iat o poriune (cea mai relevant) din tabelul de analiz pe care ni-l furnizeaz SPSS-ul:
Sig.
df
Sig. (2-tailed)
.000
10.945
472
.000
11.688
344.262
.000
Std.
Deviation
df
Sig. (2tailed)
Std. Error
Mean
$496.73 35.036
473
.000
S privim ultima coloan: avem acolo valoarea parametrului Sig, utilizat pentru aprecierea
semnificaiei statistice. ntruct acest parametru este mai mic dect 0.05, vom deduce c ntre
salariul actual i cel iniial exist o diferen semnificativ. Media acestei diferene pentru populaia
total (17403.48 dolari) poate fi gsit din coloana a treia a tabelului.
Capitolul 5
Se pot ntlni n practic foarte multe situaii n care, nainte de a trece la analiza statistic
propriu-zis, este necesar s operm o serie de transformri sau modificri asupra datelor i/sau
variabilelor din baza de date. Aceasta se ntmpl fie din cauz c analistul este interesat doar de un
anumit segment al datelor (un anumit subgrup din populaia total), fie din cauz c informaiile din
baza de date nu sunt prezente n forma cea mai convenabil pentru analist.
Iat cteva posibile exemple de astfel de situaii:
dorim s analizm corelaia dintre anumite variabile pe un singur segment al angajailor
(de pild, numai pentru angajaii brbai);
dorim s obinem anumite informaii statistice, simultan, pentru mai multe segmente de
angajai (de exemplu, att pentru brbai, ct i pentru femei) n scopul de a compara mai
uor aceste informaii;
dorim s creem o nou variabil pornind de la una sau mai multe variabile deja existente
(de exemplu, avem numrul de ore lucrate pe lun i salariul orar, i dorim s le nmulim
pentru a calcula salariul lunar);
dorim s transformm o variabil numeric ntr-una categorial (de exemplu, pentru a-i
mpri pe angajai n trei grupuri: cu salarii mici, medii i mari);
19
dorim s sortm datele dup un anumit criteriu (de exemplu, s-i sortm pe angajai n
funcie de nivelul de educaie).
n continuare, vom vedea cum se rezolv efectiv problemele de acest fel cu ajutorul
facilitilor disponibile n programul SPSS. Baza de date folosit va fi, ca i n capitolele precedente,
Employee data.sav.
Sortarea datelor
Este una din cele mai simple operaiuni cu datele. Ea ne permite s sortm cazurile din baza
de date, ascendent sau descendent, n functie de variabila pe care am ales-o. Aceast variabil poate
fi numeric sau categorial.
Sortarea se realizeaz apelnd comanda:
Data > Sort Cases
n fereastra din dreapta a casetei de dialog se introduc variabilele dup care se face sortarea.
Dac dorim, de exemplu, s-i sortm pe angajati dup saalriu i categorie, un ordine ascendent),
vom selecta variabilele salary i jobcat, precum i opiunea Ascending. La final, angajaii se vor
regsi grupai pe cele trei categorii profesionale (funcionari, salariai, manageri), iar n cadrul
fiecrei categorii vor fi ierarhizai n ordinea cresctoare a salariilor.
Sortarea este util, de exemplu, dac dorim s aplicm procedura Explore (vezi capitolul 2)
pe un grup anume de angajai de exemplu, cei care au salariul mai mic sau cel mult egal cu 50000
de dolari pe an. Prin comanda Sort Cases vom ordona angajaii dup salariu, n mod ascendent, iar
apoi vom rula procedura Explore numai pentru acele cazuri care ndeplinesc condiia noastr.
Selectarea cazurilor
S presupunem n cele ce urmeaz c ne intereseaz, dintr-un anumit motiv, s rulm o serie
de analize statistice numai pentru angajaii de sex masculin. n acest caz va trebui ca din eantion s
selectm doar salariaii care aparin acestui grup. Pentru a face acest lucru vom folosi comanda:
Data > Select Cases
SPSS-ul deschide o caset de dialog pentru selectare. n partea dreapt vom alege opiunea
If condition is satisfied i vom apsa butonul If. Se deschide o nou caset n care vom introduce
condiia noastr sub forma: gender=m (aadar, urmeaz s fie reinui doar salariaii brbai).
Apsm butonul Continue i apoi OK.
Observm c acele cazuri din baza de date pentru care are loc gender=f (aadar, cele
corespunztoare salariailor femei) au fost barate (aadar vor fi excluse de la analiz). Mai mult, n
partea din dreapta jos a ferestrei SPSS-ului se poate citi meniunea Filter on, ceea ce nseamn c
respectivei baze de date i-a fost aplicat un filtru.
S calculm acum, cu titlu de exemplu, coeficientul de corelaie ntre salariul de nceput i
cel actual la nivelul unui acestui segment al populaiei noastre angajaii brbai.
Aplicm procedura pentru analiza corelaiei, aa cum a fost prezentat n capitolul 3, i
obinem urmtorul rezultat:
20
Correlations
Current Salary
Pearson
1.000
Correlation
.
Sig. (2-tailed)
258
N
Beginning
Pearson
.860**
Salary
Correlation
.000
Sig. (2-tailed)
258
N
** Correlation is significant at the 0.01 level (2-tailed).
Current
Salary
Beginning Salary
.860**
.000
258
1.000
.
258
Se observ c numrul total de cazuri pentru care a fost rulat analiza este de 258 (aadar,
numai salariaii de sex masculin)..
Pentru a nltura filtrul definit pentru o baz de date, atunci cnd nu mai avem nevoie de el,
va trebui s apelm din nou comanda:
Divizarea fiierului
S presupunem c ntr-o baz de date oarecare cazurile pot fi mprite n 10 subgrupuri
distincte, iar cercettorul dorete s ruleze o anumit analiz pentru fiecare subgrup n parte. Dac ar
folosi procedura de selectare a cazurilor, descris anterior, ar trebui s repete aceast procedur de
10 ori, ceea ce ar fi incomod. Pentru a evita acest lucru, el poate utiliza o comand de divizare a
fiierului (file split) pus la dispoziie de SPSS.
Dac este necesar, de exemplu, determinarea coeficientul de corelaie dintre salariul iniial
i cel actual att pentru brbai, ct i pentru femei, se va apela mai nti la comanda de divizare a
fiierului:
Data > Split File
Apare din nou o caset de dialog, n care vom selecta opiunea Compare Groups. n
fereastra denumit Groups Based on vom introduce variabila gender. Odat ce apsm butonul
OK, vom observa c n partea din dreapta jos a ferestrei SPSS apare meniunea Split File On.
Rulnd din nou comanda pentru analiza corelaiei obinem dou tabele, cte unul pentru fiecare
subgrup analizat:
Gender = Female
Correlations
Current Salary Beginning Salary
1.000
.759**
21
Current
Salary
Pearson
.
Correlation
Sig. (2-tailed)
216
N
Beginning
Pearson
.759**
Salary
Correlation
.000
Sig. (2-tailed)
216
N
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Female
.000
216
1.000
.
216
Gender = Male
Correlations
Current Salary Beginning Salary
Current Pearson
1.000
.860**
Salary Correlation
.
.000
Sig. (2tailed)
258
258
N
Beginning Pearson
.860**
1.000
Salary Correlation
.000
.
Sig. (2tailed)
N
258
258
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Male
Atunci cnd fiierul este divizat n funcie de o anumit variabil, toate analizele statistice
vor fi rulate pe subgrupuri, n funcie de valorile respectivei variabile.
Pentru a transforma un fiier divizat ntr-unul normal, vom apela din nou comanda Split
File, iar n caseta de dialog vom alege opiunea Analyze all cases, do not create groups.
Recodificarea variabilelor
Pot fi imaginate multe situaii n care este necesar s recodificm una dintre variabilele din
baza de date. S ne gndim, de exemplu, la un posibil caz n care dorim s transformm o variabil
numeric ntr-una categorial.
S presupunem c dorim s constatm dac exist o diferen semnificativ ntre salariul
mediu al lucrtorilor cu studii medii (maxim 12 ani) i cel al lucrtorilor cu studii superioare (peste
12 ani). ntruct variabila education nu este categorial, ci numeric, va trebui s o recodificm.
Pentru aceasta vom executa comanda:
Transform > Recode > Into Different Variables
22
Am ales opiunea Into Different Variables deoarece dorim s pstrm i valorile iniiale
ale variabilei respective. n caz contrar, am fi ales opiunea alternativ Intro Same Variables.
In fereastra principal a casetei de dialog vom introduce variabila pe care dorim s o
recodificm educ iar n cmpul din dreapta introducem numele noii variabile create o vom
numi educ2 i apoi apsm butonul Change pentru a salva aceast nou variabil. Ea va fi ulterior
variabila dup care vom face gruparea n cadrul testului t. Apsm apoi butonul Old and New
Values.
Noua caset de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariailor
care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom atribui
codul 2. Dup terminarea operaiunii de recodificare apsm butonul Continue i apoi OK. SPSS-ul
a salvat n baza de date variabila educ2, care are numai dou valori: 1 i 2.
n aceste condiii, este foarte uor s rulm testul t pentru compararea mediilor a dou
grupuri independente, utiliznd pentru grupare noua variabil categorial educ2.
Capitolul 6
Teste neparametrice
23
sp
zc
p
p ( p 1) n
unde p este proporia observat, iar este proporia teoretic. Valoarea calculat a statisticii z se
compar cu cea tabelar corespunztoare nivelului de semnificaie dorit de cercettor.
2. Testul hi ptrat (2)
Acest test se foloste atunci cnd studiem variabile categoriale avnd trei sau mai multe
categorii. Exist dou tipuri de teste hi ptrat: univariat i bivariat.
Testul hi ptrat univariat este folosit pentru a compara o distribuie observat cu una
teoretic i a determina dac exist diferene ntre cele dou distribui. Iat formula de calcul a
statisticii 2, cazul univariat:
(Oi Ti ) 2
Ti
i 1
k
unde cu Oi s-au notat valorile observate ale distribuie, iar cu Ti valorile teoretice.
Valoarea teoretic a statisticii hi ptrat se caut n tabele corespunztor nivelului de semnificaie ales
i numrului de grade de libertate (acesta este numrul de categorii al variabilei minus unu).
Testul hi ptrat bivariat este folosit pentru a studia legtura dintre dou variabile categoriale.
Statistica se calculeaz cu formula:
2
c
(Oij Tij ) 2
24
Tij
Dac aceast valoare este mai mare dect valoarea tabelar (teoretic) vom putea afirma c
exist o legtur ntre variabilele studiate; n caz contrar, vom spune c ele sunt independente.
La fel ca la testul hi ptrat bivariat, valoarea teoretic depinde de nivelul de semnificaie i
numrul de grade de libertate. Acesta din urm se determin cu relatia: (K-1)(L-1), unde cu K i L am notat
numrul de categorii ale celor dou variabile.
3. Testul de normalitate Kolmogorov-Smirnov
Acest test compar o distribuie observat cu una normal i ne spune dac respectiva distribuie
poate fi considerat normal sau nu. Aparatul matematic utilizat pentru efectuarea acestui test este destul de
complicat; ca urmare, nu vom insista aici asupra formulelor matematice.
U U
U
unde este media lui U, iar este abaterea sa ptratic. Ele se calculeaz astfel:
n1 n2
2
n1 n 2 (n1 n 2 1)
12
5. Testul Wilcoxon W
Testul W al lui Wilcoxon se folosete n acelai scop ca i testul U, fiind o alternativ la
acesta. La fel ca la testul Mann-Whitney valorile celor dou grupuri se amestec i se ordoneaz
cresctor, iar apoi sunt acordate rangurile ncepnd de la 1 pn la cel mai mare (suma volumelor
eantioanelor). Nici la acest test nu vom insista asupra formulelor matematice folosite.
6. Testul Wilcoxon Z
25
Acest test, care mai poart i denumirea de testul semnului i al rangului este folosit pentru
a determina dac dou eantioane dependente (perechi) sunt diferite sau nu. Din acest punct de
vedere este asemntor cu testul t pentru eantioanele perechi, dar se utilizeaz atunci cnd variabila
studiat este ordinal.
Pentru a rula acest test, valorile variabilei sunt ordonate, iar fiecrei valori i se atribuie un
rang afectat de un semn. Suma rangurilor (notat cu T) este repartizat dup distribuia t, calculat
cu formula:
tc
T T
T
Media i abaterea ptratic se calculeaz cu ajutorul expresiilor de mai jos (n este volumul
eantionului):
T
U
n(n 1)
4
n( n 1)(2n 1)
24
Testul binomial
Pentru a demonstra aplicarea acestui test vom folosi fiierul voter.sav. S presupunem c
dorim s verificm dac proporia brbai/femei n acest eantion de alegtori americani corespunde
cu cea presupus a fi ntlnit n populaia total (50/50). Vom utiliza comanda:
Analyze > Nonparametric Tests > Binomial
n fereastra Test Variable List vom introduce variabila sex. n cmpul Test Proportion
se afl trecut deja valoarea 0.50, reprezentnd distribuia teoretic (50/50) cu care vom compara
distribuia din eantion. Dac distribuia teoretic este alta, vom schimba desigur variabila din acest
cmp.
n partea din stnga jos a casetei de dialog se observ un cadran intitulat Define
Dichotomy cu dou opiuni: Get From Data i Cut Point. Dac variabila cu care lucrm este
una categorial, va rmne selectat prima opiune (cea implicit). Dac variabila este cantitativ, o
putem transforma ntr-una categorial alegnd opiunea a doua i indicnd valoarea unde se face
26
diviziunea dintre cele dou categorii. De exemplu, dac s-ar pune problema s testm proportia
alegtorilor n vrst de peste 40 de ani, am alege opiunea Cut Point i am introduce n cmpul
respectiv valoarea 40.
Odat ce apsm butonul OK, SPSS-ul ne d rezultatul analizei:
Binomial Test
Category
RESPONDE Group 1
NTS SEX
Group 2
Total
a Based on Z Approximation.
male
804
.44
female
1043
1847
.56
1.00
.50
Asymp.
Sig. (2tailed)
.000
Se poate observa c din 1847 de alegtori din eantion, 804 (44%) sunt brbai, iar 1043
(56%) sunt femei. Regula de decizie este cea cunoscut: dac valoarea lui Sig. este mai mic dect
nivelul de semnificaie ales (0.05), atunci putem spune c exist o diferen semnificativ ntre cele
dou proporii. Este i cazul nostru de fa: nu putem afirma c proporia brbai femei din eantion
o reproduce pe cea din populaia total femeile predomin ntr-o proporie semnificativ.
II.
Baza de date folosit pentru acest test va fi tot voter.sav. Dorim s analizm acum distribuia
inteniilor de vot pentru candidaii Clinton, Bush sau Perot (variabila pres92). Testul hi ptrat
univariat ne va spune dac voturile tind a se ndrepta n mod hotrtor ctre unul din candidai sau
dac, dimpotriv, tind a se mpri n mod egal ntre cei trei candidai. Pentru a rula acest test apelm
comanda:
Analyze > Nonparametric Tests > Chi-Square
n fereastra Test Variable List introducem variabile pres92. Observm apoi c n cadranul
Expected Values ni se d posibilitatea s definim distribuia teoretic cu care vom face
comparaia. Dac dorim ca ea s fie o echirepartiie, vom selecta opiunea All Categories Equal
(aceasta corespunde cazului teoretic n care inteniile de vot s-ar mpri egal ntre cei trei candidai).
n caz contrar, vom introduce pe rnd valorile distribuiei teoretice folosind opiunea Values.
Apsnd butonul OK obinem:
VOTE FOR CLINTON, BUSH, PEROT
Observed Expected
N
N
Bush
661
615.7
Perot
278
615.7
Clinton
908
615.7
Total
1847
Residual
45.3
-337.7
292.3
Test Statistics
Chi-Square
27
df
2
Asymp.
.000
Sig.
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell
frequency is 615.7.
n primul tabel observm valorile distribuiei reale (coloana a doua), cele ale distribuiei
teoretice, care sunt egale (coloana a treia), precum i diferenele dintre ele.
n tabelul al doilea avem datele analizei. Valoarea lui hi ptrat este 327.341, iar numrul de
grade de libertate este 2 (numarul categoriilor variabilei minus unu). ntruct Sig. este mai mic
dect 0.05, putem spune c ntre cele dou distribuii exist diferene semnificative. Cu alte cuvinte,
inteniile de vot nu tind a se mpri egal ntre candidai; prerea lor este deja format, iar
majoritatea opiunilor merg spre Bill Clinton, dup cum se poate observa din primul tabel.
III.
n cele ce urmeaz, vom deschide fiierul Employee data.sav i vom studia relaia dintre
variabilele gender i jobcat (categoria angajatului). ntruct ambele variabile sunt categoriale va
trebui s folosim testul hi ptrat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere
programului s realizeze un tabel ncruciat, cu ajutorul comenzii (vezi capitolul 2):
Analyze > Descriptive Statistics > Crosstabs
Apsm butonul Statistics, iar n noua caset de dialog care se deschide selectm opiunea
Chi-square. Rezultatele analizei se gsesc n tabelele ce urmeaz.
Total
Custodial
27
27
Manager
10
74
84
216
258
474
Chi-Square Tests
Value
Pearson Chi-Square
79.277
Likelihood Ratio
95.463
N of Valid Cases
474
a 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30.
28
Din cel de-al doilea tabel ne intereseaz cu precdere prima linie, care prezint rezultatele
testului hi patrat. ntruct valoarea Sig este mai mic dect 0.05, vom deduce c exist o legtur
ntre cele dou variabile. Aadar, brbaii si femeile nu sunt repartizai proporional pe cele trei
categorii profesionale (funcionari, paznici i manageri).
IV.
S ne ntoarcem la baza de date voter.sav. Problema pe care ne-o punem acum este dac
variabila educ (nivelul studiilor respondenilor, exprimat n ani) se prezint sub forma unei
distribuii normale. Pentru aceasta vom apela comanda:
Analyze > Nonparametric Tests > 1 Sample K-S
n caseta de dialog deschis vom introduce variabila educ ca variabil de analiz. n chenarul
Test Distribution este deja selectat distribuia normal; apsm aadar butonul OK i obinem
urmtorul tabel:
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters
Most Extreme Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a Test distribution is Normal.
b Calculated from data.
HIGHEST YEAR OF
SCHOOL COMPLETED
1845
Mean
13.93
Std.
2.84
Deviation
Absolute
.134
Positive
.134
Negative
-.133
5.749
.000
Vom folosi n continuare baza de date voter.sav. Vom presupune c ne intereseaz dac
brbaii i femeile din eantion difer n mod semnificativ ntre ei sub aspectul studiilor. Pentru
aceasta vom folosi variabila degree, care este una ordinal (0 corespunde sudiilor medii, iar 4
studiilor superioare). Vom apela comanda:
Analyze > Nonparametric Tests > 2 Independent Samples
n fereastra Test Variable List introducem variabile degree, iar n cmpul Grouping
Variable variabila sex. Apoi apsm butonul Define Groups i definim cele dou grupuri exact
cum am fcut pentru testul t bivariat pentru eantioane independente (vezi capitolul 3). n cadranul
Test Type este deja selectat testul Mann-Whitney (U), aa nct apsm butonul OK i obinem:
Test Statistics
29
RS HIGHEST DEGREE
Mann-Whitney U
409502.000
Wilcoxon W
953948.000
Z
-.932
Asymp. Sig. (2-tailed)
.351
a Grouping Variable: RESPONDENTS SEX
Acest tabel este cel mai important pentru analiz, deoarece ne d semnificaia testului. Se
observ c programul ne furnizeaz i valoarea testului W al lui Wilcoxon. Regula de decizie este
cea cu care ne-am obisnuit deja: trebuie s comparm valoarea lui Sig. cu cea a nivelului de
semnificaie ales de noi (0.05). ntruct aici avem 0.351>0.05, vom tage concluzia c brbaii si
femeile nu difer ntre ei n ceea ce privete nivelul de educaie. Dac diferena ar fi fost
semnificativ, atunci sensul ei ar fi fost dat de semnul notei Z de pe rndul patru al tabelului.
VI.
Pentru a exemplifica acest test vom deschide fiierul 1991 U.S. General Social Survey.sav.
Vom lua n considerare urmtoarele variabile din baza de date: obey (ct de important este pentru
respondent supunerea, ascultarea de autoriti) i popular (ct de important este faptul de a fi
popular, de a fi iubit i apreciat). Dorim s vedem dac exist o diferen untre aceste dou variabile
atitudinale.
Deoarece aici nu avem de-a face cu variabile cantitative, ci mai degrab ordinale, este
necesar s apelm la testul semnului i al rangului (testul Z al lui Wilcoxon) pentru a rezolva
problema. Comanda utilizat este:
Analyze > Nonparametric Tests > 2 Related Samples
La fel ca la testul t pe eantioane perechi (capitolul 4), trebuie s introducem n fereastra din
dreapta a casetei de dialog perechile de variabile care fac obiectul comparaiei (n cazul nostru, obey
popular). Se observ c un caseta Test Type este deja selectat testul wilcoxon, singurul care ne
intereseaz n acest moment. Apsnd butonul OK obinem urmtorul rezultat:
Ranks
N
To Be Well Liked Negative Ranks
or Popular - To
Obey
Positive Ranks
Ties
Total
205
777
0
982
Mean
Rank
337.99
Sum of Ranks
532.00
413365.00
69288.00
Test Statistics
Z
Asymp. Sig. (2-tailed)
Interpretarea n detaliu a tabelelor o vom face la seminar. Aici vom observa doar c exist o
diferen semnificativ ntre cele dou variabile (statistica Sig este mai mic dect 0.05). Sensul
30
diferenei este dat de semnul scorului Z. Se observ c acest semn este minus. ntruct pentru fiecare
din cei doi itemi scorul crete pe msur ce importana scade (1 cel mai important, 5 cel mai
puin important) deducem c pentru americani este mai important a fi popular dect a te supune n
faa autoritilor.
Capitolul 7
Populaie i eantion
n tiinele sociale, populaia total supus studiului are cel mai adesea dimensiuni foarte
mari de ordinul miilor, sutelor de mii sau chiar milioanelor de uniti (aceste uniti pot fi persoane
individuale, familii/gospodrii sau organizaii). ntruct efectuarea unor studii pe ntreaga populaie
ar fi foarte costisitoare, se apeleaz de regul la cercetrile statistice conduse pe un eantion de
volum mult mai redus dect cel al populaiei totale.
Dou probleme se pot pune n legtur cu eantionarea:
- determinarea erorii de estimare a unui parametru (de regul media unei variabile), pe care
ne-o permite un eantion dat i
- stabilirea volumului eantionului care permite estimarea parametrului cu o eroare maxim
impus.
S presupunem c dintr-o populaie total format din N uniti se extrage un eantion de volum
n. Modul de calcul al indicatorilor statistici, att pentru populaia total ct i pentru eantion, este
prezentat n tabelul urmtor:
Caracteristic nealternativ
Populaia total (N)
N
Media:
x
i 1
Media:
N
N
Dispersia:
Eantion (n)
n
(x
i 1
x
i 1
n
n
Dispersia:
s2
(x
i 1
m) 2
n 1
Caracteristic alternativ
Populaia total (N)
Eantion (n)
Media: (frecvena de apariie a strii da Media: p (frecvena de apariie a strii da
sau 1 n eantion)
sau 1 n populaia total)
Dispersia: 2 (1 )
Dispersia: s2=p(1-p)
31
N(, 2/n)
95%
2.5%
-E
2.5%
+E
/ n
32
s/ n
De aici putem determina cu uurin eroarea m- pe care n-o asigur un eantion de volum
dat n:
Ez
s
n
n ceea ce-l privete pe z, l vom prelua din tabelele statistice. precizm c vom folosi n
exemplele noastre un nivel de ncredere al cercetrii de 95.44%, cruia i corespunde o valoare z=2.
Dac dorim s estimm media populaiei cu o eroare maxim admisibil E, volumul
eantionului necesar pentru aceasta se calculeaz cu urmtoarea formul (dedus din cea anterioar):
n
z 2s2
E2
n cazul n care avem de-a face cu o caracteristic alternativ, formula este aceeai; se
schimb doar modalitatea de calcul a dispersiei (vezi tabelul 1):
n
z 2 p (1 p )
E2
Exemplul 2
La fel ca la exemplul 1, desfurm studiul nostru ntr-o companie cu 5000 de angajai, din
care alegem la ntmplare 100. Dintre acetia, 62 sunt cstorii (62%), iar 38 necstorii. Aplicnd
formula de calcul a erorii, ajungem la concluzia c acest eantion aproximeaz procentajul
angajailor cstorii cu o eroare de 9.7% (52.3%-71.7%). Dac dorim o eroare de estimare mai
redus, de exemplu 5%, volumul eantionului de studiu trebuie s fie de 377 de angajai.
Capitolul 8
Analiza de regresie
unde:
34
Toate variabilele care intervin ntr-o analiz de regresie sunt variabile cantitative (metrice). Dac
exist o singur variabil independent n model, vorbim de o regresie simpl, iar dac intervin dou
sau mai multe variabile independente avem de-a face cu o regresie multipl.
Rezultatele cele mai importante ale unei analize de regresie sunt:
-
ntr-o serie de situaii particulare, pot fi introduse n modelel de regresie i anumite variabile
calitative (nemetrice), i anume variabilele de tip dummy. O variabil dummy este o variabil care
poate lua doar dou valori (da/nu, brbai/femei, mediu urban/mediu rural etc.), notate convenional
cu 1 i 0. Desigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummy,
dar acest lucru ar duce la o serie de inconveniente. O asemenea variabil poate fi utilizat ntr-o
ecuaie de regresie n acelai mod ca o variabil cantitativ.
n acest tabel ne este prezentat un sumar al analizei. Cea mai interesant pentru noi este
penultima coloan, unde putem vedea coeficientul de corelaie multipl, egal cu 0.80 pentru aceast
analiz. Aceasta nseamn c salariul curent al unui lucrtor este determinat n proporie de 80% de
cele trei variabile independente i n proporie de 20% de alte influene, neluate n calcul aici.
ANOVA
Model
Sum of
df
Mean
F
Sig.
Squares
Square
1 Regression 11043969433
3 368132314
629.703
.000
9.523
46.508
Residual 27476801096
470 58461278.9
.817
29
Total 13791649543
473
6.340
a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salary
b Dependent Variable: Current Salary
Acest tabel ne prezint rezultatele analizei ANOVA pentru modelul nostru de regresie. Dup
cum spuneam n seciunea anterioara, testul F ne arat dac ipoteza relaiei liniare ntre variabilele
noastre este corect. Regula de decizie este simpl: ipoteza relaiei liniare este corect dac valoarea
factorului Sig. din ultima coloan este mai mic dect nivelul de semnificaie ales de noi (0.05).
n caz contrar, va trebui s lum n considerare construirea unui alt tip de relaii (neliniar) ntre
variabilele n cauz.
Coefficients
Unstandar
Standardiz
dized
ed
Coefficient
Coefficient
s
s
Model
B
Std. Error
Beta
1 (Constant)
3236.616
19986.502
Beginning 1.689
.058
.779
Salary
Months 155.701
35.055
.092
since Hire
Education 966.107 157.924
.163
al Level
36
Sig.
-6.175
.000
29.209
.000
4.442
.000
6.118
.000
(years)
a Dependent Variable: Current Salary
Din acest tabel ne intereseaz cu precdere dou coloane: cea a coeficienilor (a treia) i cea
a valorii testelor de semnificaie pentru coeficieni (ultima). Aici putem observa c toi coeficienii
sunt semnificativi (valorile factorilor Sig. sunt mai mici dect 0.05). Ecuaia noastr de regresie se
scrie astfel:
salary = -19986.502 + 1.689 * salbegin + 155.701 * jobtime + 966.107 * educ + e
Pe baza acestei ecuaii putem face diverse analize asupra variabilei dependente (salariul
curent), n funcie de ceea ce ne intereseaz mai mult. Astfel, putem constata c:
- dac doi lucrtori au aceeai vechime n banc i acelai nivel de educaie, dar unul i-a
nceput slujba cu un salariu cu 1000 de dolari mai mare, acesta din urm va avea acum (n
medie) un salariu anual cu 1689 dolari mai mare dect cellalt;
- un lucrtor care are o vechime mai mare cu 10 luni dect cellalt va avea un salariu cu cca
1557 de dolari mai mare, dac toate celelalte (salariul iniial i nivelul de educaie) sunt
aceleai;
- orice an n plus adugat la nivelul de educaie se traduce ntr-un spor mediu de salariu de cca
966 dolari.
Residuals Statistics
Minimum
Maximum
Mean Std. Deviation
Predicted Value
$16,662.55 $145,355.69 $34,419.57
$15,200.31
Residual
-$29,580.63 $49,218.41
$.00
$7,780.02
Std. Predicted
-1.168
7.298
.000
1.000
Value
Std. Residual
-3.794
6.313
.000
.998
a Dependent Variable: Current Salary
N
474
474
474
474
S introducem acum n nodelul nostru o variabil de tip dummy. Pentru aceasta vom
transforma prin recodificare variabila gender n variabila dummy gendum, care are valorile 1 pentru
brbai i 0 pentru femei. Apoi vom rula din nou analiza de regresie, introducnd variabila gendum
alturi de cele dou variabile independente iniiale.
Tabelele de output sunt urmtoarele:
Model Summary
Model
Sum of
Squares
1 Regressio 110600724
n 690.831
df
37
Mean
Square
4276501811
72.708
F
474.742
Sig.
.000
Residual 27315770
469 58242581.
745.509
547
Total 13791649
473
5436.340
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary
Coefficients
Unstandar
Standardiz
dized
ed
Coefficient
Coefficient
s
s
Model
B Std. Error
Beta
(Constant)
- 3246.282
19455.828
Beginning
1.656
.061
.763
Salary
Months 151.152
35.097
.089
since Hire
Education 942.136 158.286
.159
al Level
(years)
GENDUM 1325.787 797.334
.039
Sig.
-5.993
.000
27.143
.000
4.307
.000
5.952
.000
1.663
.097
Din punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o
mbuntire: R2 este acelai. Ipoteza liniaritii modelului se verific (tabelul al doilea), n schimb
coeficientul variabilei gendum nu este semnificativ (tabelul al treilea, coloana Sig., ultimul rnd).
Dac acceptm totui variabila gendum ca variabil independent, putem deduce din valoarea
coeficientului su c brbaii au n medie un salariu cu cca 1326 dolari mai mare dect femeile.
Capitolul 9
Analiza de varian
c m
i
unde cu m sunt notate mediile grupului, iar cu c reprezint nite ponderi care ndeplinesc relaia:
Pentru a nelege cum se stabilesc ponderile la definirea unui contrast, vom apela la un
exemplu. S presupunem c variabila categorial implicat n model are trei nivele, mediile fiecrui
nivel fiind m1, m2 i m3. Dorim s studiem diferena dintre primele dou grupuri, luate mpreun, i
grupul al treilea. Ipoteza nul, care afirm c ntre aceste grupuri nu exist nici o diferen, se
exprim prin relaia:
m1 m 2
m3 0
2
Aceast relaie se poate rescrie astfel:
m1 m 2 2m3 0
Aadar, primelor dou grupuri le va fi atribuit ponderea 1, iar grupului al treilea ponderea
-2. Suma ponderilor este, desigur, zero.
Dac dorim s estimm diferenele dintre nivelele factorilor n mod simultan, putem folosi
testele de comparaie multipl. Programul SPSS ne pune la dispoziie multe teste de acest fel. Unele
dintre ele se folosesc atunci cnd varianele grupurilor sunt presupuse a fi egale (Sidak, Bonferroni,
LSD, Scheffe, Tukey etc.) iar altele atunci cnd varianele sunt presupuse a fi diferite (Tamhane,
39
Games-Howell). Pentru a ti ce teste trebuie folosite, programul SPSS ne ofer rezultatul testului F
al lui Levene pentru egalitatea varianelor.
n cadrul orelor de seminar vom demonstra n detaliu modul de utilizare a procedurilor SPSS
pentru ANOVA unifactorial.
2. ANOVA multifactorial
Aceast tehnic de analiz a datelor se folosete atunci cnd avem de studiat legtura dintre o
variabil dependent numeric i dou sau mai multe variabile independente categoriale (factori).
Factorii ce intervin n aceast analiz pot fi de dou tipuri:
- factori fici, al cror efect poate fi controlat;
- factori aleatori, al cror efect este incontrolabil.
Alturi de factori, n model pot aprea i covariatele. Aceste covariate sunt variabile de tip
numeric presupuse a fi corelate cu variabila dependent. Prin introducerea covariatelor se verific
dac factorii fici au influen asupra variabilei dependente indiferent de aciunea factorilor
covariani.
Un model de analiz ANOVA multifactorial poate fi de dou feluri:
- complet (full factorial), atunci cnd conine toate efectele posibile i toate
combinaiile de factori;
- modificat (custom), atunci cnd, un vederea simplificrii modelului, sunt luate n
considerare numai efectele unor anumii factori sau combinaii de factori.
Efectele studiate n cadrul unui model pot fi:
- efecte principale;
- efecte ale interaciunii dintre variabile.
Ca i n cazul modelului unifactorial, este posibil determinarea diferenelor dintre nivelele
factorilor, cu ajutorul contrastului. n programul SPSS sunt disponibile urmtoarele tipuri de
contraste:
- Deviation: compar media fiecrui nivel cu media general. Nivelurile factorilor pot fi n
orice ordine;
- Simple: compar media fiecrui nivel cu media unui nivel specificat. Acest tip de comparaii
este util atunci cnd exist un grup de control. Se poate alege ca grup de referin primul sau
ultimul;
- Difference: compar media fiecarui nivel (cu excepia primului) cu cea a nivelelor
anterioare;
- Helmert: compara media fiecrui nivel (cu excepia ultimului) cu cea a nivelelor urmtoare;
- Repeatet: compar media fiecrui nivel (cu exceptia ultimului) cu cea a nivelului urmtor;
- Polynomial: compar efectele liniar, patratic, cubic etc. Primul grad de libertate contine
efectul liniar comparat cu toate categoriile; al doilea grad de libertate efectul patratic, etc.
Aceste comparatii sunt deseori folosite pentru estimarea trend-urilor polinomiale.
De asemenea, dac dorim s comparm simultan media variabilei dependente pe diverse
nivele ale factorilor, putem face acest lucru cu ajutorul analizei post-hoc. De reinut totui c att
contrastele, ct i comparaiile multiple se realizeaz numai pentru factorii care au cel puin trei
nivele.
40
ANOVA unifactorial
n cadrul bazei de date Employee data.sav vom analiza diferenele ntre salariul mediu pe
cele trei categorii de lucrtori (variabila jobcat): 1 clerical (funcionari), 2 custodial
(paznici) i 3 manager. Pentru aceasta trebuie s utilizm analiza de varian unifactorial.
De asemeenea, ne mai intereseaz urmtoarele lucruri:
- s comparm ntre ei salariaii, cu paznicii, lsndu-i la o parte pe manageri;
- s comparm managerii cu non-managerii;
- s comparm simultan mediile celor trei grupuri.
Vom merge n meniu la:
Mean Square
F
Sig.
44719241962.971 434.481
.000
102925714.459
Contrast Tests
Contras
t
41
df
Sig. (2tailed)
1 -$3,100.35 $2,023.76
-1.532
471
.126
- $2,999.47
$69,178.1
7
1 -$3,100.35 $568.68
-23.063
471
.000
-5.452
93.072
.000
-17.201
86.389
.000
2
Does not
assume equal
variances
- $4,021.75
$69,178.1
7
Multiple Comparisons
Dependent Variable: Current Salary
Bonferroni
Mean
Std. Error
Sig.
95% Confidence Interval
Difference (IJ)
(I)
(J)
Lower Bound
Upper Bound
Employme Employme
nt
nt
Category Category
Clerical Custodial -$3,100.35
$2,023.76
.379
-$7,962.56
$1,761.86
Manager -$36,139.26
$1,228.35 .000* -$39,090.45
-$33,188.07
Custodial
Clerical
$3,100.35
$2,023.76
.379
-$1,761.86
$7,962.56
Manager -$33,038.91
$2,244.41 .000* -$38,431.24
-$27,646.58
Manager
Clerical $36,139.26
$1,228.35 .000* $33,188.07
$39,090.45
Custodial $33,038.91
$2,244.41 .000* $27,646.58
$38,431.24
* The mean difference is significant at the .05 level.
ANOVA multifactorial
nainte de a trece la rularea analizei propriu-zise, am creat o nou variabil (gendum), care
codific astfel cele dou sexe: brbai 1, femei 0.
Pentru a rula ANOVA multifactorial, selectm urmtoarea opiune:
Analyze > General Linear Model > Univariate
n cmpul Dependent Variable vom introduce variabila salary, iar n cmpul Fixed Factors,
cele trei variabile independente. Apsm apoi butonul Model. Observm c SPSS-ul ne ofer
posibilitatea de a alege modelul complet, sau de a opta pentru un model modificat. n cazul de fa,
numrul variabilelor fiind redus, vom rmne la modelul full factorial.
S apsm acum butonul Contrasts. Vom cere programului sa ne calculeze contrastele
pentru variabila jobcat (singurul factor cu mai mult de dou nivele). Tipul de contrast ales va fi
Simple, nivelul de referin fiind ultimul 3 (aadar, vom compara managerii cu celelate dou
categorii de anagajai). n final s apsm butonul Post Hoc i s-i cerem programului s realizeze
testele de comparaie multipl pentru aceeai variabil jobcat. Testul ales va fi, la fel ca la analiza
precedent, Bonferroni.
Iat tabelele de output care ne intereseaza, i care vor fi comentate n cadrul orelor de
seminar.
Tests of Between-Subjects Effects
Dependent Variable: Current Salary
Source Type III Sum of Squares
df
Mean Square
F
Corrected
97506289892.260
8 12188286236.532 140.251
Model
Intercept
144392738098.723
1 144392738098.723 1661.526
JOBCAT
20060883718.826
2 10030441859.413 115.420
MINORIT
61989119.657
1
61989119.657
.713
Y
GENDUM
4756876309.700
1 4756876309.700
54.737
JOBCAT *
690053398.059
2
345026699.030
3.970
MINORITY
JOBCAT *
981526335.890
1
981526335.890
11.294
GENDUM
MINORIT
27977363.932
1
27977363.932
.322
Y*
GENDUM
JOBCAT *
.000
0
.
.
MINORITY
*
GENDUM
Error
40410205544.080 465
86903667.837
Total
699467436925.000 474
Corrected
137916495436.340 473
Total
a R Squared = .707 (Adjusted R Squared = .702)
Sig.
.000
.000
.000
.399
.000
.020
.001
.571
Employment Category
Simple Contrast
43
Contrast Estimate
Hypothesized Value
Difference (Estimate Hypothesized)
Std. Error
Sig.
95% Confidence Interval
for Difference
Contrast Estimate
Hypothesized Value
Difference (Estimate Hypothesized)
Std. Error
Sig.
95% Confidence Interval
for Difference
-33946.454
0
-33946.454
Lower
Bound
Upper
Bound
1966.958
.000
-37811.682
-30081.226
-39930.865
0
-39930.865
Lower
Bound
Upper
Bound
2994.148
.000
-45814.603
-34047.128
a Reference category = 3
Multiple Comparisons
Dependent Variable: Current Salary
Mean
Difference (IJ)
Std. Error
(I)
(J)
Employme Employme
nt
nt
Category Category
Bonferroni
Clerical Custodial
-$3,100.35 $1,859.59
Manager -$36,139.26 $1,128.70
Custodial
Clerical
$3,100.35 $1,859.59
Manager -$33,038.91 $2,062.33
Manager
Clerical $36,139.26 $1,128.70
Custodial $33,038.91 $2,062.33
Sig.
.288
.000
.288
.000
.000
.000
Capitolul 10
Analiza factorial
44
95%
Confidence
Interval
Lower Bound
-$7,568.33
-$38,851.16
-$1,367.63
-$37,994.02
$33,427.35
$28,083.79
Upper
Bound
$1,367.63
-$33,427.35
$7,568.33
-$28,083.79
$38,851.16
$37,994.02
unde wki arat ponderea cu care particip variabila k la formarea factorului i. Ponderile w sunt
calculate astfel nct s fie ndeplinite urmtoarele dou condiii:
- suma ptratelor coeficienilor de corelaie dintre factorul i i variabilele x1-xk s fie
maxim (cu alte cuvinte, fiecare factor s fie puternic corelat cu variabilele care l
compun);
- factorii obinui n final s fie complet necorelai doi cte doi (altfel spus, s fie
ortogonali).
Factorii rezultai n final vor fi definii i interpretai de analist n funcie de corelaia lor cu
diversele variabile iniiale. Trebuie spus aici c analiza factorial reprezint o combinaie de
tehnici obiective i subiective. Programele de analiz statistic prelucreaz datele introduse de
cercettor i rein un numr de factori relevani (dup criteriile pe care le vom vedea ndat),
indicnd coeficienii de corelaie dintre fiecare factor i variabilele care intervin n model. Din
acest moment intr n joc priceperea i discernmntul analistului: el trebuie s stabileasc dac
ntre variabilele corelate exist o legtur logic i, pe aceast baz, s dea fiecrui factor o
interpretare semnificativ i util scopului cercetrii.
Spre exemplu, s presupunem c n cadrul unui recensamnt al populaiei, fiecare cetean este
descris prin variabilele urmtoare: sexul, vrsta, venitul anual, averea, educaia, profesia. n mod
natural, variabilele sex i vrst ar putea fi grupate ntr-un factor demografic, variabilele
venit i avere ntr-un factor care s-ar numi situaie economic iar variabilele educaie i
profesie ntr-un factor numit statut social. Astfel, cele ase variabile iniiale au fost reduse la
45
trei. ntruct n acest exemplu avem de-a face n special cu variabile calitative, gruparea s-a
realizat n funcie de asociaiile logice care se pot face ntre diversele variabile.
Variabilele cu care se lucreaz n analiza factorial sunt variabile cantitative (la fel ca la analiza
de regresie), dei se pot folosi i variabile de tip dummy (care iau valorile 0 i 1).
Rezultatele cheie ale rulrii unei analize factoriale sunt:
-
matricea corelaiilor ntre fiecare factor i variabilele iniiale. Aceste corelaii mai
sunt numite i ncrcrile factorilor (factor loadings). Pe baza acestor corelaii,
analistul va stabili variabilele care intr n definiia fiecrui factor, dup cum se va
arta n exemplul practic de mai jos. Ca regul general, fiecare variabil va fi
atribuit factorului cu care este cel mai puternic corelat (este preferabil ca ncrcarea
s fie de peste 0,50 n valoare absolut);
valorile proprii (eigenvalues) ale fiecrui factor. De regul, programele statistice
rein pentru analiz acei factori ale cror valori proprii sunt mai mari dect 1; totui,
dac dorim, le putem impune s extrag numrul de factori pe care l considerm noi
necesar;
scorurile factorilor, care reprezint de fapt ponderile w cu care intervin variabilele de
plecare n formarea factorilor. Cunoscnd aceste scoruri putem calcula valorile
factorilor pentru fiecare caz din eantion n parte. n acest fel, factorii rezultai pot fi
tratai ca noi variabile. Programul SPSS ofer opiuni de calculare i salvare a
scorurilor factorilor.
Rezultatele care se obin din prima extragere a factorilor sunt de cele mai multe ori confuze
i dificil de interpretat. Acesta este motivul pentru care i cerem programului s roteasc factorii
iniiali, astfel nct noii factori s fie mai bine corelai cu variabilele de plecare i deci mai uor de
interpretat.
Pentru a ilustra grafic rotaia factorilor s considerm un caz ipotetic n care avem de-a face
cu trei variabile iniiale (V1, V2 i V3), pe baza crora analiza factorial a extras doi factori (F1 i
F2). Variabilele iniiale le putem reprezenta ca vectori n spaiul definit de axele de coordonate F1 i
F2 (vezi figura din stnga). Corelaia dintre variabila V1 i factorul F1, de exemplu, este cu att mai
bun cu ct vectorul V1 este mai apropiat de axa F1.
Pe graficul din partea stng se observ c F1 este corelat ntr-o anumit msur cu V1, dar
slab corelat cu V2 i V3. Ct despre F2, el nu este corelat satisfctor cu nici una din cele trei
variabile.
F2
V3
F2
V2
V3
V1
V2
V1
F1
46
F1
Pentru a rezolva aceasta, vom roti axele F1 i F2 n sens invers acelor de ceasornic, ca n figura
din dreapta (respectnd condiia ca axele F1 i F2 s rmn ortogonale, adic factorii s fie
necorelai ntre ei). Se vede clar c n urma rotirii factorul F1 este corelat cu variabilele V1 i
V2, iar factorul F2 cu variabila V3. Interpretarea factorilor are acum mai multe anse s ne ofere
nite informaii utile despre fenomenul analizat.
Extraction
Sums of
Squared
Loadings
Compone
Total
% of Cumulativ
Total
nt
Variance
e%
1
4.735
67.638
67.638
4.735
2
1.025
14.650
82.287
1.025
3
.504
7.201
89.488
4
.341
4.871
94.359
5
.226
3.226
97.585
6
.140
1.996
99.581
7 2.930E-02
.419 100.000
Extraction Method: Principal Component Analysis.
48
% of
Variance
67.638
14.650
Rotation
Sums of
Squared
Loadings
Cumulativ
Total
e%
67.638
4.722
82.287
1.038
% of Cumulative
Variance
%
67.455
67.455
14.833
82.287
Acest tabel prezint valorile proprii ale factorilor (coloana a doua). Coloana % of Variance
ne arat n ce msur explic fiecare factor cele cinci variabile de plecare. n coloana Cumulative
% se observ c primii doi factori reinui acoper 82.29% din variana total a variabilelor iniiale,
ceea ce este satisfctor. Analiza poate fi considerat eficient dac factorii reinui explic cel puin
70% din variana total.
Component Matrix
Component
1
-9.031E-02
.841
.936
.894
-.958
2
.989
-.160
.109
7.295E-02
-5.257E-02
.811
-2.736E-02
.876
3.297E-02
Population in thousands
People living in cities (%)
Average male life expectancy
People who read (%)
Infant mortality (deaths per
1000 live births)
Gross domestic product /
capita
Daily calorie intake
Extraction Method: Principal Component Analysis.
a 2 components extracted.
Population in thousands
People living in cities (%)
Average male life expectancy
People who read (%)
Infant mortality (deaths per
1000 live births)
Gross domestic product / capita
.808
Daily calorie intake
.877
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 3 iterations.
2
.993
-.209
5.361E-02
2.030E-02
3.809E-03
-7.493E-02
-1.856E-02
Cele dou tabele de mai sus prezint coeficienii de corelaie dintre variabile i fiecare din
cei doi factori, nainte i dup rotirea factorilor. Analiznd ambele tabele ajungem uor la
urmtoarele concluzii:
- primul factor este puternic corelat cu toate variabilele, n afar de una singur: mrimea
populaiei;
- al doilea factor este puternic corelat cu mrimea populaiei.
Variabilele cu care este corelat primul factor (procentajul populaiei urbane, sperana de
via, procentajul populaie alfabetizate etc.) sunt indicatori ai standardului de via din ara
49
respectiv. Deci, factorul 1 l putem numi standard de via. n ceea ce privete factorul 2, corelat
doar cu mrimea populaiei, l vom putea numi mrimea rii.
Dup cum se poate observa, rotirea factorilor nu aduce, un acest caz particular, o
mbuntire semnificativ a rezultatelor finale.
Component Score Coefficient Matrix
Component
1
.038
.168
.204
.193
-.205
2
Population in thousands
.964
People living in cities (%)
-.166
Average male life expectancy
.094
People who read (%)
.060
Infant mortality (deaths per 1000
-.039
live births)
Gross domestic product / capita
.169
-.037
Daily calorie intake
.187
.021
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser
Normalization. Component Scores.
n tabelul de mai sus se gsesc coeficienii asociai fiecrei variabile, pentru fiecare factor n
parte. Cu ajutorul acestor scoruri SPSS calculeaz valorile celor doi factori pentru fiecare ar. La
cererea noastr, programul a salvat aceste scoruri n dou variabile separate. innd cont de
semnificaiile celor doi factori, definite anterior, pe prima variabil am numit-o livstan (living
standard), iar pe a doua size (mrimea rii respective). De menionat c scorurile au fost calculate
numai pentru acele ri pentru care nu exist valori lips ale variabilelor considerate n analiz.
Aceste noi variabile pot fi folosite pentru alte analize (de exemplu, o analiz de regresie sau
una de tip ANOVA).
Capitolul 11
Analiza cluster
Aspecte teoretice
Analiza cluster este o clas de tehnici folosite la clasificarea obiectelor i claselor n grupuri
relativ omogene, numite clustere. Mai este denumit analiza clasificrii, analiz tipologic sau
tiina clasificrii numerice.
n analiza de cluster nu exist informaii a priori despre apartenena vreunui obiect la un
grup, nici despre componena grupurilor. Grupurile sau clusterele sunt sugerate de date nedefinite
anterior.
Spre deosebire de analiza factorial, care urmrete redyucerea numrului de variabile,
analiza clasificrii are drept scop sintetizarea datelor prin reducerea numrului de indivizi,
grupndu-i pe acetia n clase.
Etapele rulrii unei analize cluster sunt urmtoarele:
50
1. Alegerea variabilelor folosite la analiz. Aceste variabile pot fi de tip metric, interval,
categorial, binomial.
2. Stabilirea indicatorilor de proximitate ntre indivizi. Pe baza acestor indicatori vor fi
create ulterior clusterele. Pentru variabilele metrice sau interva, se poate folosi distana
euclidian sau alte tipuri de distane (Minkowski, city block etc.). Dac avem de-a face
cu variabile categoriale, se folosete n general hi ptrat ca msur a disimilaritii.
Pentru datele binomiale, SPSS-ul ne pune la dispoziie cca 30 de metode de msurare a
distanei (proximitii).
3. Alegerea metodei de formare clusterelor. Aceasta va depinde n mod esential de tipul de
clasificare ales. Exist dou categorii de analize cluster: ierarhic i neierarhic (sau
nodal). n cazul analizei ierarhice, numrul de clustere nu este cunoscut dinainte, ci
urmeaz a se stabili ulterior. Pentru acest tip de analiz exist 7-8 metode (algoritmi) de
formare a grupurilor, printre care: legtur inter-grupuri, legtur intra-grupuri, metoda
vecinului cel mai apropiat, metoda Ward etc. Clasificarea neierarhic, n schimb,
presupune stabilirea anticipat a numrului de clustere, urmnd ca analiza s identifice
indivizii din fiecare cluster. Pentru acest tip de analiz exist dou metode de clasificare:
clasificare simpl, pe de o parte, i iteraie i clasificare, pe de alt parte. n general, este
bine ca la clasificarea neierarhic s se lucreze cu variabile standardizate, mai ales dac
variabilele iniiale au uniti de msur foarte diferite.
4. Definirea i etichetarea (numirea) clusterelor. Aceasta se face , un general, studiind
caracteristicile fiecrui cluster i descriind un profil al indivizilor din fiecare grup un
parte.
5. Validarea clusterelor. Muli analiti evit aceast ultim etap, deoarece este dificil i nu
exist o metod standard pentru realizarea sa. O posibil metod de validare este aceea
de a aplica o analiz de discriminant pentru clusterele formate i a vedea dac aceste
clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor folosite
iniial n clasificare.
n cele ce urmeaz vom da dou exemple de realizare a analizei cluster, pentru fiecare din
cele dou categorii: ierarhic i nodal.
4 Clusters
1
2
1
3
1
1
3
3
1
1
3
1
2
3
1
1
2
2
1
2
2
3
2
3
4
3
3
2
2
3 Clusters
1
1
1
2
1
1
2
2
1
1
2
1
1
2
1
1
1
1
1
1
1
2
1
2
3
2
2
1
1
2 Clusters
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
52
32:sibiu
33:maramures
34:cluj
35:hunedoara
36:satu-mare
37:alba
38:bihor
39:carasseverin
40:timis
41:arad
42:salaj
1
1
3
1
1
1
3
2
1
1
2
1
1
1
2
1
1
1
1
1
1
1
1
1
3
1
2
2
1
1
1
1
1
Acest tabel ne indic apartenena fiecrui jude la un cluster, pentru cele trei soluii posibile
(2-4 clustere). Se observ c n fiecare situaie municipiul Bucureti aparine unui cluster separat.
Alte tabele, precum i dendrograma, vor fi discutate la orele de seminar.
n afar de generarea tabelelor, SPSS-ul a respectat opiunea noastr de a salva apartenena
fiecrui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite
pentru a studia ulterior clusterele formate.
S rulm n cele ce urmeaz o analiz cluster de tip nonierarhic. Vom folosi pentru aceasta
datele din fiierul World995.sav. Variabilele alese pentru analiz sunt: populaia, procentajul
locuitorilor de la orae, sperana de via pentru brbai i femei, procentajul populaiei alfabetizate,
PNB-ul pe locuitor i numrul mediu de calorii asigurat zilnic unei persoane. ntruct unitile de
msur sunt foarte diferite, am standardizat n prealabil toate aceste variabile. Pentru a realiza
analiza, vom apela comanda:
Analyze > Classify > K-Means Cluster
Mai nti vom introduce n cmpul Variables valorile standardizate generate anterior, iar n
cmpul Label Cases by vom introduce variabile country.
Numrul de opiuni disponibil aici este mult mai mic dect cel de la analiza tipologic
ierarhic. n cmpul Number of clusters introducem valoarea 3 (aadar, i impunem programului) s
genereze trei grupuri). Metoda de grupare aleas va fi Iterate and classify. Rmne acum s
precizm o serie de elemente ale outputului final, astfel:
- apsm butonul Save i selectm opiunea Cluster membership (aceasta nseamn c
programul va salva apartenena la clustere ntr-o variabil categorial);
- apsm butonul Options i selectm opiunea Cluster information for each case.
Iat cele mai importante tabele generate de aceast analiz cluster.
Cluster Membership
Case
Number
1
2
3
4
5
COUNTRY
Cluster
Distance
Afghanistan
Argentina
Armenia
Australia
Austria
.
2
.
2
2
.
1.215
.
1.349
1.665
53
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Azerbaijan
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Bolivia
Bosnia
Botswana
Brazil
Bulgaria
Burkina Faso
Burundi
Cambodia
Cameroon
Canada
Cent. Afri.R
Chile
China
Colombia
Costa Rica
Croatia
Cuba
Czech Rep.
Denmark
Domincan R.
Ecuador
Egypt
El Salvador
Estonia
Ethiopia
Finland
France
Gabon
Gambia
Georgia
Germany
Greece
Guatemala
Haiti
Honduras
Hong Kong
Hungary
Iceland
India
Indonesia
Iran
Iraq
Ireland
Israel
Italy
Japan
Jordan
Kenya
Kuwait
54
.
.
3
.
.
.
3
.
3
2
.
3
3
3
3
2
3
2
1
2
2
.
.
.
2
2
2
3
3
.
3
2
2
3
.
.
2
2
3
3
3
.
2
.
1
3
3
2
2
.
2
2
2
3
2
.
.
1.470
.
.
.
1.560
.
1.298
2.416
.
2.137
1.780
1.485
.353
1.779
2.452
1.572
1.383
1.619
1.806
.
.
.
1.731
2.191
1.937
2.136
1.717
.
2.027
1.217
1.680
.884
.
.
1.520
1.437
1.219
1.695
1.838
.
1.351
.
1.383
1.959
2.394
2.145
1.439
.
1.490
1.884
1.711
.840
1.367
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
Latvia
Lebanon
Liberia
Libya
Lithuania
Malaysia
Mexico
Morocco
N. Korea
Netherlands
New Zealand
Nicaragua
Nigeria
Norway
Oman
Pakistan
Panama
Paraguay
Peru
Philippines
Poland
Portugal
Romania
Russia
Rwanda
S. Korea
Saudi Arabia
Senegal
Singapore
Somalia
South Africa
Spain
Sweden
Switzerland
Syria
Taiwan
Tanzania
Thailand
Turkey
U.Arab Em.
UK
USA
Uganda
Ukraine
Uruguay
Uzbekistan
Venezuela
Vietnam
Zambia
.
.
3
2
.
2
2
.
.
2
2
3
3
2
.
.
2
2
3
3
.
.
2
.
3
.
2
3
2
3
.
2
2
2
.
.
3
3
2
.
2
2
3
.
2
.
2
3
3
.
.
.924
2.065
.
1.954
1.086
.
.
1.497
1.091
1.590
.531
1.430
.
.
1.761
1.787
2.356
2.055
.
.
1.397
.
2.098
.
1.665
.885
1.438
1.625
.
1.098
1.407
2.259
.
.
2.016
2.431
1.253
.
1.306
2.816
2.259
.
1.523
.
1.645
2.014
1.898
Acest tabel ne arat n ce cluster se afl fiecare ar (numai pentru rile pentru care nu exist
date lips), precum i distana (n abateri standard) de la fiecare ar la centrul clusterului cruia i
aparine.
55
Cluster
1
6.88817
-1.26130
-.58281
-.85403
-.56325
-.58230
-.26070
2
-.10045
.66244
.53741
.61702
.65015
.64508
.65596
3
-.09917
-.97875
-.97188
-.77073
-.87343
-1.14375
-1.13562
Acest tabel conine distanele dintre media fiecrui cluster i media general, exprimat n
abateri standard. De exemplu, se observ c grupul 1 cuprinde ri cu populaie mare i foarte mare
media populaiei lor este cu 6.88 abateri standard mai mare dect media general iar grupurile 1
i 2 cuprind ri cu populaie mai redus media populaiei lor este cu 0.10, respectiv 0.01 abateri
standard mai mic dect media general.
Distances between Final Cluster Centers
Cluster
1
2
3
1
7.732
7.088
2
7.732
3.953
3
7.088
3.953
Acest tabel ne arat ct de apropiate (asemntoare) sau ndeprtate (diferite) sunt grupurile.
Se observ c grupurile cele mai asemntoare sunt 2 i 3, iar cele mai diferite sunt 1 i 2.
Number of Cases in each Cluster
Cluster
1
2.000
2
41.000
3
31.000
Valid
74.000
Missing
35.000
Tabelul acesta indic numrul de cazuri aflate n fiecare cluster i nu necesit, credem,
explicaii suplimentare.
La cererea noastr, SPSS-ul a creat i o variabil categorial special, care indic apartenena
fiecrei ri la unul din clustere. Aceast variabil poate fi folosit pentru a face diferite tipuri de
analize cu privire la fiecare grup descoperit prin analiza cluster.
Capitolul 12
Analiza discriminantului
Aspecte teoretice
Analiza discriminantului este o tehnic statistic de tip explicativ dei poate fi inclus i n
categoria celor descriptive. Ea are rolul de a analiza dou sau mai multe grupruri disctincte i a
56
stabili care sunt variabilele care difereniaz cel mai bine grupurile respective. Aadar, spre
deosebire de analiza cluster, la analiza discriminantului grupurile pentru care se face analiza sunt
cunoscute (definite) dinainte.
n cercetrile sociale (respectiv n analiza resurselor umane), analiza discriminantului poate
rspunde la ntrebri de tipul:
- prin ce anume difer angajaii brbai dintr-o firm de angajaii femei?
- prin ce difer agenii de vnzri performani de cei neperformani?
- exist diferene de performan ntre angajaii familiti i cei nefamiliti?
n analiza discriminant intervin dou tipuri de variabile: o variabil dependent (sau de
grupare) i una sau mai multe variabile independente. Variabile de grupare este de tip categorial, iar
variabilele independente sunt metrice sau binomiale, i ar trebui s fie distribuite normal.
Analiza discriminantului este de dou categorii: pe dou grupuri, atunci cnd variabila
dependent are dou categorii, i multipl, caz n care variabila dependent are trei sau mai multe
categorii.
Discriminarea dintre grupuri se face cu ajutorul unei combinaii liniare a variabilelor
independente, numit funcie discriminant, de forma:
D b0 b1 X 1 b2 X 2 b3 X 3 ... bk X k
unde D este scorul discriminant, X sunt variabilele independente, iar b coeficienii funciei
discriminant.
Coeficienii b sunt estimai astfel nct grupurile s difere maxim posibil in ceea ce privete
valorile funciei discriminant. Aceasta are loc atunci cnd raportul dintre suma ptratelor intergrupuri i suma ptratelor intra-grupuri este maxim i din orice alt combinaie liniar a predictorilor
va rezulta un raport mai mic.
Principalii indicatori statistici care rezult n urma unei analize a discriminantului sunt:
- testul F pentru compararea mediilor grupurilor;
- corelaia ntre scorurile discriminant i fiecare variabil n parte;
- coeficienii funciei discriminant;
- testul lambda al lui Wilks, care ne arat puterea funciei discriminant;
- centroizii grupurilor.
metoda direct (Enter independents together). Aceasta nseamn c variabilele independente vor fi
introduse simultan n model, indiferent de puterea lor de discriminare.
Pentru ca SPSS-ul s ne furnizeze datele statistice eseniale pentru analiza modelului,
apsm butonul Statistics i selectm urmtoarele: n chenarul Descriptives, opiunea Univariate
ANOVAs, iar n chenarul Function Coefficients, opiunea Unstandardized. Apsm n continuare
butonul Classify i selectm opiunea Summary Table din chenarul Display.
n final, pentru a salva scorurile discriminat, precum i apartenena fiecrui caz la un grup
anume, apsm butonul Save i selectm dou opiuni din caseta de dialog care apare: Predicted
group membership i Discriminant scores.
Iat principalele tabele pe care ni le furnizeaz programul SPSS.
Tests of Equality of Group Means
Wilks'
F
Lambda
Current Salary
.798 119.798
Educational Level
.873
68.495
(years)
Months since Hire
.996
2.094
Previous
.973
13.186
Experience (months)
df1
df2
Sig.
1
1
472
472
.000
.000
1
1
472
472
.148
.000
Acest tabel ne arat care sunt variabilele pentru care exist diferene ntre grupuri, ca medie.
Se observ c singura variabil pentru care nu exist diferene este Months since Hire.
Structure Matrix
Function
1
Current Salary
.838
Educational Level (years)
.634
Previous Experience
.278
(months)
Months since Hire
.111
Pooled within-groups correlations between discriminating variables and
standardized canonical discriminant functions Variables ordered by absolute size of
correlation within function.
58
Centroizii fiecrui grup nu sunt altceva dect mediile scorurilor discriminant pentru fiecare
grup.
Wilks' Lambda
Test of
Function(s)
1
Wilks' Chi-square
Lambda
.734 145.026
df
Sig.
.000
Testul lambda al lui Wilks este foarte important pentru analiza discriminantului. El ne arat
proporia din variana total care nu este explicat de diferenele dintre grupruri (n cazul nostru,
73%). Sig-ul din ultima coloan ne arat dac exist diferene semnificative ntre centroizii celor
dou grupuri.
Classification Results
Predicted Group
Membership
GENDUM
0
Original Count
0
173
1
97
%
0
80.1
1
37.6
a 70.5% of original grouped cases correctly classified.
Total
1
43
161
19.9
62.4
216
258
100.0
100.0
Tabelul de mai sus ne arat, untr-o form sintetic, apartenea cazurilor din eantion la un
grup sau altul. Vom comenta acest tabel pe larg la seminar.
59