Documente Academic
Documente Profesional
Documente Cultură
Analiza datelor
Rezultatele obinute n urma derulrii acestei proceduri vor fi implicit afiate n tabele
dedicate n fereastra SPSS Viewer.
n urma rulrii procedurii se obin urmtoarele tabele:
Statistics
varsta
N
Valid
474
Missing
n tabelul de mai sus se prezint cte cazuri au fost utilizate n calcule (Valid), adic 474 n
exemplul de fa, i cte valori lips exist n cazul acestei variabile (Missing), adic 0 n acest
exemplu. n tabelul de mai jos se prezint valorile pentru variabila varsta, frecvena acestora de
apariie (Frequencies), proporia n totalul cazurilor a fiecrei valori ntlnite (Percent), proporia
fiecrei valori n totalul cazurilor valide (Valid Percent) i procentele cumulate pentru fiecare
valoare n parte, calculate numai pentru cazurile valide.
Observaie : Valorile valide sunt valorile variabilei mai puin valorile lips marcate.
De exemplu, valoarea 42 apare n 26 de cazuri, care reprezint 5,5% din totalul cazurilor.
Pentru c n cazul acestei variabile nu exist valori lips marcate acest procent este acelai i n
cazul n care l calculm doar pentru valorile valide ale variabilei varsta.
Dac dorim s aflm ci dintre angajai au vrsta cuprins ntre vrsta minim (37 de ani) i
42 de ani inclusiv privim coloana (Cumulative Percent), care n acest caz arat c 22,6% dintre
angajai sunt cuprini n acest interval.
varsta
Frequency
Valid
Percent
Valid Percent
Cumulative
Percent
37,00
,2
,2
,2
38,00
13
2,7
2,7
3,0
39,00
29
6,1
6,1
9,1
40,00
25
5,3
5,3
14,3
41,00
13
2,7
2,7
17,1
42,00
26
5,5
5,5
22,6
43,00
29
6,1
6,1
28,7
44,00
38
8,0
8,0
36,7
45,00
38
8,0
8,0
44,7
46,00
26
5,5
5,5
50,2
Analiza datelor
varsta
Frequency
Percent
Valid Percent
Cumulative
Percent
47,00
22
4,6
4,6
54,9
48,00
14
3,0
3,0
57,8
49,00
14
3,0
3,0
60,8
50,00
1,9
1,9
62,7
51,00
,2
,2
62,9
52,00
1,1
1,1
63,9
53,00
1,3
1,3
65,2
54,00
1,9
1,9
67,1
55,00
1,5
1,5
68,6
56,00
1,1
1,1
69,6
57,00
1,3
1,3
70,9
58,00
1,3
1,3
72,2
59,00
1,7
1,7
73,8
60,00
1,3
1,3
75,1
61,00
1,7
1,7
76,8
62,00
1,5
1,5
78,3
63,00
1,1
1,1
79,3
64,00
1,1
1,1
80,4
65,00
1,1
1,1
81,4
66,00
11
2,3
2,3
83,8
67,00
,8
,8
84,6
68,00
1,3
1,3
85,9
69,00
1,3
1,3
87,1
70,00
11
2,3
2,3
89,5
71,00
,6
,6
90,1
72,00
1,3
1,3
91,4
73,00
,6
,6
92,0
74,00
1,9
1,9
93,9
75,00
1,5
1,5
95,4
76,00
1,3
1,3
96,6
77,00
1,1
1,1
97,7
78,00
1,7
1,7
99,4
79,00
,6
,6
100,0
Total
474
100,0
100,0
Dac se dorete obinerea, pe lng tabelul frecvenelor, i a altor indicatori atunci prin
utilizarea butonului Statistics... se deschide o fereastr nou (Frecquencies:Statistics) care permite
alegerea indicatorilor dorii.
Analiza datelor
Valid
474,000
Missing
,000
Mean
51,648
,541
Median
46,000
44,000a
Mode
Std. Deviation
11,784
Variance
138,859
Skewness
,862
,112
Kurtosis
-,566
,224
Range
42,000
Minimum
37,000
Maximum
79,000
Sum
Percentiles
24481,000
25
43,000
50
46,000
75
60,250
Analiza datelor
o N
- numrul total de cazuri studiate. n exemplul nostru sunt 474 de angajai ce
au fost inclui n studiu
o Mean
( x ) - valoarea medie a variabilei, calculat ca medie aritmetic.
N
x=
xi
x
i =1
N
unde:
- valorile variabilei studiate. n exemplul nostru valorile vrstei pentru fiecare angajat.
2 =
(x
i =1
x ) fi
2
i
N
f
i =1
= 2
Are interpretare similar cu a dispersiei dar are avantajul c aceasta se msoar n aceeai
unitate de msur ca i variabila studiat. n cazul de fa n ani i are valoarea 11,784.
o Std. Error of Mean (SEM) eroarea standard pentru medie
SEM =
N
n cazul de fa are valoarea 0,541 = 11.784/474.
o Quartiles - Cuartile trei valori speciale ale variabilei studiate care permit mprirea
numrului total de cazuri ale variabilei n patru pri egale care conin cte 25% din numrul
total de cazuri. Numrul de cazuri total poate fi mprit ntr-un anumit numr de pri egale cu
ajutorul unor valori speciale. Dac se mparte numrul total de cazuri:
- n 4 pri atunci valorile speciale poart denumirea de cuartile i sunt n numr de 3.
- n 10 atunci valorile speciale se numesc decile i sunt n numr de 9.
- n 100 atunci valorile speciale se numesc percentile i sunt n numr de 99.
n exemplul de fa valorile care mpart n 4 pri egale numrul total de cazuri se gsesc n
ultima parte a tabelului sub denumirea de Percentiles (prima cuartil este egal cu a 25-a percentil,
a doua cuartil este egal cu a 50-a percentil iar a treia cuartil este egal cu a 75-a percentil).
o Median (Mediana)
- Valoare special a variabilei studiate care mparte numrul de cazuri
n dou pri egale. Este egal cu cuartila a doua.
n cazul de fa are valoarea 46. Jumtate din angajai au vrsta sub 46 de ani iar jumtate peste.
o Mode (Modul sau Dominanta) - Valoarea care arat cel mai des ntlnit caz (cu frecvena cea
mai mare).
n exemplul de mai sus are valoarea 44. Vrsta cea mai des ntalnit printre angajai este 44 de
ani.
Observaie: SPSS avertizeaz prin nota de subsol a tabelului asupra faptului c exist mai
5
Analiza datelor
multe vrste cel mai des ntlnite i este afiat doar cea mai mic dintre ele.
Dac ne uitm la tabelul cu frecvenele de apariie a vrstelor se observ c vrsta 44 de ani
apare de 38 de ori (cea mai mare frecven de apariie) i acelai lucru se mai ntmpl i
pentru vrsta de 45 de ani. Cu alte cuvinte sunt dou vrste dominante.
o Skewness (coeficientul de asimetrie)
- indicator care arat gradul de simetrie/asimetrie al
formei distribuiei. Ia valori ntre -1 i 1. Dac are valoarea 0 atunci distribuia este simetric.
Dac are valori pozitive atunci distribuia are o abatere de simetrie n partea dreapt iar dac
are valori negative atunci abaterea de la simetrie este n partea stng. Cu ct se apropie de -1
sau 1 cu att distribuia prezint o asimetrie mai accentuat.
n exemplul de fa are valoarea 0,862, adic distribuia variabilei studiate prezint o abatere
accentuat de la simetrie n dreapta.
o Std. Error of Skewness - eroarea standard a coeficientului de asimetrie.
o Kurtosis (coeficientul de boltire/aplatizare) - indicator care arat ct de aplatizat este
distribuia variabilei studiate fa de distribuia normal. Valoarea sa normal este 0. Valorile
negative arat c forma distribuie este platicurtic (mai aplatizat dect curba normal), iar
cele pozitive arat c forma distribuiei este leptocurtic (mai ascuit dect curba normal).
n exemplul de fa are valoarea -0,566 ceea ce spune c distribuia variabilei vrsta este
platicurtic.
o Std. Error of Kurtosis - eroarea standard a coeficientului de boltire. n exemplul de fa are
valoarea 0,224
o Minimum
- valoarea minim a variabilei. n exemplul de fa vrsta minim este 37 de
ani.
o Maximum
- valoarea maxim a variabilei. n exemplul de fa vrsta maxim este 79 de
ani.
o Range (Amplitudinea absolut) - amplitudinea, se calculeaz ca diferen dintre valoarea
maxim i valoarea minim a variabilei studiate.
R = x max x min
n exemplul de fa are valoarea 42 = 79-37.
o Sum
- suma valorilor variabilei studiate. Se poate interpreta pentru variabilele a cror
nsumare are sens. n cazul de fa suma vrstelor angajailor este 24481 de ani.
Butonul Chart... permite alegerea tipului de grafic ce va fi utilizat la reprezentarea valorilor
variabilei studiate.
Analiza datelor
Se poate selecta ntre construirea unui grafic de tip diagram prin coloane, diagram de
structur prin cerc sau histrogram. Se poate opta ca peste graficul ales s fie trasat curba normal.
Acest fapt uureaz foarte mult vizualizarea simetriei sau aplatizrii distribuiei fa de distribuia
normal. Dac se selecteaz None nu va fi construit nici un grafic.
n exemplul de mai sus am selectat construirea unei histograme peste care s fie trasat
curba normal. Rezulltatul arat astfel:
Procedura Descriptives
Aceast procedur vizeaz doar indicatorii statistici descriptivi. Se apeleaz cu urmtoarea
succesiune de comenzi Analyze - Descriptive Satistics Descriptives. Fereastra care se deschide
permite alegerea variabilei/variabilelor pentru care se calculeaz indicatorii precum i care dintre
7
Analiza datelor
indicatorii descriptivi vor fi calculai. Alegerea indicatorilor se face prin acionarea butonului
Options...
n plus se poate selecta construirea unei variabile standardizate noi care va fi salvat n baza
de date.
Sum
Mean
Deviation Variance
Std.
Statistic Statistic Statistic
varsta
474
42,00
37,00
Statistic
Std.
Kurtosis
Std.
Skewness
,862 ,112
-,566 ,224
Analiza datelor
Descriptive Statistics
Std.
N
Sum
Mean
Deviation Variance
Std.
Statistic Statistic Statistic
varsta
Valid N
(listwise)
474
42,00
37,00
Statistic
Skewness
Std.
Kurtosis
Std.
,862 ,112
-,566 ,224
474
Indicatorii calculai sunt aceeai i au fost prezentai anterior. Pentru aceeai variabil varsta
s-au obinut rezultatele de mai sus.
De foarte multe ori se pune problema dac datele utilizate n analiz respect condiia de
normalitate, adic au valori care sunt apropiate ca mod de distribuire de distribuia normal.
Folosind indicatorii descriptivi putem afla dac o distribuie a unei variabile este normal dac de
exemplu valorile pentru kurtosis i skewness sunt 0. Adic distribuia este simetric i mezocurtic.
Dar, chiar i n cazul unui eantion aleator, extras dintr-o populaie normal, este puin probabil s
obinem indici de simetrie i boltire egali cu 0, din cauza variaiei de eantionare. Ca urmare, este
util s tim dac eantionul valorilor analizate provine dintr-o populaie asimetric sau boltit
anormal. Sau, altfel spus, n cazul unui eantion, sunt skewness i kurtosis att de diferite de zero
nct trebuie s respingem ipoteza c valorile eantionului provin dintr-o distribuie normal? Pentru
a rspunde la aceast ntrebare poate fi utilizat eroarea standard a fiecruia dintre cei doi indici
pentru calcularea limitelor intervalului lor de ncredere. Dac n limitele unui interval de ncredere
de 95% se va afla i valoarea zero (caracteristic unei distribuii normale), atunci va trebui s
acceptm ipoteza c distribuia populaiei are simetrie sau boltire normal.
Limitele unui interval de ncredere de 95% pentru skewness se calculeaz la fel ca pentru
oricare indicator statistic:
[Skewness - 1.96 * (eroarea std. a lui skewness) ; Skewness + 1.96 * (eroarea std. a lui skewness)]
Iar pentru kurtosis:
[Kurtosis - 1.96 * (eroarea std. a lui kurtosis) ; Kurtosis + 1.96 * (eroarea std. a lui kurtosis)]
n exemplul de mai sus avem:
Skewness = 0,862 iar eroarea standard a sa 0,112. Intervalul de ncredere va fi:
[0,862-0,112; 0,862+0,112] [0,750; 0,974]
Cum intervalul nu include i valoarea 0 nu putem spune c distribuia variabilei varsta este
simetric, ci are o abatere de la simetrie n partea dreapt.
Calculnd n mod similar i pentru kurtosis vom avea un interval de ncredere astfel:
[-0,566-0,224 ; -0,566+0,224] [-0,790 ; -0,322]
Nici n acest caz valoarea 0 nu este inclus n interval deci se poate spune c distribuia nu
este mezocurtic ci platicurtic.
Procedura Explore
Procedura Explore este cea mai complex dintre toate procedurile statisticii descriptive i se
poate utiliza atunci cnd se dorete o analiz exhaustiv a variabilei (sau variabilelor).
Dup apelarea sa prin succesiunea de comenzi Analyze Descriptive Statistcs Explore se
deschide fereastra.
Analiza datelor
10
Analiza datelor
Una dintre opiunile importante ale acestei aceste este Normality plots with tests, care
testeaz normalitatea distribuiei.
De asemenea n fereastra Explore, butonul Options..., permite setarea modului de tratare a
valorilor lips.
Rezultatele procedurii Explore, definit mai sus, se prezint astfel:
Missing
Percent
474
100,0%
Percent
0 ,0%
Total
N
Percent
474
100,0%
Un tabel sintetic al variabilei, de unde aflm numrul valorilor i procentul lor, pentru
cazurile valide, pentru cele care lipsesc i pentru total. O privire atent pe acest tabel este necesar
cu scopul de a identifica eventuale probleme cu datele. n acest caz, variabila are 474 de valori i nu
exist valori lips.
Tabelul Descriptives conine toi indicatorii statistici descriptivi cunoscui:
95% Confidence Interval for mean ne d limita inferioar (Lower Bound) i pe cea superioar
(Upper Bound) a intervalului de ncredere pentru medie, calculate pe baza erorii standard a acesteia,
afiate pe ultima coloan.
5% Trimmed Mean, este o medie calculat fr participarea a 5% dintre valorilor de la extremele
distribuiei, ceea ce are ca efect eliminarea efectului eventualelor valori extreme. Cu ct aceasta este
mai apropiat de media obinuit, cu att se poate aprecia c distribuia nu are valori extreme. Pe o
distribuie normal, media i 5% trim-media, sunt identice.
Se vor observa:
- distana relativ mare dintre medie i median n cazul distribuiei asimetrice, comparativ cu
celelalte dou.
- faptul c media 5% trim a distribuiei asimetrice se apropie mult de media aritmetic uzual.
- Tabelul percentilelor afieaz valorile percentile. Percentilele de pe linia Tuckeys Hinges
sunt valorile care intr n calcularea nlimii casetei boxplot (abaterea interquartil).
11
Analiza datelor
Descriptives
Statistic
varsta
Mean
Std. Error
51,6477
Lower Bound
50,5841
Upper Bound
52,7112
5% Trimmed Mean
50,9662
Median
46,0000
Variance
138,859
Std. Deviation
,54125
11,78383
Minimum
37,00
Maximum
79,00
Range
42,00
Interquartile Range
17,25
Skewness
Kurtosis
,862
,112
-,566
,224
,202
df
Shapiro-Wilk
Sig.
474 ,000
Statistic
,867
df
Sig.
474 ,000
n cazul nostru, observm c testul de normalitate are valori p (Sig.) mai mici de 0.05
pentru variabila varsta, ceea ce ne confirm c nu prezint o form normal.
Principala problem care se pune n legtur cu interpretarea testelor de normalitate este
12
Analiza datelor
legat de faptul c, pe msur ce eantionul este mai mic, este din ce n ce mai dificil s fie
apreciat corect normalitatea distribuiei unei variabile. Nici chiar un test statistic nu ne poate
oferi o concluzie fundamentat, deoarece nu este suficient de sensibil pentru a distinge ntre o
distribuie normal i una ne-normal. Pentru mai puin de 5 valori, SPSS nici nu mai calculeaz
testul de normalitate, chiar dac este cerut. Pentru a avea suficient ncredere n rezultatul
testelor de normalitate distribuia trebuie s aib cel puin cteva zeci de valori. Rezult c
interpretarea rezultatului la testele de normalitate depinde simultan de valoarea lui p i de
mrimea eantionului. n mod obinuit, aceast interpretare se face dup urmtoarea gril:
Valoarea p Mrimea eantionului
a testului de
normalitate
Interpretare
0.05
oricare
>0.05
>0.05
Hampel's M-
Tukey's Biweight
48,3449
Estimatorc
46,4588
Andrews' Waved
48,7225
46,4105
Percentiles
Percentiles
5
Weighted
varsta
Average(Definition 1)
Tukey's Hinges
39,0000
10
25
40,0000
varsta
13
50
75
43,0000
46,0000
60,2500
43,0000
46,0000
60,0000
90
71,5000
95
75,0000
Analiza datelor
Extreme Values
Case Number
varsta
Highest
Lowest
Value
79,00
152
79,00
443
79,00
108
78,00
171
78,00a
459
37,00
439
38,00
412
38,00
403
38,00
402
38,00b
a. Only a partial list of cases with the value 78,00 are shown in the
table of upper extremes.
b. Only a partial list of cases with the value 38,00 are shown in the
table of lower extremes.
Stem &
43,00
131,00
114,00
30,00
32,00
31,00
32,00
32,00
29,00
3
4
4
5
5
6
6
7
7
.
.
.
.
.
.
.
.
.
Leaf
88888899999999999999&
0000000000001111112222222222222333333333333334444444444444444444
555555555555555555566666666666667777777777788888889999999
0000223334444&
555667778889999
00011112223344
556666677888999
00000122234444
5556667788889
Stem width:
10,00
Each leaf:
2 case(s)
& denotes fractional leaves.
Reprezentrile boxplot
Redm mai nti schema constructiv a unei reprezentri boxplot:
14
Analiza datelor
Aa cum tim, caseta din mijlocul reprezentrii boxplot include 50% dintre valorile
distriuiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distana dintre limitele
casetei (abaterea interquartil, Q3-Q1). Punctele marcate n dincolo de limitele orizontale ale
reprezentrii marcheaz valorile marginale ale distribuiei (O=Outliers) i valorile extreme (E).
Histogramele reprezint ntr-o manier diferit ceea ce reprezint i graficele boxplot de mai
sus. Recomandm analiza comparativ a histogramei i boxplot-ului fiecrei variabile.
15
Analiza datelor
Toate cele trei tipuri de reprezentri grafice (stem-and-leaf, boxplot i histogram) pot fi
utile n analiza distribuiilor, dar se va evita introducerea lor simultan ntr-un document de
cercetare. De asemenea, este de evitat introducerea acestor reprezentri pentru variabile singulare
(descrise n mod suficient cu valorile numerice ale indicatorilor statistici). De regul, graficele de
acest gen sunt introduse n lucrri pentru a prezenta imagini comparative ale variabilelor.
Graficele Normal Q-Q Plot
Graficul Normal plot compar scorul brut (pe axa Ox) cu scorul z ateptat al unei distribuii
care ar avea o form normal (pe axa Oy). Scorul z ateptat se gsete prin convertirea rangului
percentil al fiecrui scor n scor z, utiliznd tabelul probabilitilor de sub curba normal. Acesta
reprezint o expresie grafic a normalitii. Dac valorile variabilei se distribuie normal, atunci
graficul scorurilor brute i ateptate va urma o linie dreapt pe diagonala axelor de coordonate.
Dac scorurile nu se distribuie normal, linia celor dou scoruri deviaz de la modelul rectiliniu.
Se poate observa c variabila varsta nu urmeaz o distribuie normal.
16
Analiza datelor
Lucrare practic
1. Folosind datele din fiierul employees_data_1.sav calculai indicatorii statistici descriptivi
pentru variabilele salary i educ.
2. Interpretai rezultatele obinute.
3. Testai normalitatea variabilelor uiliznd statistici descriptivi corespunztori i apoi utiliznd
modalitile de reprezentare grafic corepsunztoare.
17