Sunteți pe pagina 1din 17

Analiza datelor

CALCULAREA INDICATORILOR STATISTICI DESCRIPTIVI


Una dintre primele operaii care este realizat atunci cnd se dorete caracterizarea
variabilelor este calcularea indicatorilor statistici descriptivi. Aceti indicatori au ca obiectiv analiza
caracteristicilor variabilelor sub aspectul tendinei centrale, mprtierii i formei distribuiei.
Descrierea unei variabile poate fi realizat prin:
1.reprezentri:
o numerice (analiza distribuiei sale)
o grafice (diagrame prin coloane, histograme, diagrame de tip box-plot, stem and leaf)
2.calculul indicatorilor tendinei centrale
o mod (dominant)
o medie
o median
3.calculul indicatorilor variaiei (mprtierii)
o amplitudine, dispersie,
o abatere standard
4.calculul indicatorilor formei distribuiei
o indice de simetrie (skewness)
o indice de boltire (kurtosis)
SPSS ofer posibiliti variate de reprezentare i de calcul a acestor indicatori. n acest sens
exist proceduri dedicate pentru calculul lor ns aceti indicatori pot fi calculai i n cadrul altor
proceduri opional.
Procedurile dedicate se lanseaz din meniul Analyze-Descriptive statistics. Acestea sunt:
Frequencies, Descriptives i Explore. n plus n acelai meniu vei gsi i alte proceduri care pot fi
folosite, de exemplu, pentru reprezentarea adecvat a datelor n vederea determinrii legturii dintre
dou variabile.
Aceste proceduri ofer, fiecare, att prelucrri distincte, ct i identice. Alegerea uneia sau
alteia dintre proceduri depinde de necesitile de analiz sau de modul specific de afiare a
rezultatelor n Viewer.
Procedura Frequencies
Aceasta este singura procedur care permite analiza de frecvene. La apariia casetei
Frequencies, variabila pe care dorim s o supunem analizei se mut n lista de calcul Variable(s),
prin selectarea ei i acionarea butonului de transfer . Pot fi incluse mai multe variabile simultan
n aceast list, rezultatele fiind afiate distinct, pentru fiecare n parte.
n cazul nostru, am ales variabila varsta din exemplul prezentat n fiierul
employees_data_1.sav.

Analiza datelor

Rezultatele obinute n urma derulrii acestei proceduri vor fi implicit afiate n tabele
dedicate n fereastra SPSS Viewer.
n urma rulrii procedurii se obin urmtoarele tabele:
Statistics
varsta
N

Valid

474

Missing

n tabelul de mai sus se prezint cte cazuri au fost utilizate n calcule (Valid), adic 474 n
exemplul de fa, i cte valori lips exist n cazul acestei variabile (Missing), adic 0 n acest
exemplu. n tabelul de mai jos se prezint valorile pentru variabila varsta, frecvena acestora de
apariie (Frequencies), proporia n totalul cazurilor a fiecrei valori ntlnite (Percent), proporia
fiecrei valori n totalul cazurilor valide (Valid Percent) i procentele cumulate pentru fiecare
valoare n parte, calculate numai pentru cazurile valide.
Observaie : Valorile valide sunt valorile variabilei mai puin valorile lips marcate.
De exemplu, valoarea 42 apare n 26 de cazuri, care reprezint 5,5% din totalul cazurilor.
Pentru c n cazul acestei variabile nu exist valori lips marcate acest procent este acelai i n
cazul n care l calculm doar pentru valorile valide ale variabilei varsta.
Dac dorim s aflm ci dintre angajai au vrsta cuprins ntre vrsta minim (37 de ani) i
42 de ani inclusiv privim coloana (Cumulative Percent), care n acest caz arat c 22,6% dintre
angajai sunt cuprini n acest interval.
varsta
Frequency
Valid

Percent

Valid Percent

Cumulative
Percent

37,00

,2

,2

,2

38,00

13

2,7

2,7

3,0

39,00

29

6,1

6,1

9,1

40,00

25

5,3

5,3

14,3

41,00

13

2,7

2,7

17,1

42,00

26

5,5

5,5

22,6

43,00

29

6,1

6,1

28,7

44,00

38

8,0

8,0

36,7

45,00

38

8,0

8,0

44,7

46,00

26

5,5

5,5

50,2

Analiza datelor
varsta
Frequency

Percent

Valid Percent

Cumulative
Percent

47,00

22

4,6

4,6

54,9

48,00

14

3,0

3,0

57,8

49,00

14

3,0

3,0

60,8

50,00

1,9

1,9

62,7

51,00

,2

,2

62,9

52,00

1,1

1,1

63,9

53,00

1,3

1,3

65,2

54,00

1,9

1,9

67,1

55,00

1,5

1,5

68,6

56,00

1,1

1,1

69,6

57,00

1,3

1,3

70,9

58,00

1,3

1,3

72,2

59,00

1,7

1,7

73,8

60,00

1,3

1,3

75,1

61,00

1,7

1,7

76,8

62,00

1,5

1,5

78,3

63,00

1,1

1,1

79,3

64,00

1,1

1,1

80,4

65,00

1,1

1,1

81,4

66,00

11

2,3

2,3

83,8

67,00

,8

,8

84,6

68,00

1,3

1,3

85,9

69,00

1,3

1,3

87,1

70,00

11

2,3

2,3

89,5

71,00

,6

,6

90,1

72,00

1,3

1,3

91,4

73,00

,6

,6

92,0

74,00

1,9

1,9

93,9

75,00

1,5

1,5

95,4

76,00

1,3

1,3

96,6

77,00

1,1

1,1

97,7

78,00

1,7

1,7

99,4

79,00

,6

,6

100,0

Total

474

100,0

100,0

Dac se dorete obinerea, pe lng tabelul frecvenelor, i a altor indicatori atunci prin
utilizarea butonului Statistics... se deschide o fereastr nou (Frecquencies:Statistics) care permite
alegerea indicatorilor dorii.

Analiza datelor

Prin bifarea opiunilor corespunztoare se aleg indicatorii statistici descriptivi ce vor fi


calculai i afiai.
De exemplu, bifnd toate casetele din aceast fereastr se obine:
Statistics
varsta
N

Valid

474,000

Missing

,000

Mean

51,648

Std. Error of Mean

,541

Median

46,000
44,000a

Mode
Std. Deviation

11,784

Variance

138,859

Skewness

,862

Std. Error of Skewness

,112

Kurtosis

-,566

Std. Error of Kurtosis

,224

Range

42,000

Minimum

37,000

Maximum

79,000

Sum
Percentiles

24481,000
25

43,000

50

46,000

75

60,250

a. Multiple modes exist. The smallest value is shown

Analiza datelor

o N
- numrul total de cazuri studiate. n exemplul nostru sunt 474 de angajai ce
au fost inclui n studiu
o Mean
( x ) - valoarea medie a variabilei, calculat ca medie aritmetic.
N

x=

xi

x
i =1

N
unde:
- valorile variabilei studiate. n exemplul nostru valorile vrstei pentru fiecare angajat.

n exemplul de mai sus, vrsta medie a angajailor este 51,648 de ani.


o Variance ( 2 )

- dispersia (variana) variabilei studiate


N

2 =

(x
i =1

x ) fi
2

i
N

f
i =1

n exemplu dispersia are valoarea : 138,859.


Cu ct este mai mare valoarea sa cu att arat o mprtiere mai mare a valorilor fa de media
lor. Cu ct este mai mic cu att arat o concentrare mai mare a valorilor n jurul mediei. Dac
este 0 atunci toate valorile coincid cu valoarea mediei lor.
o Std. deviation ( ) - abaterea standard a variabilei studiate

= 2
Are interpretare similar cu a dispersiei dar are avantajul c aceasta se msoar n aceeai
unitate de msur ca i variabila studiat. n cazul de fa n ani i are valoarea 11,784.
o Std. Error of Mean (SEM) eroarea standard pentru medie

SEM =
N
n cazul de fa are valoarea 0,541 = 11.784/474.
o Quartiles - Cuartile trei valori speciale ale variabilei studiate care permit mprirea
numrului total de cazuri ale variabilei n patru pri egale care conin cte 25% din numrul
total de cazuri. Numrul de cazuri total poate fi mprit ntr-un anumit numr de pri egale cu
ajutorul unor valori speciale. Dac se mparte numrul total de cazuri:
- n 4 pri atunci valorile speciale poart denumirea de cuartile i sunt n numr de 3.
- n 10 atunci valorile speciale se numesc decile i sunt n numr de 9.
- n 100 atunci valorile speciale se numesc percentile i sunt n numr de 99.
n exemplul de fa valorile care mpart n 4 pri egale numrul total de cazuri se gsesc n
ultima parte a tabelului sub denumirea de Percentiles (prima cuartil este egal cu a 25-a percentil,
a doua cuartil este egal cu a 50-a percentil iar a treia cuartil este egal cu a 75-a percentil).
o Median (Mediana)
- Valoare special a variabilei studiate care mparte numrul de cazuri
n dou pri egale. Este egal cu cuartila a doua.
n cazul de fa are valoarea 46. Jumtate din angajai au vrsta sub 46 de ani iar jumtate peste.
o Mode (Modul sau Dominanta) - Valoarea care arat cel mai des ntlnit caz (cu frecvena cea
mai mare).
n exemplul de mai sus are valoarea 44. Vrsta cea mai des ntalnit printre angajai este 44 de
ani.
Observaie: SPSS avertizeaz prin nota de subsol a tabelului asupra faptului c exist mai
5

Analiza datelor

multe vrste cel mai des ntlnite i este afiat doar cea mai mic dintre ele.
Dac ne uitm la tabelul cu frecvenele de apariie a vrstelor se observ c vrsta 44 de ani
apare de 38 de ori (cea mai mare frecven de apariie) i acelai lucru se mai ntmpl i
pentru vrsta de 45 de ani. Cu alte cuvinte sunt dou vrste dominante.
o Skewness (coeficientul de asimetrie)
- indicator care arat gradul de simetrie/asimetrie al
formei distribuiei. Ia valori ntre -1 i 1. Dac are valoarea 0 atunci distribuia este simetric.
Dac are valori pozitive atunci distribuia are o abatere de simetrie n partea dreapt iar dac
are valori negative atunci abaterea de la simetrie este n partea stng. Cu ct se apropie de -1
sau 1 cu att distribuia prezint o asimetrie mai accentuat.
n exemplul de fa are valoarea 0,862, adic distribuia variabilei studiate prezint o abatere
accentuat de la simetrie n dreapta.
o Std. Error of Skewness - eroarea standard a coeficientului de asimetrie.
o Kurtosis (coeficientul de boltire/aplatizare) - indicator care arat ct de aplatizat este
distribuia variabilei studiate fa de distribuia normal. Valoarea sa normal este 0. Valorile
negative arat c forma distribuie este platicurtic (mai aplatizat dect curba normal), iar
cele pozitive arat c forma distribuiei este leptocurtic (mai ascuit dect curba normal).
n exemplul de fa are valoarea -0,566 ceea ce spune c distribuia variabilei vrsta este
platicurtic.
o Std. Error of Kurtosis - eroarea standard a coeficientului de boltire. n exemplul de fa are
valoarea 0,224
o Minimum
- valoarea minim a variabilei. n exemplul de fa vrsta minim este 37 de
ani.
o Maximum
- valoarea maxim a variabilei. n exemplul de fa vrsta maxim este 79 de
ani.
o Range (Amplitudinea absolut) - amplitudinea, se calculeaz ca diferen dintre valoarea
maxim i valoarea minim a variabilei studiate.
R = x max x min
n exemplul de fa are valoarea 42 = 79-37.
o Sum
- suma valorilor variabilei studiate. Se poate interpreta pentru variabilele a cror
nsumare are sens. n cazul de fa suma vrstelor angajailor este 24481 de ani.
Butonul Chart... permite alegerea tipului de grafic ce va fi utilizat la reprezentarea valorilor
variabilei studiate.

Analiza datelor

Se poate selecta ntre construirea unui grafic de tip diagram prin coloane, diagram de
structur prin cerc sau histrogram. Se poate opta ca peste graficul ales s fie trasat curba normal.
Acest fapt uureaz foarte mult vizualizarea simetriei sau aplatizrii distribuiei fa de distribuia
normal. Dac se selecteaz None nu va fi construit nici un grafic.
n exemplul de mai sus am selectat construirea unei histograme peste care s fie trasat
curba normal. Rezulltatul arat astfel:

Butonul Format... permite alegerea ntre diverse moduri de prezentare a rezultatelor.


Opiunile din aceast fereastr permit ordonarea rezultatelor cresctor/descresctor dup valorile
variabilei sau frecvenelor acestora.

Procedura Descriptives
Aceast procedur vizeaz doar indicatorii statistici descriptivi. Se apeleaz cu urmtoarea
succesiune de comenzi Analyze - Descriptive Satistics Descriptives. Fereastra care se deschide
permite alegerea variabilei/variabilelor pentru care se calculeaz indicatorii precum i care dintre
7

Analiza datelor

indicatorii descriptivi vor fi calculai. Alegerea indicatorilor se face prin acionarea butonului
Options...
n plus se poate selecta construirea unei variabile standardizate noi care va fi salvat n baza
de date.

Rezultatul va arta astfel :


Descriptive Statistics
Std.
N

Range Minimum Maximum

Sum

Mean

Deviation Variance

Std.
Statistic Statistic Statistic
varsta

474

42,00

37,00

Statistic

Statistic Statistic Error

Std.

Kurtosis
Std.

Statistic Statistic Statistic Error Statistic Error

79,00 24481,00 51,6477 ,54125 11,78383 138,859

Skewness

,862 ,112

-,566 ,224

Analiza datelor
Descriptive Statistics
Std.
N

Range Minimum Maximum

Sum

Mean

Deviation Variance

Std.
Statistic Statistic Statistic
varsta
Valid N
(listwise)

474

42,00

37,00

Statistic

Statistic Statistic Error

Skewness
Std.

Kurtosis
Std.

Statistic Statistic Statistic Error Statistic Error

79,00 24481,00 51,6477 ,54125 11,78383 138,859

,862 ,112

-,566 ,224

474

Indicatorii calculai sunt aceeai i au fost prezentai anterior. Pentru aceeai variabil varsta
s-au obinut rezultatele de mai sus.
De foarte multe ori se pune problema dac datele utilizate n analiz respect condiia de
normalitate, adic au valori care sunt apropiate ca mod de distribuire de distribuia normal.
Folosind indicatorii descriptivi putem afla dac o distribuie a unei variabile este normal dac de
exemplu valorile pentru kurtosis i skewness sunt 0. Adic distribuia este simetric i mezocurtic.
Dar, chiar i n cazul unui eantion aleator, extras dintr-o populaie normal, este puin probabil s
obinem indici de simetrie i boltire egali cu 0, din cauza variaiei de eantionare. Ca urmare, este
util s tim dac eantionul valorilor analizate provine dintr-o populaie asimetric sau boltit
anormal. Sau, altfel spus, n cazul unui eantion, sunt skewness i kurtosis att de diferite de zero
nct trebuie s respingem ipoteza c valorile eantionului provin dintr-o distribuie normal? Pentru
a rspunde la aceast ntrebare poate fi utilizat eroarea standard a fiecruia dintre cei doi indici
pentru calcularea limitelor intervalului lor de ncredere. Dac n limitele unui interval de ncredere
de 95% se va afla i valoarea zero (caracteristic unei distribuii normale), atunci va trebui s
acceptm ipoteza c distribuia populaiei are simetrie sau boltire normal.
Limitele unui interval de ncredere de 95% pentru skewness se calculeaz la fel ca pentru
oricare indicator statistic:
[Skewness - 1.96 * (eroarea std. a lui skewness) ; Skewness + 1.96 * (eroarea std. a lui skewness)]
Iar pentru kurtosis:
[Kurtosis - 1.96 * (eroarea std. a lui kurtosis) ; Kurtosis + 1.96 * (eroarea std. a lui kurtosis)]
n exemplul de mai sus avem:
Skewness = 0,862 iar eroarea standard a sa 0,112. Intervalul de ncredere va fi:
[0,862-0,112; 0,862+0,112] [0,750; 0,974]
Cum intervalul nu include i valoarea 0 nu putem spune c distribuia variabilei varsta este
simetric, ci are o abatere de la simetrie n partea dreapt.
Calculnd n mod similar i pentru kurtosis vom avea un interval de ncredere astfel:
[-0,566-0,224 ; -0,566+0,224] [-0,790 ; -0,322]
Nici n acest caz valoarea 0 nu este inclus n interval deci se poate spune c distribuia nu
este mezocurtic ci platicurtic.
Procedura Explore
Procedura Explore este cea mai complex dintre toate procedurile statisticii descriptive i se
poate utiliza atunci cnd se dorete o analiz exhaustiv a variabilei (sau variabilelor).
Dup apelarea sa prin succesiunea de comenzi Analyze Descriptive Statistcs Explore se
deschide fereastra.

Analiza datelor

n zona Dependent List se includ variabilele de analizat..


n zona Factor List se includ eventualele variabile nominale, n funcie de care se dorete
analiza variabilei analizate.
Label cases by, permite etichetarea cazurilor la afiare.
Display, permite alegerea opiunilor de afiare a rezultatelor numerice (Statistics), grafice
(Plots) sau ambele categorii (Both).
Butonul Statistics deschide fereastra urmtoare pentru alegerea indicatorilor care vor fi
calculai.

n aceast fereastr opiunea implicit o reprezint Descriptives, care calculeaz toi


indicatorii statistici descriptivi de baz.
M-estimators, calculeaz estimri ale valorilor tendinei centrale la nivelul populaiei mai
robuti, innd cont de forma distribuiei.
Percentiles, calculeaz percentilele 5, 10, 25, 50, 75, 90 i 100.
Tot n fereastra Explore butonul Plots, permite alegerea reprezentrilor grafice dorite.

10

Analiza datelor

Una dintre opiunile importante ale acestei aceste este Normality plots with tests, care
testeaz normalitatea distribuiei.
De asemenea n fereastra Explore, butonul Options..., permite setarea modului de tratare a
valorilor lips.
Rezultatele procedurii Explore, definit mai sus, se prezint astfel:

Case Processing Summary


Cases
Valid
N
varsta

Missing
Percent

474

100,0%

Percent
0 ,0%

Total
N

Percent
474

100,0%

Un tabel sintetic al variabilei, de unde aflm numrul valorilor i procentul lor, pentru
cazurile valide, pentru cele care lipsesc i pentru total. O privire atent pe acest tabel este necesar
cu scopul de a identifica eventuale probleme cu datele. n acest caz, variabila are 474 de valori i nu
exist valori lips.
Tabelul Descriptives conine toi indicatorii statistici descriptivi cunoscui:
95% Confidence Interval for mean ne d limita inferioar (Lower Bound) i pe cea superioar
(Upper Bound) a intervalului de ncredere pentru medie, calculate pe baza erorii standard a acesteia,
afiate pe ultima coloan.
5% Trimmed Mean, este o medie calculat fr participarea a 5% dintre valorilor de la extremele
distribuiei, ceea ce are ca efect eliminarea efectului eventualelor valori extreme. Cu ct aceasta este
mai apropiat de media obinuit, cu att se poate aprecia c distribuia nu are valori extreme. Pe o
distribuie normal, media i 5% trim-media, sunt identice.
Se vor observa:
- distana relativ mare dintre medie i median n cazul distribuiei asimetrice, comparativ cu
celelalte dou.
- faptul c media 5% trim a distribuiei asimetrice se apropie mult de media aritmetic uzual.
- Tabelul percentilelor afieaz valorile percentile. Percentilele de pe linia Tuckeys Hinges
sunt valorile care intr n calcularea nlimii casetei boxplot (abaterea interquartil).

11

Analiza datelor
Descriptives
Statistic
varsta

Mean

Std. Error

51,6477

95% Confidence Interval for


Mean

Lower Bound

50,5841

Upper Bound

52,7112

5% Trimmed Mean

50,9662

Median

46,0000

Variance

138,859

Std. Deviation

,54125

11,78383

Minimum

37,00

Maximum

79,00

Range

42,00

Interquartile Range

17,25

Skewness
Kurtosis

,862

,112

-,566

,224

Tabelul Tests of Normality cuprinde rezultatele testelor de normalitate. n esen, acestea


testeaz gradul de suprapunere dintre distribuia cumulativ a variabilei analizate i distribuia
cumulativ a unei variabile a crei distribuie urmeaz forma Gauss. Cele mai uzuale sunt testele
Kolmogorov-Smirnov (numit i statistica D) i Shapiro-Wilk (numit i statistica W). Desigur, dintre
ele se va lua n considerare numai unul singur. Tendina actual este de a se da un credit mai mare
testului Shapiro-Wilk, deoarece se apreciaz c dispune de o putere mai mare de a surprinde
normalitatea unei distribuii, atunci cnd aceasta este real (Shapiro, Wilk, & Chen, 1968), mai ales
dac numrul valorilor este mic. SPSS calculeaz testul Shapiro-Wilk numai pentru distribuii cu
mai puin de 50 de valori, n celelalte cazuri limitndu-se doar la Kolmogorov-Smirnov.
Att pentru testul Kolmogorv-Smirnov, ct i pentru testul Shapiro-Wilk, conteaz numai
valoarea lui p (Sig.), care se interpreteaz invers dect interpretrile cu care ne-am obinuit
pentru p, astfel:
- dac p (Sig.) este mai mic sau egal cu 0.05, atunci se respinge ipoteza de normalitate a
distribuiei (distribuia variabilei se abate de la forma normal);
- Dac p (Sig.) este mai mare dect 0.05, atunci se accept ipoteza de normalitate a
distribuiei.
Tests of Normality
Kolmogorov-Smirnova
Statistic
varsta

,202

df

Shapiro-Wilk

Sig.
474 ,000

Statistic
,867

df

Sig.
474 ,000

a. Lilliefors Significance Correction

n cazul nostru, observm c testul de normalitate are valori p (Sig.) mai mici de 0.05
pentru variabila varsta, ceea ce ne confirm c nu prezint o form normal.
Principala problem care se pune n legtur cu interpretarea testelor de normalitate este
12

Analiza datelor

legat de faptul c, pe msur ce eantionul este mai mic, este din ce n ce mai dificil s fie
apreciat corect normalitatea distribuiei unei variabile. Nici chiar un test statistic nu ne poate
oferi o concluzie fundamentat, deoarece nu este suficient de sensibil pentru a distinge ntre o
distribuie normal i una ne-normal. Pentru mai puin de 5 valori, SPSS nici nu mai calculeaz
testul de normalitate, chiar dac este cerut. Pentru a avea suficient ncredere n rezultatul
testelor de normalitate distribuia trebuie s aib cel puin cteva zeci de valori. Rezult c
interpretarea rezultatului la testele de normalitate depinde simultan de valoarea lui p i de
mrimea eantionului. n mod obinuit, aceast interpretare se face dup urmtoarea gril:
Valoarea p Mrimea eantionului
a testului de
normalitate

Interpretare

0.05

oricare

Forma distribuiei nu este normal.

>0.05

mare (cel puin cteva Distribuia are o form normal.


zeci)

>0.05

mic (sub cteva


zeci)

Dei testul confirm forma normal a distribuiei, o astfel


de concluzie este riscant, dat fiind capacitatea real
testului de a surprinde acest lucru.

Utilitatea testului de normalitate a distribuiei se raporteaz la decizia de a utiliza teste


parametrice n cazul variabilelor cantitative, care, dup cum tim, sunt supuse acestei condiii.
Att testul K-S ct i Shapiro-Wilk sunt sensibile att la asimetrie ct i la boltire. n general,
testele statistice bazate pe scale de interval (raport) sunt mai robuste (mai sigure) dac
distribuiile sunt simetrice, dar existena unei boltiri nu reprezint o problem. Ca urmare, atunci
cnd utilizm testul t sau analiza de varian, existena boltirii este mai puin preocupant dect
aceea a asimetriei. Din acest motiv, dac testul de normalitate este semnificativ este
recomandabil s verificm dac acest lucru se datoreaz asimetriei, boltirii sau ambelor.
M-Estimators
Huber's MEstimator
Varsta

Hampel's M-

Tukey's Biweight

48,3449

Estimatorc

46,4588

Andrews' Waved

48,7225

46,4105

a. The weighting constant is 1,339.


b. The weighting constant is 4,685.
c. The weighting constants are 1,700, 3,400, and 8,500
d. The weighting constant is 1,340*pi.

Percentiles
Percentiles
5
Weighted

varsta

Average(Definition 1)
Tukey's Hinges

39,0000

10

25

40,0000

varsta

13

50

75

43,0000

46,0000

60,2500

43,0000

46,0000

60,0000

90
71,5000

95
75,0000

Analiza datelor

Extreme Values
Case Number
varsta

Highest

Lowest

Value

79,00

152

79,00

443

79,00

108

78,00

171

78,00a

459

37,00

439

38,00

412

38,00

403

38,00

402

38,00b

a. Only a partial list of cases with the value 78,00 are shown in the
table of upper extremes.
b. Only a partial list of cases with the value 38,00 are shown in the
table of lower extremes.

Reprezentrile Stem-and-leaf pentru distribuia vrstei.


varsta Stem-and-Leaf Plot
Frequency

Stem &

43,00
131,00
114,00
30,00
32,00
31,00
32,00
32,00
29,00

3
4
4
5
5
6
6
7
7

.
.
.
.
.
.
.
.
.

Leaf
88888899999999999999&
0000000000001111112222222222222333333333333334444444444444444444
555555555555555555566666666666667777777777788888889999999
0000223334444&
555667778889999
00011112223344
556666677888999
00000122234444
5556667788889

Stem width:
10,00
Each leaf:
2 case(s)
& denotes fractional leaves.

Reprezentrile boxplot
Redm mai nti schema constructiv a unei reprezentri boxplot:

14

Analiza datelor

n cazul variabilei studiate varsta a rezultat:

Aa cum tim, caseta din mijlocul reprezentrii boxplot include 50% dintre valorile
distriuiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distana dintre limitele
casetei (abaterea interquartil, Q3-Q1). Punctele marcate n dincolo de limitele orizontale ale
reprezentrii marcheaz valorile marginale ale distribuiei (O=Outliers) i valorile extreme (E).
Histogramele reprezint ntr-o manier diferit ceea ce reprezint i graficele boxplot de mai
sus. Recomandm analiza comparativ a histogramei i boxplot-ului fiecrei variabile.

15

Analiza datelor

Toate cele trei tipuri de reprezentri grafice (stem-and-leaf, boxplot i histogram) pot fi
utile n analiza distribuiilor, dar se va evita introducerea lor simultan ntr-un document de
cercetare. De asemenea, este de evitat introducerea acestor reprezentri pentru variabile singulare
(descrise n mod suficient cu valorile numerice ale indicatorilor statistici). De regul, graficele de
acest gen sunt introduse n lucrri pentru a prezenta imagini comparative ale variabilelor.
Graficele Normal Q-Q Plot
Graficul Normal plot compar scorul brut (pe axa Ox) cu scorul z ateptat al unei distribuii
care ar avea o form normal (pe axa Oy). Scorul z ateptat se gsete prin convertirea rangului
percentil al fiecrui scor n scor z, utiliznd tabelul probabilitilor de sub curba normal. Acesta
reprezint o expresie grafic a normalitii. Dac valorile variabilei se distribuie normal, atunci
graficul scorurilor brute i ateptate va urma o linie dreapt pe diagonala axelor de coordonate.
Dac scorurile nu se distribuie normal, linia celor dou scoruri deviaz de la modelul rectiliniu.
Se poate observa c variabila varsta nu urmeaz o distribuie normal.

16

Analiza datelor

Lucrare practic
1. Folosind datele din fiierul employees_data_1.sav calculai indicatorii statistici descriptivi
pentru variabilele salary i educ.
2. Interpretai rezultatele obinute.
3. Testai normalitatea variabilelor uiliznd statistici descriptivi corespunztori i apoi utiliznd
modalitile de reprezentare grafic corepsunztoare.

17

S-ar putea să vă placă și