Sunteți pe pagina 1din 13

M.

Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Calcularea indicatorilor statistici descriptivi


Reamintim faptul c statistica descriptiv are ca obiectiv analiza caracteristicilor
variabilelor sub aspectul tendinei centrale, mprtierii i formei distribuiei. Principalele
componente ale statisticii descriptive sunt:
reprezentarea ntregii distribuii, pe cale:
o numeric (analiza de frecvene)
o grafic (bar, histogram, box-plot, stem and leaf)
indicatorii tendinei centrale
o mod
o medie
o median
indicatorii mprtierii
o amplitudine
o abatere standard
indicatorii formei distribuiei
o indice de simetrie (skewness)
o indice de boltire (kurtosis)
SPSS ofer posibiliti variate de reprezentare i de calcul a acestor indicatori. n acest
sens exist, pe de o parte, proceduri specializate i, pe de alt parte, opiuni care pot fi accesate
din interiorul altor proceduri. Fie i acest aspect numai, ar trebui s sugereze c statistica
descriptiv, n ciuda caracterului ei elementar, este o component indispensabil a analizei
statistice.
n ceea ce privete procedurile specializate, ele se lanseaz din meniul StatisticsSummarize (sau Analyze-Descriptive statistics, pentru versiunile mai noi de SPSS), i sunt
grupate n trei proceduri: Frequencies, Descriptives i Explore (vezi imaginea de mai jos).
 Aceste proceduri ofer, fiecare, att prelucrri distincte, ct i identice. Alegerea uneia
sau alteia dintre proceduri depinde de necesitile de analiz sau de modul specific de
afiare a rezultatelor n Viewer.

Fiierul utilizat pentru exemplificri


(htpp://marianpopa.tripod.com/id2.html).

la

acest

capitol

este

descriptives.sav

1/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Procedura Frequencies
Aceasta este singura procedur care permite analiza de frecvene. La apariia casetei
Frequencies, variabila pe care dorim s o supunem analizei se mut n lista de calcul Variable(s),
prin selectarea ei i acionarea butonului de transfer (). Pot fi incluse mai multe variabile
simultan n aceast list, rezultatele fiind afiate distinct, pentru fiecare n parte.
n cazul nostru, am ales variabila cantitativ nr_cor.

Se va observa pe caseta Frequencies marcarea implicit a opiunii pentru tabela de


frecvene (Display frequency tables), care este funcia specific a acestei proceduri. n plus, prin
acionarea butoanelor din partea de jos a casetei, se pot seta alte analize, astfel:
Butonul Statistics
Se aleg indicatorii statistici
descriptivi dorii

Butonul Chart
Se alege tipul de grafic
dorit

Butonul Format
Se aleg diverse moduri de
prezentare a rezultatelor

Rezultatele sunt afiate n SPSS Viewer n forma de mai jos

Tabelul
Statistics
indicatorilor statistici solicitai

cuprinde

lista

2/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Tabelul frecvenelor simple prezint lista cresctoare a valorilor distribuiei, frecvena


absolut, procentul, procentul valid (prin eliminarea valorilor lips i procentul cumulat).
n mod obinuit, tabela frecvenelor simple se solicit pentru variabile categoriale. Atunci
cnd avem o variabil cu foarte multe valori, tabela frecvenelor simple poate fi prea lung pentru
a fi util.

Iat cum se prezint rezultatul procedurii Frequencies pentru variabila gen:

Procedura Descriptives
Aceast procedur vizeaz doar indicatorii statistici descriptivi. La lansare - SatisticsDescriptives - se deschide caseta principal Descriptives.
Se trec variabilele vizate n lista Variable(s)
(dac dorim calcularea scorurilor z, se bifeaz
opiunea din stnga-jos a casetei )

Se aleg indicatorii dorii din Options

3/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Prin bifarea opiunii Save standardized values as variables, programul va crea o variabil
standardizat z, pe care o va pune n baza de date, la sfritul listei de variabile.
Rezultatul analizei, din Viewer, se prezint astfel:

n tabelul Descriptives Statistic gsim: N (numrul valorilor i al valorilor valide);


valoarea minim i maxim a distribuiei, media; abaterea standard i valorile indicatorilor
simetriei (skewness) i boltirii (kurtosis). Pentru acetia din urm, alturi de valoarea calculat,
avem i eroarea standard, care ne d gradul de imprecizie (eroare) al celor doi indicatori n raport
cu valorile lor reale, la nivelul populaiei din care se presupune a fi fost extrase datele analizate.
Aa cum tim, n cazul unei distribuii normale valorile pentru skewness i kurtosis sunt
egale cu 0. Dar, chiar i n cazul unui eantion aleator, extras dintr-o populaie normal, este puin
probabil s obinem indici de simetrie i boltire egali cu 0, din cauza variaiei de eantionare. Ca
urmare, este util s tim dac eantionul valorilor analizate provine dintr-o populaie asimetric
sau boltit anormal. Sau, altfel spus, n cazul unui eantion, sunt skewness i kurtosis att de
diferite de zero nct trebuie s respingem ipoteza c valorile eantionului provin dintr-o
distribuie normal? Pentru a rspunde la aceast ntrebare poate fi utilizat eroarea standard a
fiecruia dintre cei doi indici pentru calcularea limitelor intervalului lor de ncredere. Dac n
limitele unui interval de ncredere de 95% se va afla i valoarea zero (caracteristic unei
distribuii normale), atunci va trebui s acceptm ipoteza c distribuia populaiei are simetrie sau
boltire normal.
Limitele unui interval de ncredere de 95% pentru skewness se calculeaz la fel ca pentru
oricare indicator statistic::
95% CI =Skewness 1.96 * (eroarea standard a lui skewness)
Iar pentru kurtosis:
95% CI =Kurtosis 1.96 * (eroarea standard a lui kurtosis)
Astfel, pentru variabila nr_cor, analizat mai sus, limitele de ncredere pentru skewness
sunt:
95% CI=-0.724 1.96 *0.277
De unde:
Lim. inf.=-0.905
Lim. sup.=+0.361
Deoarece n intervalul de ncredere intr i valoarea zero (caracteristic distribuiei
normale) acceptm c variabila nr_cor are o distribuie simetric.
n mod similar, limitele de ncredere pentru kurtosis sunt:
95% CI=-0.134 1.96 *0.548
De unde:
Lim. inf.=-0.134
Lim. sup.=+0.806

4/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Concluzia este c i intervalul de ncredere pentru indicele de boltire include valoarea


zero (caracteristic unei curbe normale), fapt care permite acceptarea ipotezei c distribuia nu
prezint o boltire anormal.

n fine, dac ne uitm n Data Editor, la sfritul coloanelor cu


variabile, gsim noua variabil znr_cor, care conine valorile variabilei nr_cor
transformate n scoruri z. Aducem aminte faptul c prin transformarea n z a
valorilor unei variabile, acestea nu urmeaz forma curbei normale, ci exprim
doar distana n abateri standard fa de media distribuiei.

Procedura Explore
Procedura Explore este cea mai complex dintre toate procedurile statisticii descriptive i
se poate utiliza atunci cnd se dorete o analiz exhaustiv a variabilei (sau variabilelor). Vom
utiliza pentru exemplificare trei variabile (asim, normal i uniform) din fiierul descriptives.sav,
ale cror distribuii prezint particularitile sugerate de nume.
Caseta principal Explore

n zona Dependent List se includ variabilele de analizat (asim, uniform, normal).


n zona Factor List se includ eventualele variabile categoriale, n funcie de care se
dorete analiza variabilei analizate (vezi mai jos).
Label cases by, permite etichetarea cazurilor la afiare (rar utilizat).
Display, permite alegerea opiunilor de afiare a rezultatelor numerice (Statistics), grafice
(Plots) sau ambele categorii (Both).
Butonul Statistics deschide caseta pentru alegerea indicatorilor care vor fi calculai.

5/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Opiunea implicit o reprezint Descriptives, care calculeaz toi indicatorii statistici


descriptivi de baz.
M-estimators, calculeaz estimri ale valorilor tendinei centrale la nivelul populaiei mai
robuti, innd cont de forma distribuiei.
Percentiles, calculeaz percentilele 5, 10, 25, 50, 75, 90 i 100.

Butonul Plots, permite alegerea reprezentrilor grafice dorite: am ales reprezentarea


Boxplot i reprezentarea Stem-and-leaf:

Una dintre opiunile importante ale acestei aceste este Normality plots with tests, care
testeaz normalitatea distribuiei (vezi discuia rezultatelor afiate n Viewer).

Butonul Options, permite setarea modului de tratare a valorilor lips

Rezultatele analizei Explore, definit mai sus, se prezint astfel:


Un tabel sintetic al variabilei, de unde aflm numrul valorilor i procentul lor, pentru
cazurile valide, pentru cele care lipsesc i pentru total. O privire atent pe acest tabel este
necesar cu scopul de a identifica eventuale probleme cu datele. n acest caz, toate variabilele au
75 de valori i nu exist valori lips.

6/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Tabelul Descriptives conine toi indicatorii statistici descriptivi cunoscui:

95% Confidence Interval for


mean ne d limita inferioar (Lower
Bound) i pe cea superioar (Upper
Bound) a intervalului de ncredere
pentru medie, calculate pe baza erorii
standard a acesteia, afiate pe ultima
coloan.
5% Trimmed Mean, este o
medie calculat fr participarea a 5%
dintre valorilor de la extremele
distribuiei, ceea ce are ca efect
eliminarea efectului eventualelor
valori extreme. Cu ct aceasta este
mai apropiat de media obinuit, cu
att se poate aprecia c distribuia nu
are valori extreme. Pe o distribuie
normal, media i 5% trim-media,
sunt identice.
Se vor observa:
- distana relativ mare dintre
medie i median n cazul
distribuiei
asimetrice,
comparativ cu celelalte dou.
- faptul c media 5% trim a
distribuiei asimetrice se
apropie mult de media
aritmetic uzual.

Tabelul percentilelor afieaz valorile percentile. Percentilele de pe linia Tuckeys Hinges


sunt valorile care intr n calcularea nlimii casetei boxplot (abaterea interquartil).

Tabelul Tests of Normality cuprinde rezultatele testelor de normalitate. n esen, acestea


testeaz gradul de suprapunere dintre distribuia cumulativ a variabilei analizate i distribuia
cumulativ a unei variabile a crei distribuie urmeaz forma Gauss. Cele mai uzuale sunt testele
Kolmogorov-Smirnov (numit i statistica D) i Shapiro-Wilk (numit i statistica W). Desigur,
dintre ele se va lua n considerare numai unul singur. Tendina actual este de a se da un credit
mai mare testului Shapiro-Wilk, deoarece se apreciaz c dispune de o putere mai mare de a
surprinde normalitatea unei distribuii, atunci cnd aceasta este real (Shapiro, Wilk, & Chen,
1968), mai ales dac numrul valorilor este mic. SPSS calculeaz testul Shapiro-Wilk numai
7/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

pentru distribuii cu mai puin de 50 de valori, n celelalte cazuri limitndu-se doar la


Kolmogorov-Smirnov.
Att pentru testul Kolmogorv-Smirnov, ct i pentru testul Shapiro-Wilk, conteaz numai
valoarea lui p (Sig.), care se interpreteaz invers dect interpretrile cu care ne-am obinuit pentru
p, astfel:
- Dac p (Sig.) este mai mic sau egal cu 0.05, atunci se respinge ipoteza de normalitate a
distribuiei (distribuia variabilei se abate de la forma normal);
- Dac p (Sig.) este mai mare dect 0.05, atunci se accept ipoteza de normalitate a
distribuiei (distribuia )

n cazul nostru, observm c testul de normalitate are valori p (Sig.) mai mici de 0.05
pentru variabilele asim i uniform, ceea ce ne confirm c cele dou variabile nu prezint o form
normal. n acelai timp, variabilei normal i corespunde un p=0.200 (mai mare de 0.05), ceea ce
confirm forma normal a distribuiei sale.
Principala problem care se pune n legtur cu interpretarea testelor de normalitate este
legat de faptul c, pe msur ce eantionul este mai mic, este din ce n ce mai dificil s fie
apreciat corect normalitatea distribuiei unei variabile. Nici chiar un test statistic nu ne poate
oferi o concluzie fundamentat, deoarece nu este suficient de sensibil pentru a distinge ntre o
distribuie normal i una ne-normal. Pentru mai puin de 5 valori, SPSS nici nu mai calculeaz
testul de normalitate, chiar dac este cerut. Pentru a avea suficient ncredere n rezultatul testelor
de normalitate distribuia trebuie s aib cel puin cteva zeci de valori. Rezult c interpretarea
rezultatului la testele de normalitate depinde simultan de valoarea lui p i de mrimea
eantionului. n mod obinuit, aceast interpretare se face dup urmtoarea gril:
Valoarea p
a testului de
normalitate
0.05
>0.05
>0.05

Mrimea eantionului
oricare
mare
(cel puin cteva zeci)
mic
(sub cteva zeci)

Interpretare
Forma distribuiei nu este normal.
Distribuia are o form normal.
Dei testul confirm forma normal a distribuiei, o
astfel de concluzie este riscant, dat fiind capacitatea
real testului de a surprinde acest lucru.

Utilitatea testului de normalitate a distribuiei se raporteaz la decizia de a utiliza teste


parametrice n cazul variabilelor cantitative, care, dup cum tim, sunt supuse acestei condiii.
Att testul K-S ct i Shapiro-Wilk sunt sensibile att la asimetrie ct i la boltire. n general,
testele statistice bazate pe scale de interval (raport) sunt mai robuste (mai sigure) dac
distribuiile sunt simetrice, dar existena unei boltiri nu reprezint o problem. Ca urmare, atunci
cnd utilizm testul t sau analiza de varian, existena boltirii este mai puin preocupant dect

8/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

aceea a asimetriei. Din acest motiv, dac testul de normalitate este semnificativ este recomandabil
s verificm dac acest lucru se datoreaz asimetriei, boltirii sau ambelor.
Reprezentrile Stem-and-leaf
Pentru distribuia asimetric
S observm c sunt menionate i
valori extreme, cele mai mari sau egale cu
145.

Pentru distribuia uniform

Pentru distribuia normal

9/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Reprezentrile boxplot
Redm mai nti schema constructiv a unei reprezentri boxplot:

Pentru variabilele analizate, imaginile boxplot se prezint astfel:


14

160
38

30

12

140

20

10

120

10

8
100
0

6
80

-10

60

2
-20

40

20
N=

-30

-2

75

N=

N=

75

Asimetrica

75

Normala

Uniforma

Aa cum tim, caseta din mijlocul reprezentrii boxplot include 50% dintre valorile
distriuiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distana dintre limitele
casetei (abaterea interquartil, Q3-Q1). Punctele marcate n dincolo de limitele orizontale ale
reprezentrii marcheaz valorile marginale ale distribuiei (O=Outliers) i valorile extreme (E). n
cazul variabilei asim observm gruparea valorilor spre partea inferioar a distribuiei, cu o linie
superioar mai lung dect cea inferioar, i cu o valoare excesiv mult deasupra mustii
superioare. Variabila uniform prezint o caset central extins i linii verticale relativ apropiate
ca lungime, dar scurte, comparativ cu nlimea casetei. n fine, variabila normal prezint o form
simetric, cu o caset central de dimensiuni moderate i cu linii verticale sensibil egale.
Histogramele
Histogram

Histogram

30

Histogram

10

10

4
Std. Dev = 21,67
Mean = 70,5
N = 75,00

Mean = 6,9
N = 75,00

0
0,0

2,0

1,0

4,0

3,0

Uniforma

6,0

5,0

8,0

7,0

10,0 12,0

9,0

10/13

11,0

Std. Dev = 11,67

Mean = 1,4
N = 75,00

,5
27
,5
22
,5
17
,5
12
5
7,
5
2,
,5
-2
,5
-7 5
2,
-1 5
7,
-1 5
2,
-2

0
0,
15 ,0
0
14 ,0
0
13 ,0
0
12 ,0
0
11 0
0,
10
,0
90 0
,
80
,0
70
,0
60 0
,
50 0
,
40

Asimetrica

4
Std. Dev = 3,80

Frequency

10

Frequency

Frequency

20

Normala

Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Histogramele reprezint ntr-o manier diferit ceea ce reprezint i graficele boxplot de


mai sus. Recomandm analiza comparativ a histogramei i boxplot-ului fiecrei variabile.
Toate cele trei tipuri de reprezentri grafice (stem-and-leaf, boxplot i histogram) pot fi
utile n analiza distribuiilor, dar se va evita introducerea lor simultan ntr-un document de
cercetare. De asemenea, este de evitat introducerea acestor reprezentri pentru variabile singulare
(descrise n mod suficient cu valorile numerice ale indicatorilor statistici). De regul, graficele de
acest gen sunt introduse n lucrri pentru a prezenta imagini comparative ale variabilelor.

Graficele Normal Q-Q Plot


Graficul Normal plot compar scorul brut (pe axa Ox) cu scorul z ateptat al unei
distribuii care ar avea o form normal (pe axa Oy). Scorul z ateptat se gsete prin convertirea
rangului percentil al fiecrui scor n scor z, utiliznd tabelul probabilitilor de sub cuba normal.
Acesta reprezint o expresie grafic a normalitii. Dac valorile variabilei se distribuie normal,
atunci graficul scorurilor brute i ateptate va urma o linie dreapt pe diagonala axelor de
coordonate. Dac scorurile nu se distribuie normal, linia celor dou scoruri deviaz de la modelul
rectiliniu. Privind graficele celor trei tipuri de distribuii, observm c liniile punctate ale
variabilelor asim i uniform se abat de la linia dreapt, n timp ce pentru variabila normal linia
punctat aproape se suprapune peste linia teoretic. Graficele Normal Q-Q Plot nu fac dect s
ilustreze grafic rezultatele testelor de normalitate
Normal Q-Q Plot of Uniforma

Normal Q-Q Plot of Normala


3

-1
-2
-3
20

40

60

80

100

120

140

160

Expected Normal

Expected Normal

Expected Normal

Normal Q-Q Plot of Asimetrica


3

-1
-2
-3
-10

10

Observed Value

0
-1
-2
-3
-30

-20

-10

10

20

20

Observed Value

Observed Value

Procedura Explore factorial


Aa cum am spus, n caseta
principal Explore, n zona Factor List, se
poate introduce o variabil categorial,
rezultatul fiind acela c variabila (sau
variabilele) din zona Dependent List vor fi
analizate separat pentru fiecare dintre
categoriile variabilei Factor. Vom ilustra
aceast opiune pentru variabila nr_cor, n
funcie de valorile variabilei cond_prez.

11/13
Actualizat la: 13.03.2006 / 9:36:04 AM

30

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

n
imaginea
alturat se poate vedea
coninutul
tabelului
Descriptives din Viewer
pentru
aceast
configuraie de analiz.

Iar mai jos, reprezentrile comparative boxplot, care fac mai expresive raporturile dintre
distribuiile analizate, prin raportarea simultan la acelai cadru de referin.

Utilizarea opiunii factoriale din procedura Explore este foarte util atunci cnd suntem
interesai s analizm descriptiv caracteristicile unei variabile cantitative n raport de categoriile
definite prin valorile unei variabile categoriale.

12/13
Actualizat la: 13.03.2006 / 9:36:04 AM

M. Popa Aplicaii SPSS (Indicatori statistici descriptivi)

Valorile marginale (Outliers)


Tabelul Extreme Values listeaz cte cinci valori de la marginea distribuiei, fr ca
acestea s fie n mod necesar valori care ntrunesc condiiile definite n contextul procedurii
boxplot pentru valorile marginale sau extreme. Ca urmare, aceste valori vor fi analizate pentru a
constata n ce msur se abat grav de la tendina central a distribuiei.

13/13
Actualizat la: 13.03.2006 / 9:36:04 AM