Sunteți pe pagina 1din 47

Statistica descriptiv

Indicatori sintetici ai
distribuiilor statistice

M. Popa
Statistica descriptiv - obiective
Cum se prezint valorile unei distribuii?
Ct de apropiate sunt unele de altele?
Ct de diferite sunt unele de altele?
Exist valori care reprezint ntreaga
distribuie?
Categorii de indicatori
Indicatori ai tendinei centrale
valori tipice, reprezentative, care descriu
distribuia n ntregul ei
Indicatori ai mprtierii
descriu caracteristica de mprtiere a
valorilor distribuiei
Indicatori ai formei distribuiei
se refer la forma curbei de reprezentare
grafic a distribuiei
Indicatori ai tendinei centrale
modul
mediana
media
Modul (Mo)
Definiie:
valoarea
cu frecvena cea mai mare
clasa de interval
expresia ce mai direct a valorii tipice
(reprezentative)
se afl prin alctuirea tabelei de frecvene (simple
sau grupate) i este valoarea (clasa) creia i
corespunde frecvena absolut cea mai ridicat.
distribuii unimodale (583254 Mo=5)
distribuii bimodale (5832254 Mo=5; =2)
distribuii multimodale (58832254 Mo=5; =2; =8)
MEDIANA (Me)
valoarea din mijlocul unei distribuii
are 50% dintre valori deasupra ei
i 50% dintre valori dedesubtul ei
corespunde valorii de 50% pe coloana
frc%.
percentila?... decila?.... quartila?
distribuie cu numr impar de valori
Me este chiar valoarea respectiv.
distribuie par
Me se calculeaz ca medie a valorilor din
mijlocul distribuiei G. Fechner
5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5
MEDIA ARITMETIC (m)
Notaii uzuale:
(miu) media populaiei
m media eantionului
Calcul pentru frecvene simple (583254)
m X

5 8 3 2 5 4 26
4,50
N 6 6

Calcul pentru frecvene grupate (55833332244)

m ( X * f ) 5 * 2 8 * 1 3 * 4 2 * 2 4 * 2 43
3,90
f 2 1 4 2 2 11
Modul, Mediana i Media vizeaz
acelai lucru, tendina central
i totui
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N=15

60 45 22 20 16 16 16 15 14 14 14 12 12 12 12 X=300

media=20 mediana=15 modul=12


X/N=300/15 (N+1)/2=8 (valoarea cea mai frecvent)
Proprietile mediei aritmetice
Adugarea\scderea unei constante la fiecare
valoare a distribuiei, mrete\scade media cu
acea valoare
nmulirea\mprirea fiecrei valori a distribuiei
cu o constant, multiplic\divide media cu acea
constant
Suma abaterii valorilor de la medie este
ntotdeauna egal cu zero
Suma ptratului abaterilor de la medie va fi
ntotdeauna mai mic dect suma ptratelor
abaterilor n raport cu oricare alt punct al
distribuiei
Proprietile mediei

abateri
variabila constant + *
medie
5 2 7 10 0,50
8 2 10 16 3,50
3 2 5 6 -1,50
2 2 4 4 -2,50
5 2 7 10 0,50
4 2 6 8 -0,50
suma=0
m=4.5 m=6.5 m=9
media=?
Valori nedeterminate i clase
deschise
Valorile nedeterminate
valori a cror mrime nu decurge din procesul de
msurare, n acelai mod n care rezult oricare
valoare a seriei
Exemplu: testul de asociere verbal (10 sec)
Clase (categorii) deschise
categorii care au una dintre limite liber
Exemplu: Cte igri fumezi zilnic? (30 sau mai
mult).
n astfel de cazuri se utilizeaz mediana
Avantajele indicatorilor tendinei centrale
- Uor de calculat (nesemnificativ n prezent);
- Poate fi utilizat pentru orice tip de scal;
MODUL - Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distribuiei;

- Poate fi utilizat pe scale ordinale i de


interval\raport;
MEDIANA - Poate fi utilizat i pe distribuii de frecven cu
clase deschise sau scoruri nedeterminate la
marginile distribuiei;
- Reflect valorile ntregii distribuii;
MEDIA - Are multe proprieti statistice dezirabile;
- Adecvat pentru utilizare n statistici avansate;
Dezavantajele indicatorilor tendinei centrale
- n general, nesigur, mai ales n cazul eantioanelor mici,
cnd se poate modifica dramatic la o modificare minor a
unei valori;
MODUL - Poate fi greit interpretat. Se identific total cu un scor
anume, fr a spune nimic despre celelalte valori;
- Nu poate fi utilizat n statistici infereniale;

- Poate s nu corespund unei valori reale (N par);


- Nu reflect valorile distribuiei (un scor extrem se poate
modifica, fr a afecta Me);
MEDIANA - Este mai puin sigur n extrapolarea de la eantion la
populaie;
- Greu de utilizat n statistici avansate

- De obicei nu corespunde unei valori reale;


- Nu este tocmai adecvat pentru scale ordinale;
MEDIA - Conduce la interpretri greite pe distribuii asimetrice
- Poate fi puternic afectat de scorurile extreme;
Valori extreme (excesive) ale
distribuiei
valori excesive, neobinuit de mari sau de
mici fa de celelalte valori ale unei
distribuii
Identificare
metoda grafic Box-and-Whisker-Plot (Box-
Plot)
autor Tukey
Limita de sus poate urca pn la 133,5
142 valoare extrem Cea mai apropiat valoare este 125
135 valoare extrem
114+1.5x13=133.5

114
Percentila 75 (114)

Mediana
(Q2)

H=114-101=13

Percentila 25 (101)
101

Limita de jos este 81.5


Trasm la 86

101-1.5x13=81.5
30

25
Rasp corecte examen iunie

20

15

10

1 2 3 4 5 6 7 8 9 10
grupa
125

100
SUM (it_01 to it_22)

75

50

25

f m
Gender
Tratarea valorilor extreme
Stabilirea naturii valorilor extreme:
erori de nregistrare (tastare);
erori de msurare;
rezultate influenate de anomalii ale condiiilor
experimentale.
eantionul a fost extras dintr-o populaie asimetric
valorile respective fac parte din alt populaie de
valori
eantion prea mic
Tratarea lor pe una din cile posibile:
eliminare (dac sunt erori necorectabile);
corectare (dac este posibil);
utilizarea mediei 5%trim,
transformare (extragerea radicalului din toate valorile
distribuiei, logaritmarea distribuiei, etc.)
Indicatori sintetici ai mprtierii
msoar gradul de diversificare a valorilor

mprtierea dupa
scorului la un test
nainte
de rezisten la
stres, nainte i
dup un program
de psihoterapie
m1=30 m2=40
Tipuri de indicatori
1. Amplitudinea absolut
2. Amplitudinea relativ
3. Abaterea quartil (cvartil, intercvartil)
4. Abaterea semi-interquartil
5. Abaterea medie
6. Dispersia (variana)
7. Abaterea standard
8. Coeficientul de variaie
Amplitudinea absolut (R)
diferena dintre valoarea maxim i
valoarea minim a unei distribuii
indic n mod absolut plaja de valori ntre
care se ntinde distribuia.
poate fi influenat de o singur valoare
aflat la extremitatea distribuiei

1,2,3,4,5,6,7 R=Xmax-Xmin=7-1=6
Amplitudinea relativ (R%)
raportul procentual dintre amplitudine i
medie
util cnd cunoatem plaja teoretic de
variaie a valorilor

1,2,3,4,5,6,7
R 6
R% *100 R% *100 150%
m 4
Imprecizia amplitudinii

Distribuia A are o amplitudine Amplitudinile distribuiilor A


mai mare dar i o variabilitate i B sunt identice, dar
mai mare dect distribuia B distribuia A are mai mult
variabilitate.
Abaterea quartil (cvartil,
intercvartil) (RQ)

diferena dintre quartila 3 i quartila 1


este distana dintre limita superioar i cea
inferioar a casetei Box-Plot (valoarea H)

RQ Q3 Q1
Abaterea semi-interquartil
(RSQ)
distana unui un scor tipic fa de amplitudinea
ntregii distribuii
este abaterea quartil mprit la 2
ntr-o distribuie perfect simetric RSQ=Q2=Me
RSQ nu este afectat de valorile aberante
indicator robust al mprtierii

Q3 Q1
RSQ
2
Abaterea medie (d)
X Xi m
abaterea
5 (5 4.5) = .5 valorii
8 (8 4.5) = 3.5
3 (3 4.5) = -1.5
2 (2 4.5) = -2.5 abaterea
medie
5 (5 4.5) = .5
4 (4 4.5) = -.5 ntotdeauna d=0
dar...
X = 27 (Xi-m) = 0
N=6 d
|X i m|
1.5
N
m = 4.5
Dispersia
(variana, abaterea medie ptratic)
Notaii uzuale:
s2 (eantion)
2 (populaie)
Se calculeaz ca sum a abaterilor de
la medie ridicate la ptrat
Dispersia (variana)
s2 (eantion) 2 (populaie)
X (Xi m) (Xi m) 2
5 (5 4.5) = .5 .25
8 (8 4.5) = 3.5 12.25
s2
i
( X m ) 2

3 (3 4.5) = -1.5 2.25


N
2 (2 4.5) = -2.5 6.25
5 (5 4.5) = .5 .25
4 (4 4.5) = -.5 .25
21,5
s
2
3.58
X = (Xi-m) = 0 (X-m)2 = 6
27 21.5
N=6
m = 4.5
Abaterea standard
s (eantion); (populaie), SD (APA); ab.std.

se calculeaz prin
extragerea radicalului s
(X i m) 2

din expresia dispersiei N

21,5
s 1,89
6
Corecia indicatorilor mprtierii
calculai pentru eantioane

dispersia abaterea standard


Abaterea standard nu este definit pentru (n-1), ci pentru n
Dar... suma abaterilor 2 de la medie este ntotdeauna 0

2... dac tim m
( X in-1 )
abateri,

o cunoatem pe ultima ( X m) 2
s ... doar primele n-1 abateri pot varia liber.
s
i

...(n-1) sunt Ndefinite ca grade de libertate N

s2
i
( X m) 2

s
(X i m) 2

N 1 N 1
Proprietile abaterii standard
1. Dac se adaug/scade o constant la
fiecare valoare a unei distribuii, abaterea
standard nu este afectat
Proprietile abaterii standard
2. Dac se multiplic/divide fiecare valoare a unei
distribuii cu o constant, abaterea standard se
multiplic/divide cu acea constant
Proprietile abaterii standard
3. Abaterea standard X (Xi m) (Xi 5)2
fa de medie este
mai mic dect 5 (5 4.5) = .5 (5-5)2=0
abaterea standard 8 (8 4.5) = 3.5 (8-5)2=9
fa de orice alt
valoare a unei 3 (3 4.5) = -1.5 (3-5)2=4
distribuii
2 (2 4.5) = -2.5 (2-5)2=9
5 (5 4.5) = .5 (5-5)2=0
4 (4 4.5) = -.5 (4-5)2=1

X = 27 (Xi-m) = 0 (X-5)2 =23


N=6
m = 4.5
Coeficientul de variaie (cv)
abaterea medie i abaterea standard se exprim n
unitile de msur ale variabilei de referin
ca urmare, nu pot fi comparate n mod direct, pentru
variabile diferite
cv poate fi calculat numai pe scale de
raport (origine n 0)
cv<15%, mprtierea este mic i, deci,
media este reprezentativ
s cv este ntre 15%-30%, mprtierea este
cv *100 mijlocie i media este suficient de
m reprezentativ
cv > 30%, mprtierea este mare i
media are o reprezentativitate redus
Alegerea indicatorului mprtierii
Abaterea standard este cea mai utilizat pentru
scale de msurare interval/raport. Realizeaz
cea mai bun combinaie ntre calitatea estimrii
i posibilitatea de a fundamenta inferene
statistice.
Amplitudinea este un indicator nesigur i care
nici nu poate fi calculat n cazul scalelor
nominale
Pe distribuii cu valori nedeterminate sau cu
intervale deschise, se alege abaterea
interquartil (semi-interquartil).
Indicatori ai formei distribuiei
simetrie (skewness)
simetric asimetric negativ asimetric pozitiv
Skewness 0 negativ pozitiv
Efectul asimetriei asupra mediei
3, 4, 5, 5, 6, 7
Modul: 5
Mediana: 5
Media: 5
3, 4, 5, 5, 6, 7, 17
Modul: 5
Mediana: 5
Media: 6.7
Distribuie: simetric asimetric negativ asimetric pozitiv

Medie Median
Mediana Medie
Mod Mod Mod Medie
Median
Indicatori ai formei distribuiei
boltire (kurtosis)

leptocurtica Kurtosis pozitiv

mezocurtica Kurtosis 0

platicurtica Kurtosis negativ


Pentru sntatea dvs.,
Cnd traversai, uitai-v spre
partea de unde pot veni maini!