Sunteți pe pagina 1din 47

Statistica descriptiv

Indicatori sintetici ai distribuiilor statistice

M. Popa

Statistica descriptiv - obiective


Cum se prezint valorile unei distribuii?
Ct de apropiate sunt unele de altele? Ct de diferite sunt unele de altele?

Exist valori care reprezint ntreaga distribuie?

Categorii de indicatori
Indicatori ai tendinei centrale
valori tipice, reprezentative, care descriu distribuia n ntregul ei

Indicatori ai mprtierii
descriu caracteristica de mprtiere a valorilor distribuiei

Indicatori ai formei distribuiei


se refer la forma curbei de reprezentare grafic a distribuiei

Indicatori ai tendinei centrale


modul mediana media

Modul (Mo)
Definiie:
valoarea clasa de interval
cu frecvena cea mai mare

expresia ce mai direct a valorii tipice (reprezentative) se afl prin alctuirea tabelei de frecvene (simple sau grupate) i este valoarea (clasa) creia i corespunde frecvena absolut cea mai ridicat. distribuii unimodale (583254 Mo=5) distribuii bimodale (5832254 Mo=5; =2) distribuii multimodale (58832254 Mo=5; =2; =8)

MEDIANA (Me)
valoarea din mijlocul unei distribuii
are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei

corespunde valorii de 50% pe coloana frc%.


percentila?... decila?.... quartila?

distribuie cu numr impar de valori


Me este chiar valoarea respectiv.

distribuie par
Me se calculeaz ca medie a valorilor din mijlocul distribuiei
G. Fechner

5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5

MEDIA ARITMETIC (m)


Notaii uzuale:
(miu) media populaiei m media eantionului

Calcul pentru frecvene simple (583254)


X m N 5 8 3 2 5 4 26 4,50 6 6

Calcul pentru frecvene grupate (55833332244)


( X * f ) 5 * 2 8 * 1 3 * 4 2 * 2 4 * 2 43 m 3,90 2 1 4 2 2 11 f

Modul, Mediana i Media vizeaz acelai lucru, tendina central i totui


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
N=15
X=300

60 45 22 20 16 16 16 15 14 14 14 12 12 12 12

media=20 X/N=300/15

mediana=15 (N+1)/2=8

modul=12 (valoarea cea mai frecvent)

Proprietile mediei aritmetice


Adugarea\scderea unei constante la fiecare valoare a distribuiei, mrete\scade media cu acea valoare nmulirea\mprirea fiecrei valori a distribuiei cu o constant, multiplic\divide media cu acea constant Suma abaterii valorilor de la medie este ntotdeauna egal cu zero Suma ptratului abaterilor de la medie va fi ntotdeauna mai mic dect suma ptratelor abaterilor n raport cu oricare alt punct al distribuiei

Proprietile mediei
variabila constant 5 8 3 2 5 4 m=4.5 2 2 2 2 2 2 + 7 10 5 4 7 6 m=6.5 * 10 16 6 4 10 8 m=9 abateri medie 0,50 3,50 -1,50 -2,50 0,50 -0,50 suma=0 media=?

Valori nedeterminate i clase deschise


Valorile nedeterminate
valori a cror mrime nu decurge din procesul de msurare, n acelai mod n care rezult oricare valoare a seriei Exemplu: testul de asociere verbal (10 sec)

Clase (categorii) deschise


categorii care au una dintre limite liber Exemplu: Cte igri fumezi zilnic? (30 sau mai mult).

n astfel de cazuri se utilizeaz mediana

Avantajele indicatorilor tendinei centrale


- Uor de calculat (nesemnificativ n prezent); - Poate fi utilizat pentru orice tip de scal; - Este singurul indicator pentru scale nominale;- Corespunde unui scor real al distribuiei;

MODUL

- Poate fi utilizat pe scale ordinale i de interval\raport; MEDIANA - Poate fi utilizat i pe distribuii de frecven cu clase deschise sau scoruri nedeterminate la marginile distribuiei; - Reflect valorile ntregii distribuii; - Are multe proprieti statistice dezirabile; - Adecvat pentru utilizare n statistici avansate;

MEDIA

Dezavantajele indicatorilor tendinei centrale


- n general, nesigur, mai ales n cazul eantioanelor mici, cnd se poate modifica dramatic la o modificare minor a unei valori; - Poate fi greit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori; - Nu poate fi utilizat n statistici infereniale;

MODUL

- Poate s nu corespund unei valori reale (N par); - Nu reflect valorile distribuiei (un scor extrem se poate modifica, fr a afecta Me); MEDIANA - Este mai puin sigur n extrapolarea de la eantion la populaie; - Greu de utilizat n statistici avansate - De obicei nu corespunde unei valori reale; - Nu este tocmai adecvat pentru scale ordinale; - Conduce la interpretri greite pe distribuii asimetrice - Poate fi puternic afectat de scorurile extreme;

MEDIA

Valori extreme (excesive) ale distribuiei


valori excesive, neobinuit de mari sau de mici fa de celelalte valori ale unei distribuii Identificare
metoda grafic Box-and-Whisker-Plot (BoxPlot) autor Tukey

142 valoare extrem 135 valoare extrem

Limita de sus poate urca pn la 133,5 Cea mai apropiat valoare este 125

114+1.5x13=133.5

114

Percentila 75 (114) Mediana (Q2)

H=114-101=13 Percentila 25 (101)


101 Limita de jos este 81.5 Trasm la 86

101-1.5x13=81.5

30

25

Rasp corecte examen iunie

20

15

10

0 1 2 3 4 5 6 7 8 9 10

grupa

125

SUM (it_01 to it_22)

100

75

50

25

Gender

Tratarea valorilor extreme


Stabilirea naturii valorilor extreme:
erori de nregistrare (tastare); erori de msurare; rezultate influenate de anomalii ale condiiilor experimentale. eantionul a fost extras dintr-o populaie asimetric valorile respective fac parte din alt populaie de valori eantion prea mic

Tratarea lor pe una din cile posibile:


eliminare (dac sunt erori necorectabile); corectare (dac este posibil); utilizarea mediei 5%trim, transformare (extragerea radicalului din toate valorile distribuiei, logaritmarea distribuiei, etc.)

Indicatori sintetici ai mprtierii


msoar gradul de diversificare a valorilor mprtierea scorului la un test de rezisten la stres, nainte i dup un program de psihoterapie
dupa nainte

m1=30 m2=40

Tipuri de indicatori
1. 2. 3. 4. 5. 6. 7. 8. Amplitudinea absolut Amplitudinea relativ Abaterea quartil (cvartil, intercvartil) Abaterea semi-interquartil Abaterea medie Dispersia (variana) Abaterea standard Coeficientul de variaie

Amplitudinea absolut (R)


diferena dintre valoarea maxim i valoarea minim a unei distribuii indic n mod absolut plaja de valori ntre care se ntinde distribuia. poate fi influenat de o singur valoare aflat la extremitatea distribuiei
1,2,3,4,5,6,7 R=Xmax-Xmin=7-1=6

Amplitudinea relativ (R%)


raportul procentual dintre amplitudine i medie util cnd cunoatem plaja teoretic de variaie a valorilor

1,2,3,4,5,6,7

R R% *100 m

6 R% *100 150% 4

Imprecizia amplitudinii

Distribuia A are o amplitudine mai mare dar i o variabilitate mai mare dect distribuia B

Amplitudinile distribuiilor A i B sunt identice, dar distribuia A are mai mult variabilitate.

Abaterea quartil (cvartil, intercvartil) (RQ)


diferena dintre quartila 3 i quartila 1 este distana dintre limita superioar i cea inferioar a casetei Box-Plot (valoarea H)

RQ Q3 Q1

Abaterea semi-interquartil (RSQ)


distana unui un scor tipic fa de amplitudinea ntregii distribuii este abaterea quartil mprit la 2 ntr-o distribuie perfect simetric RSQ=Q2=Me RSQ nu este afectat de valorile aberante
indicator robust al mprtierii

RSQ

Q3 Q1 2

Abaterea medie (d)


X 5 8 3 Xi m (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = -1.5 abaterea valorii

2
5 4 X = 27 N=6

(2 4.5) = -2.5
(5 4.5) = .5 (4 4.5) = -.5 (Xi-m) = 0

abaterea medie

ntotdeauna d=0
dar...

|X d

m|

m = 4.5

1.5

Dispersia (variana, abaterea medie ptratic)


Notaii uzuale:
s2 (eantion) 2 (populaie)

Se calculeaz ca sum a abaterilor de la medie ridicate la ptrat

s2 (eantion) 2 (populaie)
X 5 8 3 2 5 4 X = 27 N=6 m = 4.5 (Xi m) (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = -1.5 (2 4.5) = -2.5 (5 4.5) = .5 (4 4.5) = -.5 (Xi-m) = 0 (Xi m) 2 .25 12.25 2.25 6.25 .25 .25 (X-m)2 = 21.5

Dispersia (variana)

s2

2 ( X m ) i

21,5 s 3.58 6
2

Abaterea standard
s (eantion); (populaie), SD (APA); ab.std.

se calculeaz prin extragerea radicalului din expresia dispersiei

(X

m)

21,5 1,89 6

Corecia indicatorilor mprtierii calculai pentru eantioane


Abaterea standard nu este definit pentru (n-1), ci pentru n Dar... suma abaterilor 2 de la medie este ntotdeauna 0 ( X in ) 2 ... dac tim -1 m abateri, o cunoatem pe ultima ( X m) 2 i s ... doar primele n-1 abateri pot varia liber. s ...(n-1) sunt N definite ca grade de libertate N

dispersia

abaterea standard

s2

2 ( X m ) i

N 1

(X

m)

N 1

Proprietile abaterii standard


1. Dac se adaug/scade o constant la fiecare valoare a unei distribuii, abaterea standard nu este afectat

Proprietile abaterii standard


2. Dac se multiplic/divide fiecare valoare a unei distribuii cu o constant, abaterea standard se multiplic/divide cu acea constant

Proprietile abaterii standard


3. Abaterea standard
fa de medie este mai mic dect abaterea standard fa de orice alt valoare a unei distribuii

X 5 8 3 2 5 4 X = 27 N=6 m = 4.5

(Xi m) (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = -1.5 (2 4.5) = -2.5 (5 4.5) = .5 (4 4.5) = -.5 (Xi-m) = 0

(Xi 5)2 (5-5)2=0 (8-5)2=9 (3-5)2=4 (2-5)2=9 (5-5)2=0 (4-5)2=1 (X-5)2 =23

Coeficientul de variaie (cv)


abaterea medie i abaterea standard se exprim n unitile de msur ale variabilei de referin ca urmare, nu pot fi comparate n mod direct, pentru variabile diferite cv poate fi calculat numai pe scale de raport (origine n 0) cv<15%, mprtierea este mic i, deci, media este reprezentativ cv este ntre 15%-30%, mprtierea este mijlocie i media este suficient de reprezentativ cv > 30%, mprtierea este mare i media are o reprezentativitate redus

s cv *100 m

Alegerea indicatorului mprtierii


Abaterea standard este cea mai utilizat pentru scale de msurare interval/raport. Realizeaz cea mai bun combinaie ntre calitatea estimrii i posibilitatea de a fundamenta inferene statistice. Amplitudinea este un indicator nesigur i care nici nu poate fi calculat n cazul scalelor nominale Pe distribuii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartil (semi-interquartil).

Indicatori ai formei distribuiei


simetrie (skewness)
simetric Skewness 0 asimetric negativ negativ asimetric pozitiv pozitiv

Efectul asimetriei asupra mediei


3, 4, 5, 5, 6, 7
Modul: 5 Mediana: 5 Media: 5

3, 4, 5, 5, 6, 7, 17
Modul: 5 Mediana: 5 Media: 6.7

Distribuie: simetric

asimetric negativ

asimetric pozitiv

Medie Mediana Mod

Median

Medie
Mod Mod Medie Median

Indicatori ai formei distribuiei


boltire (kurtosis)
leptocurtica
Kurtosis pozitiv

mezocurtica

Kurtosis

platicurtica

Kurtosis negativ

Pentru sntatea dvs., Cnd traversai, uitai-v spre partea de unde pot veni maini!