Sunteți pe pagina 1din 47

Statistica descriptivă

Indicatori sintetici ai
distribuţiilor statistice

M. Popa
Statistica descriptivă - obiective
• Cum se prezintă valorile unei distribuţii?
– Cât de apropiate sunt unele de altele?
– Cât de diferite sunt unele de altele?
• Există valori care reprezintă întreaga
distribuţie?
Categorii de indicatori
• Indicatori ai tendinţei centrale
– valori tipice, reprezentative, care descriu
distribuţia în întregul ei
• Indicatori ai împrăştierii
– descriu caracteristica de împrăştiere a
valorilor distribuţiei
• Indicatori ai formei distribuţiei
– se referă la forma curbei de reprezentare
grafică a distribuţiei
Indicatori ai tendinţei centrale
• modul
• mediana
• media
Modul (Mo)
• Definiţie:
– valoarea
cu frecvenţa cea mai mare
– clasa de interval
• expresia ce mai directă a valorii tipice
(reprezentative)
• se află prin alcătuirea tabelei de frecvenţe (simple
sau grupate) şi este valoarea (clasa) căreia îi
corespunde frecvenţa absolută cea mai ridicată.
• distribuţii unimodale (583254 Mo=5)
• distribuţii bimodale (5832254 Mo=5; =2)
• distribuţii multimodale (58832254 Mo=5; =2; =8)
MEDIANA (Me)
• valoarea din mijlocul unei distribuţii
– are 50% dintre valori deasupra ei
– şi 50% dintre valori dedesubtul ei
• corespunde valorii de 50% pe coloana
frc%.
– percentila?... decila?.... quartila?
• distribuţie cu număr impar de valori
– Me este chiar valoarea respectivă.
• distribuţie pară
– Me se calculează ca medie a valorilor din
mijlocul distribuţiei G. Fechner
• 5,8,3,2,5,4, → 2,3,4,5,5,8 → Me=4,5
MEDIA ARITMETICĂ (m)
• Notaţii uzuale:
–  (miu) → media populaţiei
– m → media eşantionului
• Calcul pentru frecvenţe simple (583254)
m  X

5  8  3  2  5  4 26
  4,50
N 6 6

• Calcul pentru frecvenţe grupate (55833332244)

m  ( X * f ) 5 * 2  8 * 1  3 * 4  2 * 2  4 * 2 43
   3,90
f 2 1 4  2  2 11
Modul, Mediana și Media vizează
același lucru, tendința centrală…
…și totuși…
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 N=15

60 45 22 20 16 16 16 15 14 14 14 12 12 12 12 ΣX=300

media=20 mediana=15 modul=12


ΣX/N=300/15 (N+1)/2=8 (valoarea cea mai frecventă)
Proprietăţile mediei aritmetice
• Adăugarea\scăderea unei constante la fiecare
valoare a distribuţiei, măreşte\scade media cu
acea valoare
• Înmulţirea\împărţirea fiecărei valori a distribuţiei
cu o constantă, multiplică\divide media cu acea
constantă
• Suma abaterii valorilor de la medie este
întotdeauna egală cu zero
• Suma pătratului abaterilor de la medie va fi
întotdeauna mai mică decât suma pătratelor
abaterilor în raport cu oricare alt punct al
distribuţiei
Proprietățile mediei

abateri
variabila constantă + *
medie
5 2 7 10 0,50
8 2 10 16 3,50
3 2 5 6 -1,50
2 2 4 4 -2,50
5 2 7 10 0,50
4 2 6 8 -0,50
suma=0
m=4.5 m=6.5 m=9
media=?
Valori nedeterminate şi clase
deschise
• Valorile „nedeterminate”
– valori a căror mărime nu decurge din procesul de
măsurare, în acelaşi mod în care rezultă oricare
valoare a seriei
– Exemplu: testul de asociere verbală (10 sec)
• Clase (categorii) deschise
– categorii care au una dintre limite „liberă”
– Exemplu: Câte ţigări fumezi zilnic? („30 sau mai
mult”).
• În astfel de cazuri se utilizează mediana
Avantajele indicatorilor tendinţei centrale
- Uşor de calculat (nesemnificativ în prezent);
- Poate fi utilizat pentru orice tip de scală;
MODUL - Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distribuţiei;

- Poate fi utilizată pe scale ordinale şi de


interval\raport;
MEDIANA - Poate fi utilizată şi pe distribuţii de frecvenţă cu
clase deschise sau scoruri nedeterminate la
marginile distribuţiei;
- Reflectă valorile întregii distribuţii;
MEDIA - Are multe proprietăţi statistice dezirabile;
- Adecvată pentru utilizare în statistici avansate;
Dezavantajele indicatorilor tendinţei centrale
- În general, nesigur, mai ales în cazul eşantioanelor mici,
când se poate modifica dramatic la o modificare minoră a
unei valori;
MODUL - Poate fi greşit interpretat. Se identifică total cu un scor
anume, fără a spune nimic despre celelalte valori;
- Nu poate fi utilizat în statistici inferenţiale;

- Poate să nu corespundă unei valori reale (N par);


- Nu reflectă valorile distribuţiei (un scor extrem se poate
modifica, fără a afecta Me);
MEDIANA - Este mai puţin sigură în extrapolarea de la eşantion la
populaţie;
- Greu de utilizat în statistici avansate

- De obicei nu corespunde unei valori reale;


- Nu este tocmai adecvată pentru scale ordinale;
MEDIA - Conduce la interpretări greşite pe distribuţii asimetrice
- Poate fi puternic afectată de scorurile extreme;
Valori extreme (excesive) ale
distribuţiei
• valori excesive, neobişnuit de mari sau de
mici faţă de celelalte valori ale unei
distribuţii
• Identificare
– metoda grafică Box-and-Whisker-Plot (Box-
Plot)
– autor Tukey
Limita de sus poate urca până la 133,5
142 valoare extremă Cea mai apropiată valoare este 125
135 valoare extremă
114+1.5x13=133.5

114
Percentila 75 (114)

Mediana
(Q2)

H=114-101=13

Percentila 25 (101)
101

Limita de jos este 81.5


Trasăm la 86

101-1.5x13=81.5
30

25
Rasp corecte examen iunie

20

15

10

1 2 3 4 5 6 7 8 9 10
grupa
125

100
SUM (it_01 to it_22)

75

50

25

f m
Gender
Tratarea valorilor extreme
• Stabilirea naturii valorilor extreme:
– erori de înregistrare (tastare);
– erori de măsurare;
– rezultate influenţate de anomalii ale condiţiilor
experimentale.
– eşantionul a fost extras dintr-o populaţie asimetrică
– valorile respective fac parte din altă populaţie de
valori
– eşantion prea mic
• Tratarea lor pe una din căile posibile:
– eliminare (dacă sunt erori necorectabile);
– corectare (dacă este posibil);
– utilizarea mediei 5%trim,
– transformare (extragerea radicalului din toate valorile
distribuţiei, logaritmarea distribuţiei, etc.)
Indicatori sintetici ai împrăştierii
• măsoară gradul de diversificare a valorilor

• împrăştierea dupa
scorului la un test
înainte
de rezistenţă la
stres, înainte şi
după un program
de psihoterapie
m1=30 m2=40
Tipuri de indicatori
1. Amplitudinea absolută
2. Amplitudinea relativă
3. Abaterea quartilă (cvartilă, intercvartilă)
4. Abaterea semi-interquartilă
5. Abaterea medie
6. Dispersia (varianţa)
7. Abaterea standard
8. Coeficientul de variaţie
Amplitudinea absolută (R)
• diferenţa dintre valoarea maximă şi
valoarea minimă a unei distribuţii
• indică în mod absolut plaja de valori între
care se întinde distribuţia.
• poate fi influenţată de o singură valoare
aflată la extremitatea distribuţiei

1,2,3,4,5,6,7 R=Xmax-Xmin=7-1=6
Amplitudinea relativă (R%)
• raportul procentual dintre amplitudine şi
medie
• utilă când cunoaştem plaja teoretică de
variaţie a valorilor

1,2,3,4,5,6,7
R 6
R%  *100 R%  *100  150%
m 4
Imprecizia amplitudinii

Distribuţia A are o amplitudine Amplitudinile distribuţiilor A


mai mare dar şi o variabilitate şi B sunt identice, dar
mai mare decât distribuţia B distribuţia A are mai multă
variabilitate.
Abaterea quartilă (cvartilă,
intercvartilă) (RQ)

• diferenţa dintre quartila 3 şi quartila 1


• este distanţa dintre limita superioară şi cea
inferioară a casetei Box-Plot (valoarea H)

RQ  Q3  Q1
Abaterea semi-interquartilă
(RSQ)
• distanţa unui un scor „tipic” faţă de amplitudinea
întregii distribuţii
• este abaterea quartilă împărţită la 2
• într-o distribuţie perfect simetrică RSQ=Q2=Me
• RSQ nu este afectată de valorile aberante
– indicator „robust” al împrăştierii

Q3  Q1
RSQ 
2
Abaterea medie (d)
X Xi – m
abaterea
5 (5 – 4.5) = .5 valorii
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = -1.5
2 (2 – 4.5) = -2.5 abaterea
medie
5 (5 – 4.5) = .5
4 (4 – 4.5) = -.5 Întotdeauna d=0
dar...
X = 27 (Xi-m) = 0
N=6 d
 |X i m|
 1.5
N
m = 4.5
Dispersia
(varianţa, abaterea medie pătratică)
• Notaţii uzuale:
– s2 (eşantion)
– 2 (populaţie)
• Se calculează ca sumă a abaterilor de
la medie ridicate la pătrat
Dispersia (varianţa)
s2 (eşantion) 2 (populaţie)
X (Xi – m) (Xi – m) 2
5 (5 – 4.5) = .5 .25
8 (8 – 4.5) = 3.5 12.25
s2 
 i
( X  m ) 2

3 (3 – 4.5) = -1.5 2.25


N
2 (2 – 4.5) = -2.5 6.25
5 (5 – 4.5) = .5 .25
4 (4 – 4.5) = -.5 .25
21,5
s 
2
 3.58
X = (Xi-m) = 0 (X-m)2 = 6
27 21.5
N=6
m = 4.5
Abaterea standard
s (eşantion);  (populaţie), SD (APA); ab.std.

• se calculează prin
extragerea radicalului s
(X i  m) 2

din expresia dispersiei N

21,5
s  1,89
6
Corecţia indicatorilor împrăştierii
calculaţi pentru eşantioane

dispersia abaterea standard


 Abaterea standard nu este definită pentru (n-1), ci pentru “n”
 Dar... suma abaterilor 2 de la medie este întotdeauna 0

 2... dacă ştim m
( X in-1 )
abateri,

o cunoaştem pe ultima ( X  m) 2
s ... doar primele n-1 abateri pot varia “liber”.
s
i

 ...(n-1) sunt Ndefinite ca “grade de libertate” N

s2 
 i
( X  m) 2

s
(X i  m) 2

N 1 N 1
Proprietăţile abaterii standard
1. Dacă se adaugă/scade o constantă la
fiecare valoare a unei distribuţii, abaterea
standard nu este afectată
Proprietăţile abaterii standard
2. Dacă se multiplică/divide fiecare valoare a unei
distribuţii cu o constantă, abaterea standard se
multiplică/divide cu acea constantă
Proprietăţile abaterii standard
3. Abaterea standard X (Xi – m) (Xi – 5)2
faţă de medie este
mai mică decât 5 (5 – 4.5) = .5 (5-5)2=0
abaterea standard 8 (8 – 4.5) = 3.5 (8-5)2=9
faţă de orice altă
valoare a unei 3 (3 – 4.5) = -1.5 (3-5)2=4
distribuţii
2 (2 – 4.5) = -2.5 (2-5)2=9
5 (5 – 4.5) = .5 (5-5)2=0
4 (4 – 4.5) = -.5 (4-5)2=1

X = 27 (Xi-m) = 0 (X-5)2 =23


N=6
m = 4.5
Coeficientul de variaţie (cv)
• abaterea medie şi abaterea standard se exprimă în
unităţile de măsură ale variabilei de referinţă
• ca urmare, nu pot fi comparate în mod direct, pentru
variabile diferite
 cv poate fi calculat numai pe scale de
raport (origine în 0)
 cv<15%, împrăştierea este mică şi, deci,
media este reprezentativă
s  cv este între 15%-30%, împrăştierea este
cv  *100 mijlocie şi media este suficient de
m reprezentativă
 cv > 30%, împrăştierea este mare şi
media are o reprezentativitate redusă
Alegerea indicatorului împrăştierii
• Abaterea standard este cea mai utilizată pentru
scale de măsurare interval/raport. Realizează
cea mai bună combinaţie între calitatea estimării
şi posibilitatea de a fundamenta inferenţe
statistice.
• Amplitudinea este un indicator nesigur şi care
nici nu poate fi calculat în cazul scalelor
nominale
• Pe distribuţii cu valori nedeterminate sau cu
intervale deschise, se alege abaterea
interquartilă (semi-interquartilă).
Indicatori ai formei distribuţiei
• simetrie (skewness)
simetrică asimetrică negativ asimetrică pozitiv
Skewness 0 negativ pozitiv
Efectul asimetriei asupra mediei
• 3, 4, 5, 5, 6, 7
– Modul: 5
– Mediana: 5
– Media: 5
• 3, 4, 5, 5, 6, 7, 17
– Modul: 5
– Mediana: 5
– Media: 6.7
Distribuţie: simetrică asimetrică negativ asimetrică pozitiv

Medie Mediană
Mediana Medie
Mod Mod Mod Medie
Mediană
Indicatori ai formei distribuţiei
• boltire (kurtosis)

leptocurtica Kurtosis pozitiv

mezocurtica Kurtosis 0

platicurtica Kurtosis negativ


Pentru sănătatea dvs.,
Când traversați, uitați-vă spre
partea de unde pot veni mașini!

S-ar putea să vă placă și