Sunteți pe pagina 1din 36

Statistica descriptivă

Şef de Lucrări Dr. Mădălina Văleanu


mvaleanu@umfcluj.ro
• MĂSURI DE TENDINŢA CENTRALA
– Media aritmetica,
– Mediana,
– Modul,
– Media geometrica, Media armonica, Valoarea centrala
• MĂSURI DE DE DISPERSIE
– Minim, Maxim, Amplitudine,
– Variatia,
– Abaterea standard,
– Coeficientul de variatie,
– Eroarea standard,
– Amplitudinea
• MĂSURI DE LOCALIZARE
– Cvartile, Decile, Percentile
• MĂSURI DE SIMETRIE
– Asimetria
– Boltirea
Observatie: Toate masuratorile se refera la seria unidimensionala: X: X1, X2,…, Xn
MĂSURAREA TENDINŢEI CENTRALE

• se face printr-o serie de indicatori care descriu


valorile de la mijlocul unei distributii de frecventa;
• acesti indicatori dau o masura sumara a distributiei
respective.
• Seriile pot consta din:
– esantioane de observatii
– observatii asupra intregii populatii.
MĂSURI ALE TENDINŢEI CENTRALE

• Media aritmetica
n

X 1  X 2  ...  X n X i
X  i 1
n n
• Exemplu
• Numar de zile de spitalizare: 19, 21, 21, 24, 30, 20, 19, 19
– Talia esantion: 8
– Media: (19+21+21+24+30+20+19+19)/8
– =173/8=21.625
MĂSURI ALE TENDINŢEI CENTRALE
Media aritmetica

• Proprietăţi ale mediei aritmetice:

• Orice valoare a seriei este luată în considerare în


calculul mediei.
• Valorile extreme pot influenţa media aritmetică
distrugându-i reprezentativitatea.
• Media aritmetică se situează printre valorile seriei de
date.
• Suma diferenţelor dintre valorile individuale din serie
şi medie este zero.
MĂSURI ALE TENDINŢEI CENTRALE
Media aritmetica

• Proprietăţi ale mediei aritmetice:


• Schimbarea originii scalei de măsură a variabilei X din
care provine seria de date are influenţă asupra mediei.
• Transformarea scalei de măsură a variabilei X
influenţează media aritmetică.
• Suma pătratelor abaterilor valorilor seriei de la media
aritmetică este minimul sumei pătratelor abaterilor
valorilor seriei de la o valoare X a dreptei reale
(principiul sau criteriul celor mai mici pătrate)
• Exemplu
• Numar de zile de spitalizare: 19, 21, 21, 24, 30, 20, 19, 190
– Talia esantion: 8
– Media: (19+21+21+24+30+20+19+190)/8
=344/8=43

• este necesar să introducem și alți indicatori de


centralitate
MĂSURI DE TENDINŢĂ CENTRALĂ

• Media aritmetică modificată


– media aritmetică a seriei fără p% (p=5) dintre
valorile extreme

• Media aritmetica ponderata


n
 Wi X i
  i1n .
X
 Wi
i1
• (Wi este ponderea asociata elementului Xi)
MĂSURI ALE TENDINŢEI CENTRALE
Mediana

– Mediana este o valoare astfel încât jumătate


dintre valori îi sunt inferioare (sau egale) şi
cealaltă jumătate superioare (sau egale).

• nu este influentata de valorile extreme ale seriei


MĂSURI ALE TENDINŢEI CENTRALE
Mediana

• Procedura de calcul a medianei:


– Se ordonează datele seriei în ordine crescătoare.
– Se localizează poziţia medianei în acest şir şi se
determină valoarea ei.
Me  X n 1 , dacă n impar
2

Xn  Xn
1
Me  2 2
, dacă n par
2
MĂSURI DE TENDINŢA CENTRALA -
modulul
• Modul (valoarea modală sau dominanta) unei serii statistice
este valoarea care are cea mai mare frecvenţă din serie.
– poate fi determinat si pentru o variabila calitativă

• Dacă seria statistică este prezentată sub forma unei tabele de


clase frecvenţe, modul corespunde centrului clasei de
frecvenţă maximă.
– distribuţie de frecvenţe unimodală: tabelul de frecvenţe are un singur
maxim
– distribuţie de frecvenţe multimodală: mai multe maxime.

• Exemplu: 12, 14, 12, 9,5 -unimodală; modulul=12


• 12, 14, 12, 14, 9, 5 - bimodală
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi

Dacă datele au o distribuţie simetrică, media, mediana si


modulul sunt egale.

Distribuţie simetrică Distribuţie asimetrică (skew)

Media
Mediana
Modul Modul Mediana Media
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi

• Asimetrie spre dreapta= asimetrie (Skew) pozitivă


– Modul < Mediana < Media
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi
• Asimetrie spre stânga= asimetrie (Skew) negativă
– Media < Mediana < Modul
MĂSURI DE TENDINŢA CENTRALA

• Alte masuri de tendinta centrala:

Media geometrica n X X ... Xn


1 2

Media armonica n
1  1  ... 1
X X Xn
1 2
Valoarea centrala X max  X
min
2
MĂSURI DE LOCALIZARE

• Indicatori de localizare sau amplasare (generalizări


pentru împărţirea în 4, 10 sau 100 de grupuri)
– Cvartilele
– Decilele
– Percentilele

25% 25% 25%


25%

0 250 500 750 1000


Software

– Excel
• Average, Geomean, Harmean, Percentile
• Descriptive statistics
– Epiinfo - Analysis – Means
– SPSS - Analysis – Descriptive Statistics
– Statistica
• Descriptive statistics
MĂSURAREA DISPERSIEI

• Se face printr-o serie de indicatori care descriu variatia si


raspandirea unei serii de valori.
– Minim
– Maxim
– Amplitudinea
– Media deviaţiei
– Variaţia (dispersia)
– Abaterea standard (ecartul tip)
– Eroarea standard
– Coeficientul de variaţie.
MĂSURI DE DISPERSIE

• Amplitudinea
– A = Xmax - Xmin.
– Xmax=max{X1,…,Xn}
– Xmin= min {X1,…,Xn}

– Este folosita pentru a masura paleta de imprastiere a


valorilor unei serii statistice
– Nu ofera informatii privind gradul de imprastiere a
valorilor unei serii statistice
MĂSURI DE DISPERSIE

– Media deviaţiei n
 Xi X
• de la medie AD X = i  1 ,
n

- Media deviaţiei n
 X i  Me
de la mediana ADMe =
i 1
n .
Variaţia
- Exprimă gradul de distribuţie, care ne spune cât de tare sunt
răspândite valorile în jurul mediei

Variatie mare:

Media
Variatie mica:

Media
Variatia
n
Variaţia pentru populaţie
(X i  X) 2

2  i 1
N
Variaţia pentru eşantion n

 i
( X  X ) 2

s 
2 i 1
n 1

Ajustează tendinţa de subestimare a variaţiei


populaţiei faţă de variaţia eşantionului

22
Notaţii
Parametri Parametri
pentru pentru
eşantioane populaţie

Deviaţia S σ
standard
Media µ
X
(aritmetică )
MASURI DE DISPERSIE
VARIATIA - EXEMPLU
2
Pacient Greutate xi
(kg) 2

10

1 7.0 49.00
  xi 
 i 1 
10
2 11.7 136.89
 
2
3 12.6 158.76
xi
10
4 15.7 246.49 s 2  i 1
5 15.9 252.81
10  1
6 16.0 256.00 (147.1) 2
7 16.0 256.00 2264.49 
s2  10
8 17.0 289.00 10  1
9 17.5 306.25
s 2  11.18kg 2
10 17.7 313.29
Total 147.1 2264.49
10 10

 xi  xi
2

i 1 i 1
MĂSURI DE DISPERSIE
n Abaterea2 standard
 ( X i standard,
(deviaţia X) ecartul tip)
s2  i1 n ,
• Este indicatorul cel mai utilizat pentru masurarea
dispersiei unei serii de variatie
2 n 2
• Unitate de măsură:. unitatea de măsură a variabilei
S = s
n 1

S= S 2 .

ES  s .
MĂSURI DE DE DISPERSIE - aplicatii

Pentru o variabilă cu distribuție simetrică (normală), avem


proprietățile:

intervalul X 1  S conţine aprox. 68.3 % din valori

intervalul X  2  S conţine aprox. 95.5 % din valori

intervalul X  3  S conţine aprox. 99.7 % din valori


Observatie: Valorile care nu sunt in acest interval se numesc
valori aberante.
Distribuţia normală (Gauss)
S= S .
MĂSURI DE DISPERSIE
• Eroarea standard ES  s .
ard n
– Este indicatorul cel mai utilizat pentru măsurarea dispersiei unei serii de
variaţie
e variaţie
– INDICATOR DE DISPERSIECV CARE
S . IMPRASTIEREA
= ARATA
MEDIILOR ESANTIOANELOR IN JURUL X MEDIEI
POPULATIEI
– Folosit in statistica inferenţială (intervale de încredere)

S
• Coeficientul de variaţie CV 
X
– Nu are unitate de masura si poate fi exprimat procentual.
– Este folosit pentru a compara variatia relativa sau imprastierea
distributiilor diferitelor serii, esantioane sau populatii sau a diferitelor
caracteristici ale unei singure seriei.
MĂSURI DE DE DISPERSIE

• Coeficientul de variaţie – interpretare

 CV este sub 10%: populaţia poate fi considerată omogenă;


 CV este între 10%-20%: populaţia poate fi considerată
relativ omogenă;
 CV este între 20%-30%: populaţia poate fi considerată
relativ eterogenă;
• CV este peste 30%: populaţia poate fi considerată
eterogenă.
MĂSURI DE ASIMETRIE
ASIMETRIA (Skewness)

Asimetrie: “coada” (tail) la stanga sau dreapta


- Masoară abaterea de la aspectul simetric în
comparaţie cu o distribuţie normală
n

 i
[( X  X ) / S ]3

3  i 1
n
MĂSURI DE ASIMETRIE
EXCESUL (KURTOSIS)

• Exces: (b) – aplatizare, boltire


– Măsoară înălţimea aplatizării în comparaţie
cu o distribuţie normală
1  n ( X  X )4
n  i
  i1 3
4 S4
ASIMETRIE SI EXCES
(SKEWNESS, KURTOSIS)- proprietăţi

• Pentru o distribuție normală:


– asimetria si excesul au valori apropiate de 1.
Exemplu:
Varsta pacientilor sositi la cabinetul
stomatologic in regim de urgenta in Talie esantion: df = 5
data de 2 martie: 19, 21, 21, 24, 30, 20 n=6 n = 2.45

Media varstei: (x– (x-


1 = 19 + 21 + 21 + 24 + 30 + 20 / 6 x n media
media) media)2
= 22.5

19 6 22.5 -3.5 12.25


Variaţia:
2 s2 = 81.5 / 5
s2 = 16.3 21 6 22.5 -1.5 2.25

Deviatia standard: 21 6 22.5 -1.5 2.25


3 S =  16.3
S = 4.04 24 6 22.5 1.5 2.25

Eroarea standard: 30 6 22.5 7.5 56.25


4 SE = 4.04 / 2.45
SE = 1.65
20 6 22.5 -2.5 6.25
Coeficientul de variaţie:
5 CV = 4.04 / 22.5  81.5
CV = 0.18 or 18%
Problemă

• Pentru un eşantion de n = 36 pacienti care au venit la


medicul ortodont, s-a gasit indexului facial de 80 mm cu
o deviatie standard de 5 mm. Presupunând că indexul
facial urmează o distribuție normală, să se determine:
• a) In ce interval sunt situate aproximativ 68% din
valorile indexului facial?
• b) In ce interval sunt situate aproximativ 95% din
valorile indexului facial?
• c) Cati pacienti (in %) au indexul facial peste 90 mm?
TEMĂ
Utilizând datele pe care le găsiți la Resurse TEMA1 în fisierul EXCEL, realizați
următoarele:
• Calculaţi parametrii de statistică descriptivă;
• Reprezentați grafic: repartiția pe sexe, repartiția în funcție de
respiratorul oral, indexul facial mediu în funcție de respiratorul
oral, lungimea buzei superioare în funcție de sex;
• Întrebări:
– indexul facial și lungimea buzei superioare sunt omogene? Argumentați.
– Indexul facial și lungimea buzei superioare sunt normal distribuite?
Argumentați.
– Există diferențe statistice ale lungimii buzei superioare între sexe? Dar în
funcție de respiratorul oral? Argumentați.
TEMĂ
• Într-un fişier Power Point copiați graficele și rezolvările
(răspunsurile) pentru toate cerințele;
• Expediaţi atât fisierul Power Point cât și fișierul Excel
în care ați lucrat, ataşate la un email pe adresa
mvaleanu@umfcluj.ro până cel târziu marți, 4
APRILIE 2017 la ora 21.01.
• Titlul emailului va conține: Tema1 MD Nume Prenume
grupa Emailurile trimise mai tarziu sau care nu contin
in titlul emailului ceea ce este specificat, NU VOR FI
LUATE IN CONSIDERARE

S-ar putea să vă placă și