Sunteți pe pagina 1din 44

STATISTICA

DESCRIPTIVĂ 2
1
MĂSURI DE DISPERSIE
STATISTICA DESCRIPTIVĂ - OBIECTIVE
Date de tip calitativ: Proporții, Rate, Rapoarte
Date de tip cantitativ: Media aritmetica, Mediana, Modul, Media geometrica, Media
armonica, Valoarea centrala
Cvartile, Percentile
Dispersia, Abaterea standard, Coeficientul de variatie, Eroarea standard,
Amplitudinea
Asimetria
Boltirea
MĂSURI DE TENDINŢĂ CENTRALĂ
PROPRIETĂŢI

Dacă datele au o distribuţie simetrică, media, mediana


si modulul sunt egale.

Distribuţie asimetrică (skew)


Distribuţie simetrică

Media
Mediana
Modul Modul Mediana Media
MĂSURI DE TENDINŢĂ CENTRALĂ
PROPRIETĂŢI

Asimetrie spre dreapta= asimetrie (Skew) pozitivă


 Modul < Mediana < Media
MĂSURI DE TENDINŢĂ CENTRALĂ
PROPRIETĂŢI
Asimetrie spre stânga= asimetrie (Skew) negativă
 Media < Mediana < Modul
MĂSURI DE DE DISPERSIE - APLICATII

Pentru o variabilă cu distribuție simetrică (normală), avem


proprietățile:
intervalul X  1 S conţine aprox. 68.3 % din
valori

intervalul X  2 S conţine aprox. 95.5 % din


valori

intervalul X  3  S conţine aprox. 99.7 % din


valori

Observatie: Valorile care nu sunt in acest interval se numesc


valori aberante.
Distribuţia normală (Gauss)
MĂSURI DE DISPERSIE
-descriu variabilitatea (fluctuaţia) sau dispersia datelor
seriei
Importanța:
 informaţii privind extinderea împrăştierii datelor sau, reciproc, a
gradului lor de aglomerare.
 stabilirea reprezentativităţii măsurilor de centralitate.
 Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de
date depinde de gradul de dispersie a valorilor individuale în jurul ei.
 estimarea parametrilor statistici
 inferenţa statistică.

9
COMPARAȚIA DIRECTĂ

Dacă știu precizia


Care din cele două metodei și doi studenți
metode este mai îmi aduc datele din
precisă? grafic cum
interpretez?

Comparaţie între
valorile unei enzime
serice determinate
prin două metode

10
AMPLITUDINEA
=diferenţa între valoarea maximă şi valoarea minimă a datelor:
A = Xmax - Xmin.

 Xmax=max{X1,…,Xn}
Comparaţie între
 Xmin= min {X1,…,Xn} valorile unei
enzime serice
determinate prin
două metode

Care din cele două


metode este mai
precisă?

11
EXEMPLU
177, 193, 195, 209, 226
 amplitudinea= 226-177=49mg/dL
192, 197, 200, 202, 209
 amplitudinea= 209-192=17mg/dL

12
AMPLITUDINEA

Dezavantajul major al amplitudinii ca măsură de


dispersie este că se bazează doar pe valorile
extreme ale seriei.

Nu oferă nici o informaţie despre cât de aglomerate


sunt datele distribuite între extreme.

13
DISTANŢA MEDIE FAȚĂ DE MEDIE

Suma distanţelor fiecărui punct faţă de centru seriei:


𝒏
𝒊=𝟏(𝑿𝒊−𝑿)
𝒅 =
𝒏
𝒅 = 𝟎
MEDIA DEVIAŢIEI
-Reprezintă un indicator de dispersie ameliorat în raport cu amplitudinea,
în sensul că sunt luate în considerare toate valorile seriei.
-Determinarea ei constă în calcularea mediei valorilor absolute a
abaterilor fiecărei date a seriei de la medie (sau mediană).
media deviaţiei de la medie
n

X
i 1
i X

n
media deviaţiei de la mediana
n

X
i 1
i  Me

15
n n

EXEMPLU X
i 1
i X X
i 1
i  Me

177, 193, 195, 209, 226 n n


 media deviaţiei de la medie =
 media deviaţiei de la mediana =
192, 197, 200, 202, 209
 media deviaţiei de la medie =
 media deviaţiei de la mediana =

16
VARIAŢIA
 cel mai utilizat mod de exprimare a dispersiei datelor în jurul mediei
aritmetice.
 variaţia este media aritmetică a pătratelor abaterilor de la media seriei,
adică:
n

 i
( X  X ) 2

s2  i 1

n
 se exprimă în pătratul unităţilor de măsură ale valorilor observate.

17
VARIAŢIA
 Dacă datele sunt prezentate în tabele de clase frecvenţe, variaţia
poate fi estimată prin formula:
m m

 i i
F  (C  X ) 2
 i i
F  (C  X ) 2

i 1 i 1
s2  m

n
 Fi
i 1

 unde prin Fi, Ci s-au notat frecvenţa respectiv centrul clasei Ki


(i=1,2,...,m).

18
VARIANŢA
In inferenţa statistică se utilizează variaţia de eşantionare sau varianţa

n 2
S  2
s
n 1

19
VARIANŢA-EXEMPLU
DEVIAŢIA SAU ABATEREA STANDARD (S)

sau ecartul tip este rădăcina pătrată a variaţiei:


𝑠 = 𝑠2
Spre deosebire de variaţie, ecartul tip are aceeaşi unitate de măsură
ca şi media şi datele seriei.
In inferenţa statistică abaterea standard sau deviaţia standard (de
eşantionare) se defineşte analog:
𝑆 = 𝑆2
Din punct de vedere geometric, abaterea standard sau ecartul tip
poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei
aritmetică.

21
ABATEREA STANDARD-EXEMPLU
SCALE DE MĂSURĂ
PENTRU DATE CALITATIVE: NOMINALĂ SAU ORDINALĂ

NOMINALĂ ORDINALĂ
- ex: grupa sanguină - ex: intensitatea unui simptom:
(absent, slab, mediu,
puternic, foarte puternic)
- DICHOTOMICE (exact 2 valori
posibile)
- ex: sănătos/bolnav,
fumător/nefumător
SCALE DE MĂSURĂ
Date cantitative: interval sau rație
INTERVAL RAȚIE
COEFICIENTUL DE VARIAŢIE (CV)
 este, pentru datele de tip raţie, o măsură relativă a dispersiei
datelor.
 este egal cu raportul dintre ecartul tip şi media seriei (%):
𝑠
𝐶𝑉 = (%)
𝑋
 este un indicator independent de unităţile de măsură

25
COEFICIENTUL DE VARIAŢIE
 exprimă procentul reprezentat de valoarea abaterii standard din
valoarea mediei aritmetice a seriei de date.
 compara dispersiile relative pentru distribuţii de frecvenţe ale unor
fenomene diferite.
 Astfel se poate compara dispersia relativă a unui tip de date cu
dispersia relativă a altui tip de date.
 Observaţie: Coeficientul de variaţie nu are semnificaţie decât dacă
este calculat pentru datele de tip raţie.

26
INTERPRETAREA COEFICIENTULUI DE VARIAŢIE
In utilizarea coeficientului de variaţie la studiul omogenităţii unor
populaţii se pot utiliza următoarele reguli empirice:
 dacă CV este sub 10% atunci populaţia poate fi considerată
omogenă;
 dacă CV este între 10%-20% atunci populaţia poate fi considerată
relativ omogenă;
 dacă CV este între 20%-30% atunci populaţia poate fi considerată
relativ heterogenă;
 dacă CV este peste 30% atunci populaţia poate fi considerată
heterogenă.

27
EXEMPLU
 In exemplul următor datele care se compară sunt exprimate cu unităţi de măsură
diferite. In grupul A media greutăţii a fost de 65.7 kg cu o deviaţie standard de
3.2 kg. In grupul B media înălţimii a fost de 1.70 m cu o deviaţie standard de
0.13 m. Să se compare variabilitatea înălţimii cu cea a greutăţii.

3.2kg
 CV greutate  4.9%
65.7kg

 CV inaltime 0.13m
 7.7%
1.70m

28
COEFICIENTUL DE VARIAŢIE
VARIAȚIE, VARIANȚĂ, ABATERI, DEVIERI…
 Statistică descriptivă  Statistică inferențială
(aproximare pentru întreaga
(eșantion sau întreaga populație) populație pe baza eșantionului)

n 2
• variația n
• varianţa S  2
s
(X i  X )2 n 1
s2  i 1

n
• variaţia de eşantionare

• Ecartul tip • Abaterea (deviația)


• Abaterea (deviația) standard 𝑆= 𝑆2
standard a populației 𝑠= 𝑠2

• Coeficientul de variație al • Coeficientul de variație


populației 𝑠
𝐶𝑉 = (%) 𝐶𝑉 =
𝑆
(%)
𝑋 𝑋
EROAREA STANDARD
In inferenţa statistică se utilizează un indicator al
dispersiei datelor numit eroarea standard:

s
ES 
n
Eroarea standard intervine în estimarea statistică
în determinarea intervalelor de încredere pentru
medie.

31
REPREZENTARE GRAFICĂ
EXEMPLU
Pe un grup de copii care locuiau în apropierea turnătoriei
din El Paso, Texas, Dr. Philip Landrigan, Mount Sinai
Medical Center, New York City s-au studiat:
 efectele neurologice și psihologice ale expunerii la plumb,
 s-a măsurat nivelul sanguin al plumbului
Au fost identificați:
46 de copii cu nivele de plumb ≥ 40 µg/mL =>
GRUP = 2 (grupul expus, caz).
78 de copii cu nivele de plumb < 40 µg/mL =>
GROP = 1 (grupul de control)
EXEMPLU
ASIMETRIA (SKEWNESS)
Măsura de asimetrie (sau skewness) este destinată să
indice pentru o serie sau distribuţie de date:
 extinderea asimetriei adică abaterea de la aspectul simetric
 direcţia asimetriei (pozitivă sau negativă).
Ca o măsură a asimetriei unei distribuţii este utilizat
momentul de ordinul trei al abaterii de la medie
reprezentat prin media aritmetică a cuburilor
abaterilor valorilor distribuţiei de la media aritmetică,
adică:
n

(Xi  X ) 3

i 1
M3 
n
35
ASIMETRIA (SKEWNESS)
momentul de ordinul trei M3 are două dezavantaje:
 se exprimă cu ajutorul unităţilor de măsură ale datelor, ceea ce
permite greu compararea a ordinelor de mărime a asimetriei
pentru două distribuţii.
 Variaţia unei distribuţii de date ridică, de asemenea, o problemă
deoarece pentru două distribuţii având aceiaşi formă, ordinul de
mărime al momentului de ordinul trei M3 creşte odată cu variaţia.
Pentru a elimina aceste dezavantaje momentul de
ordinul trei este standardizat prin împărţirea cu cubul
abaterii standard:

M3
3  3
S 36
ASIMETRIA (SKEWNESS)
 3 poate fi interpretat şi ca media cuburilor deviaţiilor
standardizate de la medie:
n

 [( X i  X ) / S] 3

3  i 1

n
 acest coeficient reprezentând măsura de asimetrie
cea mai convenabilă pentru o distribuţie.

37
BOLTIREA (KURTOSIS)
Excesul sau boltirea (în engleză kurtosis) este o măsură a formei
unei serii sau distribuţii de date, care măsoară înălţimea
aplatizării/boltirii unei distribuţii în comparaţie cu o distribuţie
normală. Această măsură este definită prin:

n
1
 (Xi  X ) 4
n i 1
4  4
3
S

39
BOLTIREA (KURTOSIS)
 Excesul 4 este zero pentru o serie de date având o distribuţie
normală,
 este pozitiv pentru o serie de date având trena mai înaltă decât
cea a unei distribuţii normale (cu media şi variaţia S2)
 este negativ pentru o serie de date a cărei trenă este mai
coborâtă decât cea a unei distribuţii normale
 trena se apropie mai încet (4 >0) sau mai rapid (4 <0) de zero
decât cea a distribuţiei normale).

40
ASIMETRIE SI EXCES
(SKEWNESS, KURTOSIS)- PROPRIETĂŢI

Pentru o distribuție normală:


asimetria si excesul au valori apropiate de
0.
TEMĂ

• Accesați site-ul
https://web.umfcluj.ro/moodle/ până cel
târziu sâmbătă 11.11 la ora 11.11 pm
• Folosiți numele de utilizator și parola de pe
legitimație pentru a vă loga
• Rezolvați cerințele de la tema 1
• Fiecare temă de la curs valorează 0,2 puncte
care se adauga la nota finală