Sunteți pe pagina 1din 46

Catedra de medicină socială și management „Nicolae Testemițanu”

STATISTICA DESCRIPTIVĂ PENTRU


DESCRIEREA DATELOR CANTITATIVE

Galina Obreja, conferențiar universitar


Olga Penina, conferențiar universitar

1
CUPRINS
1. Mă surile tendinței centrale. Calcularea și interpretarea rezultatelor:
– media aritmetică
– mediana
– moda.
2. Mă surile variației. Calcularea și interpretarea rezultatelor:
– amplitudinea
– varianța
– abaterea standard
– coeficientul de variație
– amplitudinea intercuartilică .
3. Legea distribuției normale.
4. Mă surile poziției relative: cuartilele (Q1, Q2, Q3).
5. Reprezentarea ”boxplot”.
6. Curba distribuției de frecvențe:
– unimodală și bimodală
– simetrică și asimetrică .
Distribuția de frecvențe a tensiunii arteriale
sistolice (TAs) într-un eșantion de 262 de pacienți

 Un set de date neorganizat este


dificil de înțeles.

 Cel mai simplu mod de


organizare a datelor este
enumerarea tuturor valorilor
posibile ale unei variabile, de la
cea mai mică la cea mai mare,
înregistrând frecvența (f )
fiecă rei valori.

 O distribuție de frecvențe
arată numărul de apariții a
valorilor unei variabile într-un
eșantion.
 Distribuție – toate valorile unei variabile într-un
eșantion.

 Frecvență (f) – numă rul de apariții a fiecă rei


valori a variabilei în distribuție.
DISTRIBUȚIE DE FRECVENȚE
 Pentru o mai bună gestionare a Distribuție de frecvențe a TAs
datelor, se utilizează distribuțiile de grupată pe intervale într-un
frecvențe grupate: eșantion de 262 de pacienți
– pe variante
– pe intervale.
 Valorile individuale se grupează.
 Fiecare grup de valori are intervale
egale.
 În prezentul exemplu sunt 8 grupe cu
un interval de clasă = 10 (91-100,
101-110 etc.)
 O distribuție de frecvențe poate fi
prezentată în formă de tabel,
diagramă cu bare, histogramă sau
poligonul frecvențelor.
REPREZENTAREA GRAFICĂ A DISTRIBUȚIEI DE
FRECVENȚE - HISTOGRAMA

70
Histograma Se observă 3 caracteristici:
60
 distribuția are un vâ rf
(locația centrală)
50

 distribuția dispersiei de
Frecvența, abs

40
ambele pă rți ale vâ rfului
30
(dispersia)
20
 distribuția mai mult sau mai
10
puțin simetrică de ambele
0
91-100 101-110 111-120 121-130 131-140 141-150 151-160 161-170 171-180
pă rți ale vâ rfului.
Tensiunea arterială sistolică , mm/Hg
MĂSURILE TENDINȚEI CENTRALE
MĂSURILE TENDINȚEI CENTRALE
 Măsura tendinței centrale este o valoare unică, de obicei centrală , care
reprezintă cel mai bine o distribuție integrală de date.

 Măsurile tendinței centrale și dispersiei sunt denumite în general,


indicatori statistici descriptivi, deoarece descriu distribuția unui set de
date.

 O distribuție de frecvențe oferă o imagine a numă rului de apariții a unei


variabile, dar nu ne spune nimic despre dispersia datelor.

 Pentru a avea o imagine clară despre distribuția datelor, se calculează :


– mă surile tendinței centrale: moda, mediana și media aritmetică
– mă surile de dispersie: amplitudinea, varianța, abaterea standard,
coeficientul de variație, amplitudinea intercuartilică .
MĂSURILE TENDINȚEI CENTRALE (cont.)
 O distribuție de frecvențe asigură o modalitate utilă pentru vizualizarea datelor,
dar nu permite descrierea cantitativă a distribuției și nici compararea a 2 sau mai
multe distribuții.
 Există 2 caracteristici ale distribuțiilor de frecvență pentru care au fost elaborate
metode cantitative de descriere a datelor:
– datele se adună adesea în jurul unei valori centrale (tendința centrală ) care se află între cele
2 valori extreme ale variabilei studiate
– datele tind să fie dispersate și distribuite în jurul valorii centrale într-un mod care poate fi
specificat cantitativ.
 Mă surile tendinței centrale sunt utilizate pentru a descrie datele din eșantion,
dâ nd o idee despre centrul distribuției datelor.
 Există 3 mă suri comune ale tendinței centrale:
– Moda - Mo
– Mediana - Me
– Media - 𝑋ത.
 Selectarea celei mai potrivite mă suri de utilizat
pentru o anumită distribuție depinde în mare
mă sură de 2 factori:
– forma distribuției sau asimetria distribuției
– utilizarea preconizată a mă surii.
MODA ( 𝑀𝑜 )
 Moda (modul) este valoarea care apare cel mai frecvent într-o
distribuție/ set de date.
 Poate fi determinată prin vizualizarea simplă a distribuției de frecvențe
(poate fi vizualizată ușor în poligonul frecvențelor, fiind cel mai înalt
punct (vârful) al curbei).
 Distribuție unimodală: distribuție cu o singură modă .
 Dacă 2 valori apar cu cea mai mare frecvență, atunci distribuția este
bimodală.
 Dacă mai mult de 2 valori apar cu cea mai mare frecvență , atunci
distribuția este multimodală.
 Moda nu este sensibil la valorile extreme ale distribuției.
Frecvența, f

Modul

Colesterolul seric, mg/dl

Histograma și poligonul frecvențelor distribuției nivelelor colesterolului seric


printre 200 de bărbați.
Moda nu este sensibilă la valorile extreme ale
PROPRIETĂȚILE ȘI UTILIZAREA MODEI

 Moda(ul) este mă sura tendinței centrale cel mai ușor de înțeles și


explicat. Este, de asemenea, cea mai ușor de identificat și nu necesită
calcule.
 Moda este măsura preferată a tendinței centrale pentru abordarea
celei mai comune valori. De exemplu, ziua să ptă mâ nii în care se
înregistrează cele mai multe cazuri ‘COVID’.
 O distribuție poate avea o singură valoare modală sau mai multe.
Distribuția nu are modă dacă toate valorile apar o singură dată .
 Moda este utilizată aproape exclusiv ca mă sură ”descriptivă”. Ea
este
rar folosită în analize statistice.
 Moda nu este afectată de valorile extreme.
MEDIANA (Me)
 Mediana este valoarea care împarte în jumă tate o distribuție de
frecvențe ordonată crescător sau descrescător.
 Mediana este valoarea din distribuție care marchează
apercentila
50-a (C50). Astfel, 50% de valori în distribuție sunt mai mici ca
mediana și 50% sunt mai mari.
 Dacă distribuția conține un număr impar de observații (3,5,7,9
etc.), atunci mediana este valoare de la mijlocul distribuției.
 Dacă distribuția conține un numă r par de observații (4,6,8,10
etc.), mediana se situează la mijlocul distanței dintre cele 2
valori din mijloc (de ex., este media celor 2 valori din mijloc).
MEDIANA (𝑴𝒆) (cont.)

 Pentru un număr impar de valori: n = (n+1)/2 ; n : numă rul de


valori
6, 9, 15, 17, 24 : 𝑀𝑒 este 15
 Pentru un număr par de valori: media a n/2 și (n/2)+1
6, 9, 15, 17, 24, 29 : 𝑀𝑒 este 16 (media dintre 15 și 17)
 Mediana nu este sensibilă la valorile extreme ale distribuției.
Pentru distribuția 6, 9, 15, 17, 24, 500 : 𝑀𝑒 oricum este 16.
PROPRIETĂȚILE ȘI UTILIZAREA MEDIANEI
 Mediana este o măsură descriptivă potrivită , în special pentru
datele asimetrice, deoarece este punctul central al distribuției.

 Mediana poate fi relativ ușor de identificat. Ea este egală cu o


singură valoare observată (în cazul numă rului de observații
impar) sau cu media a 2 valori observate (în cazul unui numă r
par de observații).

 Mediana, ca și moda, nu este sensibilă la valorile extreme.

 Mediana are proprietă ți statistice mai puțin decâ t ideale. Prin


urmare, nu este folosită des pentru analize statistice.
MEDIA ARITMETICĂ

 Media arithmetică este valoarea cea mai apropiată de toate celelalte


valori dintr-o distribuție.
 Media se calculează prin împă rțirea sumei tuturor valorilor din
distribuția de frecvențe la numă rul acestor valori/observații. Media
(aritmetică ) este mă sura tendinței centrale cea mai frecvent utilizată .
 Media este sensibilă la valorile extreme.
𝑋ത - este media eșantionului
 Media pentru eșantion: 𝑿
ഥ= Ʃ𝒙 𝑥𝑖 - reprezintă o valoare
𝒏
𝒊
individuală în distribuție
n – numă rul cazurilor în eșantion
Ʃ - suma
Calcularea mediei aritmetice simple
(𝑿ഥ)


𝑋= �
Ʃ𝑥 𝑖 �

ത 131+133+126….+134 1562
𝑋= = =
12

12
130 cm
MEDIA PONDERATĂ
(𝐗ഥ)
 Dacă valorile inițiale dintr-o distribuție nu sunt cunoscute, media
ponderată poate fi estimată din tabelul de frecvențe (distribuție
grupată pe intervale).

𝑋ത - este media ponderată a


Ʃ𝑥 𝑖 ∗ 𝑓 eșantionului
𝑋ത � 𝑥𝑖 - reprezintă un grup de valori într-o
distribuție

= f – este frecvența grupului de valori
n – numă rul cazurilor în eșantion
(sau putem spune că n = Ʃf)
Ʃ - suma
Calcularea mediei ponderate
(𝑿ഥ)
ത𝑋 = Ʃ𝑥 𝑖

∗𝑓
 𝑋ത 123𝑛 ∗15 + 128222
∗21 + …+(158 ∗14)
=
31266
=222 = 140,83
𝑙 𝑖 𝑚 𝑖 𝑡 𝑎 𝑠𝑢𝑝 𝑒𝑟𝑖𝑜𝑎𝑟ă+𝑙𝑖𝑚𝑖𝑡𝑎 𝑖𝑛 𝑓 𝑒 𝑟 𝑖𝑜 𝑎𝑟 ă
Mijlocul intervalului: 𝑋 = 𝑖 2

Dacă tabelul distribuției de frecvențe conține


intervale, atunci se folosește valoarea medie a
intervalului. Aceasta se calculează însumâ nd limitele
superioară și inferioară ale intervalului și împă rțind
rezultatul la 2.
PROPRIETĂȚILE ȘI UTILIZAREA MEDIEI ARITMETICE
 Media are proprietă ți statistice excelente și este frecvent utilizată în analize
statistice suplimentare. O astfel de proprietate se numește proprietatea de
centrare a mediei. Dacă scă dem media din fiecare observație a setului de date,
suma acestor diferențe este egală cu zero (adică suma negativă este egală cu
suma pozitivă).
 Aceasta demonstrează că media este centrul aritmetic al distribuției.
 Datorită acestei proprietă ți de centrare, media este uneori numită centrul de
greutate al unei distribuții de frecvență. Dacă distribuția de frecvențe este
reprezentată pe un grafic și graficul este echilibrat pe punctul de sprijin, punctul
în care distribuția s-ar echilibra ar fi media.
 Media aritmetică este cea mai bună măsură descriptivă pentru datele distribuite
normal.
 Pe de altă parte, media nu este mă sura potrivită pentru datele puternic
asimetrice sau cele care conțin valori extreme. Deoarece media folosește toate
observațiile din distribuție, ea este afectată de orice valoare extremă.
Nominală Ordinală De interval De raport
Moda + + + +
Mediana + + +
Media + +
LOCAȚIA RELATIVĂ A MEDIEI, MEDIANEI ȘI
MODEI ÎNTR-O DISTRIBUȚIE UNIMODALĂ
 Distribuție unimodală: o distribuție cu o singură
valoare modală .

 Relația dintre cele trei mă suri ale tendinței


centrale
depinde de forma distribuției:
– distribuție simetrică
– distribuție asimetrică :
• cu asimetrie pe stâ nga
• cu asimetrie pe dreapta.
DISTRIBUȚIA SIMETRICĂ (NORMALĂ)
Într-o distribuție
simetrică cu o singură
valoare modală, toate
cele trei măsuri ale
tendinței centrale au
valori identice.

𝑀 𝑜 = 𝑀𝑑 = 𝑋 Media
Mediana
Moda
Asimetrie pozitivă (pe dreapta) Asimetrie negativă (pe stânga)

Coada Coada
curbei curbei

Valorile
Valorile

 Distribuțiile de frecvențe asimetrice sunt distribuții oblice (înclinate).


 Distribuțiile de frecvențe cu asimetrie pozitivă și negativă pot fi identificate după locația cozii (!)
curbei.
 În distribuțiile cu asimetrie pozitivă predomină valorile mici ale variabilei.
DISTRIBUȚII ASIMETRICE
 Moda și mediana nu sunt sensibile la valorile extreme ale distribuției, în timp ce
media este foarte sensibilă la valorile extreme.
 Prin urmare, într-o distribuție asimetrică media este trasă în direcția cozii.

Asimetrie pozitivă Asimetrie negativă


Moda

Moda
Mediana

Mediana
Media

Media
𝑀𝑜 < 𝑀𝑑 < 𝑋 𝑋 < 𝑀𝑑 < 𝑀𝑜
UTILIZAREA MĂSURILOR TENDINȚEI CENTRALE

Doi factori sunt importanți pentru aplicarea practică corectă a


mă surilor tendinței centrale:
1. Scala de mă surare: ordinală sau numerică
2. Forma distribuției: simetrică sau asimetrică .

 Media se folosește pentru date numerice și distribuții


simetrice.
 Mediana se folosește pentru date ordinale și pentru date
numerice în cazul unor distribuții asimetrice.
 Moda se folosește pentru distribuții bimodale.
MĂSURILE DE DISPERSIE
MĂSURILE VARIAȚIEI (DISPERSIEI)

 Amplitudinea
 Variația
 Abaterea standard
 Coeficientul de variație
 Amplitudinea intercuartilică
AMPLITUDINEA

 Amplitudinea reprezintă diferența dintre cea mai mare (valoarea


maximă ) și cea mai mică (valoarea minimă) valoare a distribuției.

 În distribuția 6, 9, 15, 17, 20 amplitudinea este egală cu (20 - 6) =


14.

 În distribuția 6, 9, 15, 17, 200 amplitudinea este egală cu (200 -


6) =
194.

 Amplitudinea este sensibilă la valorile extreme ale distribuției.


VARIANȚA (DISPERSIA) (𝑠 2 )
1. Calculați valoarea abaterii de la medie pentru fiecare observație (𝑋𝑖 )
Dacă 𝑋𝑖 = 12 și media 𝑋 = 10, valoarea abaterii de la medie (x) este egală cu (12-10) = 2
Valoarea abaterii de la medie = 𝑋𝑖 − 𝑋

2. Ridicați la pă trat fiecare dintre valorile abaterii de la medie (abatere la pătrat)


2
𝑋𝑖 − 𝑋

Este necesar să se elimine semnul minus, altfel σ (𝑋 𝑖 −𝑋) = 0 2


3. Însumați abaterile la pătrat (suma pătratelor) σ 𝑋𝑖 − 𝑋

4. Împă rțiți suma pă tratelor la numă rul de observații din eșantion minus 1 (n-1).
Astfel, ați obținut varianța, care reprezintă media abaterilor de la medie la pă trat.
68, 69, 74, 76, 79, 87, 88, 90, 93 ; n = 9
68+69+74+76+79+87+88+90+93
Media (𝑋) = = 80,4
9

2
2
(68−80.4) 2
+ (69−80.4) + …+
Varianța (dispersia) (𝑠 2 ) =
(93−80.4)

= 87,3
9−1
VARIANȚA (DISPERSIA) (𝑠 2 )

Pentru date negrupate Pentru date grupate


2 2
σ 𝑋 𝑖 −𝑋 σ 𝑋 𝑖 −𝑋 ×𝒇
𝑠2 = 𝑛−1 𝑠2 = 𝑛−1

𝑋 : media în eșantion Varianța reprezintă suma


𝑋𝑖 : o valoare individuală în distribuție abaterilor la pătrat
n : numă rul observațiilor în eșantion
raportată la numărul de
observații minus unu.
σ : “suma”
ABATEREA STANDARD (s)

s= 𝑠2
𝑠 2 : varianța (dispersia)

Abaterea standard este abaterea medie dintre valorile individuale


ale distribuției și media acestei distribuții.
68, 69, 74, 76, 79, 87, 88, 90, 93 ; n = 9
68+69+74+76+79+87+88+90+93
Media (𝑋) = = 80,4
9

2
2
(68−84,4) 2
+(69−80,4) + …+ (93−80,4)
Varianța (𝑠 2 ) = =
87,3
Abaterea standard (s) = 87,3 = 9,3.
9−1
COEFICIENTUL DE VARIAȚIE (CV)

Coeficientul de variație = 𝐴 𝑏 𝑎 𝑡 𝑒 𝑟𝑀𝑒


𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑
𝑑𝑖
×
100% 𝑎

𝑠
Coeficientul de variație = ×
100%

𝑋
COEFICIENTUL DE VARIAȚIE

< 10 % : variație mică

10-35 % : variație medie

> 35 % : variație mare (media nu este un


indicator reprezentativ).
Exemplu: compararea variabilității TAs și a indicelui
de șoc într-un eșantion de 200 de pacienți.
Tensiunea arterială sistolică Indicele de șoc
(TAs)
𝑋ത = 138 𝑋ത =
0,69
s = 26 s = 0,2

0,2
26
CV = 138 × 100 = 18,8% CV = × 100 = 29,0%
0,69
Coeficientul de variație (CV) mă soară variația relativă – variația în raport cu mă rimea mediei.
DISTRIBUȚIA SIMETRICĂ.
LEGEA DISTRIBUȚIEI NORMALE
Trei caracteristici principale ale distribuției normale

1. Distribuție simetrică:
jumă tate dintre valori sunt
mai mari ca
media…cealaltă jumă tate –
mai mici ca media (formă
de clopot).

2. Unimodală : o singură
valoare modală .
Media
3. ഥ = 𝐌𝐝 = 𝐌𝐨
𝐗 Mediana
Moda
LEGEA DISTRIBUȚIEI NORMALE

Se aplică numai distribuțiilor simetrice (normale).

 Aproximativ 68% din valorile distribuției se încadrează între


±1 abatere standard de la medie.

 Aproximativ 95% din valorile distribuției se încadrează între


±2 abateri standard de la medie.

 Aproximativ 99,7% din valorile distribuției se încadrează


între ±3 abateri standard de la medie.
LEGEA DISTRIBUȚIEI NORMALE

68% se încadrează între ±1


abatere standard de la
medie.

95% se încadrează între ±2


Frecvența

abateri standard de la
medie.

99,7% se încadrează între


±3 abateri standard de la
𝑋 medie.
𝑋 − 3𝑠 − 2𝑠 𝑋 − 1𝑠 𝑋 𝑋 + 𝑠1 𝑋 + 2𝑠 𝑋 + 3𝑠
Exemplu
Media pulsului într-un eșantion (de
exemplu, de 200 de studenți):
Frecvența

𝑋ത = 70 bă tă i / minut
𝑠 = 10

La 68% dintre studenți valorile


pulsului
ത sunt între 60 și 80 bă tă i/minut.
𝑋
Pulsul, bătăi/min. La 95% dintre studenți valorile pulsului
sunt între 50 și 90 bă tăi/minut.
Distribuția normală a pulsului
într-un eșantion ipotetic La 99,7% dintre studenți valorile pulsului
sunt între 40 și 100 bă tă i/minut.
CINCI INDICATORI STATISTICI SUMATIVI

Amplitudinea = 93-68 = 25

Q1 : cuartila întâia (marchează percentila a 25-a)


IQR
Q2 : cuartila a doua sau mediana (marchează percentila a 50-a)
Q3 : cuartila a treia (marchează percentila a 75-a)

Amplitudinea intercuartilică (IQR)


IQR = Q3-Q1= 88-74 = 14

IQR nu este sensibilă la valorile


extreme ale distribuției.
BOX PLOT: CINCI INDICATORI STATISTICI SUMATIVI

IQR
OBIECTIVE
1. Mă surile tendinței centrale. Calcularea și interpretarea rezultatelor:
o media aritmetică
o mediana
o modul.
2. Mă surile variației (dispersiei). Calcularea și interpretarea rezultatelor:
o amplitudinea
o varianța
o abaterea standard
o coeficientul de variație
o amplitudinea intercuartilică .
3. Legea distribuției normale.
4. Mă surile poziției relative: cuartilele (Q1, Q2, Q3).
5. Reprezentarea ”boxplot”.
6. Curba distribuției de frecvențe:
o unimodală și bimodală
o simetrică și asimetrică .

S-ar putea să vă placă și