Sunteți pe pagina 1din 46

Catedra de medicină socială și management „Nicolae Testemițanu”

STATISTICA DESCRIPTIVĂ PENTRU


DESCRIEREA DATELOR CANTITATIVE

Galina Obreja, conferențiar universitar


Olga Penina, conferențiar universitar

1
CUPRINS
1. Măsurile tendinței centrale. Calcularea și interpretarea rezultatelor:
– media aritmetică
– mediana
– moda.
2. Măsurile variației. Calcularea și interpretarea rezultatelor:
– amplitudinea
– varianța
– abaterea standard
– coeficientul de variație
– amplitudinea intercuartilică.
3. Legea distribuției normale.
4. Măsurile poziției relative: cuartilele (Q1, Q2, Q3).
5. Reprezentarea ”boxplot”.
6. Curba distribuției de frecvențe:
– unimodală și bimodală
– simetrică și asimetrică.
Distribuția de frecvențe a tensiunii arteriale
sistolice (TAs) într-un eșantion de 262 de pacienți

➢ Un set de date neorganizat este


dificil de înțeles.

➢ Cel mai simplu mod de


organizare a datelor este
enumerarea tuturor valorilor
posibile ale unei variabile, de la
cea mai mică la cea mai mare,
înregistrând frecvența (f)
fiecărei valori.

➢ O distribuție de frecvențe
arată numărul de apariții a
valorilor unei variabile într-un
eșantion.
➢ Distribuție – toate valorile unei variabile într-un
eșantion.

➢ Frecvență (f) – numărul de apariții a fiecărei


valori a variabilei în distribuție.
DISTRIBUȚIE DE FRECVENȚE
➢ Pentru o mai bună gestionare a Distribuție de frecvențe a TAs
datelor, se utilizează distribuțiile de grupată pe intervale într-un
frecvențe grupate: eșantion de 262 de pacienți
– pe variante
– pe intervale.
➢ Valorile individuale se grupează.
➢ Fiecare grup de valori are intervale
egale.
➢ În prezentul exemplu sunt 8 grupe cu
un interval de clasă = 10 (91-100,
101-110 etc.)
➢ O distribuție de frecvențe poate fi
prezentată în formă de tabel,
diagramă cu bare, histogramă sau
poligonul frecvențelor.
REPREZENTAREA GRAFICĂ A DISTRIBUȚIEI DE
FRECVENȚE - HISTOGRAMA

70
Histograma Se observă 3 caracteristici:
60
➢ distribuția are un vârf
(locația centrală)
50

➢ distribuția dispersiei de
Frecvența, abs

40
ambele părți ale vârfului
(dispersia)
30

20
➢ distribuția mai mult sau mai
10
puțin simetrică de ambele
0
91-100 101-110 111-120 121-130 131-140 141-150 151-160 161-170 171-180 părți ale vârfului.
Tensiunea arterială sistolică, mm/Hg
MĂSURILE TENDINȚEI CENTRALE
MĂSURILE TENDINȚEI CENTRALE
➢ Măsura tendinței centrale este o valoare unică, de obicei centrală, care
reprezintă cel mai bine o distribuție integrală de date.

➢ Măsurile tendinței centrale și dispersiei sunt denumite în general,


indicatori statistici descriptivi, deoarece descriu distribuția unui set de
date.

➢ O distribuție de frecvențe oferă o imagine a numărului de apariții a unei


variabile, dar nu ne spune nimic despre dispersia datelor.

➢ Pentru a avea o imagine clară despre distribuția datelor, se calculează:


– măsurile tendinței centrale: moda, mediana și media aritmetică
– măsurile de dispersie: amplitudinea, varianța, abaterea standard,
coeficientul de variație, amplitudinea intercuartilică.
MĂSURILE TENDINȚEI CENTRALE (cont.)
➢ O distribuție de frecvențe asigură o modalitate utilă pentru vizualizarea datelor,
dar nu permite descrierea cantitativă a distribuției și nici compararea a 2 sau mai
multe distribuții.
➢ Există 2 caracteristici ale distribuțiilor de frecvență pentru care au fost elaborate
metode cantitative de descriere a datelor:
– datele se adună adesea în jurul unei valori centrale (tendința centrală) care se află între cele
2 valori extreme ale variabilei studiate
– datele tind să fie dispersate și distribuite în jurul valorii centrale într-un mod care poate fi
specificat cantitativ.
➢ Măsurile tendinței centrale sunt utilizate pentru a descrie datele din eșantion,
dând o idee despre centrul distribuției datelor.
➢ Există 3 măsuri comune ale tendinței centrale:
– Moda - Mo
– Mediana - Me

– Media - 𝑋.
➢ Selectarea celei mai potrivite măsuri de utilizat
pentru o anumită distribuție depinde în mare
măsură de 2 factori:
– forma distribuției sau asimetria distribuției
– utilizarea preconizată a măsurii.
MODA ( 𝑀𝑜 )
➢ Moda (modul) este valoarea care apare cel mai frecvent într-o
distribuție/ set de date.
➢ Poate fi determinată prin vizualizarea simplă a distribuției de frecvențe
(poate fi vizualizată ușor în poligonul frecvențelor, fiind cel mai înalt
punct (vârful) al curbei).
➢ Distribuție unimodală: distribuție cu o singură modă.
➢ Dacă 2 valori apar cu cea mai mare frecvență, atunci distribuția este
bimodală.
➢ Dacă mai mult de 2 valori apar cu cea mai mare frecvență, atunci
distribuția este multimodală.
➢ Moda nu este sensibil la valorile extreme ale distribuției.
Frecvența, f

Modul

Colesterolul seric, mg/dl

Histograma și poligonul frecvențelor distribuției nivelelor colesterolului seric


printre 200 de bărbați.
Moda nu este sensibilă la valorile extreme ale distribuției.
PROPRIETĂȚILE ȘI UTILIZAREA MODEI

➢ Moda(ul) este măsura tendinței centrale cel mai ușor de înțeles și


explicat. Este, de asemenea, cea mai ușor de identificat și nu necesită
calcule.
➢ Moda este măsura preferată a tendinței centrale pentru abordarea
celei mai comune valori. De exemplu, ziua săptămânii în care se
înregistrează cele mai multe cazuri ‘COVID’.
➢ O distribuție poate avea o singură valoare modală sau mai multe.
Distribuția nu are modă dacă toate valorile apar o singură dată.
➢ Moda este utilizată aproape exclusiv ca măsură ”descriptivă”. Ea este
rar folosită în analize statistice.
➢ Moda nu este afectată de valorile extreme.
MEDIANA (Me)
➢ Mediana este valoarea care împarte în jumătate o distribuție de
frecvențe ordonată crescător sau descrescător.
➢ Mediana este valoarea din distribuție care marchează percentila
a 50-a (C50). Astfel, 50% de valori în distribuție sunt mai mici ca
mediana și 50% sunt mai mari.
➢ Dacă distribuția conține un număr impar de observații (3,5,7,9
etc.), atunci mediana este valoare de la mijlocul distribuției.
➢ Dacă distribuția conține un număr par de observații (4,6,8,10
etc.), mediana se situează la mijlocul distanței dintre cele 2
valori din mijloc (de ex., este media celor 2 valori din mijloc).
MEDIANA (𝑴𝒆) (cont.)

➢ Pentru un număr impar de valori: n = (n+1)/2 ; n : numărul de


valori
6, 9, 15, 17, 24 : 𝑀𝑒 este 15

➢ Pentru un număr par de valori: media a n/2 și (n/2)+1


6, 9, 15, 17, 24, 29 : 𝑀𝑒 este 16 (media dintre 15 și 17)

➢ Mediana nu este sensibilă la valorile extreme ale distribuției.


Pentru distribuția 6, 9, 15, 17, 24, 500 : 𝑀𝑒 oricum este 16.
PROPRIETĂȚILE ȘI UTILIZAREA MEDIANEI
➢ Mediana este o măsură descriptivă potrivită, în special pentru
datele asimetrice, deoarece este punctul central al distribuției.

➢ Mediana poate fi relativ ușor de identificat. Ea este egală cu o


singură valoare observată (în cazul numărului de observații
impar) sau cu media a 2 valori observate (în cazul unui număr
par de observații).

➢ Mediana, ca și moda, nu este sensibilă la valorile extreme.

➢ Mediana are proprietăți statistice mai puțin decât ideale. Prin


urmare, nu este folosită des pentru analize statistice.
MEDIA ARITMETICĂ

➢ Media arithmetică este valoarea cea mai apropiată de toate celelalte


valori dintr-o distribuție.
➢ Media se calculează prin împărțirea sumei tuturor valorilor din
distribuția de frecvențe la numărul acestor valori/observații. Media
(aritmetică) este măsura tendinței centrale cea mai frecvent utilizată.
➢ Media este sensibilă la valorile extreme.
𝑋ത - este media eșantionului
𝑥𝑖 - reprezintă o valoare
ഥ = Ʃ𝒙𝒊
➢ Media pentru eșantion: 𝑿
𝒏 individuală în distribuție
n – numărul cazurilor în eșantion
Ʃ - suma
ഥ)
Calcularea mediei aritmetice simple (𝑿

Ʃ𝑥𝑖

𝑋=
𝑛

131+133+126….+134 1562

𝑋= = =
12 12
130 cm
ഥ)
MEDIA PONDERATĂ (𝐗

➢ Dacă valorile inițiale dintr-o distribuție nu sunt cunoscute, media


ponderată poate fi estimată din tabelul de frecvențe (distribuție
grupată pe intervale).

𝑋ത - este media ponderată a eșantionului


𝑥𝑖 - reprezintă un grup de valori într-o
Ʃ𝑥𝑖 ∗ 𝑓

𝑋= distribuție
𝑛 f – este frecvența grupului de valori
n – numărul cazurilor în eșantion
(sau putem spune că n = Ʃf)
Ʃ - suma
ഥ)
Calcularea mediei ponderate (𝑿

ത Ʃ𝑥𝑖 ∗ 𝑓
➢ 𝑋=
𝑛

➢ ത 123 ∗15 + 128 ∗21 + …+(158 ∗14) =


𝑋=
222
31266
= 140,83
222
𝑙𝑖𝑚𝑖𝑡𝑎 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑎𝑟ă+𝑙𝑖𝑚𝑖𝑡𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑎𝑟ă
Mijlocul intervalului: 𝑋𝑖 =
2

Dacă tabelul distribuției de frecvențe conține


intervale, atunci se folosește valoarea medie a
intervalului. Aceasta se calculează însumând limitele
superioară și inferioară ale intervalului și împărțind
rezultatul la 2.
PROPRIETĂȚILE ȘI UTILIZAREA MEDIEI ARITMETICE
➢ Media are proprietăți statistice excelente și este frecvent utilizată în analize
statistice suplimentare. O astfel de proprietate se numește proprietatea de
centrare a mediei. Dacă scădem media din fiecare observație a setului de date,
suma acestor diferențe este egală cu zero (adică suma negativă este egală cu
suma pozitivă).
➢ Aceasta demonstrează că media este centrul aritmetic al distribuției.
➢ Datorită acestei proprietăți de centrare, media este uneori numită centrul de
greutate al unei distribuții de frecvență. Dacă distribuția de frecvențe este
reprezentată pe un grafic și graficul este echilibrat pe punctul de sprijin, punctul
în care distribuția s-ar echilibra ar fi media.
➢ Media aritmetică este cea mai bună măsură descriptivă pentru datele distribuite
normal.
➢ Pe de altă parte, media nu este măsura potrivită pentru datele puternic
asimetrice sau cele care conțin valori extreme. Deoarece media folosește toate
observațiile din distribuție, ea este afectată de orice valoare extremă.
Nominală Ordinală De interval De raport
Moda + + + +
Mediana + + +
Media + +
LOCAȚIA RELATIVĂ A MEDIEI, MEDIANEI ȘI
MODEI ÎNTR-O DISTRIBUȚIE UNIMODALĂ
➢ Distribuție unimodală: o distribuție cu o singură
valoare modală.

➢ Relația dintre cele trei măsuri ale tendinței centrale


depinde de forma distribuției:
– distribuție simetrică
– distribuție asimetrică:
• cu asimetrie pe stânga
• cu asimetrie pe dreapta.
DISTRIBUȚIA SIMETRICĂ (NORMALĂ)
Într-o distribuție
simetrică cu o singură
valoare modală, toate
cele trei măsuri ale
tendinței centrale au
valori identice.

𝑀𝑜 = 𝑀𝑑 = 𝑋 Media
Mediana
Moda
Asimetrie pozitivă (pe dreapta) Asimetrie negativă (pe stânga)

Coada Coada
curbei curbei

Valorile Valorile

➢Distribuțiile de frecvențe asimetrice sunt distribuții oblice (înclinate).


➢Distribuțiile de frecvențe cu asimetrie pozitivă și negativă pot fi identificate după locația cozii (!)
curbei.
➢În distribuțiile cu asimetrie pozitivă predomină valorile mici ale variabilei.
➢În distribuțiile cu asimetrie negativă predomină valorile mari ale variabilei.
DISTRIBUȚII ASIMETRICE
➢ Moda și mediana nu sunt sensibile la valorile extreme ale distribuției, în timp ce
media este foarte sensibilă la valorile extreme.
➢ Prin urmare, într-o distribuție asimetrică media este trasă în direcția cozii.

Asimetrie pozitivă Asimetrie negativă


Moda

Moda
Mediana

Mediana
Media

Media
𝑀𝑜 < 𝑀𝑑 < 𝑋 𝑋 < 𝑀𝑑 < 𝑀𝑜
UTILIZAREA MĂSURILOR TENDINȚEI CENTRALE

Doi factori sunt importanți pentru aplicarea practică corectă a


măsurilor tendinței centrale:
1. Scala de măsurare: ordinală sau numerică
2. Forma distribuției: simetrică sau asimetrică.

➢ Media se folosește pentru date numerice și distribuții


simetrice.
➢ Mediana se folosește pentru date ordinale și pentru date
numerice în cazul unor distribuții asimetrice.
➢ Moda se folosește pentru distribuții bimodale.
MĂSURILE DE DISPERSIE
MĂSURILE VARIAȚIEI (DISPERSIEI)

➢ Amplitudinea
➢ Variația
➢ Abaterea standard
➢ Coeficientul de variație
➢ Amplitudinea intercuartilică
AMPLITUDINEA

➢ Amplitudinea reprezintă diferența dintre cea mai mare (valoarea


maximă) și cea mai mică (valoarea minimă) valoare a distribuției.

➢ În distribuția 6, 9, 15, 17, 20 amplitudinea este egală cu (20 - 6) =


14.

➢ În distribuția 6, 9, 15, 17, 200 amplitudinea este egală cu (200 - 6) =


194.

➢ Amplitudinea este sensibilă la valorile extreme ale distribuției.


VARIANȚA (DISPERSIA) (𝑠 2 )
1. Calculați valoarea abaterii de la medie pentru fiecare observație (𝑋𝑖 )
Dacă 𝑋𝑖 = 12 și media 𝑋 = 10, valoarea abaterii de la medie (x) este egală cu (12-10) = 2
Valoarea abaterii de la medie = 𝑋𝑖 − 𝑋

2. Ridicați la pătrat fiecare dintre valorile abaterii de la medie (abatere la pătrat)


2
𝑋𝑖 − 𝑋
Este necesar să se elimine semnul minus, altfel σ(𝑋𝑖 −𝑋) = 0
2
3. Însumați abaterile la pătrat (suma pătratelor) σ 𝑋𝑖 − 𝑋

4. Împărțiți suma pătratelor la numărul de observații din eșantion minus 1 (n-1).

Astfel, ați obținut varianța, care reprezintă media abaterilor de la medie la pătrat.
68, 69, 74, 76, 79, 87, 88, 90, 93 ; n = 9
68+69+74+76+79+87+88+90+93
Media (𝑋) = = 80,4
9

(68−80.4)2 + (69−80.4)2 + …+ (93−80.4)2


Varianța (dispersia) (𝑠 2 ) = = 87,3
9−1
VARIANȚA (DISPERSIA) (𝑠 2 )

Pentru date negrupate Pentru date grupate


2 2
σ 𝑋𝑖 −𝑋 σ 𝑋𝑖 −𝑋 ×𝒇
𝑠2 = 𝑠2 =
𝑛−1 𝑛−1

𝑋 : media în eșantion Varianța reprezintă suma


𝑋𝑖 : o valoare individuală în distribuție abaterilor la pătrat
n : numărul observațiilor în eșantion raportată la numărul de
σ : “suma”
observații minus unu.
ABATEREA STANDARD (s)

s= 𝑠2

𝑠 2 : varianța (dispersia)

Abaterea standard este abaterea medie dintre valorile individuale


ale distribuției și media acestei distribuții.
68, 69, 74, 76, 79, 87, 88, 90, 93 ; n = 9
68+69+74+76+79+87+88+90+93
Media (𝑋) = = 80,4
9

(68−84,4)2 +(69−80,4)2 + …+ (93−80,4)2


Varianța (𝑠 ) =
2
9−1
= 87,3

Abaterea standard (s) = 87,3 = 9,3.


COEFICIENTUL DE VARIAȚIE (CV)

𝐴𝑏𝑎𝑡𝑒𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑
Coeficientul de variație = × 100%
𝑀𝑒𝑑𝑖𝑎

𝑠
Coeficientul de variație = × 100%
𝑋ത
COEFICIENTUL DE VARIAȚIE

< 10 % : variație mică

10-35 % : variație medie

> 35 % : variație mare (media nu este un


indicator reprezentativ).
Exemplu: compararea variabilității TAs și a indicelui
de șoc într-un eșantion de 200 de pacienți.
Tensiunea arterială sistolică Indicele de șoc
(TAs)
𝑋ത = 138 𝑋ത = 0,69

s = 26 s = 0,2

CV =
26
× 100 = 18,8% 0,2
138 CV = × 100 = 29,0%
0,69
Coeficientul de variație (CV) măsoară variația relativă – variația în raport cu mărimea mediei.
DISTRIBUȚIA SIMETRICĂ.
LEGEA DISTRIBUȚIEI NORMALE
Trei caracteristici principale ale distribuției normale

1. Distribuție simetrică:
jumătate dintre valori sunt
mai mari ca
media…cealaltă jumătate –
mai mici ca media (formă
de clopot).

2. Unimodală : o singură
valoare modală.
Media
ഥ = 𝐌𝐝 = 𝐌𝐨
3. 𝐗 Mediana
Moda
LEGEA DISTRIBUȚIEI NORMALE

Se aplică numai distribuțiilor simetrice (normale).

➢ Aproximativ 68% din valorile distribuției se încadrează între


±1 abatere standard de la medie.

➢ Aproximativ 95% din valorile distribuției se încadrează între


±2 abateri standard de la medie.

➢ Aproximativ 99,7% din valorile distribuției se încadrează


între ±3 abateri standard de la medie.
LEGEA DISTRIBUȚIEI NORMALE

68% se încadrează între ±1


abatere standard de la
medie.

95% se încadrează între ±2


Frecvența

abateri standard de la
medie.

99,7% se încadrează între


±3 abateri standard de la
𝑋 − 3𝑠 𝑋 − 2𝑠 𝑋 − 1𝑠 𝑋 𝑋 + 1𝑠𝑋 + 2𝑠𝑋 + 3𝑠 medie.
Exemplu
Media pulsului într-un eșantion (de
exemplu, de 200 de studenți):
Frecvența

𝑋ത = 70 bătăi / minut
𝑠 = 10

La 68% dintre studenți valorile pulsului


sunt între 60 și 80 bătăi/minut.
𝑋ത
Pulsul, bătăi/min. La 95% dintre studenți valorile pulsului
sunt între 50 și 90 bătăi/minut.
Distribuția normală a pulsului
într-un eșantion ipotetic La 99,7% dintre studenți valorile pulsului
sunt între 40 și 100 bătăi/minut.
CINCI INDICATORI STATISTICI SUMATIVI

Amplitudinea = 93-68 = 25

Q1 : cuartila întâia (marchează percentila a 25-a)


IQR
Q2 : cuartila a doua sau mediana (marchează percentila a 50-a)
Q3 : cuartila a treia (marchează percentila a 75-a)

Amplitudinea intercuartilică (IQR)


IQR = Q3-Q1= 88-74 = 14

IQR nu este sensibilă la valorile extreme ale distribuției.


BOX PLOT: CINCI INDICATORI STATISTICI SUMATIVI

IQR
OBIECTIVE
1. Măsurile tendinței centrale. Calcularea și interpretarea rezultatelor:
o media aritmetică
o mediana
o modul.
2. Măsurile variației (dispersiei). Calcularea și interpretarea rezultatelor:
o amplitudinea
o varianța
o abaterea standard
o coeficientul de variație
o amplitudinea intercuartilică.
3. Legea distribuției normale.
4. Măsurile poziției relative: cuartilele (Q1, Q2, Q3).
5. Reprezentarea ”boxplot”.
6. Curba distribuției de frecvențe:
o unimodală și bimodală
o simetrică și asimetrică.

S-ar putea să vă placă și