Sunteți pe pagina 1din 33

STATISTICA DESCRIPTIVĂ

– INDICATORI SINTETICI
SORANA D. BOLBOACĂ

“Welcome to the Alzheimer's information support


page...please enter your 17 digit password.”

10/31/2020 1
DESPRE …
STATISTICA DESCRIPTIVĂ

Proporția, rata și raportul

Parametrii de centralitate

Parametrii de dispersie

Parametrii de simetrie și boltire


10/31/2020 2
Proporția, rata și raportul
o Prevalența
o f = a:(a+b) sau a/(a+b) o Incidența
o f∈(0, 1) sau f∈(0%, 100%)
o Alte exemple: Prevaleța, Incidența, Se, Sp, VPP, VPN, A (indicatori de
evaluarea a testelor diagnostice)
La serviciul de urgență al unui spital județean au fost consultați 1200 într-o
anumită perioadă de timp. 420 au fost internați, 200 fiind de gen feminin
o Care este proporția subiecților de sex masculin dintre subiecții spitalizați?
o 220/420 * 100 = 52%
10/31/2020 3
Proporția, rata și raportul
[0, ∞]
o Rata = riscul de apariție a unui eveniment în timp (ex. o Riscul relativ
secundă/minut/oră/zi/săptămână/lună/an). o Rata șansei
o Ex.: rata de morbiditate, rata de atac, rata de mortalitate, rata de natalitate, riscul
atribuabil

Cancer Cancer Total o Riscul de cancer mamar la femeile care au alăptat


mamar+ mamar- = 20/100 = 0,20
Alăptare = Da 20 80 100 o Riscul de cancer mamar la femeile care nu au
Alăptare =Nu 21 79 100 alăptat = 21/100 = 0,21
Total 41 159 200 o Riscul relativ = 0,20/0,21 = 0,95 → Femeile care
au alăptat au un risc de a dezvolta cancer mamar
cu 5% mai mic comparativ cu cele care nu au
alăptat.
10/31/2020 4
Proporția, rata și raportul

o Se aplică doar în cazul numerelor raționale pozitive a şi b unde b≠0


a:b sau a/b

o Două din 10 persoane consultate într-o zi de un medic de familie au presiunea arterială


sistolică (PAS) mai mare decât valoarea normală. Care este valoarea raportului PAS
normal/ PAS patologic?
PAS normal/ PAS patologic = 8/2 = 4
→ Avem un subiect cu valori patologice ale PAS la fiecare 4 indivizi cu valori PAS normale

10/31/2020 5
Parametrii de centralitate

Media aritmetică

Mediana

Modulul

Media ponderată

o Statistica eșantionului = estimator punctual al parametrului populației


10/31/2020 6
7

Parametrii de centralitate
o Media aritmetică

Populație → parametru Eșantion → statistica


n
σ𝑁 𝑖=1 𝑋𝑖 X i
μ= X= i=1
𝑁 n
o Mediana Impar (3, 5, 7 …) Par (2, 4, …)

Me = X n+1 Xn + Xn
+1
2 Me = 2 2
2
o Modulul: cea mai frecventă observație a seriei 10/31/2020
8

Parametrii de centralitate
Scorurile obținute la examenul practic de o grupă de 11 studenți:
4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5

o Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7


o Modulul: 5, 6, 8, 9 → serie multimodală
o Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10
o n (volumul eșantionului) = 11
o Me = X(n+1)/2 = X6 = 7

10/31/2020
9

Parametrii de centralitate
Scorurile obținute la examenul practic de o grupă de 12 studenți:
4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4
o Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5
o Modulul: 4 → serie unimodală
o Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10
o n (volumul eșantionului) = 12
o Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6

10/31/2020
10

Parametrii de centralitate
Media ponderată
n

WX i i
mX = i=1
n

W i=1
i

Media aritmetică
n

X i
X= i=1
n

Media artimetică este un caz special al mediei ponderate (Wi , ponderi10/31/2020


egale).
11

Parametrii de centralitate

Valoarea centrală = (xmin+ xmax)/2

10/31/2020
Parametrii de centralitate
Estimator Avantaj Dezavantaj
Media Utilizează toate datele Influențată de valori extreme
Ușor de aplicat Nereprezentativă dacă datele nu au o
distribuție simetrică
Mediana Nu e influențată de valori extreme Ignoră majoritatea datelor din serie
Neinfluențată de asimetria datelor
Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor din serie
Media Aplicabilă datelor asimetrice spre dreapta Adecvată dacă logaritmarea datelor
geometrică produce o distribuție normală
Media Cuantifică importanța relativă a fiecărei Ponderile trebuie să fie cunoscute sau
ponderată observații estimate

10/31/2020 12
13

Parametrii de dispersie
o Dispersie relativ la parametrul de centralitate
o Datele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite unele
față de altele

Care din cele două metode e mai precisă? 10/31/2020


14

Parametrii de dispersie

Cvartile
Amplitudinea Variația
Percentile

Deviația Coeficientul Eroarea


standard de variație standard

o Datele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite
unele față de altele, respectiv față de valoarea centrală
10/31/2020
Parametrii de dispersie: Amplitudinea

A = Xmax – Xmin

o Metoda 1: A = 221-144 = 77
o Metoda 2: A = 205-195 = 10
16
14 M F

Frecvența absolută
12
10
o Consideră exclusiv valorile extreme 8

o Nu oferă informații cu privire la distribuția


6
4
datelor între valorile extreme 2
0
0 10 20 30 40 50 60 70 80 90 100
Scor 10/31/2020 15
Parametrii de dispersie: cvartile
IC = Q3 – Q1
unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)
IC = intervalul cvartilic

Măsură a dispersiei pentru 50% din datele de mijloc.

10/31/2020 16
Parametrii de dispersie: cvartile
Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8

Variabila: Formule Excel:


note la (Mediana) Me:

Q3 – Q1 = 9 – 5.5 = 3.5
examenul Ordonare
=MEDIAN(B1:B12)
practic

A = 10 – 4 = 6
(Intervalul dintre cvartila 3 şi 1)
IC:
Me=8
=QUARTILE(B1:B12,3)-
QUARTILE(B1:B12,1)
(Amplitudinea) A:
=MAX(B1:B12)-MIN(B1:B12)

10/31/2020 17
Parametrii de dispersie: cvartile
Variabila: note la examenul practic
Q1: 25% din studenţi au note ≤ 5.5
Q3: 75% din studenţi au note ≤ 9
IC: 50% din studenţi au note care

Q3 – Q1 = 9 – 5.5 = 3.5
nu diferă una faţă de alta cu mai
mult de 3,5 puncte

A = 10 – 4 = 6
Me=8
A: Diferenţa dintre nota
maximă şi nota minimă a fost
de 6 puncte

10/31/2020 18
Parametrii de dispersie: variația și deviația standard

o Populație o Eșantion

σ𝑁
(𝑥
𝑖=1 𝑖 − μ)2 σ𝑛
(𝑥
𝑖=1 𝑖 − ത
𝑋) 2
2 2
σ = 𝑠 =
𝑁 𝑛−1

σ𝑁
(𝑥 − μ)2 σ𝑛
(𝑥
𝑖=1 𝑖 − ത
𝑋) 2
𝑖=1 𝑖
σ= σ =
2 s= s =
2
𝑁 𝑛−1

10/31/2020 19
Parametrii de dispersie: media și deviația standard

o s ↓ ⟶ datele seriei au
valori apropiate de ale
mediei
o s ↑ ⟶ datele seriei sunt
depărtate faţă de valoarea
mediei

10/31/2020 20
21

Parametrii de dispersie: media și deviația standard

10/31/2020
Parametrii de dispersie: Variabilitate vs. Diversitate
1. Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?
2. Care din grupurile de mai jos prezintă o variabilitate mai mare a orelor de
utilizare?

Grup 1➔ s = 15,81
Grup 2 ➔ s = 21,91

10/31/2020 22
Parametrii de dispersie: coeficientul de variație
o Dispersie relativă
o Nu are unitate de măsură
o Se calculează doar pentru variabilele cantitative de tip raţie care iau doar valori pozitive
o Compararea variabilităţii a două populaţii când unităţile de măsură sunt diferite (mg/dL
vs mmol/L – colesterol)
𝑠 𝑄3 − 𝑄1
𝐶𝑉(%) = × 100 𝐶𝑄𝑉(%) = × 100
𝑋ത 𝑄3 + 𝑄1

Relative Relativ
Omogen Eterogen
omogen eterogen
10/31/2020 23
Parametrii de dispersie: coeficientul de variație
o Se dorește evaluarea variabilității presiunii arteriale sistolice (PAS) comparativ cu cea a
indicelui de masă corporală (IMC). Datele aparținând la 10 subiecți sunt redate în
tabelul de mai jos:
1 2 3 4 5 6 7 8 9 10
PAS (mmHg) 220 182 100 130 120 100 140 160 120 160
IMC (kg/m2) 28 30 21 27 25 20 30 25 24 20

o PAS: CV(%) = 36,58/144×100 = 25,40


o IMC: CV(%) = 3,8/25×100 = 15,20
21 25 27 30
20
20 24 25 28 30
100 120 140 160

10/31/2020 24
100 120 130 160 182 220
Parametrii de dispersie: eroarea standard

SEM (standard error of the mean)


o Indicator al acurateţii mediei: SEM = s/√n
o Relaţie invers proporţională dintre volumul eşantionului şi SEM

25

10/31/2020 25
Parametrii de dispersie
Estimator Avantaj Dezavantaj
Amplitudinea Ușor de calculat Utilizează doar datele a două observații
Influențată de valori extreme
Tinde să aibă valoare mai mare odată cu
creșterea volumului eșantionului
IC Neafectată de valorile extreme Dificil de calculat
Independentă de volumul eșantionului Neadecvată pentru eșantioane mici
Adecvată pentru date cu distribuție asimetrică Utilizează doar două observații
Variația Utilizează toate datele seriei statistice Influențată de valorile extreme
Neadecvată pentru datele asimetrice
Deviația Utilizează toate datele seriei statistice Influențată de valorile extreme
standard Unitatea de măsură este identică cu cea a Neadecvată pentru datele asimetrice
datelor brute
Se interpretează ușor
CV Independent de unitățile de măsură Media aproape de zero → CV se apropie 26
de infinit
Permite compararea serilor statistice cu fiind sensibil la modificări mici ale mediei
diferite unități de măsură 10/31/2020 26
Parametrii de simetrie și boltire

Intepretarea [Bulmer MG,


Principles of Statistics, Dover, 1979]
– aplicată populației
o Asimetria <−1 sau > +1 →
distribuție înalt asimetrică
Asimetrie > 0 o (-1; -0,5] sau [0,5; 1) → moderat
Asimetrie < 0
Asimetrie = 0 asimetrică
o (-0,5; 0,5) → aproximativ
simetrică

10/31/2020 27
28

Parametrii de simetrie și boltire


mediana
media modulul modulul media
14 mediana 40
35 33
12 11
10 10 30

Număr subiecți
10
Număr subiecți

8 25 22
8 20
15 14
6 5 15 11
4 10 8
6
4 4
2 5 2
2 0

0
4 5 6 7 8 9 10
Scor durere (10 = durere insuportabilă)
Clase de venit (lei)
Direcţie negativă Direcţie pozitivă

Asimetrie negativă Asimetrie pozitivă


10/31/2020
Modulul > Mediana > Media Modulul < Mediana < Media
Parametrii de simetrie și boltire
o Distribuția normală are boltirea în
jurul valorii 3.
o Excesul de boltire (funcția KURT) =
(Boltire – 3)
o Distribuția normală: boltirea ≅ 3
(excesul de boltire ≅ 0)
→ mezocurtic
o Distribuția cu boltirea <3 (excesul
de boltire < 0) 0) → platicurtică
o Distribuția cu boltirea >3 (excesul
de boltire >0) 0) → leptocurtică

10/31/2020 29
Parametrii de simetrie și boltire

Examinarea simetriei unei distribuții cu ajutorul cvartilelor


o Q2-Q1 ≈ Q3-Q2 (≈ aproape egal) → distribuția este aproximativ simetrică
o Q2-Q1 ≠ Q3-Q2 → distribuția este asimetrică

2,80 2,97 3,05 3,25 3,40 3,45 3,80 4,10 4,30 4,40
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

o Q1 = 3,03
Q2-Q1= 3,43 – 3,03 = 0,40
o Q2 = 3,43
Q3-Q2 = 4,15 – 3,43 = 0,72
o Q3= 4,15
Cum interpretăm acest rezultat? 10/31/2020 30
o Datele calitative se sumarizează ca:
o proporții, rate, rapoarte
o metrica de centralitate? modulul
o Datele de tip interval/rație se sumarizează ca
o medie ± deviație standard dacă urmează distribuția normală
o mediană și interval cvartilic dacă nu urmează distribuția normală (aplicat și pentru
atele calitative scala ordinală)
o Dacă datele urmează distribuția normală, mă aștept ca
o media ≈ mediana ≈ modulul
o asimetria și boltirea ∈ (-0,5; +0,5)

10/31/2020 31
Tip Scala de măsură Indicator centralitate Indicator dispersie
Calitativ Nominal Modulul
Ordinal Mediana Valoarea minimă și maximă
Modulul Amplitudinea
Intervalul cvartilic
Cantitativ Interval/rație Media Variația
Mediana Deviația standard
Modulul Amplitudine
Intervalul cvartilic

10/31/2020 32
10/31/2020 33

S-ar putea să vă placă și