Sunteți pe pagina 1din 36

TESTE STATISTICE 1.

INTRODUCERE, PAȘI, ERORI.


NORMALITATEA DATELOR
SORANA D. BOLBOACĂ

12/7/2020 1
DESPRE …
Teste De ce?
statistice
Pași
Erori
Normalitatea Parametrii descriptivi
datelor
Metoda grafică
Teste statistice

12/7/2020 2
TESTAREA INTRODUCERE
IPOTEZELOR PAȘI
STATISTICE ERORI
INTRODUCERE
Test statistic = metodă a deciziei medicale prin utilizarea datelor experimentale.
Un rezultat se numeşte semnificativ statistic dacă este puţin probabil să apară
datorită întâmplării.
Ipoteza statistică = asumpţie asupra parametrului populaţiei (μ, π). Această
asumpţie poate sau nu să fie adevărată.
Ipoteza clinică = o idee explicativă care permite structurarea datelor cu privire la
un pacient în aşa fel încât să ducă la o mai bună înţelegere a patologiei sau respectiv
la o decizie medicală corectă.
Nivel de semnificație (α): 5%
Populația Eșantionul
Parametrul (μ, σ/s) ത S)
Statistica (𝑋,
Calculat? Nu, cunoscut Calculat? Da
Eșantionare

Populație Eșantion

Probabilitate
Parametrul Statistica

Statistica inferențială

12/7/2020 5
INFERENȚA

Parametrul populației Statistica eșantionului

Media μ 𝑋ത

Diferența dintre medii μ1-μ2 𝑋ത1 − 𝑋ത2

Frecvența π f

Diferența frecvenșelor π1-π1 f1-f2

12/7/2020 6
INFERENȚA STATISTICĂ: PAȘI
P - parameters: parametrul (media μ, proporția/frecvența π)
H - hypotheses: ipotezele statistice: H0 (nulă) vs. H1 (alternativă)
A - assumptions: asumpții (fiecare test)
N - name your test: denumirea testului
T - find your test statistic: statistica testului (formula)
O - obtain your p-value: probabilitatea asociată statisticii testului
M - make a decision (respingem H0 vs. nu respingem H0): decizia testului
S - state a conclusion in the context of the problem: concluzia 12/7/2020 7
Abb Descriere
P În funcție de variabila de interes
• Dacă variabila de interes este frecvența efectelor adverse → variabila de interes este diferența
frecvențelor reacțiilor adverse.
• Dacă variabila de interes este eficacitatea terapeutică → media reducerii ritmului cardiac la subiecții
tratați cu Nebivolol
H Ipotezele statistice
H0 (ipoteza nulă):
o Negație (ex. Nu există o diferență semnificativă statistic în ceea ce privește frecvența efectelor
adverse în tratamentul cu Nebivolol comparativ cu cel cu Atenolol)
o Referă parametrul populației πNebivolol = πAtenolol (se citește: frecvența efectelor adverse la pacienții
cu Nebivolol nu diferă semnificativ statistic față de frecvența efectelor adverse la pacienții cu
Atenolol)
H1 (ipoteza alternativă):
o Opusul ipotezei nule
o Referă de asemenea parametrul populației
o Test bilateral: πNebivolol ≠ πAtenolol (se citește: frecvența efectelor adverse la pacienții cu Nebivolol
diferă semnificativ statistic față de frecvența efectelor adverse la pacienții cu Atenolol)
o Test unilateral: ex. μA < μB (Media reducerii ritmului cardiac la pacienții cu Nebivolol este
semnificativ mai mică comparativ cu media reducerii ritmului cardiac la pacienții cu Atenolol)
Testul unilateral se foloseşte când:
1. Modificările în direcţia opusă este lipsită de sens
2. Modificările în direcţia opusă nu sunt de interes
TEST UNILATERAL 3. Nici o teorie nu prezice schimbarea în direcţia opusă

Nu avem suficiente dovezi să


Respingem H0 Respingem H0
respingem H0

12/7/2020 9
https://userpage.fu-berlin.de/soga/200/2070_hypothesis_tests/20713_The_Critical_Value_and_the_p-Value_Approach_to_Hypothesis_Testing.html
TEST BILATERAL

Respingem H0 Nu avem suficiente Respingem H0


dovezi să respingem
H0

12/7/2020 10
https://userpage.fu-berlin.de/soga/200/2070_hypothesis_tests/20713_The_Critical_Value_and_the_p-Value_Approach_to_Hypothesis_Testing.html
Abb Descriere ... exemplu
A Asumpții: fiecare test statistic are asumpții specifice și este corect aplicat dacă acestea sunt
îndeplinite
Teste pe medii în cazul eșantioanelor independente
• Independence: N (volumul populației) > 10*n (volumul eșantionului)
• Randomizare: eșantion randomizat & asignare aleatorie la tratament
• Reducerea ritmului cardiac pentru fiecare grup în parte urmează distribuția normal
N În funcție de variabila de interes & grupuri (dacă există).
• Cantitativă – teste pe medii (ex. testul Student)
• Calitativă – teste pe frecvențe (ex. testul Hi-pătrat)
T Fiecare test are formula lui (vezi cursurile următoare)
Pentru unele teste este necesar a identifica gradele de libertate (teste pe medii), respectiv
frecvențele (teste pe frecvențe)
O • Valoarea p nu este probabilitatea ca ipoteza nulă să fie falsă.
• O valoare mică a lui p nu înseamnă că există o probabilitate mică ca ipoteza nulă să fie adevărată.
• Ipoteza de lucru nu poate fi inversată şi de exemplu pentru un p=0,02 nu se poate spune că avem
o șansă de 98% ca diferenţa să existe.
• Valoarea lui p nu este un indicator al validitaţii ipotezei statistice.
• p se utilizează doar pentru a evalua dacă decizia este semnificativă sau nu
12/7/2020 12
Abb Descriere ... exemplu
M o Regiunea critică:
• Dacă statistica testului aparţine regiunii critice avem suficiente dovezi să
respingem H0
• Dacă statistica testului nu aparţine regiunii critice, nu avem suficiente dovezi
să respingem H0
o Valoarea p:
• p < α (nivelul de semnificație, 5%) → avem suficiente evidențe să respingem
H0 → rezultatul este semnificativ statistic
• p > α → nu există suficiente dovezi pentru a respinge H0 → rezultatul nu
este semnificativ statistic
INTERPRETARE

o 0,01 ≤ p < 0,05 → rezultatele sunt considerate semnificative


o 0,001 ≤ p <0,01 → rezultatele sunt considerate înalt semnificative
o p < 0,001 → rezultatele sunt considerate foarte înalt semnificative
o p ≥ 0,05 → rezultatele sunt considerate nesemnificative statistic
o 0,05 ≤ p < 0,1 → se notează o oarecare tendinţă spre considerarea unei
semnificaţii statistice
Abb Descriere ... exemplu
M Decizia:
o Prin respingerea ipotezei nule cercetătorul afirmă că rezultatele observate nu
sunt datorate întâmplării (șansei) → rezultat semnificativ statistic
o Când ipoteza nulă nu este respinsă cercetătorul afirmă că diferenţele observate
sunt datorate întâmplării → rezultatele nu sunt semnificative statistic
o ATENȚIE: Statistica nu verifică adevărul, nu dovedește afirmațiile, ci doar ne
arată cu o probabilitate oarecare că rezultatele observate nu sunt datorate
întâmplării
S Reducerea medie a ritmului cardiac este semnificativ statistic mai mare la pacienții care
primesc Atenolul comparativ cu cei care primesc Nebivolol.
ERORI
Eroare de tip I (alpha, α) Eroare de tip II (beta,
= respingerea H0 atunci β)= nu avem suficiente
când aceasta este dovezi să respingem H0
adevărată atunci când H1 e
adevărată
INDICATORI DESCRIPTIVI
NORMALITATEA
REPREZENTAREA GRAFICĂ
DATELOR TESTE STATISTICE
Media,
mediana și
INDICATORI DESCRIPTIVE modului
au valori
...

apropiate

Asimetria
are
... valoare în
intervalul
(-0,5, 0,5)

Boltirea
are
valoare în
...
intervalul
(-0,5;
+0,5)

(Q2-Q1) ≈
...
(Q3-Q2)

12/7/2020 18
VIZUALIZAREA GRAFICĂ

12/7/2020 19
VIZUALIZAREA GRAFICĂ

sugerază asimetrie la dreapta sugerează asimetrie la stânga


asimetrie > 0 asimetrie < 0
Modulul < Mediana < Media Modulul < Mediana < Media

12/7/2020 20
https://www.learnbyexample.org/r-quantile-quantile-qq-plot-base-graph/

VIZUALIZAREA GRAFICĂ

https://www.originlab.com/doc/Tutorials/Q-Q-Plot 12/7/2020 21
STATISTICA VÂRSTA (ANI) IMC (KG/M2)
media 65 26
mediana 66 26
modulul 65 24
asimetria -0.56 0.3
F
boltirea 1.54 0.11
PACIENȚI CU
(Q2-Q1) 7 3 CANCER
(Q3-Q2) 7 3 COLO-RECTAL
n 710 710
media 65 26
mediana 65 26
modulul 64 25
asimetria -0.57 0.27
M
boltirea 1.02 1.61
(Q2-Q1) 6 2
(Q3-Q2) 7 3
n 978 978 12/7/2020 22
Histogram of varsta
Histogram of varsta
Include condition: pacsex="F"
Include condition: pacsex="M"
300
450

400
250

350

200
300
No of obs

No of obs
250
150

200

100
150

100
50

50

0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 0
10 20 30 40 50 60 70 80 90 100 110
varsta
varsta
Histogram of IMC Histogram of IMC
Include condition: pacsex="F" Include condition: pacsex="M"
350 600

300
500

250
400

200
No of obs

No of obs
300
150

200
100

50 100

0 0
10 15 20 25 30 35 40 45 -5 0 5 10 15 20 25 30 35 40 45
12/7/2020 23
IMC IMC
Quantile-Quantile Plot of varsta Quantile-Quantile Plot of IMC
Distribution: Normal Distribution: Normal
Include condition: pacsex="F" Include condition: pacsex="F"
0.01 0.05 0.25 0.50 0.75 0.90 0.99 0.01 0.05 0.25 0.50 0.75 0.90 0.99
120 45

40
100

35
Observed Value 80

Observed Value
30
60
25

40
20

20
15

0 10
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
Theoretical Quantile Theoretical Quantile
Quantile-Quantile Plot of varsta Quantile-Quantile Plot of IMC
Distribution: Normal Distribution: Normal
Include condition: pacsex="M" Include condition: pacsex="M"
0.01 0.05 0.25 0.50 0.75 0.90 0.99 0.01 0.05 0.25 0.50 0.75 0.90 0.99
100 45

90 40

80 35

70 30

Observed Value
Observed Value

60 25

50 20

40 15

30 10

20 5

10 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 312/7/20204 24
Theoretical Quantile Theoretical Quantile
45

40

35

30

120 25

IMC
20
100

15

80 10

5 Median
varsta

60 25%-75%
Non-Outlier Range
0 Y
F M Y

40

20

Median
25%-75%
0 Non-Outlier Range
F M Y 12/7/2020 25
TESTAREA IPOTEZELOR: TESTE DE NORMALITATE
Mai puțin conservativ Conservativ
Eșantion mic (5-50) Shapiro-Wilk Kolmogorov-Smirnov
Eșantion mediu sau mare (>50) Shapiro-Wilk Chi-Square Goodness-of-Fit

Ipoteze (IMC-ul și gen): IMC (variabila de interes)


o H0: Distribuția IMC-ului la femei nu este semnificativ diferită de distribuția
teoretică normal
o H1: Distribuția IMC-ului la femei este semnificativ diferită de distribuția teoretică
normal
11-Dec-17
AVERAGE=65 AVERAGE=26 AVERAGE=26 AVERAGE=65
MEDIAN=66 MEDIAN=26 MEDIAN=26 MEDIAN=65
MODE=65 MODE=24 MODE=25 MODE=64

SKEW=-0.56 SKEW=0.3 SKEW=0.27 SKEW=-0.57


KURT=1.54 KURT=0.11 KURT=1.61 KURT=1.02
Histogram of varsta Histogram of IMC Histogram of IMC Histogram of varsta
Include condition: pacsex="F" Include condition: pacsex="F" Include condition: pacsex="M" Include condition: pacsex="M"
300 350 600 450

400
300
250 500
350
250
200 400 300

200
No of obs

No of obs

No of obs

No of obs
250
150 300
150 200

100 200 150


100

100
50 100
50
50

0 0 0 0
12/7/2020 27
0 10 20 30 40 50 60 70 80 90 100 110 120 130 10 15 20 25 30 35 40 45 -5 0 5 10 15 20 25 30 35 40 45 10 20 30 40 50 60 70 80 90 100 110
varsta IMC IMC varsta
AVERAGE=65 AVERAGE=26 AVERAGE=66 AVERAGE=26
MEDIAN=66 MEDIAN=26 MEDIAN=65 MEDIAN=25
MODE=63 MODE=26 MODE=64 MODE=25

SKEW=-0.89 SKEW=-0.22 SKEW=-0.65 SKEW=0.55


KURT=2.42 KURT=0.13 KURT=1.38 KURT=0.33
Histogram of varsta
Histogram of IMC Histogram of varsta
Include condition: Class2=1 AND pacsex="F" Histogram of IMC
Include condition: Class2=1 AND pacsex="F" Include condition: Class2=1 and pacsex="M"
45 Include condition: Class2=1 and pacsex="M"
24 60
22
40 22
20
20 50
35 18
18
30 16
16 40
14
No of obs

25 14
No of obs

No of obs

No of obs
12
12 30
20
10 10

15 8
8 20

10 6 6

4 10 4
5
2 2
0
0 0
12/7/2020 28
10 20 30 40 50 60 70 80 90 100 0
10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 10 20 30 40 50 60 70 80 90 100
varsta 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
IMC varsta
38

36

34

32

100 30

28
90
26

IMC
80 24

22
70
20
60 18
varsta

16
50
14 Median
25%-75%
40
12 Non-Outlier Range
F M Y
30

20
Median
25%-75%
10 Non-Outlier Range
F M Y 12/7/2020 29
AVERAGE=62 AVERAGE=25 AVERAGE=64 AVERAGE=27
MEDIAN=65 MEDIAN=25 MEDIAN=64 MEDIAN=26
MODE=65 MODE=26 MODE=64 MODE=26

SKEW=-1.28 SKEW=0.65 SKEW=-0.37 SKEW=0.88


KURT=1.95 KURT=1.85 KURT=0.21 KURT=0.28
Histogram of varsta Histogram of varsta Histogram of IMC
Histogram of IMC
Include condition: Class3=1 and pacsex="F" Include condition: Class3=1 and pacsex="M" Include condition: Class3=1 and pacsex="M"
Include condition: Class3=1 and pacsex="F"
16 16 7
10

14 9 14 6

8
12 12
5
7
10 10
6 4
No of obs

No of obs
No of obs
No of obs

8 8
5
3
6 4 6

3 2
4 4
2
2 1
2
1

0 0
12/7/2020 30
0 0
10 20 30 40 50 60 70 80 90 100 30 35 40 45 50 55 60 65 70 75 80 85 90 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42
varsta varsta IMC
40

38

36

34

100 32

30
90
28

IMC
80 26

24
70
22
60 20
varsta

18
50
16
40 Median
14 25%-75%
F M Non-Outlier Range
30 pacsex Y

20

Median
10 25%-75%
F M Non-Outlier Range 12/7/2020 31
pacsex Y
AVERAGE=66 AVERAGE=26 AVERAGE=68 AVERAGE=27
MEDIAN=63 MEDIAN=26 MEDIAN=67 MEDIAN=27
MODE=62 MODE=26 MODE=67 MODE=28

SKEW=0.52 SKEW=0.98 SKEW=0.29 SKEW=1.37


KURT=-0.95 KURT=1.02 KURT=-0.68 KURT=2
Histogram of varsta
Histogram of varsta Histogram of IMC
Include condition: Class4=1 and pacsex="F" Histogram of IMC
Include condition: Class4=1 and pacsex="M" Include condition: Class4=1 and pacsex="M"
4 Include condition: Class4=1 and pacsex="F"
7 6
3

6 5
3

5
4
2
No of obs

No of obs
4

No of obs
No of obs

2
3

2
1
1 2

1
1

0
50 55 60 65 70 75 80 85 0
12/7/2020 32
0 0
50 55 60 65 70 75 80 85 90 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
varsta 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
varsta IMC
40

38

36

85 34

32
80
30

IMC
28
75

26

70 24
varsta

22
65
20
Median
25%-75%
60 18 Non-Outlier Range
F M Y
pacsex Y

55

50 Median
F M 25%-75%
pacsex Non-Outlier Range 12/7/2020 33
Parametric Neparametric
Distribuţia Normală oricare
TESTE
Varianţa PARAMETRICE
Omogene VS. NON-PARAMETRICE
oricare Testele parametrice
o Se aplică în cazul variabilelor cantitative
Scala de măsură Raţie / Interval oricare
o Datele urmează distribuția normală
Valoarea centrală Media mediana o Se pot aplica pentru a compara două sau
Dispersia Deviaţia standard (Q1 to Q3) mai multe grupuri, dependente sau
independente

Parametric Non-Parametric
2 grupuri Independent t-test Mann-Whitney
independente
2 grupuri dependente Paired t-test Wilcoxon test
> 2 grupuri ANOVA Kruskal-Wallis test
Friedman’s ANOVA
Corelaţia Pearson Spearman, Kendall, etc.
… … …
o Structură generală de urmat în testarea ipotezelor statistice este aceeași indiferent de testul care
se dorește a fi aplicat.
o Testele statistice nu verifică valoarea de adevăr.
o Un test semnificativ nu ne indică altceva decât că există o diferență semnificativă statistic la
nivelul parametrilor populației.
o Orice p al unui test statistic trebuie însoțit de o interpretare medicală (relevanța clinică).
o Calitatea concluziei medicale este dată de:
o Pertinența ipotezei testate
o Dimensiunea efectului evidențiat
o Corectitudinea efectuării studiului
o Alegerea testului statistic se face în funcție de ipoteza de cercetare și tipul variabilei de tip
răspuns (interes).
23-Oct-2015 35
12/7/2020 36

S-ar putea să vă placă și