Documente Academic
Documente Profesional
Documente Cultură
Teste Statistice 1
Teste Statistice 1
12/7/2020 1
DESPRE …
Teste De ce?
statistice
Pași
Erori
Normalitatea Parametrii descriptivi
datelor
Metoda grafică
Teste statistice
12/7/2020 2
TESTAREA INTRODUCERE
IPOTEZELOR PAȘI
STATISTICE ERORI
INTRODUCERE
Test statistic = metodă a deciziei medicale prin utilizarea datelor experimentale.
Un rezultat se numeşte semnificativ statistic dacă este puţin probabil să apară
datorită întâmplării.
Ipoteza statistică = asumpţie asupra parametrului populaţiei (μ, π). Această
asumpţie poate sau nu să fie adevărată.
Ipoteza clinică = o idee explicativă care permite structurarea datelor cu privire la
un pacient în aşa fel încât să ducă la o mai bună înţelegere a patologiei sau respectiv
la o decizie medicală corectă.
Nivel de semnificație (α): 5%
Populația Eșantionul
Parametrul (μ, σ/s) ത S)
Statistica (𝑋,
Calculat? Nu, cunoscut Calculat? Da
Eșantionare
Populație Eșantion
Probabilitate
Parametrul Statistica
Statistica inferențială
12/7/2020 5
INFERENȚA
Media μ 𝑋ത
Frecvența π f
12/7/2020 6
INFERENȚA STATISTICĂ: PAȘI
P - parameters: parametrul (media μ, proporția/frecvența π)
H - hypotheses: ipotezele statistice: H0 (nulă) vs. H1 (alternativă)
A - assumptions: asumpții (fiecare test)
N - name your test: denumirea testului
T - find your test statistic: statistica testului (formula)
O - obtain your p-value: probabilitatea asociată statisticii testului
M - make a decision (respingem H0 vs. nu respingem H0): decizia testului
S - state a conclusion in the context of the problem: concluzia 12/7/2020 7
Abb Descriere
P În funcție de variabila de interes
• Dacă variabila de interes este frecvența efectelor adverse → variabila de interes este diferența
frecvențelor reacțiilor adverse.
• Dacă variabila de interes este eficacitatea terapeutică → media reducerii ritmului cardiac la subiecții
tratați cu Nebivolol
H Ipotezele statistice
H0 (ipoteza nulă):
o Negație (ex. Nu există o diferență semnificativă statistic în ceea ce privește frecvența efectelor
adverse în tratamentul cu Nebivolol comparativ cu cel cu Atenolol)
o Referă parametrul populației πNebivolol = πAtenolol (se citește: frecvența efectelor adverse la pacienții
cu Nebivolol nu diferă semnificativ statistic față de frecvența efectelor adverse la pacienții cu
Atenolol)
H1 (ipoteza alternativă):
o Opusul ipotezei nule
o Referă de asemenea parametrul populației
o Test bilateral: πNebivolol ≠ πAtenolol (se citește: frecvența efectelor adverse la pacienții cu Nebivolol
diferă semnificativ statistic față de frecvența efectelor adverse la pacienții cu Atenolol)
o Test unilateral: ex. μA < μB (Media reducerii ritmului cardiac la pacienții cu Nebivolol este
semnificativ mai mică comparativ cu media reducerii ritmului cardiac la pacienții cu Atenolol)
Testul unilateral se foloseşte când:
1. Modificările în direcţia opusă este lipsită de sens
2. Modificările în direcţia opusă nu sunt de interes
TEST UNILATERAL 3. Nici o teorie nu prezice schimbarea în direcţia opusă
12/7/2020 9
https://userpage.fu-berlin.de/soga/200/2070_hypothesis_tests/20713_The_Critical_Value_and_the_p-Value_Approach_to_Hypothesis_Testing.html
TEST BILATERAL
12/7/2020 10
https://userpage.fu-berlin.de/soga/200/2070_hypothesis_tests/20713_The_Critical_Value_and_the_p-Value_Approach_to_Hypothesis_Testing.html
Abb Descriere ... exemplu
A Asumpții: fiecare test statistic are asumpții specifice și este corect aplicat dacă acestea sunt
îndeplinite
Teste pe medii în cazul eșantioanelor independente
• Independence: N (volumul populației) > 10*n (volumul eșantionului)
• Randomizare: eșantion randomizat & asignare aleatorie la tratament
• Reducerea ritmului cardiac pentru fiecare grup în parte urmează distribuția normal
N În funcție de variabila de interes & grupuri (dacă există).
• Cantitativă – teste pe medii (ex. testul Student)
• Calitativă – teste pe frecvențe (ex. testul Hi-pătrat)
T Fiecare test are formula lui (vezi cursurile următoare)
Pentru unele teste este necesar a identifica gradele de libertate (teste pe medii), respectiv
frecvențele (teste pe frecvențe)
O • Valoarea p nu este probabilitatea ca ipoteza nulă să fie falsă.
• O valoare mică a lui p nu înseamnă că există o probabilitate mică ca ipoteza nulă să fie adevărată.
• Ipoteza de lucru nu poate fi inversată şi de exemplu pentru un p=0,02 nu se poate spune că avem
o șansă de 98% ca diferenţa să existe.
• Valoarea lui p nu este un indicator al validitaţii ipotezei statistice.
• p se utilizează doar pentru a evalua dacă decizia este semnificativă sau nu
12/7/2020 12
Abb Descriere ... exemplu
M o Regiunea critică:
• Dacă statistica testului aparţine regiunii critice avem suficiente dovezi să
respingem H0
• Dacă statistica testului nu aparţine regiunii critice, nu avem suficiente dovezi
să respingem H0
o Valoarea p:
• p < α (nivelul de semnificație, 5%) → avem suficiente evidențe să respingem
H0 → rezultatul este semnificativ statistic
• p > α → nu există suficiente dovezi pentru a respinge H0 → rezultatul nu
este semnificativ statistic
INTERPRETARE
apropiate
Asimetria
are
... valoare în
intervalul
(-0,5, 0,5)
Boltirea
are
valoare în
...
intervalul
(-0,5;
+0,5)
(Q2-Q1) ≈
...
(Q3-Q2)
12/7/2020 18
VIZUALIZAREA GRAFICĂ
12/7/2020 19
VIZUALIZAREA GRAFICĂ
12/7/2020 20
https://www.learnbyexample.org/r-quantile-quantile-qq-plot-base-graph/
VIZUALIZAREA GRAFICĂ
https://www.originlab.com/doc/Tutorials/Q-Q-Plot 12/7/2020 21
STATISTICA VÂRSTA (ANI) IMC (KG/M2)
media 65 26
mediana 66 26
modulul 65 24
asimetria -0.56 0.3
F
boltirea 1.54 0.11
PACIENȚI CU
(Q2-Q1) 7 3 CANCER
(Q3-Q2) 7 3 COLO-RECTAL
n 710 710
media 65 26
mediana 65 26
modulul 64 25
asimetria -0.57 0.27
M
boltirea 1.02 1.61
(Q2-Q1) 6 2
(Q3-Q2) 7 3
n 978 978 12/7/2020 22
Histogram of varsta
Histogram of varsta
Include condition: pacsex="F"
Include condition: pacsex="M"
300
450
400
250
350
200
300
No of obs
No of obs
250
150
200
100
150
100
50
50
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 0
10 20 30 40 50 60 70 80 90 100 110
varsta
varsta
Histogram of IMC Histogram of IMC
Include condition: pacsex="F" Include condition: pacsex="M"
350 600
300
500
250
400
200
No of obs
No of obs
300
150
200
100
50 100
0 0
10 15 20 25 30 35 40 45 -5 0 5 10 15 20 25 30 35 40 45
12/7/2020 23
IMC IMC
Quantile-Quantile Plot of varsta Quantile-Quantile Plot of IMC
Distribution: Normal Distribution: Normal
Include condition: pacsex="F" Include condition: pacsex="F"
0.01 0.05 0.25 0.50 0.75 0.90 0.99 0.01 0.05 0.25 0.50 0.75 0.90 0.99
120 45
40
100
35
Observed Value 80
Observed Value
30
60
25
40
20
20
15
0 10
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
Theoretical Quantile Theoretical Quantile
Quantile-Quantile Plot of varsta Quantile-Quantile Plot of IMC
Distribution: Normal Distribution: Normal
Include condition: pacsex="M" Include condition: pacsex="M"
0.01 0.05 0.25 0.50 0.75 0.90 0.99 0.01 0.05 0.25 0.50 0.75 0.90 0.99
100 45
90 40
80 35
70 30
Observed Value
Observed Value
60 25
50 20
40 15
30 10
20 5
10 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 312/7/20204 24
Theoretical Quantile Theoretical Quantile
45
40
35
30
120 25
IMC
20
100
15
80 10
5 Median
varsta
60 25%-75%
Non-Outlier Range
0 Y
F M Y
40
20
Median
25%-75%
0 Non-Outlier Range
F M Y 12/7/2020 25
TESTAREA IPOTEZELOR: TESTE DE NORMALITATE
Mai puțin conservativ Conservativ
Eșantion mic (5-50) Shapiro-Wilk Kolmogorov-Smirnov
Eșantion mediu sau mare (>50) Shapiro-Wilk Chi-Square Goodness-of-Fit
400
300
250 500
350
250
200 400 300
200
No of obs
No of obs
No of obs
No of obs
250
150 300
150 200
100
50 100
50
50
0 0 0 0
12/7/2020 27
0 10 20 30 40 50 60 70 80 90 100 110 120 130 10 15 20 25 30 35 40 45 -5 0 5 10 15 20 25 30 35 40 45 10 20 30 40 50 60 70 80 90 100 110
varsta IMC IMC varsta
AVERAGE=65 AVERAGE=26 AVERAGE=66 AVERAGE=26
MEDIAN=66 MEDIAN=26 MEDIAN=65 MEDIAN=25
MODE=63 MODE=26 MODE=64 MODE=25
25 14
No of obs
No of obs
No of obs
12
12 30
20
10 10
15 8
8 20
10 6 6
4 10 4
5
2 2
0
0 0
12/7/2020 28
10 20 30 40 50 60 70 80 90 100 0
10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 10 20 30 40 50 60 70 80 90 100
varsta 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
IMC varsta
38
36
34
32
100 30
28
90
26
IMC
80 24
22
70
20
60 18
varsta
16
50
14 Median
25%-75%
40
12 Non-Outlier Range
F M Y
30
20
Median
25%-75%
10 Non-Outlier Range
F M Y 12/7/2020 29
AVERAGE=62 AVERAGE=25 AVERAGE=64 AVERAGE=27
MEDIAN=65 MEDIAN=25 MEDIAN=64 MEDIAN=26
MODE=65 MODE=26 MODE=64 MODE=26
14 9 14 6
8
12 12
5
7
10 10
6 4
No of obs
No of obs
No of obs
No of obs
8 8
5
3
6 4 6
3 2
4 4
2
2 1
2
1
0 0
12/7/2020 30
0 0
10 20 30 40 50 60 70 80 90 100 30 35 40 45 50 55 60 65 70 75 80 85 90 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42
varsta varsta IMC
40
38
36
34
100 32
30
90
28
IMC
80 26
24
70
22
60 20
varsta
18
50
16
40 Median
14 25%-75%
F M Non-Outlier Range
30 pacsex Y
20
Median
10 25%-75%
F M Non-Outlier Range 12/7/2020 31
pacsex Y
AVERAGE=66 AVERAGE=26 AVERAGE=68 AVERAGE=27
MEDIAN=63 MEDIAN=26 MEDIAN=67 MEDIAN=27
MODE=62 MODE=26 MODE=67 MODE=28
6 5
3
5
4
2
No of obs
No of obs
4
No of obs
No of obs
2
3
2
1
1 2
1
1
0
50 55 60 65 70 75 80 85 0
12/7/2020 32
0 0
50 55 60 65 70 75 80 85 90 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
varsta 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
varsta IMC
40
38
36
85 34
32
80
30
IMC
28
75
26
70 24
varsta
22
65
20
Median
25%-75%
60 18 Non-Outlier Range
F M Y
pacsex Y
55
50 Median
F M 25%-75%
pacsex Non-Outlier Range 12/7/2020 33
Parametric Neparametric
Distribuţia Normală oricare
TESTE
Varianţa PARAMETRICE
Omogene VS. NON-PARAMETRICE
oricare Testele parametrice
o Se aplică în cazul variabilelor cantitative
Scala de măsură Raţie / Interval oricare
o Datele urmează distribuția normală
Valoarea centrală Media mediana o Se pot aplica pentru a compara două sau
Dispersia Deviaţia standard (Q1 to Q3) mai multe grupuri, dependente sau
independente
Parametric Non-Parametric
2 grupuri Independent t-test Mann-Whitney
independente
2 grupuri dependente Paired t-test Wilcoxon test
> 2 grupuri ANOVA Kruskal-Wallis test
Friedman’s ANOVA
Corelaţia Pearson Spearman, Kendall, etc.
… … …
o Structură generală de urmat în testarea ipotezelor statistice este aceeași indiferent de testul care
se dorește a fi aplicat.
o Testele statistice nu verifică valoarea de adevăr.
o Un test semnificativ nu ne indică altceva decât că există o diferență semnificativă statistic la
nivelul parametrilor populației.
o Orice p al unui test statistic trebuie însoțit de o interpretare medicală (relevanța clinică).
o Calitatea concluziei medicale este dată de:
o Pertinența ipotezei testate
o Dimensiunea efectului evidențiat
o Corectitudinea efectuării studiului
o Alegerea testului statistic se face în funcție de ipoteza de cercetare și tipul variabilei de tip
răspuns (interes).
23-Oct-2015 35
12/7/2020 36