Documente Academic
Documente Profesional
Documente Cultură
Compararea variabilelor
cantitative
SORANA D. BOLBOACĂ
6-Dec-167 1
Despre …
Evaluarea și testarea distribuțiie datelor şi alegerea testului statistic
Teste de comparare a mediilor a două grupuri:
o Testul Z
o Teste Student (t)
Compararea mediilor a mai mult de două grupuri
◦ Independente
◦ Dependente
6-Dec-167 2
Modalități de evaluare a
normnalității
Reprezentarea grafică:
◦ grafic de tip cutie cu mustăți (boxplot)
◦ histograma
◦ graficul cuantilă-cuantilă
Parametrii statistici descriptivi:
◦ Media, mediana și modului au valori apropiate
◦ Asimetria are valoare în intervalul (-1, 1)
◦ Boltirea are valoare în intervalul (-0,5; +0,5)
Teste statistice:
◦ H0: Datele sunt normal distribuite
◦ HA: Datele nu urmează distribuția normală
6-Dec-167 3
Normalitate: Grafic cutie cu
mustăţi
S-a evaluat scorul de durere cu scala vizuală la 3 grupuri de
pacienți: atrite autoimune (n1=30), poliartrită reumatoidă
(n2=40), și artroză (n2=50)
max
Q3
Q2
Q1
min
6-Dec-167 4
Normalitate: Histograma
S-a evaluat scorul de durere cu scala
vizuală la 3 grupuri de pacienți: atrite
autoimune (n1=30), poliartrită
reumatoidă (n2=40), și artroză
(n2=50)
6-Dec-167 5
Normalitate: Parametrii statistici
descriptivi
Atrită Poliatrită Artroză
autoimumă reumatiodă
media 7,93 8,03 8,34
mediana 8 8 8
modulul 9 8 8, 9
asimetria -0,90 -1,37 -0,55
boltirea 0,12 2,34 -0,01
6-Dec-167 6
Normalitate: Teste statistice
1933
1965
6-Dec-167 7
Normalitate: Teste statistice
Pentru fiecare din bolile studiate
o H0: Distribuția scorului de durere nu e semnificativ diferită față de
distribuția normală
o HA: Distribuția scorului de durere e semnificativ diferită față de
distribuția normală
6-Dec-167 9
Test parametric vs. neparametric
Parametric Non-Parametric
2 grupuri independente Independent t-test Mann-Whitney
2 grupuri dependente Paired t-test Wilcoxon test
> 2 grupuri ANOVA Kruskal-Wallis test
Friedman’s ANOVA
Corelaţia Pearson Spearman, Kendall, etc.
… … …
6-Dec-167 10
o Rezultatul urmărit: modificări ale rezervei de flux coronarian (RFC) după 12
săptămâni de intervenţie.
o Participanţii au fost înrolaţi în studiu iar intervenţia s-a aplicat prin randomizare
(1:1)
• 12 săptămâni AIT (aerobic interval training) de 3 ori pe săpt., urmat de 40 săpt.
AIT de 2 ori pe săptămână.
• 8–10 săptămâni LED (low energy diet) urmat de 2–4 săpt. de tranziție la dietă
hiperproteică/hipoglicemică și 40 săpt. de menținere a scăderii în greutate și AIT
de două ori pe săpt.
Test bilateral:
H0: RFC nu e semnificativ diferit la grupul AIT comparativ cu grupul LED
HA: RFC e semnificativ diferit la grupul AIT comparativ cu grupul LED
Test unilateral:
H0: RFCAIT ≤ FRCLED Rejection Rejection Rejection
Region Non- Region
HA: RFCAIT > FRCLED Non-
Rejection
Region
Region
5.0% Rejection
Region
2.5%
6-Dec-167 11
Nivelul de semnificație vs. valoarea p
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4129321/
6-Dec-167 12
Teste parametrice
o Se aplică în cazul variabilelor cantitative
o Datele urmează distribuția normală
o Se pot aplica pentru a compara două sau mai multe
grupuri, dependente sau independente
6-Dec-167 13
Testul Z/t de compararea unei medii
cu media populației
Testul Z Testul t (Student)
Când? Deviația standard a Când? Deviația standard
populației cunoscută SAU n > 50 necunoscută SAU n < 50 (100)
(100)
Ipoteze: Ipoteze:
𝑋ത = μ (H0) vs. 𝑋ത ≠ μ (HA) μ1= μ2 (H0) vs. μ1≠ μ2 (HA)
Nivel de semnificație (α = 0,05) → Nivel de semnificație (α = 0,05) →
valoarea critică cu n-1 df (grade de valoarea critică cu n-1 df (grade de
libertate) libertate)
Statistical testului: Statistical testului:
Z = (𝑋ത -μ)/(σ/√n) unde σ = deviația ത
t = (𝑋-μ)/(s/√n) unde s = deviația
standard a populației, n = volumul standard a eșantionului, n =
eșantionului volumul eșantionului
6-Dec-167 14
Eșantioane independente
Volum eșantion Volum de eșantion pe Varianțe egale Varianțe ne-egale
subgrup
n>50 / n>100 / s ~ egale Testul Z Rank-sum test
cunoscute foarte diferite
n<50 / n<100 / s ~ egale Testul t pentru Testul t pentru
necunoscute foarte diferite varianțe egale varianțe ne-egale
Asumpții:
Independenţa: observaţiile sunt independente şi neperechi
Distribuţia datelor: datele sunt distribuite normal
Volumul eşantionului: dacă vorbim despre eşantionare fără înlocuire, n <
10%*N (volumul populaţiei). Volumele de eşantioane trebuie să fie de
minim 30 (pentru fiecare eşantion), sau mai mare dacă distribuţia în
populaţie este asimetrică.
6-Dec-167 15
Testul Student
o Variabilele cantitative sunt normal distribuite
o Compararea a 2 populații (ex. Bolnav vs. Indemn de boală /
Medicament nou vs. Placebo SAU Medicament cunoscut) prin
investigarea a două eșantioane
o Nu avem nici un fel de informație despre parametrii populației
(medie sau deviație standard)
Populația I Populația II
6-Dec-167 17
Testarea egalităţii varianţelor se face cu testul LEVENE sau BARTLETT
(teste bazate pe statistica F)
Dacă varianţele nu sunt semnificativ statistic diferite
(p>0,05) atunci pot fi considerate egale test student
pentru eşantioane independente varianţe egale
6-Dec-167 18
Testul Student pentru eșantioane
independente
Sunt varianțele
egale?
t-test t-test
assuming assuming
unequal equal
variances variances
6-Dec-167 19
Testul Student pentru eșantioane
independente & varianțe ne-egale
Vârsta şi cancerul de prostată Biopsie media s n
Negativă 66,59 8,21 206
Pozitivă 67,14 7,88 95
H0: vârsta medie a subiecţilor cu biopsie pozitivă nu diferă semnificativ
de vârsta medie a subiecţilor cu biopsie negativă (μ1= μ2)
H1: μ1≠ μ2
α = 0,05 tcritic = 1,96 Regiunea critică: (-∞; -1,96] U [1,96; ∞)
t=(67,14-66,69)/sqrt(7,88^2/95+8,21^2/206) = 0,45
1,96 ≤ 0,45 ≤ 1,96 nu există dovezi pentru a respinge H0
Pentru eşantionale de volum mai mare de 100 diferenţa dintre
statistica Z şi t este foarte mică în timp ce valorile p sunt identice
6-Dec-167 20
Testul Student pentru eșantioane
independente & varianțe egale
Acidul uric la femei şi bărbaţi cu diabet M F
Media 5 4
H0: media acidului uric a subiecţilor de gen feminin nu diferă
semnificativ de medie acidului uric a subiecţilor de gen Variaţia 2 2
masculin (μ1= μ2) n 16 16
H1 (test bilateral): μ1≠ μ2 s
(16 1) 2 (16 1) 2
60
1,41 54
16 16 2 30 t 1,68
(;2,04] [2,04;) 1 1
1,41
16 16
df = n1+n2-2 =16+16-2=30; = 0,05
Concluzia:
Deoarece statistica testului (1,68) nu aparţie regiunii critice putem concluziona
că nu există dovezi suficiente pentru a respinge ipoteza nulă media acidului
uric nu diferă semnificativ statistic la pacienţii diabetici de gen feminin
comparativ cu pacienţii de gen masculin
6-Dec-167 21
6-Dec-167 22
Testul ANOVA: compararea >
grupuri independente
Compararea mediilor pe mai mult de 2 grupuri se face prin testul de
analiză a varianţelor (ANOVA), statistica testului fiind statistica F
6-Dec-167 23
ANOVA: condiţii de aplicare a
testului
o Independenţa
• între grupuri: grupurile trebuie să fie independente
unul faţă de celălalt
• în grupuri: observaţiile incluse în fiecare eşantion
trebuie să fie independente
o Normalitatea: distribuţia datelor în fiecare grup trebuie
să fie aproximativ normală
o Varianţe egale: grupurile trebuie să aibă varianţele
aproximativ egale
6-Dec-167 24
Date brute
Testul ANOVA Clasa Gramaj/zi
S-a obţinut prin randomizare un eşantion de 120
5 9
cabinete dentare. S-au analizat cinci clase de
2 7
materiale dentare şi s-a înregistrat cea mai mare
cantitate utilizată per zi. 3 11
Clasa 𝑋ത S n 5 13
1 18,69 3,79 16 3 13
2 9,97 3,15 32 2 14
3 10,07 2,46 29 ... ...
4 10,32 2,60 28 4 11
5 9,80 2,27 15 5 11
Există o diferenţă semnificativă între media 2 15
gramajului a diferitelor materiale dentare? 4 9
6-Dec-167 25
Clasa 𝑋ത S n
1 18,69 3,79 16
2 9,97 3,15 32
Testul ANOVA 3 10,07 2,46 29
H0: Media este aceeaşi în clasele investigate (μ1 4 10,32 2,60 28
= μ2 = μk, unde k = numărul de grupuri) 5 9,80 2,27 15
H1: Media este diferită în clasele investigate
6-Dec-167 26
Clasa 𝑋ത S n
1 18,69 3,79 16
2 9,97 3,15 32
Testul ANOVA 3 10,07 2,46 29
4 10,32 2,60 28
H0: Media este aceeaşi în clasele investigate
5 9,80 2,27 15
(μ1 = μ2 = μk, unde k = numărul de grupuri)
H1: Media este diferită în clasele investigate
SS df MS F p
Clasa 1033,59 4 258,40 31 1,16E-17
Eroarea 946,77 115 8,23
Total 1980,37 119
6-Dec-167 27
MSE MSE
ES
n1 n2
Testul ANOVA df min(n1 1,n2 1)
SS df MS F p
Clasa 1033,59 4 258,40 31 1,16E-17
Eroarea 946,77 115 8,23
Total 1980,37 119
6-Dec-167 28
ES
M SE M SE
Clasa 𝑋ത n
n1 n2 1 18,69 16
df df E
2 9,97 32
Testul ANOVA 3 10,07 29
SS df MS F p 4 10,32 28
Clasa 1033,59 4 258,40 31 1,16E-17 5 9,80 15
Eroarea 946,77 115 8,23
Total 1980,37 119
Care medii sunt diferite?
T1 vs.2 = (𝑋ത 1- 𝑋ത 2)/√(MSE/n1+MSE/n2) = (18,69-9,97)/√(8,23/16+8,23/32) = 9,93
(3,85∙10-16)
T1 vs.3 = (𝑋ത 1- 𝑋ത 3)/√(MSE/n1+MSE/n3) = (18,69-10,07)/√(8,23/16+8,23/29) = 9,65
(1,73∙10-15)
T1 vs.4 = (𝑋ത 1- 𝑋ത 4)/√(MSE/n1+MSE/n4) = (18,69-10,32)/√(8,23/16+8,23/28) = 9,31
(1,09∙10-14)
T1 vs.2 = (𝑋ത 1- 𝑋ത 5)/√(MSE/n1+MSE/n5) = (18,69-9,80)/√(8,23/16+8,23/15) = 8,62
(4,22∙10-13)
p < α*(0,005) → respingem H0
6-Dec-167 29
𝑋ത S n
healthy weight 183 29 56
overweight 187 37 50
Testul ANOVA obesity
overall
212
194
35
36
55
161
Colesterolul total şi clasa indicelui de masă corporală
H0: Media colesterolului este acceaşi între clasele de IMC (μ1 = μ2 = μ3)
Deoarece p (BMI class) < 0,05 (p = 0,000015) avem suficiente dovezi
pentru a susține existența diferenței mediilor colesterolului între cel puțin
două clase de IMC
Care clase de IMC sunt diferite? Teste Post-Hoc
230
220
210
Cholesterol
200
190
180
Mean
170 Mean±SE
healthy weight overweight obesity
6-Dec-167 30Mean±0.95 Conf. Inter
BMI class
Cholesterol: F(2,158) = 11.949, p = 0.00001
Testul ANOVA: exemplu
6-Dec-167 31
Eșantioane dependente
Compararea valorilor medii ale unei caracteristici cantitative
continue măsurată pe acelaşi eşantion în două sau mai multe
momente diferite (ex. înainte de tratament – la 3 luni de la
iniţierea tratamentului) sau pe două sau mai multe eşantioane
perechi
Denumirea testului: testul student pe eşantioane perechi (2
grupuri) / ANOVA pentru măsurători repetate
t = (6,47-0)/0,28 = 23,1 t
d
d1 d 2 ... d n
s d
n
p = 1,18∙10-41 n
6-Dec-167 35
De reținut!
Aplicarea corectă a unui test pe medii se face după verificarea
asumpțiilor testului care se dorește a fi aplicat
Testul student pentru eșantioane independente necesită testarea
egalității varianțelor înainte de aplicarea testului Student
Date perechi
2 variabile → diferenţă (1 variabilă)
H0: μdif = 0
Aceeaşi indivizi: înainte şi după aplicarea unei proceduri, evaluări
în timp
Indivizi diferiţi dar dependenţi: gemeni, parteneri, etc.
Mai multe grupuri:
ANOVA – nu ştim între care grupuri există diferenţă semnificativă
6-Dec-167 36
Statistica Inferențială Variabile cantitative
Aplical pentru Metode inferențiale
estimatorul
punctual