Sunteți pe pagina 1din 38

Teste statistice II:

Compararea variabilelor
cantitative
SORANA D. BOLBOACĂ

6-Dec-167 1
Despre …
Evaluarea și testarea distribuțiie datelor şi alegerea testului statistic
Teste de comparare a mediilor a două grupuri:
o Testul Z
o Teste Student (t)
Compararea mediilor a mai mult de două grupuri
◦ Independente
◦ Dependente

6-Dec-167 2
Modalități de evaluare a
normnalității
Reprezentarea grafică:
◦ grafic de tip cutie cu mustăți (boxplot)
◦ histograma
◦ graficul cuantilă-cuantilă
Parametrii statistici descriptivi:
◦ Media, mediana și modului au valori apropiate
◦ Asimetria are valoare în intervalul (-1, 1)
◦ Boltirea are valoare în intervalul (-0,5; +0,5)
Teste statistice:
◦ H0: Datele sunt normal distribuite
◦ HA: Datele nu urmează distribuția normală

6-Dec-167 3
Normalitate: Grafic cutie cu
mustăţi
S-a evaluat scorul de durere cu scala vizuală la 3 grupuri de
pacienți: atrite autoimune (n1=30), poliartrită reumatoidă
(n2=40), și artroză (n2=50)

max
Q3

Q2
Q1

min

6-Dec-167 4
Normalitate: Histograma
S-a evaluat scorul de durere cu scala
vizuală la 3 grupuri de pacienți: atrite
autoimune (n1=30), poliartrită
reumatoidă (n2=40), și artroză
(n2=50)

6-Dec-167 5
Normalitate: Parametrii statistici
descriptivi
Atrită Poliatrită Artroză
autoimumă reumatiodă
media 7,93 8,03 8,34
mediana 8 8 8
modulul 9 8 8, 9
asimetria -0,90 -1,37 -0,55
boltirea 0,12 2,34 -0,01

6-Dec-167 6
Normalitate: Teste statistice
1933

Mai puţin conservativ conservativ


Small sample (5-50) Shapiro-Wilk Kolmogorov-Smirnov
Medium to large sample (>50) Shapiro-Wilk Chi-Square Goodness-of-Fit

1965

6-Dec-167 7
Normalitate: Teste statistice
Pentru fiecare din bolile studiate
o H0: Distribuția scorului de durere nu e semnificativ diferită față de
distribuția normală
o HA: Distribuția scorului de durere e semnificativ diferită față de
distribuția normală

Interpretare: Dacă p<0,05  se respinge H0 (datele nu urmează


distribuţia normală)
6-Dec-167 8
Test parametric vs. neparametric
Parametric Non-Parametric
Distribuţia Normală oricare
Varianţa Omogene oricare
Scala de măsură Raţie / Interval oricare
Valoarea centrală Media mediana
Dispersia Deviaţia standard (Q1; Q3)

6-Dec-167 9
Test parametric vs. neparametric
Parametric Non-Parametric
2 grupuri independente Independent t-test Mann-Whitney
2 grupuri dependente Paired t-test Wilcoxon test
> 2 grupuri ANOVA Kruskal-Wallis test
Friedman’s ANOVA
Corelaţia Pearson Spearman, Kendall, etc.
… … …

6-Dec-167 10
o Rezultatul urmărit: modificări ale rezervei de flux coronarian (RFC) după 12
săptămâni de intervenţie.
o Participanţii au fost înrolaţi în studiu iar intervenţia s-a aplicat prin randomizare
(1:1)
• 12 săptămâni AIT (aerobic interval training) de 3 ori pe săpt., urmat de 40 săpt.
AIT de 2 ori pe săptămână.
• 8–10 săptămâni LED (low energy diet) urmat de 2–4 săpt. de tranziție la dietă
hiperproteică/hipoglicemică și 40 săpt. de menținere a scăderii în greutate și AIT
de două ori pe săpt.
Test bilateral:
H0: RFC nu e semnificativ diferit la grupul AIT comparativ cu grupul LED
HA: RFC e semnificativ diferit la grupul AIT comparativ cu grupul LED
Test unilateral:
H0: RFCAIT ≤ FRCLED Rejection Rejection Rejection
Region Non- Region
HA: RFCAIT > FRCLED Non-
Rejection
Region
Region
5.0% Rejection
Region
2.5%

6-Dec-167 11
Nivelul de semnificație vs. valoarea p
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4129321/

6-Dec-167 12
Teste parametrice
o Se aplică în cazul variabilelor cantitative
o Datele urmează distribuția normală
o Se pot aplica pentru a compara două sau mai multe
grupuri, dependente sau independente

6-Dec-167 13
Testul Z/t de compararea unei medii
cu media populației
Testul Z Testul t (Student)
Când? Deviația standard a Când? Deviația standard
populației cunoscută SAU n > 50 necunoscută SAU n < 50 (100)
(100)
Ipoteze: Ipoteze:
𝑋ത = μ (H0) vs. 𝑋ത ≠ μ (HA) μ1= μ2 (H0) vs. μ1≠ μ2 (HA)
Nivel de semnificație (α = 0,05) → Nivel de semnificație (α = 0,05) →
valoarea critică cu n-1 df (grade de valoarea critică cu n-1 df (grade de
libertate) libertate)
Statistical testului: Statistical testului:
Z = (𝑋ത -μ)/(σ/√n) unde σ = deviația ത
t = (𝑋-μ)/(s/√n) unde s = deviația
standard a populației, n = volumul standard a eșantionului, n =
eșantionului volumul eșantionului

6-Dec-167 14
Eșantioane independente
Volum eșantion Volum de eșantion pe Varianțe egale Varianțe ne-egale
subgrup
n>50 / n>100 / s ~ egale Testul Z Rank-sum test
cunoscute foarte diferite
n<50 / n<100 / s ~ egale Testul t pentru Testul t pentru
necunoscute foarte diferite varianțe egale varianțe ne-egale

Asumpții:
 Independenţa: observaţiile sunt independente şi neperechi
 Distribuţia datelor: datele sunt distribuite normal
 Volumul eşantionului: dacă vorbim despre eşantionare fără înlocuire, n <
10%*N (volumul populaţiei). Volumele de eşantioane trebuie să fie de
minim 30 (pentru fiecare eşantion), sau mai mare dacă distribuţia în
populaţie este asimetrică.
6-Dec-167 15
Testul Student
o Variabilele cantitative sunt normal distribuite
o Compararea a 2 populații (ex. Bolnav vs. Indemn de boală /
Medicament nou vs. Placebo SAU Medicament cunoscut) prin
investigarea a două eșantioane
o Nu avem nici un fel de informație despre parametrii populației
(medie sau deviație standard)

Populația I Populația II

Medie necunoscută μ1 Medie necunoscută μ2

Statistica eșantionului Statistica eșantionului


6-Dec-167 16
Testul Student pentru eșantioane
independente
Scop: să determinăm dacă diferenţa dintre mediile eşantioanelor
studiate indică o diferenţă reală între cele două populaţii sau dacă
diferenţa obţinută este datorată erorii de eşantionare.
◦ De reţinut! Dacă două eşantioane se extrag din aceeaşi populaţie şi la
fiecare eşantion se administrează acelaşi tratament, pot exista
diferenţe între mediile celor două eşantioane

1. Formularea ipotezelor statistice:


H0: Nu există diferenţe semnificative statistic între mediile celor două
populaţii
HA (test bilateral): Există diferenţe semnificative statistic între mediile
celor două populaţii

6-Dec-167 17
Testarea egalităţii varianţelor se face cu testul LEVENE sau BARTLETT
(teste bazate pe statistica F)
Dacă varianţele nu sunt semnificativ statistic diferite
(p>0,05) atunci pot fi considerate egale  test student
pentru eşantioane independente varianţe egale

2. Alegerea nivelului de semnificaţie: α = 0,05


3. Alegerea testului statistic: testul student pentru eşantioane
independente
4. Calcularea statisticii testului

Varianţe egale Varianţe ne-egale

6-Dec-167 18
Testul Student pentru eșantioane
independente
Sunt varianțele
egale?

t-test t-test
assuming assuming
unequal equal
variances variances

6-Dec-167 19
Testul Student pentru eșantioane
independente & varianțe ne-egale
Vârsta şi cancerul de prostată Biopsie media s n
Negativă 66,59 8,21 206
Pozitivă 67,14 7,88 95
H0: vârsta medie a subiecţilor cu biopsie pozitivă nu diferă semnificativ
de vârsta medie a subiecţilor cu biopsie negativă (μ1= μ2)
H1: μ1≠ μ2
α = 0,05  tcritic = 1,96  Regiunea critică: (-∞; -1,96] U [1,96; ∞)
t=(67,14-66,69)/sqrt(7,88^2/95+8,21^2/206) = 0,45
1,96 ≤ 0,45 ≤ 1,96  nu există dovezi pentru a respinge H0
Pentru eşantionale de volum mai mare de 100 diferenţa dintre
statistica Z şi t este foarte mică în timp ce valorile p sunt identice
6-Dec-167 20
Testul Student pentru eșantioane
independente & varianțe egale
Acidul uric la femei şi bărbaţi cu diabet M F
Media 5 4
H0: media acidului uric a subiecţilor de gen feminin nu diferă
semnificativ de medie acidului uric a subiecţilor de gen Variaţia 2 2
masculin (μ1= μ2) n 16 16
H1 (test bilateral): μ1≠ μ2 s
(16  1)  2  (16  1)  2

60
 1,41 54
16  16  2 30 t  1,68
(;2,04]  [2,04;) 1 1
1,41   
 16 16 
df = n1+n2-2 =16+16-2=30;  = 0,05
Concluzia:
Deoarece statistica testului (1,68) nu aparţie regiunii critice putem concluziona
că nu există dovezi suficiente pentru a respinge ipoteza nulă  media acidului
uric nu diferă semnificativ statistic la pacienţii diabetici de gen feminin
comparativ cu pacienţii de gen masculin
6-Dec-167 21
6-Dec-167 22
Testul ANOVA: compararea >
grupuri independente
Compararea mediilor pe mai mult de 2 grupuri se face prin testul de
analiză a varianţelor (ANOVA), statistica testului fiind statistica F

ANOVA k = număr de grupuri


o H0: Media este aceeaşi în toate grupurile (μ1 = μ2 = … = μk)
o HA: Cel puţin într-un caz media dintre 2 grupuri este semnificativ diferită
o Dacă statistica F este mare, valoarea p este mică
o Dacă valoarea p este suficient de mică atunci H0 se respinge, şi
concluzionăm că avem suficiente evidenţe care să susţină existenţa unei
diferenţe semnificative statistic între mediile populaţiilor

6-Dec-167 23
ANOVA: condiţii de aplicare a
testului
o Independenţa
• între grupuri: grupurile trebuie să fie independente
unul faţă de celălalt
• în grupuri: observaţiile incluse în fiecare eşantion
trebuie să fie independente
o Normalitatea: distribuţia datelor în fiecare grup trebuie
să fie aproximativ normală
o Varianţe egale: grupurile trebuie să aibă varianţele
aproximativ egale

6-Dec-167 24
Date brute
Testul ANOVA Clasa Gramaj/zi
S-a obţinut prin randomizare un eşantion de 120
5 9
cabinete dentare. S-au analizat cinci clase de
2 7
materiale dentare şi s-a înregistrat cea mai mare
cantitate utilizată per zi. 3 11
Clasa 𝑋ത S n 5 13
1 18,69 3,79 16 3 13
2 9,97 3,15 32 2 14
3 10,07 2,46 29 ... ...
4 10,32 2,60 28 4 11
5 9,80 2,27 15 5 11
Există o diferenţă semnificativă între media 2 15
gramajului a diferitelor materiale dentare? 4 9

6-Dec-167 25
Clasa 𝑋ത S n
1 18,69 3,79 16
2 9,97 3,15 32
Testul ANOVA 3 10,07 2,46 29
H0: Media este aceeaşi în clasele investigate (μ1 4 10,32 2,60 28
= μ2 = μk, unde k = numărul de grupuri) 5 9,80 2,27 15
H1: Media este diferită în clasele investigate

Z/t X dif   dif ANOVA var iabilitatea int re grupuri


z /t  F
ES dif var iabilitatea in grupuri

Valoarea mare a parametrului testului (Z/t/F) are asociată o valoare p


mică.
Dacă p<0,05 → respingem H0 – datele pun în evidenţă o diferenţă
semnificativă statistic între mediile populaţiilor

6-Dec-167 26
Clasa 𝑋ത S n
1 18,69 3,79 16
2 9,97 3,15 32
Testul ANOVA 3 10,07 2,46 29
4 10,32 2,60 28
H0: Media este aceeaşi în clasele investigate
5 9,80 2,27 15
(μ1 = μ2 = μk, unde k = numărul de grupuri)
H1: Media este diferită în clasele investigate
SS df MS F p
Clasa 1033,59 4 258,40 31 1,16E-17
Eroarea 946,77 115 8,23
Total 1980,37 119

p<0,05 → respingem H0 → cel puţin o pereche a mediilor populaţiilor


sunt diferite una faţă de cealaltă

6-Dec-167 27
MSE MSE
ES  
n1 n2
Testul ANOVA df  min(n1  1,n2  1)

SS df MS F p
Clasa 1033,59 4 258,40 31 1,16E-17
Eroarea 946,77 115 8,23
Total 1980,37 119

Care medii sunt diferite?


 Testul student între fiecare perechi de grupuri
 Testele multiple cresc rata erorii de tip I → trebuie ajustat
nivelul de semnificaţie (α=0,05)
 Corecţia Bonferroni α*= α/K, unde K = numărul de
comparaţii (K=k(k-1)/2, unde k = numărul de clase)
 În cazul nostru: K = 5*(5-1)/2 = 10 → α*= 0,05/10 = 0,005

6-Dec-167 28
ES 
M SE M SE

Clasa 𝑋ത n
n1 n2 1 18,69 16
df  df E
2 9,97 32
Testul ANOVA 3 10,07 29
SS df MS F p 4 10,32 28
Clasa 1033,59 4 258,40 31 1,16E-17 5 9,80 15
Eroarea 946,77 115 8,23
Total 1980,37 119
Care medii sunt diferite?
 T1 vs.2 = (𝑋ത 1- 𝑋ത 2)/√(MSE/n1+MSE/n2) = (18,69-9,97)/√(8,23/16+8,23/32) = 9,93
(3,85∙10-16)
 T1 vs.3 = (𝑋ത 1- 𝑋ത 3)/√(MSE/n1+MSE/n3) = (18,69-10,07)/√(8,23/16+8,23/29) = 9,65
(1,73∙10-15)
 T1 vs.4 = (𝑋ത 1- 𝑋ത 4)/√(MSE/n1+MSE/n4) = (18,69-10,32)/√(8,23/16+8,23/28) = 9,31
(1,09∙10-14)
 T1 vs.2 = (𝑋ത 1- 𝑋ത 5)/√(MSE/n1+MSE/n5) = (18,69-9,80)/√(8,23/16+8,23/15) = 8,62
(4,22∙10-13)
 p < α*(0,005) → respingem H0
6-Dec-167 29
𝑋ത S n
healthy weight 183 29 56
overweight 187 37 50
Testul ANOVA obesity
overall
212
194
35
36
55
161
Colesterolul total şi clasa indicelui de masă corporală
H0: Media colesterolului este acceaşi între clasele de IMC (μ1 = μ2 = μ3)
Deoarece p (BMI class) < 0,05 (p = 0,000015)  avem suficiente dovezi
pentru a susține existența diferenței mediilor colesterolului între cel puțin
două clase de IMC
Care clase de IMC sunt diferite? Teste Post-Hoc
230

220

210

Cholesterol
200

190

180

Mean
170 Mean±SE
healthy weight overweight obesity
6-Dec-167 30Mean±0.95 Conf. Inter
BMI class
Cholesterol: F(2,158) = 11.949, p = 0.00001
Testul ANOVA: exemplu

6-Dec-167 31
Eșantioane dependente
Compararea valorilor medii ale unei caracteristici cantitative
continue măsurată pe acelaşi eşantion în două sau mai multe
momente diferite (ex. înainte de tratament – la 3 luni de la
iniţierea tratamentului) sau pe două sau mai multe eşantioane
perechi
Denumirea testului: testul student pe eşantioane perechi (2
grupuri) / ANOVA pentru măsurători repetate

Asumpţii (ex. pentru 2 grupuri):


◦ Observaţiile individuale din primul eşantion corespund unei
perechi în cel de-al doilea eşantion
◦ Diferenţa dintre perechile de valori urmează distribuţia
normală
6-Dec-167 32
Eșantioane dependente
S-a obţinut prin randomizare un Practic Teoretic Dif
eşantion de 100 studenţi la care s-a 8 7 1
analizat performanţele la examenul
9 7 2
practic şi respectiv teoretic pentru unul
din examenele de anul I. 4 7 -3
o Fiecare student a avut o notă la 4 7 -3
examenul practic şi una la examenul 10 8 2
teoretic. Notele obţinute la examenul
practic şi teoretic sunt independente? 9 7 2
→ perechi deoarece fiecare student ... ... ...
are două note 9 6 3
o Analizăm datele perechi prin crearea
unei noi variabile denumită dif 10 5 5
(diferenţa): dif = nota practic – nota 7 5 2
teoretic 8 7 1
6-Dec-167 33
Eșantioane dependente
S-a obţinut prin randomizare un eşantion de 100 studenţi la care s-a
analizat performanţele la examenul practic şi respectiv teoretic pentru
unul din examenele de anul I.

Parametrul de interes Estimatorul punctual


Media diferenţei dintre nota Media diferenţei dintre nota la
la examenul practic şi nota examenul practic şi nota la
la examenul teoretic a examenul teoretic a eşantionului de
tuturor studenţilor. studenţi.
μdif 𝑋ത𝑑𝑖𝑓
Dacă nu ar exista o diferenţă semnificativă între nota 𝑋ത𝑑𝑖𝑓 = 6,47
de la examenul practic şi cea de la examenul teoretic, Sdif = 2,80
care este valoarea aşteptată a mediei diferenţei? ndif = 100
6-Dec-167 34
Eșantioane dependente
H0: μdif = 0 (Nu există o diferenţe semnificativă între media notei de la
examenul practic şi teoretic) vs. H1: μdif ≠ 0 (Există o diferenţe
semnificativă între media notei de la examenul practic şi teoretic)

t = (6,47-0)/0,28 = 23,1 t
d
d1  d 2  ...  d n 
s d
n
p = 1,18∙10-41 n

Probabilitatea de a obţine un eşantion randomizat de 100 studenţi la


care media diferenţei dintre nota obţinută la examenul practic şi cea la
examenul teoretic este de cel puţin 6,47 (în ambele direcţii), dacă
diferenţa adevărată dintre cele două medii este egală cu zero.
p < 0,05 → respingem H0

6-Dec-167 35
De reținut!
Aplicarea corectă a unui test pe medii se face după verificarea
asumpțiilor testului care se dorește a fi aplicat
Testul student pentru eșantioane independente necesită testarea
egalității varianțelor înainte de aplicarea testului Student
Date perechi
 2 variabile → diferenţă (1 variabilă)
 H0: μdif = 0
 Aceeaşi indivizi: înainte şi după aplicarea unei proceduri, evaluări
în timp
 Indivizi diferiţi dar dependenţi: gemeni, parteneri, etc.
Mai multe grupuri:
 ANOVA – nu ştim între care grupuri există diferenţă semnificativă

6-Dec-167 36
Statistica Inferențială Variabile cantitative
Aplical pentru Metode inferențiale
estimatorul
punctual

Intervale de Testarea ipotezelor


încredere statistice
Datele urmează
distribuția normală
medie
parametric neparametric
diferența dintre 2
medii Testul Student pentru
Testul Mann-Whitney
eșantioane independente

Testul Student pentru Testul Wilcoxon


eșantioane perechi

Testul ANOVA Testul Kruskal-Wallis

Coeficientul de corelație Coeficientul de


Pearson (R) corelație Spearman (ρ)

Regresia liniară Alte tipuri de regresie


6-Dec-167 37
6-Dec-167 38

S-ar putea să vă placă și