C2 SD 2019 PDF

PR O F.D R.
TU DO R DR U GAN
STATISTICA
Testarea ipotezelor
statistice
Testarea ipotezelor statistice
• Formularea de noi ipoteze (sau model sau teorie) este una dintre
cele mai importante aspecte ale cercetării ştiinţifice.
• Aceste ipoteze experimentale încercă să descrie sau să explice
anumite fenomene reale.
• In multe cazuri există ipoteze anterioare (descrieri sau explicaţii)
pe care oamenii de ştiinţă doresc să le înlocuiască cu altele noi.
• Este însă insuficient să se formuleze sau să fie prezentată numai o
nouă ipoteză.
• O ipoteză nouă trebuie testată pentru a vedea că are temei (în
concordanţă cu observaţiile) şi pentru a justifica că este “mai
bună” decât alte ipoteze preexistente.
• Aceasta conduce la scheme de experimente, eşantioane şi de
observaţii în scopul obţinerii dovezii pentru susţinerea (sau
respingerea) unei noi ipoteze.
2
Metode pentru testarea ipotezelor
• Compararea a două ipoteze sau teorii concurente

• Aceste două teorii trebuie prima dată formulate
ca modele.
• Aceste două modele în continuare vor fi denumite
prin ipoteza alternativă şi ipoteza nulă:
• Ipoteza alternativă H1 este noul model care de regulă
reprezintă o negaţie a ipotezei nule.
• Ipoteza nulă H0, reprezintă modelul pe care
experimentatorul ar dori să-l înlocuiască.
3
ATENȚIE!
• Orice studiu are două nivele de analiză:
• Unul conceptual (medical, farmaceutic) la nivelul căruia
este formulată ipoteza de ceretare
• De exemplu tratamentul antiinflamator A este mai eficient
decât tratamentul antiinflamator B
• Altul este cel statistic atașat celui conceptual și
reprezintă doar validarea matematică a celor observate
• Utilizând tratamentul antiinflamator A am putut demonstra că
PCR este mai redusă la acești pacienţi în mod semnificativ
statistic decât la cei care utilizează tratamentul B
• Eq. Efectele inflamatorii vor fi diminuate la majoritatea
pacienţilor care folosesc A (fenomen repetitiv)
ATENȚIE!
• Validitatea nivelului conceptual al studiului nu se

bazează doar pe repetitivitatea fenomenului
(semnificaţia statistică).
• Tratamentul A nu este mai bun decât B doar
pentru că a ieșit la testarea statistică un p<0,5:
• S-a demonstrat doar eficacitatea efectului biologic
• Rofecoxib (Vioxx)
Formularea problemei în termenii
ipotezelor statistice
• Pentru aceasta se stabilesc: ipoteza nulă H0 şi respectiv

ipoteza alternativă H1, reprezentând o negare a
ipotezei nule.
• Ipoteza nulă H0 (ce se cunoaste), este ipoteza care
trebuie testată, testul efectuându-se sub prezumţia că
ipoteza nulă ar fi adevărată.
• Ipoteza alternativă H1 (ce vrem sa demonstram), este
acea ipoteză care într-un sens sau altul contrazice
ipoteza nulă. Această ipoteză se mai numeşte şi
ipoteza de lucru.
6
Ipoteza
Eu știu că media de vârstă
Eu cred că media de a celor de aici este de 30
vârstă a celor de aici de ani sau mai mult!
este sub 30 de ani!
Demostrează-mi că
Am dreptate? Verificați! greșesc!
7
• H1: µ<30
• H0: µ>=30
• Inferenţă negativă
• Similar cu justiţia inculpatul este nevinovat până
la pronunţarea sentinţei
• Scopul testului: infirmarea ipotezei nule
8
Testarea ipotezei
Media de vârstă
în populație
este peste 30.
(Ipoteza nulă) Populație
În eșantion
X = 20  =30 media este 20
Nu prea!
Resping
Eșantion
Ipoteza nulă
9
Cum și de ce se poate respinge ipoteza nulă
Distribuția de eșantionare
Media
noastră Putem rejecta
cade pe una ipoteza că µ = 30.
din cozi... H0
Media conform
ipotezei nule
20 µ = 30 Media eșantionului
Valoarea observată a mediei 10

Cum și de ce se poate respinge ipoteza nulă
One tail (left) test
O coadă
a Valoare
H0:  = 0
H1:  < 0 critică
0
Regiunea One tail (right) test
critică O coadă
H0:  = 0
a
H1:  > 0
0
H0:  = 0
Two tails test
H1:   0 Două cozi a/2
0 11
Metode pentru testarea ipotezelor
• Prin respingerea ipotezei nule cercetătorul afirmă

că rezultatele observate nu sunt datorate
întâmplării = efect semnificativ statistic
• Când ipoteza nulă nu este rejectată cercetătorul
afirmă că diferenţele observate sunt datorate
întâmplării şi rezultatele nu sunt semnificative
12
Decizia
• Stabilirea semnificaţiei testului pe baza valorii lui p
se face frecvent cu următoarea regulă empirică:
• 1. Dacă 0,01 <= p<0,05 , rezultatele sunt considerate
semnificative.
• 2. Dacă 0,001 <= p<0,01, rezultatele sunt considerate înalt
semnificative.
• 3. Dacă p<0,001, rezultatele sunt considerate foarte înalt
semnificative.
• 4. Dacă p>=0,05, rezultatele sunt considerate
nesemnificative statistic.
• 5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă spre
considerarea unei semnificaţii statistice.
13
Decizia
• Valoarea p nu este probabilitatea ca ipoteza nulă să
fie falsă. O valoare mică a lui p nu înseamnă că există
o probabilitate mai mică ca ipoteza nulă să fie falsă.
• Ipoteza de lucru nu poate fi inversată şi de exemplu
pentru un p=0,02 nu se poate spune că avem o
probabilitate de 98% ca diferenţa să existe.
• Valoarea lui p nu este un indicator al validităţii
ipotezei statistice.
• p se utilizează doar pentru a evalua dacă decizia este
semnificativă sau nu.
14
Erori în testarea ipotezelor statistice
Adevăr
H0 H0
adevărată Falsă
H0 se Eroare tip
Corect
respinge I (α)
Rezultat
H0 nu se Corect
Eroare tip
respinge II (β)
• alfa (α) = probabilitatea ca testul să respingă ipoteza nulă
deși ipoteza alternativă nu se diferenţiază statistic de
aceasta
• beta (β) = probabilitatea ca testul să nu poată respinge
ipoteza nulă deși ipoteza alternativă se diferenţiază statistic
de aceasta 15
Eroarea de tip I
• = H0 este respinsă deși ipoteza alternativă nu se diferenţiază statistic de
aceasta
• Am concluzionat că există reale diferenţe deși acestea sunt datorate
șansei
• Concluzionăm că un tratament este eficient pe baza unei interpretări
greșite
• Alfa (α) = nivelul de semnificaţie ales = mărimea riscului asumat
Adevăr
H0 adevărată H0
Falsă
Eroare tip I
H0 se respinge (α)
Corect
Rezultat
H0 nu se Corect
Eroare tip II
respinge (β)
16
Eroarea de tip II
• = H0 este nu este respinsă deşi ipoteza alternativă se diferenţiază
statistic de aceasta
• Am concluzionat că există diferenţele observate sunt datorate şansei
atunci când acestea apar datorită diferenţelor dintre eşantioane
• Am putea abandona un tratament pe care tocmai îl testăm sau o direcţie
de cercetare
• Puterea unui test (1-β) = capacitatea testului statistic de a evidenţia
diferenţa
Adevăr
H0 adevărată H0
Falsă
H0 se respinge Eroare tip I (α) Corect

Rezultat
H0 nu se respinge Corect Eroare17tip II (β)
Ipoteza nulă Regiunea critică.
Ipoteza alternativă β
Orice aș face una din
două posibilități crește.
Singura corecție... Creșterea dimensiunii

19
eșantionului!!!!
20
Obiective
• Compararea mediilor
• Distribuţia normală și distribuţii care
nu respectă legea normală
• Teste de comparare a mediilor:
• Teste Student
• Teste de comparare multiplă
• Teste neparametrice
Compararea mediilor
• Cea mai simplă comparaţie statistică este cea între două

grupuri aleator alese
• Acest mod de distribuire permite cercetătorului să
presupună că diferenţele individuale sunt egal distribuite
între grupuri la începutul experimentului şi că cele două
grupuri sunt echivalente
• D.p.d.v statistic cele două grupuri sunt eşantioane extrase
din aceiaşi populaţie deci diferenţele dintre ele sunt
rezultatul erorii de eşantionare sau al întâmplării
Compararea a două medii
• Compararea mediilor eşantioanelor pentru determinarea

statistică a diferenţelor se face prin două caracteristici:
• Media – diferenţa mediilor între grupuri caracterizează
nivelul de separare între grupuri
• Varianţa – caracterizează variabilitatea în interiorul
grupurilor
• Ambele caracteristici sunt o sursă de variabilitate utilizabilă
pentru a descrie efectele tratamentului
• Se consideră două eşantioane aleator
extrase, unul experimental şi unul de control
• Dacă tratamentul a fost eficient tot grupul
supus experimentului va atinge acelaşi nivel
al parametrului studiat
• Există diferenţe între grupuri
• Nu există diferenţe în interiorul grupurilor
• Situaţia reală
• Există diferenţe între grupuri
• Există diferenţe în interiorul grupurilor
• Trebuie demonstrat dacă diferenţele observate între
mediile parametrului studiat sunt datorate
experimentului şi nu întâmplării
Compararea a două medii 26
Teste parametrice și neparametrice
• Distributie normală
• → teste parametrice
• Distributie care nu respecta legea normală
• → teste neparametrice
Sunt datele normal distribuite? 28
• Parametrii de statistică descriptivă care indică

distribuţia normală:
• Media, modulul și mediana au valori identice
sau apropiate
• Asimetria aproape de 0
• Boltirea aproape de 0
Sunt datele normal distribuite?
• Teste de verificare a normalităţii datelor:
• Testul Kolmogorov-Smirnov
• Dacă n < 50 se folosește testul Shapiro-Wilk
• H0 = nu există diferențe statistice semnificative între
distribuția observată și cea normală
• H1 = există diferențe statistice semnificative între
distribuția observată și cea normală
• p < 0,05 se respinge ipoteza nulă, datele nu sunt
normal distribuite
PROBLEMA
• Evaluarea statusului inflamator în endometrioză

cu ajutorul interleukinelor IL-1Ra, IL-2, IL-4, IL-
10, IL-13, IL-15
Verificarea normalității EXCEL
IL-2 IL-4
Mean 106,188 Mean 110,877
Standard Error 3,485 Standard Error 7,065

Median 105,410 Median 85,147
Mode 105,410 Mode 84,981
Standard Deviation 29,568 Standard Deviation 61,588
Sample Variance 874,279 Sample Variance 3.793,106
Kurtosis 3,536 Kurtosis 9,546
Skewness 0,785 Skewness 2,713

IL-1ra
Range 186,660 Range 408,008
Minimum 13,666 Minimum 14,325
Mean 22,259
Maximum 200,326 Maximum 422,333
Standard Error 1,214
Sum 7.645,514 Sum 8.426,666
Median 26,250
Count 72,000 Count 76,000 Mode 32,000
Standard Deviation 9,632
Confidence Level(95,0%) 6,948 Confidence Level(95,0%) 14,074
Sample Variance 92,775
Kurtosis - 1,376
Skewness - 0,435
Range 30,920
Minimum 3,580
Maximum 34,500
Sum 1.402,344
Count 63,000
Confidence Level(95,0%) 2,426
Verificarea normalității SPSS
Analyze - Descriptive Statistics - Explore
Test of Normality
Disease Kolmogorov-Smirnova
Statistic df Sig.
IL-1ra No 0,183 17 0,135
Yes 0,189 13 0,200*
IL-2 No 0,255 17 0,004
Yes 0,303 13 0,002
IL-4 No 0,333 17 0,000
Yes 0,232 13 0,054
IL-10 No 0,167 17 0,200*
Yes 0,151 13 0,200*
IL-13 No 0,175 17 0,176
Yes 0,255 13 0,021
IL-15 No 0,129 17 0,200*
Yes 0,261 13 0,016
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Verificarea normalității
• Întotdeauna luăm în calcul cel mai prost scenariu

• Scenariul este prost doar pentru valoarea
cercetarii nu si pentru doctorand
Testul Student
• W.S. Gossett, 1908 – Student
• Testul t
• Subtipuri:
• Testul t pentru eşantioane independente:
• Varianţe egale
• O coadă
• Două cozi
• Varianţe inegale
• Testul t pentru eşantioane perechi
Testul t pentru eşantioane independente
• Utilizat pentru compararea a două eşantioane

independente
• Eșantioanele sunt considerate independente
deoarece sunt compuse din seturi independente
de subiecți între care nu există nici o relație
derivată din studiu
Prezumţia de egalitate a varianţelor
• Testul t pentru eşantioane independente se
bazează pe această prezumţie
• Se mai numeşte şi omogenitatea varianţelor
• În mod normal omogenitatea varianţelor se
testează statistic
• Testul Levene sau testul Barlett
• Bazate pe statistica F
• Dacă varianţele nu sunt semnificativ statistic
diferite (p>0,05) atunci pot fi considerate egale
• Dacă sunt diferite se aplică altă formulă de
calcul a lui t
Prezumţia de egalitate a varianţelor
Test Student
pentru varianțe
egale
Varianțe egale
Testare (p>=0,05)
egalitate
varianțe Varianțe
inegale
(p<0,05)
Test Student
pentru varianțe
inegale
Levene, Barlett, F in Excel

Testul t: egalitatea varianţelor
X1 − X 2
t=
S X1−X 2
• Numărătorul – diferenţa mediilor eşantioanelor

• Numitorul – eroarea standard a diferenţei dintre medii, o
măsură a variabilităţii în interiorul eşantioanelor
• Estimarea SX1+X2 se face prin variabila Sp, (varianţa
comună) care utilizează varianţele şi dimensiunile
eşantioanelor
s 2
( n − 1) + s2 (n2 − 1)
2
sp =
2 1 1
n1 + n2 − 2
39
Testul t: egalitatea varianţelor
• Eroarea standard a diferenţei mediilor
eşantioanelor este:
s 2p s 2p1 1
SX1−X 2 = + = s  + 
2
p
n1 n2  n1 n2 
⚫ Grade de libertate:
⚫ df =(n1-1)+(n2-1)=(n1+n2-2)
⚫ df =N-2 unde N este dimensiunea combinată a
eşantioanelor
40
Testul t pentru varianţe inegale
• Literatura de specialitate X1 − X 2
arată că atunci cînd t=
2 2
eşantioanele comparate au s s
un număr egal de cazuri +
1 2
violarea regulii egalităţii n1 n2

varianţelor nu duce la
compromiterea testului
Student
• Dacă numărul de cazuri  s12 s22 
2
 + 
diferă între eşantioane atunci  n1 n2 
df =
statistica t trebuie calculată 2
 s12   1   s22   1 
2
    +    
conform formulei, iar gradele  n1   n1 − 1   n2   n2 − 1 
de libertate se ajustează în
funcţie de varianţă:
Aplicarea testului student in SPSS
Disease
No Yes
Mean Standard Standard Mean Standard Standard
Deviation Error of Deviation Error of
Mean Mean
IL-1ra 14.109 7.044 1.265 30.155 2.600 0.460
IL-2 103.735 9.087 1.494 108.780 41.531 7.020
IL-4 84.710 2.070 0.332 138.459 79.838 13.125
IL-10 0.688 0.760 0.128 1.489 1.149 0.203
IL-13 2.371 2.077 0.393 2.419 1.774 0.348
IL-15 9.835 4.544 0.803 9.345 5.052 0.799
180 40
160
30
140
120 20
100
10
80
60 0
IL-10 IL-13 IL-15
40
-10
20
0 -20
IL-1ra IL-2 IL-4
Controls Cases
Controls Cases
Levene's Test for t-test for Equality of Means
Equality of Variances
F p t df p (2-tailed)
IL-1ra Equal variances assumed 19,008 0,000 12,067 61 0,000

Equal variances not 11,920 37,806 0,000*
assumed
IL-2 Equal variances assumed 26,764 0,000 0,721 70 0,473
Equal variances not 0,703 37,077 0,486
assumed
assumed
assumed
Equal variances not 0,091 51,654 0,928
assumed
IL-15 Equal variances assumed 2,273 0,136 -0,428 70 0,670
Equal variances not -0,433 68,992 0,666
assumed
Testul t pentru eşantioane pereche
• Se foloseşte în protocoale de cercetare
care implică măsurători repetate asupra
aceloraşi indivizi sau asupra unor indivizi
cu caracteristici asemănătoare (chiar
gemeni)
• Datele sunt considerate împerecheate
deoarece pentru fiecare valoare există o
valoare pereche
• Testul evaluează scorul de diferenţă din d
cadrul fiecărei perechi astfel încât t=
subiecţii sunt comparaţi numai cu ei Sd
înşişi sau cu perechea lor Sd
Sd =
• D este diferenţa dintre scoruri n
df = n − 1
Exemplu
Paired T test significance
Mean Std. Paired T test

Deviation significance
VHI Iniţial 23.64 6.295 0.009
functional Actual 18.43 5.598
VHI fizic Iniţial 19.79 8.069 0.815
Actual 19.36 6.709
VHI Iniţial 16.79 11.430 0.809
Emotional Actual 17.29 11.465
VHI total Iniţial 60.21 22.519 0.212
Actual 55.07 19.578
Analiza de varianţă ANOVA
Analiza de varianţă ANOVA
• Este un test destinat analizei cercetărilor

multinivel şi/sau multifactoriale
• Este utilizat atunci când trebuiesc cercetate 3 sau
mai multe condiţii sau eşantioane
• Bazat pe statistica F şi pe prezumţia că
eşantioanele sunt extrase aleator dintr-o
populaţie normal distribuită (în practică se
verifică întotdeauna)
ANOVA UNIVARIATĂ pentru eşantioane
independente
• Univariat – analiza se aplică asupra unui
experiment cu un singur factor, care produce
cel puţin trei grupuri independente
• Ipoteza statistică:
• H0: μ1 = μ2 = μ3 ... = μn
• Testul statistic utilizat este testul F (propus
de Sir Ronald Fischer
Exemplu
• Studiu ipotetic asupra
efectului utilizării
bastonului sau cârjelor
la persoanele cu
amputaţie unilaterală,
măsurându-se
lungimea pasului
• Varianţa totală SSt
• Varianţa intergrup SSb
• Varianţa intragrup
SSe= SSt - SSb
Exemplu
• Media pătratică intergrup

MSb
• Media pătratică intragrup
MSe
Exemplu
• Dacă nu putem rejecta

ipoteza nulă, nici un
tratament nu este util
• Dacă putem rejecta ipoteza
nulă atunci cel puţin un
tratament este util şi
trebuiesc făcute comparaţii
multiple pentru a arăta care
este tratamentul corect
Exemplu
Analiza bivariată ANOVA - Exemplu
• Utilă în studii care permit

investigarea efectelor simultane a
2 sau mai multe variabile
independente
• Se studiază efectul întinderilor
rapide faţă de cele de prelungi
asupra articulaţiei genunchiului
aflata în flexie sau în extensie
• Rezultă un cadru 3x2, fiecare cu 10
pacienţi
Analiza bivariată ANOVA - Exemplu
• Ce se investighează?
• Efectul variabilei A
independent de B
• Efectul variabilei B
independent de A
• Efectul cumulat al celor
două variabile
Efectele principale
• Efectele datorate
aplicării uneia din
cele 2 variabile se
măsoară prin media
pentru nivelurile
rezultate din efectele
principale şi se
numeşte medie
marginală
Efectele simple
Testarea ipotezei statistice
• Ipoteza într-un design 3x2 este de genul:

• H0: μA1 = μA2 = Μa3
• H0: μB1 = μB2
• H0: μA1B1 = μA1B2 = μA2B1 = μA2B2 = μA3B1 = μA3B2
Teste parametrice și neparametrice
Teste parametrice Teste neparametrice
echivalente
ANOVA Kruskal-Wallis
Student Mann–Whitney U
(eșantioane independente) Mann–Whitney–Wilcoxon
Wilcoxon–Mann–Whitney
Wilcoxon rank-sum
Student Wilcoxon signed-rank
(eșantioane pereche)
Testul de comparare a
medianelor
Teste neparametrice SPSS
Independent samples Mann- Decision

Whitney U Test probability
IL-1ra 0,000 Reject null hypotesis

IL-2 0,959 Cannot reject null hypotesis
IL-4 0,000 Reject null hypotesis

IL-10 0,000 Reject null hypotesis

Testele neparametrice
• Testele neparametrice nu compară mediile! Ele

compară distribuţiile sau mediana
• Ca urmare dacă se folosesc atunci nu se
reprezintă grafic medii +/- deviaţii standard ci
cvartile și intervalul intercvartilic

C2 SD 2019 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

C2 SD 2019 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

PR O F.D R.

• Compararea a două ipoteze sau teorii concurente

• Validitatea nivelului conceptual al studiului nu se

• Pentru aceasta se stabilesc: ipoteza nulă H0 şi respectiv

Valoarea observată a mediei 10

• Prin respingerea ipotezei nule cercetătorul afirmă

H0 se respinge Eroare tip I (α) Corect

Singura corecție... Creșterea dimensiunii

• Cea mai simplă comparaţie statistică este cea între două

• Compararea mediilor eşantioanelor pentru determinarea

• Parametrii de statistică descriptivă care indică

• Evaluarea statusului inflamator în endometrioză

Mean 106,188 Mean 110,877

Standard Error 3,485 Standard Error 7,065

Kurtosis 3,536 Kurtosis 9,546

Skewness 0,785 Skewness 2,713

Analyze - Descriptive Statistics - Explore

• Întotdeauna luăm în calcul cel mai prost scenariu

• Utilizat pentru compararea a două eşantioane

Levene, Barlett, F in Excel

• Numărătorul – diferenţa mediilor eşantioanelor

violarea regulii egalităţii n1 n2

IL-1ra Equal variances assumed 19,008 0,000 12,067 61 0,000

Paired T test significance

Mean Std. Paired T test

• Este un test destinat analizei cercetărilor

• Media pătratică intergrup

• Dacă nu putem rejecta

• Utilă în studii care permit

• Ipoteza într-un design 3x2 este de genul:

Independent samples Mann- Decision

IL-1ra 0,000 Reject null hypotesis

IL-4 0,000 Reject null hypotesis

IL-15 0,910 Cannot reject null hypotesis

• Testele neparametrice nu compară mediile! Ele

S-ar putea să vă placă și