Sunteți pe pagina 1din 13

BIOSTATISTICA

teste de ipotezĂ
CURS

Compararea mediilor – testul t (student)


Compararea varianțelor - testul F (Fisher)

Conf.dr. Lucian V. Boiculese


Teste de Ipoteză
Se ştie că în statistică obiectul fundamental constă în luarea unei decizii chiar în
cazul existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi
independentă (pe cât posibil) de lipsa de cunoştinţă materializată prin
incertitudine. Variabilitatea datelor definește incertitudinea.
În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de
decizie în aşa fel încât dintre variantele posibile să se aleagă concluzia corectă
cu o probabilitate acceptată ca satisfăcătoare măcar.
Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză ce se încadrează
în probabilitatea stabilită.
Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor
repartiţii sau chiar asupra repartiţiei în sine (spre exemplu verificarea normalităţii
unei repartiţii).
Testele statistice reprezintă metode matematice de verificare a ipotezelor statistice.
Prin acestea se doreşte a se verifica o ipoteză care apoi se aplică populaţiei de
date (dacă este adevărată). Testarea se face pe baza eşantionului de date. Astfel
orice decizie comportă un anumit risc.
În enunţarea unei ipoteze există două posibilităţi:
– Ipoteza nulă notată H0 în care parametrii de comparat se consideră egali. Spre
exemplu media populaţiei 1 având date în eşantionului 1 este egală cu media
populaţiei 2 caracterizată de eşantionul 2. H 0 : 1  2

– Ipoteza alternativă în care se consideră cei doi parametri diferiţi. H1 : 1  2


Posibile erori

Statistica are ca scop luarea unei decizii –o concluzie asupra analizei făcute.
Se pot comite în această situaţie două erori :
Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în
realitate H0 este adevărată.
Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate
H1 este adevărată.
Situaţiile posibile sunt prezentate în tabelul de mai jos.

Situaţie adevărată
Sistem decizional cu prag. Ipoteza H0 este Ipoteza H1 este
adevărată adevărată
Eroare tip II
Decizie prin

Acceptare ipoteză H0 Nu există eroare β


Falsi negativi
test

Eroare tip I
Acceptare ipoteză H1 α Nu există eroare
Falsi pozitivi
Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că
există o legătură invers proporţională între ele. Putem micşora eroarea α dar
drept consecinţă, eroarea de tip II se va mări într-o anumită măsură. Încercând
să scădem valoarea β obţinem o creştere a erorii de tip I. Este clar că efectele
sunt contradictorii şi un compromis trebuie acceptat, funcţie de scopul urmărit.

0.45 H0 este adevărată H1 este adevărată


0.4
0.35 d
0.3 A
0.25
0.2 B
0.15
0.1
0.05 b a
0
Pentru luarea unei decizii se creează funcţia discriminantă statistică (forma matematică
a testului), a cărei valoare calculată se compară cu valori tabelate ale tipului de
repartiţie în care se încadrează.
Pe scurt paşii de urmat în verificarea prin test statistic:
1. Enunţarea ipotezei.
2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei).
3. Deducerea şi calculul statisticii discriminante dorite prin regula de decizie.
4. Acceptarea sau respingerea ipotezei.

Testul Ipotezei Simple (o singură variabilă aleatoare)


Acest test constă în verificarea unei afirmații asupra valorilor parametrilor
necunoscuţi ai unei repartiţii.
Se poate verifica egalitatea dintre media unei populaţii repartizate normal, cu o
anumită valoare cunoscută ca normală (sau un punct extrem, min sau max).
Testul Ipotezei Duble (două variabile aleatoare)
Foarte frecvent în aplicaţiile de tip medical (şi nu numai) apare problema comparării
unor parametri dintr-un eşantion cu parametrii altui eşantion (pot fi chiar din aceeaşi
populaţie dar la momente diferite).
Presupunem că avem două eşantioane notate cu X cu valorile x1, x2, …, xn respectiv
Y cu valorile y1, y2, …, yn. Considerăm că cele două populaţii sunt repartizate
normal.
Dorim să testăm ipoteza H0: x = y , mediile sunt egale cu alternativa H1: x  y ,
mediile sunt diferite.
Populaţia 2
Populaţia 1

Comparăm !!!

Diferă
semnificativ
statistic ???!!!
P<0,05
Media1 Media 2
M1 M2
Dispersiile  x2 ,  2y se cunosc
În această situaţie variabila V urmează o distribuţie normală şi va
Exemplu de calcul
 x2  2y
avea dispersia echivalentă  V2   .
Testul ipotezei duble nx ny
Compararea mediilor a Funcţia discriminantă se va calcula cu formula:
doua esantioane
Z
V  V

  
X Y  x   y 
V  x2  2y
Se creeaza variabila V 
egala cu diferenta celor nx ny
doua variabile. Variabila Z este repartizată normal N(0,1).
Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:
 
P  Za 2  Zc  Za 2  1  a , cu a nivelul de semnificaţie.
Pentru medii egale se calculează:
X Y
Zc 
 x2  2y
Decizia se ia functie de 
valoarea calculata Zc nx ny
sau functie de valoarea Dacă calculând Zc se respectă realţia Zc  Za 2 , atunci acceptăm
p corespunzatoare. ipoteya H0 cu încredere b = 1 - a. Astfel putem considera că mediile sunt
egale.
Dacă relaţia: Zc  Z a 2 este respectată atunci nu putem accepta
ipoteza H0 şi vom considera mediile ca fiind diferite.
INTERPRETAREA GRAFICA IN CADRUL DECIZIEI MEDICALE

f(z)
1.2

0.8

0.6

0.4 a sau p

0.2

0 M[z]=0 Z calculat

Prin calculul statisticii se deduce valoarea Zcalculat (sau t calculat etc.) si corespunzător
acesteia se poate determina valoarea semnificației p calculate.
Zacceptat sau Z critic (sau t critic, sau F critic depinde de test) – este valoarea statisticii
corespunzătoare încrederii standard de 0.95. Este limita maximă admisă ca variație.
DECIZIA
Daca Zc>Zacceptat (tabelat) sau daca pcalculat < 0,05 decucem existenta dif. semn. stat.

Daca Zc<Zacceptat (tabelat) sau daca pcalculat> 0,05 nu exista dif. semn. stat.
COMPARAREA MEDIILOR A DOUĂ EȘANTIOANE

SE POT APLICA TESTELE:

1 – TESTUL Z ÎN SITUAȚIA ÎN CARE DATELE SUNT REPARTIZATE


NORMAL ȘI SE CUNOSC DISPERSIILE (CU VOLUM MARE DE DATE /
CEL PUȚIN 30).

2 – TESTUL T PENTRU DATE REPARTIZATE NORMAL DAR NU SE


CUNOSC DISPERSIILE (DACA VOLUMUL DE DATE ESTE MARE, PESTE
30 TESTUL T CONVERGE CĂTRE Z).

3 – TESTUL ANOVA(analiza varianței) PENTRU VOLUM MARE DE DATE,


REPARTIȚIE NORMALĂ, VARIANȚE EGALE (HOMOSCEDASTICITATE)
Testul t (doar pt. compararea a două populații prin eșantioane)
Prezintă variante diferite funcție de:

1 – Datele sunt perechi (înainte / după tratament);


2 – Se cunoaște că dispersiile sunt egale;
3 – Dispersiile nu sunt egale (exista teste specifice de verificare a egalității
dispersiilor).
Exista astfel 3 teste t cu formule dedicate. Informația suplimentară aduce un
plus de cunoștință ce poate ajuta în determinarea semnificației statistice.

Testul ANOVA (analysis of variance / se compară mai multe eșantioane)


Pentru două sau mai multe populații.
Înainte de a aplica acest test trebuie sa ne asiguram că:

1 – Eșantioanele de lucru trebuie să fie independente,


2 – Datele sa fie extrase din populații repartizate normal,
3 – Homoscedasticitate – dispersiile (varianțele) sa fie egale.
Verificarea egalității varianțelor (dispersiilor) TESTUL F (Fisher)

O variantă a testului student se bazează pe ipoteza că datele au varianțe egale.


Cunoscând aceasta putem aplica pentru compararea datelor testul t dedicat –
astfel vom avea un rezultat mai precis calculat, ducând în concluzie la o decizie
corectă.

Verificarea egalității varianțelor se face cu testul F (Fisher).


Tehnica de lucru este standard, așadar vom calcula un nivel de semnificație notat
p. Dacă valoarea p este mai mică ca 0.05 atunci vom avea semnificație statistică
deci diferență mare între dispersiile datelor. Dacă valoarea p este peste 0.05 atunci
putem aproxima ca egale dispersiile celor două populații.

Excel testul F – verificarea egalității varianțelor

1. Din grupul DATA se alege F-Test Two-sample for Varinces .


2. Se selectează seturile și se definește destinația unde vor fi prezentate rezultatele.
3. Se lansează în execuție (clic pe OK).
4. Se citesc și se interpretează rezultatele.
Alegerea testului F din grupul de
analiză a datelor

Definirea seturilor de date și a


opțiunilor de calcul

F-Test Two-Sample for Variances Rezultatele calculate.


SET2 SET1
Nivelul de probabilitate p determină
Mean 6.718868 6.367376 semnificația statistică.
Variance 10.75793 8.336785
Observations 106 141 Pentru acest caz p=0.079 ce este mai
df
F
105
1.290417
140
mare ca 0.05 – așadar putem aproxima ca
P(F<=f) one-tail 0.079424 egale varianțele.
F Critical one-tail 1.346838
CORECT !
F-Test Two-Sample for Variances F-Test Two-Sample for Variances

SET1 SET2 SET2 SET1


Mean 6.367376 6.718868 Mean 6.718868 6.367376
Variance 8.336785 10.75793 Variance 10.75793 8.336785
Observations 141 106 Observations 106 141
df 140 105 df 105 140
F 0.774944 F 1.290417
P(F<=f) one-tail 0.079424 P(F<=f) one-tail 0.079424
F Critical one-tail 0.74248 F Critical one-tail 1.346838

Observație ! F=sigma1^2/sigma2^2
Pentru a interpreta corect se selectează mai întâi setul cu varianța mai
mare. Valoarea statisticii F este raportul dintre cele două dispersii. Astfel
comparația se face cu valoarea 1, dacă considerăm raportul subunitar
(prima dispersie mai mică supra a doua) atunci valoarea calculată a lui F se
va apropia de 1(pentru lipsă diferență) deci va fi mai mare ca F critic ceea
ce va însemna lipsa diferenței semnificative statistice – ceea ce este
invers față de regula generală: Fcalculat mai mare ca Fcritic.

S-ar putea să vă placă și