Sunteți pe pagina 1din 48

TESTE

STATISTICE

NOTIUNI

Testarea ipotezelor statistice


Ipoteza nul, ipoteza alternativa
Erori n testarea ipotezelor statistice
Regiunea critic
Teste parametrice
Teste nonparametrice

INTRODUCERE
Formularea de noi ipoteze (modele sau teorii)
este una dintre cele mai importante aspecte
ale cercetrii tiinifice.
O ipotez nou trebuie testat pentru a vedea
c are temei (n concordan cu observaiile),
i pentru a justifica c este mai bun dect
alte ipoteze alternative.
Aceasta conduce la scheme de experimente
n scopul obinerii de dovezi pentru susinerea
(sau respingerea) unei noi ipoteze.
3

METODE PENTRU TESTAREA


IPOTEZELOR
Compararea a dou ipoteze sau teorii
concurente
Prima dat trebuie formulate ca modele.
Ipoteza nul H0, reprezint modelul pe care
experimentatorul ar dori s-l nlocuiasc.
Ipoteza alternativ H1 este noul model care de
regul reprezint o negaie a ipotezei nule.

METODE PENTRU TESTAREA


IPOTEZELOR
Indiferent cum este formulat protocolul
experimentului, scopul cercettorului este de a
testa ipoteza nul (de cele mai multe ori pentru a o
respinge)
Ipoteza nul nu trebuie probat, ci anulat
Inferen negativ
Scopul testului statistic este de a dovedi c ipoteza
nul H0 este fals
nu putem niciodat afirma c acceptm ipoteza nul
O putem nega sau nu o putem nega

METODE PENTRU TESTAREA


IPOTEZELOR
Prin respingerea ipotezei nule, cercettorul afirm
c rezultatele observate nu sunt datorate
ntmplrii (efect semnificativ)
Cnd ipoteza nul nu este rejectat, cercettorul
afirm c diferenele observate sunt datorate
ntmplrii i rezultatele nu sunt semnificative.

TESTE STATISTICE
7

SCENARIU
Se presupune c media taliei normale a nou-nscuilor la
termen este de 51 cm. Pe un eantion reprezentativ de 60 nounscui prematur se observ o medie a taliei de 45 cm.
Diferena ntre cele dou medii este semnificativ?
Adic, se poate afirma c prematurii se nasc cu o talie mai
mic dect nou-nscuii la termen?

ETAPELE UNUI TEST STATISTIC


Pasul 1: Specificm ipoteza nul i ipoteza
alternativ.
Pasul 2: Alegem statistica adaptat situaiei .
Pasul 3: Alegem nivelul de semnificaie i pe baza sa
calculm pragul de separare (ntre valorile
acceptabile i cele considerate ca
inacceptabile).
Pasul 4: Calculm valoarea statisticii, folosind datele
din eantion (ales aleator).
Pasul 5: Decidem, prin compararea valorii calculate
cu pragul dat de nivelul de semnificaie, dac
respingem sau nu ipoteza nul.
9

ETAPELE UNUI TEST STATISTIC 1


(IPOTEZELE STATISTICE)
Ipoteza nul H0 este ipoteza care trebuie testat,
testul efectundu-se sub prezumia c ipoteza nul
ar fi adevrat.
Ipoteza alternativ H1 este acea ipotez care ntrun sens sau altul contrazice ipoteza nul. Aceast
ipotez se mai numete i ipoteza de lucru.

10

ETAPELE UNUI TEST STATISTIC -1 EXEMPLU


Ipoteza nul
H0: A = B

(A - B = 0)

Media valorilor unei variabile cantitative n


populaia A nu este diferit de media
valorilor n populaia B;
Ipoteza alternativ
H1: A B (A - B 0)

Media valorilor n populaia A este diferit de


media valorilor n populaia B.

11

ETAPELE UNUI TEST STATISTIC -1


EXEMPLU
Ipotezele anterioare stipulau diferena fr a
o enuna: ipoteze non-direcionale
Uneori se urmrete tocmai respingerea
ipotezei alternative (comparaia unui
tratament cu un standard)
Ipoteze direcionale
H1: A < B
H1: A > B

(A - B < 0)
(A - B > 0)

12

REGIUNEA CRITICA

Reject Ho

Reject Ho

Accept Ho
1
Critical value

Critical value
Reject Ho

Accept Ho
1
Critical value

Reject Ho

Accept Ho
1
Critical value
13

ETAPELE UNUI TEST STATISTIC 2


(DEFINIREA PARAMETRULUI STATISTIC)
Definirea unui parametru care sub ipoteza

nul H0 urmeaz o anumit lege de


probabilitate cunoscut (ex- legea normal).
Un bun parametru statistic al testului trebuie
s ndeplineasc dou condiii:
trebuie s se comporte diferit atunci cnd ipoteza
nul H0 este adevrat fa de situaia n care
ipoteza alternativ H1 este adevrat.
distribuia de probabilitate a parametrului statistic al
testului sub prezumia c H0 este adevrat, este
cunoscut.
14

ETAPELE UNUI TEST STATISTIC 3


3. Definirea unui prag de semnificaie
(probabilitatea de a respinge H0 cand ea
de fapt este adevarata)
-de obicei se alege un nivel de
semnificaie ntre 1% (=0.01) i 5%.
( = 0.05)

15

ETAPELE UNUI TEST STATISTIC 2


(DEFINIREA PARAMETRULUI STATISTIC)
4. Definirea unei regiuni critice pentru parametrul
definit la punctul 2, asociat pragului de
semnificaie (adica a regiunii unde parametrul
are cel puin probabilitatea de a se gsi).

16

ETAPELE UNUI TEST STATISTIC 4


Depinznd de ipoteza alternativ, se poate alege una din
urmtoarele trei regiuni critice:
Regiunea critic unilateral la dreapta valoarea
parametrului statistic al testului este mai mare sau egal cu
valoarea din dreapta a intervalului critic;
Regiunea critic unilateral la stnga valoarea parametrului
statistic al testului este mai mic sau egal cu valoarea din
stnga a intervalului critic;
Regiunea critic bilateral valoarea parametrului statistic al
testului este mai mic sau egal cu valoarea extrem din
stnga regiunii critice sau mai mare sau egal cu valoarea
extrem din dreapta regiunii critice, valorile extreme ale
regiunii critice avnd nivele egale de semnificaie.

17

ETAPELE UNUI TEST STATISTIC 5


DECIZIA (FOLOSIND REGIUNEA CRITIC)
Dac parametrul statistic calculat se afl n regiunea critic
atunci se respinge ipoteza nul H0, deci se accept ipoteza
alternativ H1. Aceast decizie are un risc de eroare , fiind
riscul de prima spe.
Dac parametrul statistic nu se afl n regiunea critic atunci
nu exist niciun motiv de a respinge ipoteza nul H0.
Acceptnd-o exist un risc de eroare, numit risc de spea a
doua notat cu .

18

ETAPELE UNUI TEST STATISTIC 5


DECIZIA (FOLOSIND VALOAREA LUI P)
La aplicarea testelor statistice programele de
prelucrare statistica vor afisa o probabilitate de
semnificatie a testului statistic, numita si nivel de
semnificatie observat (notat cu p).
Stabilirea semnificaiei testului pe baza valorii lui p se
face frecvent cu urmtoarea regul empiric
(consideram nivelul ales =0,05) :
1. Dac 0,01 <= p<0,05 , rezultate semnificative.
2. Dac 0,001 <= p<0,01, rezultate nalt semnificative.
3. Dac p<0,001, rezultate foarte nalt semnificative.
4. Dac p>=0,05, rezultate nesemnificative statistic.
5. Dac 0,05 <= p<0,1, se noteaz o oarecare tendin
spre considerarea unei semnificaii statistice.
19

ERORI N TESTAREA IPOTEZELOR


STATISTICE
realitatea

H0 este falsa

decizia

Respingem H0
Nu respingem
H0

H0 este
adevarata

Corect!

Eronat (eroare
de tipul I)

Eronat (eroare
de tipul al II-lea)

Corect!

21

EROAREA DE TIP I I NIVELUL DE


SEMNIFICAIE
Probabilitatea comiterii unei erori de tip I = nivelul
de semnificaie, (alfa)
Probabilitatea este determinat prin teste statistice
Am concluzionat c exist reale diferene dei
acestea sunt datorate ansei
Concluzionm c un tratament este eficient pe
baza unei interpretri greite
Nivelul alfa (riscul maxim acceptabil) 5% exist o
ans de 5% de a respinge incorect ipoteza nul
exemple:
p= 0,18 ipoteza nul nu se poate respinge
p= 0,04 ipoteza nul se poate respinge cu un risc
acceptabil de 4% de a comite o eroare de tipul I
22

EROAREA DE TIP II

Respingem H0
Nu respingem H0

H0 este falsa

H0 este adevarata

Corect!

Eronat (eroare
de tipul I)

Eronat (eroare
de tipul al II-lea)

Corect!

H0 este nu este respins, dei este fals;


Am concluzionat c exist diferenele observate
sunt datorate ansei atunci cnd acestea apar
datorit diferenelor dintre eantioane
Am putea abandona un tratament pe care tocmai
l testm sau o direcie de cercetare
Probabilitatea de a nu rejecta o ipotez nul fals =
, probabilitatea de a face o eroare de tipul II
1- = complementul lui , puterea unui test
Puterea = probabilitatea ca un test s resping
ipoteza nul sau s obin semnificaie statistic
23

CE DETERMIN PUTEREA UNUI TEST?

Criteriul de semnificaie
Variana
Dimensiunea eantionului
Dimensiunea efectului

24

24

REGIUNEA CRITIC
= regiunea de respingere, aria mrginit
de Z=1,96

25

STATISTICI PARAMETRICE I NONPARAMETRICE


Statisticile utilizate pentru a estima parametrii unei
populaii sunt statistici parametrice
Sunt bazate pe extragerea randomizat de eantioane
dintr-o populaie normal distribuit
Eantioanele reprezint parametrii populaiei

Dac nu se respect aceste condiii sunt necesare


altfel de teste statistice: teste nonparametrice:
Nu fac supoziii asupra populaiei
Pot fi folosite atunci cnd criteriile de normalitate i
omogenitate nu sunt ndeplinite

26

TESTE STATISTICE
COMPARATII PE DOUA ESANTIOANE

27

COMPARAREA A DOU MEDII


Compararea mediilor eantioanelor pentru
determinarea statistic a diferenelor se face
prin dou caracteristici:
Media diferena mediilor ntre grupuri
caracterizeaz nivelul de separare ntre grupuri
Variana caracterizeaz variabilitatea n interiorul
grupurilor

28

TESTUL STUDENT (T)


Se bazeaz pe prezumia c eantioanele sunt
extrase aleator dintr-o populaie normal
distribuit (n practic se verific ntotdeauna)
Subtipuri:
Testul t pentru eantioane independente:
Variane egale
Variane inegale

Testul t pentru eantioane perechi

Dac eantioanele nu au o distribuie normal,


atunci se vor folosi teste neparametrice (MannWhitney)

29

TESTUL T PENTRU EANTIOANE


INDEPENDENTE
Utilizat pentru compararea a dou eantioane
independente
Eantioanele sunt considerate independente deoarece
sunt compuse din seturi independente de subieci ntre
care nu exist nici o relaie derivat din studiu
se bazeaz pe aceast prezumia de egalitate a
varianelor (omogenitatea varianelor)
n mod normal omogenitatea varianelor se testeaz
statistic
Testul Levene sau testul Barlett
Bazate pe statistica F

Dac varianele nu sunt semnificativ statistic diferite


(p>0,05) atunci pot fi considerate egale testul t pentru
variane egale
Dac sunt diferite testul t pentru variane inegale
30

TESTUL T PENTRU EANTIOANE


PERECHE
Se folosete n protocoale de cercetare care
implic msurtori repetate asupra acelorai
indivizi sau asupra unor indivizi cu
caracteristici asemntoare (chiar gemeni)
Datele sunt considerate mperecheate
deoarece pentru fiecare valoare exist o
valoare pereche
Testul evalueaz scorul de diferen din
cadrul fiecrei perechi astfel nct subiecii
sunt comparai numai cu ei nii sau cu
perechea lor
31

COMPARAII PE MAI
MULTE EANTIOANE

ANALIZA DE VARIAN ANOVA


Este utilizat atunci cnd trebuiesc comparate 3 sau
mai multe eantioane independente.
Bazat pe statistica F i pe prezumia c eantioanele
sunt extrase aleator dintr-o populaie normal
distribuit (n practic se verific ntotdeauna)
Ipoteza statistic:

H0: 1 = 2 = 3 ... = n
Daca distribuia nu este normal, testul folosit va fi
Kruskal-Wallis sau Testul Median

ANOVA UNIVARIAT
PENTRU EANTIOANE INDEPENDENTE
Univariat analiza se aplic asupra unui experiment
cu un singur factor, care produce cel puin trei
grupuri independente
Ipoteza statistic:

H0: 1 = 2 = 3 ... = n
Testul statistic utilizat este testul F (propus de Sir Ronald
Fischer)

TESTUL HI PTRAT

TESTUL HI PTRAT
Analiza frecvenelor pentru variabile calitative
Test neparametric care verific dac distribuia
observat difer de cea ateptat (teoretic)

TESTUL HI PTRAT
n aplicare testului Hi-ptrat ntotdeauna:

Frecvenele sunt date de numrul de cazuri i nu reprezint


procente sau ranguri
Categoriile sunt exhaustive i mutual exclusive: orice subiect
poate aparine unei categorii i numai uneia
fio -frecvena observat i fit -frecvena teoretice (ateptat),
i=1,2,..,n.
Statistica testului (ecartul ntre cele dou tabele) notat cu 2
se calculeaz prin formula:

0 f t )2
(
f
L

C
2 i t i
f
i1
i

TESTUL HI PTRAT
Servete la compararea a dou distribuii,
urmnd dou modele, care constau n:
compararea unei distribuii observate (sau empirice)
pe un eantion cu o distribuie teoretic. In acest caz,
se caut s se determine dac un eantion se
aseamn cu un anumit model teoretic, fiind astfel
vorba de un test Hi-ptrat de ajustare.
compararea a dou distribuii observate n scopul
stabilirii fie a independenei dintre dou criterii sau
omogenitatea dintr-un tabel de contingen. Este
vorba n acest caz de un test Hi-ptrat de
omogenitate sau de independen.

TESTUL HI PTRAT - PASI


Se formuleaz ipoteza de independen ntre
cele dou caractere M i T (adic ipoteza
nul H0 , n acest caz)
Se calculeaza un tabel de contingen
teoretic care satisface aceast ipotez de
independen.
Se determin abaterea (ecartul) dintre cele
dou tabele de contingen (observat i
teoretic).
Dac aceast abatere este mic atunci ea
este explicat doar prin ntmplare (hazard) i
ipoteza de independen este acceptat.

EXEMPLU
Se caut efectul fumatului asupra mbolnvirii de o maladie dat
(M). Pentru aceasta se observ un eantion de 400 de subieci
dintre care:
160 au boala M prezent, 240 nu au boala M prezent
130 sunt fumtori i 270 nu sunt fumtori

Tabelul de contingen observat (cu frecvenele observate)

CALCULUL TABELULUI DE CONTINGEN


TEORETIC

Trebuie s completm un tabel de contingen teoretic


(numit i tabel de contingen calculat)
Ipoteza de independen dintre cele dou caractere M i
F permite s se calculeze probabilitile:
Pr(M F) = Pr(M) Pr(F), unde
- Pr(M F) este probabilitatea de a avea simultan
caracterele M i F
- Pr(M) este probabilitatea de a avea caracterul M
- Pr(F) este probabilitatea de a avea caracterul F.

EXEMPLU-CONTINUARE
Estimri ale acestor probabiliti se obin astfel:
Pr(M) =
Pr(F) =

Numarul de indivizi avind M 160

Numarul total de indivizi


400

i analog,

130
,
400

Numaruldeindiviziavind M siF F ( F , M )

Pr(MF) =
,
Numarultotal deindivizi
400

unde F(F,M) este frecvena teoretic (cutat) din prima


csu a tabelului de contingen teoretic.
Deci F(F,M) se calculeaz prin formula:
F(F,M) = (Pr(M) Pr(F))/n =

130 160
52
400

EXEMPLUCONTINUARE

La fel se calculeaz i celelalte frecvene teoretice

Acest mod de calcul se aplic i n cazul general


cnd cele dou caractere studiate au fiecare un
numr de modaliti (valori) de realizare arbitrar ( 2).

EXEMPLU-CONTINUARE

Se poate astfel constata c pentru un tabel de contingen


teoretic 2x2 este suficient s calculeze o frecven teoretic
pentru a putea determina tabelul n ntregime.

Aceast proprietate se regsete i n cazul general a unui


tabel cu L linii i C coloane, unde este suficient s se calculeze
primele (L-1) x (C-1) frecvene teoretice celelalte obinndu-se
prin diferene. Se va vedea c produsul (L-1) x (C-1) definete
numrul de grade de libertate al lui Hi-patrat.

ETAPELE TESTULUI
In continuare se vor prezenta cele ase etape
testarea independeei a dou caractere.
Cazul general
Problema
Se ncearc s se determine, cu
ajutorul unui eantion de n
subieci, dac dou caractere A
i B avnd L i respectiv C
modaliti de realizare sunt sau
nu independente.
Etapa 1.
Definirea ipotezei H0 : caracterele A i B sunt
independente.
nule H 0

ale testului 2 utilizat pentru


Ilustrarea printr-un exemplu
Fumatul (F) i o maladie (M)
sunt independente? In acest
caz, L=C=2, iar eantionul
observat are n=400 subieci
repartizai n tabelul de
contingen prezentat mai sus.
H0 : fumatul nu are influen
asupra apariiei maladiei M.

ETAPELE TESTULUI
Etapa 2.
Definirea unui
parametru

Etapa 3.
Alegerea unui
prag de
semnificaie
Etapa 4.
Definirea regiunii
critice

0
t 2
(
f

f
i
i )
2
X
f it
i 1
urmeaz o lege 2 cu (L-1) x

0
t 2
(
f

f
i
i )
2
X
f it
i 1
urmeaz o lege 2 cu 1 grad

(C-1) grade de libertate

de libertate .

Fie pragul de semnificaie al


testului.

S-a ales pragul de semnificaie


= 0.05

Tinnd seama de faptul c X 2


urmeaz legea 2 cu (L-1) x
(C-1) grade de libertate se
determin valoarea 2 nct

Pentru pragul =0.05 i 2 cu


1 grad de libertate valoarea 2
= 3.84, astfel c n acest caz
regiunea critic este intervalul
[3.84 , ).

LC

P( 2 2 ) = . Regiunea
critic este [ 2 ,).

LC

ETAPELE TESTULUI
- Se calculeaz frecvenele
Etapa 5.
Calcularea valorii teoretice
total linie total coloana
observate
a
t
fi =
parametrului
n
- Se calculeaz

( f i0 f it ) 2
X
f it
i 1
LC

Etapa 6.
Decizia

Dac X 2 [3.84, ) se
respinge H 0 cu un risc de
eroare de prima spet .
Dac X 2 [3.84, ) atunci
H0 nu se respinge,
acceptndu-se H 0 cu un risc
de eroare de spea a doua

(80 52) 2
Se calculeaz X =
52
2
(50 78) (80 108) 2
+
+
+
78
108
(190 162) 2
+
=37.2
162
2

X2 >> 3.84 aa c ipoteza nul


H0 se respinge cu un risc
inferior lui 5%.
In concluzie, fumatul are
influen asupra maladiei M
favoriznd-o.

OBSERVAII
Testul Hi ptrat nu se poate aplica dect dac
toate frecvenele teoretice sunt mai mari sau egale
dect 5.
Dac frecvenele teoretice sunt mai mici dect 5,
se aplic un alt test, testul Fisher exact.