Sunteți pe pagina 1din 48

TESTE

STATISTICE 1
NOTIUNI

Testarea ipotezelor statistice


Ipoteza nul, ipoteza alternativa
Erori n testarea ipotezelor statistice
Regiunea critic
Teste parametrice
Teste nonparametrice

2
INTRODUCERE

Formularea de noi ipoteze (modele sau teorii)


este una dintre cele mai importante aspecte
ale cercetrii tiinifice.
O ipotez nou trebuie testat pentru a vedea
c are temei (n concordan cu observaiile),
i pentru a justifica c este mai bun dect
alte ipoteze alternative.
Aceasta conduce la scheme de experimente
n scopul obinerii de dovezi pentru susinerea
(sau respingerea) unei noi ipoteze.

3
METODE PENTRU TESTAREA
IPOTEZELOR

Compararea a dou ipoteze sau teorii


concurente
Prima dat trebuie formulate ca modele.
Ipoteza nul H0, reprezint modelul pe care
experimentatorul ar dori s-l nlocuiasc.
Ipoteza alternativ H1 este noul model care de
regul reprezint o negaie a ipotezei nule.

4
METODE PENTRU TESTAREA
IPOTEZELOR
Indiferent cum este formulat protocolul
experimentului, scopul cercettorului este de a
testa ipoteza nul (de cele mai multe ori pentru a o
respinge)
Ipoteza nul nu trebuie probat, ci anulat
Inferen negativ

Scopul testului statistic este de a dovedi c ipoteza


nul H0 este fals
nu putem niciodat afirma c acceptm ipoteza nul
O putem nega sau nu o putem nega

5
METODE PENTRU TESTAREA
IPOTEZELOR
Prin respingerea ipotezei nule, cercettorul afirm
c rezultatele observate nu sunt datorate
ntmplrii (efect semnificativ)
Cnd ipoteza nul nu este rejectat, cercettorul
afirm c diferenele observate sunt datorate
ntmplrii i rezultatele nu sunt semnificative.

6
TESTE STATISTICE
7
SCENARIU

Se presupune c media taliei normale a nou-nscuilor la


termen este de 51 cm. Pe un eantion reprezentativ de 60 nou-
nscui prematur se observ o medie a taliei de 45 cm.

Diferena ntre cele dou medii este semnificativ?


Adic, se poate afirma c prematurii se nasc cu o talie mai
mic dect nou-nscuii la termen?

8
ETAPELE UNUI TEST STATISTIC
Pasul 1: Specificm ipoteza nul i ipoteza
alternativ.
Pasul 2: Alegem statistica adaptat situaiei .
Pasul 3: Alegem nivelul de semnificaie i pe baza sa
calculm pragul de separare (ntre valorile
acceptabile i cele considerate ca
inacceptabile).
Pasul 4: Calculm valoarea statisticii, folosind datele
din eantion (ales aleator).
Pasul 5: Decidem, prin compararea valorii calculate
cu pragul dat de nivelul de semnificaie, dac
respingem sau nu ipoteza nul.

9
ETAPELE UNUI TEST STATISTIC 1
(IPOTEZELE STATISTICE)

Ipoteza nul H0 este ipoteza care trebuie testat,


testul efectundu-se sub prezumia c ipoteza nul
ar fi adevrat.

Ipoteza alternativ H1 este acea ipotez care ntr-


un sens sau altul contrazice ipoteza nul. Aceast
ipotez se mai numete i ipoteza de lucru.

10
ETAPELE UNUI TEST STATISTIC -1 EXEMPLU
Ipoteza nul
H0: A = B (A - B = 0)
Media valorilor unei variabile cantitative n
populaia A nu este diferit de media
valorilor n populaia B;
Ipoteza alternativ
H1: A B (A - B 0)
Media valorilor n populaia A este diferit de
media valorilor n populaia B.

11
ETAPELE UNUI TEST STATISTIC -1
EXEMPLU
Ipotezele anterioare stipulau diferena fr a
o enuna: ipoteze non-direcionale

Uneori se urmrete tocmai respingerea


ipotezei alternative (comparaia unui
tratament cu un standard)
Ipoteze direcionale
H1: A < B (A - B < 0)
H1: A > B (A - B > 0)

12
REGIUNEA CRITICA

Reject Ho Reject Ho

Accept Ho
1
Critical value Critical value

Reject Ho

Accept Ho
1
Critical value

Reject Ho

Accept Ho
1
Critical value
13
ETAPELE UNUI TEST STATISTIC 2
(DEFINIREA PARAMETRULUI STATISTIC)

Definirea unui parametru care sub ipoteza


nul H0 urmeaz o anumit lege de
probabilitate cunoscut (ex- legea normal).
Un bun parametru statistic al testului trebuie
s ndeplineasc dou condiii:

trebuie s se comporte diferit atunci cnd ipoteza


nul H0 este adevrat fa de situaia n care
ipoteza alternativ H1 este adevrat.

distribuia de probabilitate a parametrului statistic al


testului sub prezumia c H0 este adevrat, este
cunoscut.
14
ETAPELE UNUI TEST STATISTIC 3

3. Definirea unui prag de semnificaie


(probabilitatea de a respinge H0 cand ea
de fapt este adevarata)
-de obicei se alege un nivel de
semnificaie ntre 1% (=0.01) i 5%.
( = 0.05)

15
ETAPELE UNUI TEST STATISTIC 2
(DEFINIREA PARAMETRULUI STATISTIC)

4. Definirea unei regiuni critice pentru parametrul


definit la punctul 2, asociat pragului de
semnificaie (adica a regiunii unde parametrul
are cel puin probabilitatea de a se gsi).

16
ETAPELE UNUI TEST STATISTIC 4

Depinznd de ipoteza alternativ, se poate alege una din


urmtoarele trei regiuni critice:
Regiunea critic unilateral la dreapta valoarea
parametrului statistic al testului este mai mare sau egal cu
valoarea din dreapta a intervalului critic;
Regiunea critic unilateral la stnga valoarea parametrului
statistic al testului este mai mic sau egal cu valoarea din
stnga a intervalului critic;
Regiunea critic bilateral valoarea parametrului statistic al
testului este mai mic sau egal cu valoarea extrem din
stnga regiunii critice sau mai mare sau egal cu valoarea
extrem din dreapta regiunii critice, valorile extreme ale
regiunii critice avnd nivele egale de semnificaie.

17
ETAPELE UNUI TEST STATISTIC 5
DECIZIA (FOLOSIND REGIUNEA CRITIC)

Dac parametrul statistic calculat se afl n regiunea critic


atunci se respinge ipoteza nul H0, deci se accept ipoteza
alternativ H1. Aceast decizie are un risc de eroare , fiind
riscul de prima spe.

Dac parametrul statistic nu se afl n regiunea critic atunci


nu exist niciun motiv de a respinge ipoteza nul H0.
Acceptnd-o exist un risc de eroare, numit risc de spea a
doua notat cu .

18
ETAPELE UNUI TEST STATISTIC 5
DECIZIA (FOLOSIND VALOAREA LUI P)
La aplicarea testelor statistice programele de
prelucrare statistica vor afisa o probabilitate de
semnificatie a testului statistic, numita si nivel de
semnificatie observat (notat cu p).
Stabilirea semnificaiei testului pe baza valorii lui p se
face frecvent cu urmtoarea regul empiric
(consideram nivelul ales =0,05) :
1. Dac 0,01 <= p<0,05 , rezultate semnificative.
2. Dac 0,001 <= p<0,01, rezultate nalt semnificative.
3. Dac p<0,001, rezultate foarte nalt semnificative.
4. Dac p>=0,05, rezultate nesemnificative statistic.
5. Dac 0,05 <= p<0,1, se noteaz o oarecare tendin
spre considerarea unei semnificaii statistice.
19
ERORI N TESTAREA IPOTEZELOR
STATISTICE

realitatea

H0 este falsa H0 este


adevarata

Respingem H0 Eronat (eroare


Corect!
decizia de tipul I)

Nu respingem
H0 Eronat (eroare
Corect!
de tipul al II-lea)
21
EROAREA DE TIP I I NIVELUL DE
SEMNIFICAIE
Probabilitatea comiterii unei erori de tip I = nivelul
de semnificaie, (alfa)
Probabilitatea este determinat prin teste statistice
Am concluzionat c exist reale diferene dei
acestea sunt datorate ansei
Concluzionm c un tratament este eficient pe
baza unei interpretri greite
Nivelul alfa (riscul maxim acceptabil) 5% exist o
ans de 5% de a respinge incorect ipoteza nul
exemple:
p= 0,18 ipoteza nul nu se poate respinge
p= 0,04 ipoteza nul se poate respinge cu un risc
acceptabil de 4% de a comite o eroare de tipul I

22
H0 este falsa H0 este adevarata
Eronat (eroare
EROAREA DE TIP II Respingem H0
Corect!
de tipul I)
Nu respingem H0 Eronat (eroare
Corect!
de tipul al II-lea)

H0 este nu este respins, dei este fals;


Am concluzionat c exist diferenele observate
sunt datorate ansei atunci cnd acestea apar
datorit diferenelor dintre eantioane
Am putea abandona un tratament pe care tocmai
l testm sau o direcie de cercetare
Probabilitatea de a nu rejecta o ipotez nul fals =
, probabilitatea de a face o eroare de tipul II
1- = complementul lui , puterea unui test
Puterea = probabilitatea ca un test s resping
ipoteza nul sau s obin semnificaie statistic

23
CE DETERMIN PUTEREA UNUI TEST?

Criteriul de semnificaie
Variana
Dimensiunea eantionului
Dimensiunea efectului

24
24
REGIUNEA CRITIC
= regiunea de respingere, aria mrginit
de Z=1,96

25
STATISTICI PARAMETRICE I NON-
PARAMETRICE

Statisticile utilizate pentru a estima parametrii unei


populaii sunt statistici parametrice
Sunt bazate pe extragerea randomizat de eantioane
dintr-o populaie normal distribuit
Eantioanele reprezint parametrii populaiei
Dac nu se respect aceste condiii sunt necesare
altfel de teste statistice: teste nonparametrice:
Nu fac supoziii asupra populaiei
Pot fi folosite atunci cnd criteriile de normalitate i
omogenitate nu sunt ndeplinite

26
TESTE STATISTICE
COMPARATII PE DOUA ESANTIOANE 27
COMPARAREA A DOU MEDII
Compararea mediilor eantioanelor pentru
determinarea statistic a diferenelor se face
prin dou caracteristici:
Media diferena mediilor ntre grupuri
caracterizeaz nivelul de separare ntre grupuri
Variana caracterizeaz variabilitatea n interiorul
grupurilor

28
TESTUL STUDENT (T)

Se bazeaz pe prezumia c eantioanele sunt


extrase aleator dintr-o populaie normal
distribuit (n practic se verific ntotdeauna)

Subtipuri:
Testul t pentru eantioane independente:
Variane egale
Variane inegale
Testul t pentru eantioane perechi
Dac eantioanele nu au o distribuie normal,
atunci se vor folosi teste neparametrice (Mann-
Whitney)
29
TESTUL T PENTRU EANTIOANE
INDEPENDENTE

Utilizat pentru compararea a dou eantioane


independente
Eantioanele sunt considerate independente deoarece
sunt compuse din seturi independente de subieci ntre
care nu exist nici o relaie derivat din studiu
se bazeaz pe aceast prezumia de egalitate a
varianelor (omogenitatea varianelor)
n mod normal omogenitatea varianelor se testeaz
statistic
Testul Levene sau testul Barlett
Bazate pe statistica F
Dac varianele nu sunt semnificativ statistic diferite
(p>0,05) atunci pot fi considerate egale testul t pentru
variane egale
Dac sunt diferite testul t pentru variane inegale

30
TESTUL T PENTRU EANTIOANE
PERECHE
Se folosete n protocoale de cercetare care
implic msurtori repetate asupra acelorai
indivizi sau asupra unor indivizi cu
caracteristici asemntoare (chiar gemeni)
Datele sunt considerate mperecheate
deoarece pentru fiecare valoare exist o
valoare pereche
Testul evalueaz scorul de diferen din
cadrul fiecrei perechi astfel nct subiecii
sunt comparai numai cu ei nii sau cu
perechea lor

31
COMPARAII PE MAI
MULTE EANTIOANE
ANALIZA DE VARIAN ANOVA
Este utilizat atunci cnd trebuiesc comparate 3 sau
mai multe eantioane independente.

Bazat pe statistica F i pe prezumia c eantioanele


sunt extrase aleator dintr-o populaie normal
distribuit (n practic se verific ntotdeauna)
Ipoteza statistic:
H0: 1 = 2 = 3 ... = n
Daca distribuia nu este normal, testul folosit va fi
Kruskal-Wallis sau Testul Median
ANOVA UNIVARIAT
PENTRU EANTIOANE INDEPENDENTE

Univariat analiza se aplic asupra unui experiment


cu un singur factor, care produce cel puin trei
grupuri independente

Ipoteza statistic:
H0: 1 = 2 = 3 ... = n

Testul statistic utilizat este testul F (propus de Sir Ronald


Fischer)
TESTUL HI PTRAT
TESTUL HI PTRAT
Analiza frecvenelor pentru variabile calitative

Test neparametric care verific dac distribuia


observat difer de cea ateptat (teoretic)
TESTUL HI PTRAT
n aplicare testului Hi-ptrat ntotdeauna:
Frecvenele sunt date de numrul de cazuri i nu reprezint
procente sau ranguri
Categoriile sunt exhaustive i mutual exclusive: orice subiect
poate aparine unei categorii i numai uneia

fio -frecvena observat i fit -frecvena teoretice (ateptat),


i=1,2,..,n.
Statistica testului (ecartul ntre cele dou tabele) notat cu 2
se calculeaz prin formula:

L C ( f 0 f t )2
2 i t i
i1 f
i
TESTUL HI PTRAT
Servete la compararea a dou distribuii,
urmnd dou modele, care constau n:
compararea unei distribuii observate (sau empirice)
pe un eantion cu o distribuie teoretic. In acest caz,
se caut s se determine dac un eantion se
aseamn cu un anumit model teoretic, fiind astfel
vorba de un test Hi-ptrat de ajustare.
compararea a dou distribuii observate n scopul
stabilirii fie a independenei dintre dou criterii sau
omogenitatea dintr-un tabel de contingen. Este
vorba n acest caz de un test Hi-ptrat de
omogenitate sau de independen.
TESTUL HI PTRAT - PASI

Se formuleaz ipoteza de independen ntre


cele dou caractere M i T (adic ipoteza
nul H0 , n acest caz)
Se calculeaza un tabel de contingen
teoretic care satisface aceast ipotez de
independen.
Se determin abaterea (ecartul) dintre cele
dou tabele de contingen (observat i
teoretic).
Dac aceast abatere este mic atunci ea
este explicat doar prin ntmplare (hazard) i
ipoteza de independen este acceptat.
EXEMPLU
Se caut efectul fumatului asupra mbolnvirii de o maladie dat
(M). Pentru aceasta se observ un eantion de 400 de subieci
dintre care:
160 au boala M prezent, 240 nu au boala M prezent
130 sunt fumtori i 270 nu sunt fumtori

T
Tabelul de contingen observat (cu frecvenele observate)
CALCULUL TABELULUI DE CONTINGEN
TEORETIC
Trebuie s completm un tabel de contingen teoretic
(numit i tabel de contingen calculat)
Ipoteza de independen dintre cele dou caractere M i
F permite s se calculeze probabilitile:
Pr(M F) = Pr(M) Pr(F), unde
- Pr(M F) este probabilitatea de a avea simultan
caracterele M i F
- Pr(M) este probabilitatea de a avea caracterul M
- Pr(F) este probabilitatea de a avea caracterul F.
EXEMPLU-CONTINUARE
Estimri ale acestor probabiliti se obin astfel:
Numarul de indivizi avind M 160
Pr(M) = Numarul total de indivizi

400 i analog,
130
Pr(F) = ,
400
Numaruldeindiviziavind M siF F ( F , M )
Pr(MF) = ,
Numarultotal deindivizi 400

unde F(F,M) este frecvena teoretic (cutat) din prima


csu a tabelului de contingen teoretic.
Deci F(F,M) se calculeaz prin formula:
130 160
F(F,M) = (Pr(M) Pr(F))/n = 400
52 .
EXEMPLU-
CONTINUARE

La fel se calculeaz i celelalte frecvene teoretice

Acest mod de calcul se aplic i n cazul general


cnd cele dou caractere studiate au fiecare un
numr de modaliti (valori) de realizare arbitrar ( 2).
EXEMPLU-CONTINUARE

Se poate astfel constata c pentru un tabel de contingen


teoretic 2x2 este suficient s calculeze o frecven teoretic
pentru a putea determina tabelul n ntregime.
Aceast proprietate se regsete i n cazul general a unui
tabel cu L linii i C coloane, unde este suficient s se calculeze
primele (L-1) x (C-1) frecvene teoretice celelalte obinndu-se
prin diferene. Se va vedea c produsul (L-1) x (C-1) definete
numrul de grade de libertate al lui Hi-patrat.
ETAPELE TESTULUI
In continuare se vor prezenta cele ase etape ale testului 2 utilizat pentru
testarea independeei a dou caractere.
Cazul general Ilustrarea printr-un exemplu
Problema Se ncearc s se determine, cu Fumatul (F) i o maladie (M)
ajutorul unui eantion de n sunt independente? In acest
subieci, dac dou caractere A caz, L=C=2, iar eantionul
i B avnd L i respectiv C observat are n=400 subieci
modaliti de realizare sunt sau repartizai n tabelul de
nu independente. contingen prezentat mai sus.
Etapa 1.
Definirea ipotezei H0 : caracterele A i B sunt H0 : fumatul nu are influen
nule H 0 independente. asupra apariiei maladiei M.
ETAPELE TESTULUI
Etapa 2. LC
( f 0
f t 2
i )
LC
( f 0
f t 2
i )
X X
2 i 2 i
Definirea unui i 1 f it i 1 f it
parametru urmeaz o lege 2 cu (L-1) x urmeaz o lege 2 cu 1 grad
(C-1) grade de libertate de libertate .

Etapa 3. Fie pragul de semnificaie al S-a ales pragul de semnificaie


Alegerea unui testului. = 0.05
prag de
semnificaie
Etapa 4. Tinnd seama de faptul c X 2 Pentru pragul =0.05 i 2 cu
Definirea regiunii urmeaz legea 2 cu (L-1) x 1 grad de libertate valoarea 2
critice (C-1) grade de libertate se = 3.84, astfel c n acest caz
determin valoarea 2 nct regiunea critic este intervalul
P( 2 2 ) = . Regiunea [3.84 , ).
critic este [ 2 ,).
ETAPELE TESTULUI
Etapa 5. - Se calculeaz frecvenele 2 (80 52) 2
Calcularea valorii teoretice Se calculeaz X =
52
observate a t
total linie total coloana (50 78) (80 108) 2
2

parametrului fi = + + +
n 78 108
- Se calculeaz (190 162) 2
( f i0 f it ) 2
LC + =37.2
X
2 162
i 1 f it
Etapa 6. Dac X 2 [3.84, ) se X2 >> 3.84 aa c ipoteza nul
Decizia respinge H 0 cu un risc de H0 se respinge cu un risc
eroare de prima spet . inferior lui 5%.
Dac X 2 [3.84, ) atunci In concluzie, fumatul are
H0 nu se respinge, influen asupra maladiei M
acceptndu-se H 0 cu un risc favoriznd-o.
de eroare de spea a doua
OBSERVAII

Testul Hi ptrat nu se poate aplica dect dac


toate frecvenele teoretice sunt mai mari sau egale
dect 5.
Dac frecvenele teoretice sunt mai mici dect 5,
se aplic un alt test, testul Fisher exact.

S-ar putea să vă placă și