Sunteți pe pagina 1din 48

TESTE

STATISTICE 1
NOTIUNI

• Testarea ipotezelor statistice


• Ipoteza nulă, ipoteza alternativa
• Erori în testarea ipotezelor statistice
• Regiunea critică
• Teste parametrice
• Teste nonparametrice

2
INTRODUCERE

• Formularea de noi ipoteze (modele sau teorii)


este una dintre cele mai importante aspecte
ale cercetării ştiinţifice.
• O ipoteză nouă trebuie testată pentru a vedea
că are temei (în concordanţă cu observaţiile),
şi pentru a justifica că este “mai bună” decât
alte ipoteze alternative.
• Aceasta conduce la scheme de experimente
în scopul obţinerii de dovezi pentru susţinerea
(sau respingerea) unei noi ipoteze.

3
METODE PENTRU TESTAREA
IPOTEZELOR

• Compararea a două ipoteze sau teorii


concurente
• Prima dată trebuie formulate ca modele.
• Ipoteza nulă H0, reprezintă modelul pe care
experimentatorul ar dori să-l înlocuiască.
• Ipoteza alternativă H1 este noul model care de
regulă reprezintă o negaţie a ipotezei nule.

4
METODE PENTRU TESTAREA
IPOTEZELOR
• Indiferent cum este formulat protocolul
experimentului, scopul cercetătorului este de a
testa ipoteza nulă (de cele mai multe ori pentru a o
respinge)
• Ipoteza nulă nu trebuie probată, ci anulată
• Inferenţă negativă

• Scopul testului statistic este de a dovedi că ipoteza


nulă H0 este falsă
•  nu putem niciodată afirma că acceptăm ipoteza nulă
• O putem nega sau nu o putem nega

5
METODE PENTRU TESTAREA
IPOTEZELOR
• Prin respingerea ipotezei nule, cercetătorul afirmă
că rezultatele observate nu sunt datorate
întâmplării (efect semnificativ)
• Când ipoteza nulă nu este rejectată, cercetătorul
afirmă că diferenţele observate sunt datorate
întâmplării şi rezultatele nu sunt semnificative.

6
TESTE STATISTICE
7
SCENARIU

Se cunoaște că media dimensiunii mandibulare la pacienții cu


ocluzie normală este aproximativ 65 mm. Pe un eșantion
reprezentativ de 80 de pacienti cu malocluzie de gr II s-a
determinat media ca fiind 69,5 mm.

Diferenţa între cele două medii este semnificativă?

Adică, se poate afirma că persoanele cu malocluzie de grad II


au dimensiunea mandibulară mai mare de cat cei cu ocluzie
normală?

8
ETAPELE UNUI TEST STATISTIC
• Pasul 1: Specificăm ipoteza nulă şi ipoteza
alternativă.
• Pasul 2: Alegem statistica adaptată situaţiei .
• Pasul 3: Alegem nivelul de semnificaţie şi pe baza sa
calculăm pragul de separare (între valorile
“acceptabile” şi cele considerate ca
“inacceptabile”).
• Pasul 4: Calculăm valoarea statisticii, folosind datele
din eşantion (ales aleator).
• Pasul 5: Decidem, prin compararea valorii calculate
cu pragul dat de nivelul de semnificaţie, dacă
respingem sau nu ipoteza nulă.

9
ETAPELE UNUI TEST STATISTIC – 1
(IPOTEZELE STATISTICE)

• Ipoteza nulă H0 este ipoteza care trebuie testată,


testul efectuându-se sub prezumţia că ipoteza nulă
ar fi adevărată.

• Ipoteza alternativă H1 este acea ipoteză care


într-un sens sau altul contrazice ipoteza nulă.
• - se mai numeşte şi ipoteza de lucru.

10
ETAPELE UNUI TEST STATISTIC -1 EXEMPLU
• Ipoteza nulă
• H0: μA = μB (μA - μB = 0)
Media valorilor unei variabile cantitative în populaţia
A nu este diferită de media valorilor în populaţia B;

• Ipoteza alternativă
• H1: μA ≠ μB (μA - μB ≠ 0)
Media valorilor în populaţia A este diferită de media
valorilor în populaţia B.

11
ETAPELE UNUI TEST STATISTIC -1
EXEMPLU
• Ipotezele anterioare stipulau diferenţa fără a
o enunţa: ipoteze non-direcţionale

• Uneori se urmăreşte tocmai respingerea


ipotezei alternative (comparaţia unui
tratament cu un standard)
• Ipoteze direcţionale
• H1: μA < μB (μA - μB < 0)
• H1: μA > μB (μA - μB > 0)

12
REGIUNEA CRITICA

Reject Ho Reject Ho

Accept Ho
1–α
Critical value Critical value

Reject Ho

Accept Ho
1–α
Critical value

Reject Ho

Accept Ho
1–α
Critical value
13
ETAPELE UNUI TEST STATISTIC – 2
(ALEGEREA PARAMETRULUI STATISTIC)

 Definirea unui parametru care sub ipoteza


nulă H0 urmează o lege de probabilitate
cunoscută (de exemplu legea normală).
Un bun parametru statistic al testului trebuie
să îndeplinească două condiţii:

• trebuie să se comporte diferit atunci când ipoteza


nulă H0 este adevărată faţă de situaţia în care
ipoteza alternativă H1 este adevărată.

• distribuţia de probabilitate a parametrului statistic al


testului sub prezumţia că H0 este adevărată, este
cunoscută.
14
ETAPELE UNUI TEST STATISTIC –3

3. Definirea unui prag de semnificaţie 


(probabilitatea de a respinge H0 cand ea
de fapt este adevarata)
-de obicei se alege un nivel de
semnificaţie între 1% (=0.01) şi 5%.
( = 0.05)

15
ETAPELE UNUI TEST STATISTIC – 4
(CALCULUL PARAMETRULUI STATISTIC)

• 4. Definirea unei regiuni critice pentru parametrul


definit la punctul 2, asociată pragului de
semnificaţie  (adica a regiunii unde parametrul
are cel puţin probabilitatea  de a se găsi).

16
ETAPELE UNUI TEST STATISTIC –4

Depinzând de ipoteza alternativă, se poate alege una din


următoarele trei regiuni critice:
• Regiunea critică unilaterală la dreapta – valoarea
parametrului statistic al testului este mai mare sau egală cu
valoarea din dreapta a intervalului critic;
• Regiunea critică unilaterală la stânga – valoarea parametrului
statistic al testului este mai mică sau egală cu valoarea din
stânga a intervalului critic;
• Regiunea critică bilaterală – valoarea parametrului statistic al
testului este mai mică sau egală cu valoarea extremă din
stânga regiunii critice sau mai mare sau egală cu valoarea
extremă din dreapta regiunii critice, valorile extreme ale
regiunii critice având nivele egale de semnificaţie.

17
ETAPELE UNUI TEST STATISTIC – 5
DECIZIA (FOLOSIND REGIUNEA CRITICĂ)

• Dacă parametrul statistic calculat se află în regiunea critică


atunci se respinge ipoteza nulă H0, deci se acceptă ipoteza
alternativă H1. Această decizie are un risc de eroare  ,  fiind
riscul de prima speţă.

• Dacă parametrul statistic nu se află în regiunea critică atunci


nu există niciun motiv de a respinge ipoteza nulă H0.
Acceptând-o, există un risc de eroare, numit risc de speţa a
doua notat cu .

18
ETAPELE UNUI TEST STATISTIC – 5
DECIZIA (FOLOSIND VALOAREA LUI P)
La aplicarea testelor statistice programele de
prelucrare statistica vor afisa o probabilitate de
semnificatie a testului statistic, numita si nivel de
semnificatie observat (notat cu p).
• Stabilirea semnificaţiei testului pe baza valorii lui p se
face frecvent cu următoarea regulă empirică
(consideram nivelul ales =0,05) :
1. Dacă 0,01 <= p<0,05 , rezultate semnificative.
2. Dacă 0,001 <= p<0,01, rezultate înalt semnificative.
3. Dacă p<0,001, rezultate foarte înalt semnificative.
4. Dacă p>=0,05, rezultate nesemnificative statistic.
5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă
spre considerarea unei semnificaţii statistice.
19
ERORI ÎN TESTAREA IPOTEZELOR
STATISTICE

realitatea

H0 este falsa H0 este


adevarata

Respingem H0 Eronată (eroare


Corectă!
decizia de tipul I)

Nu respingem
H0 Eronată (eroare
Corectă!
de tipul al II-lea)
22
EROAREA DE TIP I ŞI NIVELUL DE
SEMNIFICAŢIE
• Probabilitatea comiterii unei erori de tip I = nivelul
de semnificaţie, α (alfa)
• Probabilitatea este determinată prin teste statistice
• Am concluzionat că există reale diferenţe deşi
acestea sunt datorate şansei
• Concluzionăm că un tratament este eficient pe
baza unei interpretări greşite
• Nivelul alfa (riscul maxim acceptabil) 5%  există o
şansă de 5% de a respinge incorect ipoteza nulă
• exemple:
• p= 0,18 ipoteza nulă nu se poate respinge
• p= 0,04 ipoteza nulă se poate respinge cu un risc
acceptabil de 4% de a comite o eroare de tipul I

23
H0 este falsa H0 este adevarata
Eronată (eroare
EROAREA DE TIP II Respingem H0
Corectă!
de tipul I)
Nu respingem H0 Eronată (eroare
Corectă!
de tipul al II-lea)

• H0 este nu este respinsă, deşi este falsă;


• Am concluzionat că există diferenţele observate
sunt datorate şansei atunci când acestea apar
datorită diferenţelor dintre eşantioane
• Am putea abandona un tratament pe care tocmai
îl testăm sau o direcţie de cercetare
• Probabilitatea de a nu rejecta o ipoteză nulă falsă =
β, probabilitatea de a face o eroare de tipul II
• 1- β = complementul lui β, puterea unui test
• Puterea testului = probabilitatea ca un test să
respingă ipoteza nulă sau să obţină semnificaţie
statistică

24
CE DETERMINĂ PUTEREA UNUI TEST?

• Criteriul de semnificaţie
• Varianţa
• Dimensiunea eşantionului
• Dimensiunea efectului

25
25
STATISTICI PARAMETRICE ŞI NON-
PARAMETRICE

• Statisticile utilizate pentru a estima parametrii unei


populaţii sunt statistici parametrice
• Sunt bazate pe extragerea randomizată de eşantioane
dintr-o populaţie normal distribuită
• Eşantioanele reprezintă parametrii populaţiei
• Dacă nu se respectă aceste condiţii, sunt necesare
altfel de teste statistice: teste nonparametrice:
• Nu fac supoziţii asupra populaţiei
• Pot fi folosite atunci când criteriile de normalitate şi
omogenitate nu sunt îndeplinite

26
TESTE STATISTICE
COMPARATII PE DOUA ESANTIOANE 27
COMPARAREA A DOUĂ MEDII
• Compararea mediilor eşantioanelor pentru
determinarea statistică a diferenţelor se face
prin două caracteristici:
• Media – diferenţa mediilor între grupuri
caracterizează nivelul de separare între grupuri
• Varianţa – caracterizează variabilitatea în interiorul
grupurilor

28
TESTUL STUDENT (T)

• Se bazează pe prezumţia că eşantioanele sunt


extrase aleator dintr-o populaţie normal
distribuită (în practică se verifică întotdeauna)

• Subtipuri:
• Testul t pentru eşantioane independente:
• Varianţe egale
• Varianţe inegale
• Testul t pentru eşantioane perechi
• Dacă eșantioanele nu au o distribuție normală,
atunci se vor folosi teste neparametrice (Mann-
Whitney)
29
TESTUL T PENTRU EŞANTIOANE
INDEPENDENTE

 Utilizat pentru compararea a două eşantioane


independente
 Eşantioanele sunt considerate independente deoarece
sunt compuse din seturi independente de subiecţi între
care nu există nici o relaţie derivată din studiu
 se bazează pe această prezumţia de egalitate a
varianţelor (omogenitatea varianțelor)
 În mod normal omogenitatea varianţelor se testează
statistic
 Testul Levene sau testul Barlett
 Bazate pe statistica F
 Dacă varianţele nu sunt semnificativ statistic diferite
(p>0,05) atunci pot fi considerate egale –>Folosim testul t
pentru varianțe egale
 Dacă sunt diferite –>Folosim testul t pentru varianțe
inegale

30
TESTUL T PENTRU EŞANTIOANE
PERECHE
• Se foloseşte în protocoale de cercetare care
implică măsurători repetate asupra aceloraşi
indivizi sau asupra unor indivizi cu
caracteristici asemănătoare (chiar gemeni)
• Datele sunt considerate împerecheate
deoarece pentru fiecare valoare există o
valoare pereche
• Testul evaluează scorul de diferenţă din
cadrul fiecărei perechi astfel încât subiecţii
sunt comparaţi numai cu ei înşişi sau cu
perechea lor

31
COMPARAȚII PE MAI
MULTE EȘANTIOANE
ANALIZA DE VARIANŢĂ ANOVA
• Este utilizat atunci când trebuiesc comparate 3 sau
mai multe eșantioane independente.

• Bazat pe statistica F şi pe prezumţia că eşantioanele


sunt extrase aleator dintr-o populaţie normal
distribuită (în practică se verifică întotdeauna)
• Ipoteza statistică:
H0: μ1 = μ2 = μ3 ... = μn
• Daca distribuția nu este normală, testul folosit va fi
Kruskal-Wallis sau Testul Median
ANOVA UNIVARIATĂ
PENTRU EŞANTIOANE INDEPENDENTE

• Univariat – analiza se aplică asupra unui experiment


cu un singur factor, care produce cel puţin trei
grupuri independente

• Ipoteza statistică:
H0: μ1 = μ2 = μ3 ... = μn

• Testul statistic utilizat este testul F (propus de Sir Ronald


Fischer)
TESTUL HI PĂTRAT
(CHI SQUARE)
TESTUL HI PĂTRAT
• Analiza frecvenţelor pentru variabile calitative

• Test neparametric care verifică dacă distribuţia


observată diferă de cea aşteptată (teoretică)
TESTUL HI PĂTRAT
• În aplicare testului Hi-pătrat întotdeauna:
• Frecvenţele sunt date de numărul de cazuri şi nu reprezintă
procente sau ranguri
• Categoriile sunt exhaustive şi mutual exclusive: orice subiect
poate aparţine unei categorii şi numai uneia

• fio -frecvenţa observată şi fit -frecvenţa teoretice (aşteptată),


i=1,2,..,n.
• Statistica testului (ecartul între cele două tabele) notată cu  2
se calculează prin formula:

L C ( f 0  f t )2
2   i t i
i1 f
i
TESTUL HI PĂTRAT
Serveşte la compararea a două distribuţii,
urmând două modele, care constau în:
• compararea unei distribuţii observate (sau empirice)
pe un eşantion cu o distribuţie teoretică. In acest caz,
se caută să se determine dacă un eşantion se
aseamănă cu un anumit model teoretic, fiind astfel
vorba de un test Hi-pătrat de ajustare.
• compararea a două distribuţii observate în scopul
stabilirii fie a independenţei dintre două criterii sau
omogenitatea dintr-un tabel de contingenţă. Este
vorba în acest caz de un test Hi-pătrat de
omogenitate sau de independenţă.
TESTUL HI PĂTRAT - PASI

• Se formulează ipoteza de independenţă între


cele două caractere M şi T (adică ipoteza
nulă H0 , în acest caz)
• Se calculeaza un tabel de contingenţă
teoretic care satisface această ipoteză de
independenţă.
• Se determină abaterea (ecartul) dintre cele
două tabele de contingenţă (observat şi
teoretic).
• Dacă această abatere este mică atunci ea
este explicată doar prin întâmplare (hazard) şi
ipoteza de independenţă este acceptată.
EXEMPLU
Se caută efectul fumatului asupra îmbolnăvirii de o maladie dată
(M). Pentru aceasta se observă un eşantion de 400 de subiecţi
dintre care:
• 160 au boala M prezentă, 240 nu au boala M prezentă
• 130 sunt fumători şi 270 nu sunt fumători

T
• Tabelul de contingenţă observat (cu frecvenţele observate)
CALCULUL TABELULUI DE CONTINGENŢĂ
TEORETIC
Trebuie să completăm un tabel de contingenţă teoretic
(numit şi tabel de contingenţă calculat)
Ipoteza de independenţă dintre cele două caractere M şi
F permite să se calculeze probabilităţile:
Pr(M  F) = Pr(M)  Pr(F), unde
- Pr(M  F) este probabilitatea de a avea simultan
caracterele M şi F
- Pr(M) este probabilitatea de a avea caracterul M
- Pr(F) este probabilitatea de a avea caracterul F.
EXEMPLU-CONTINUARE
Estimări ale acestor probabilităţi se obţin astfel:
Numarul de indivizi avind M 160
 Pr(M) = Numarul total de indivizi

400 şi analog,
130
 Pr(F) = ,
400
Numaruldeindiviziavind M siF F ( F , M )
 Pr(MF) =  ,
Numarultotaldeindivizi 400

 unde F(F,M) este frecvenţa teoretică (căutată) din prima


căsuţă a tabelului de contingenţă teoretic.
 Deci F(F,M) se calculează prin formula:
130  160
 F(F,M) = (Pr(M) Pr(F))/n = 400
 52 .
EXEMPLU-
CONTINUARE

 La fel se calculează şi celelalte frecvenţe teoretice

 Acest mod de calcul se aplică şi în cazul general


când cele două caractere studiate au fiecare un
număr de modalităţi (valori) de realizare arbitrar ( 2).
EXEMPLU-CONTINUARE

• Se poate astfel constata că pentru un tabel de contingenţă


teoretic 2x2 este suficient să calculeze o frecvenţă teoretică
pentru a putea determina tabelul în întregime.
• Această proprietate se regăseşte şi în cazul general a unui
tabel cu L linii şi C coloane, unde este suficient să se calculeze
primele (L-1) x (C-1) frecvenţe teoretice celelalte obţinându-se
prin diferenţe. Se va vedea că produsul (L-1) x (C-1) defineşte
numărul de grade de libertate al lui Hi-patrat.
ETAPELE TESTULUI
In continuare se vor prezenta cele şase etape ale testului  2 utilizat pentru
testarea independeţei a două caractere.
Cazul general Ilustrarea printr-un exemplu
Problema Se încearcă să se determine, cu Fumatul (F) şi o maladie (M)
ajutorul unui eşantion de n sunt independente? In acest
subiecţi, dacă două caractere A caz, L=C=2, iar eşantionul
şi B având L şi respectiv C observat are n=400 subiecţi
modalităţi de realizare sunt sau repartizaţi în tabelul de
nu independente. contingenţă prezentat mai sus.
 Etapa 1.
Definirea ipotezei H0 : caracterele A şi B sunt H0 : fumatul nu are influenţă
nule H 0 independente. asupra apariţiei maladiei M.
ETAPELE TESTULUI
 Etapa 2. LC
( f 0
 f t 2
) LC
( f 0
 f t 2
)
X  X 
2 i i 2 i i
Definirea unui i 1 f it i 1 f it
parametru urmează o lege  2 cu (L-1) x urmează o lege  2 cu 1 grad
(C-1) grade de libertate de libertate .

 Etapa 3. Fie  pragul de semnificaţie al S-a ales pragul de semnificaţie


Alegerea unui testului.  = 0.05
prag de
semnificaţie
 Etapa 4. Tinând seama de faptul că X 2 Pentru pragul  =0.05 şi  2 cu
Definirea regiunii urmează legea  2 cu (L-1) x 1 grad de libertate valoarea  2
critice (C-1) grade de libertate se = 3.84, astfel că în acest caz
determină valoarea  2 încât regiunea critică este intervalul
P(  2   2 ) = . Regiunea [3.84 , ).
critică este [  2 ,).
ETAPELE TESTULUI
 Etapa 5. - Se calculează frecvenţele 2 (80  52) 2
Calcularea valorii teoretice Se calculează X =
52
observate a t
total linie  total coloana (50  78) (80  108) 2
2

parametrului fi = + + +
n 78 108
- Se calculează (190  162) 2
( f i0  f it ) 2
LC + =37.2
X 
2 162
i 1 f it
 Etapa 6.  Dacă X 2 [3.84, ) se X2 >> 3.84 aşa că ipoteza nulă
Decizia respinge H 0 cu un risc de H0 se respinge cu un risc
eroare de prima spetă  . inferior lui 5%.
 Dacă X 2 [3.84, ) atunci In concluzie, fumatul are
H0 nu se respinge, influenţă asupra maladiei M
acceptându-se H 0 cu un risc favorizând-o.
de eroare de speţa a doua 
OBSERVAŢIE
Tabelul de contingență TEORETIC

- Toate frecvențele >5 – testul Chi pătrat


- O fecvență între 2 și 5 –testul Chi pătrat cu corecția Yates
- O frecvență <2 – testul Fisher exact

S-ar putea să vă placă și