2016 c6 Teste Statistice

TESTE
STATISTICE 1
NOTIUNI
• Testarea ipotezelor statistice

• Ipoteza nulă, ipoteza alternativa
• Erori în testarea ipotezelor statistice
• Regiunea critică
• Teste parametrice
• Teste nonparametrice
2
INTRODUCERE
• Formularea de noi ipoteze (modele sau teorii)

este una dintre cele mai importante aspecte
ale cercetării ştiinţifice.
• O ipoteză nouă trebuie testată pentru a vedea
că are temei (în concordanţă cu observaţiile),
şi pentru a justifica că este “mai bună” decât
alte ipoteze alternative.
• Aceasta conduce la scheme de experimente
în scopul obţinerii de dovezi pentru susţinerea
(sau respingerea) unei noi ipoteze.
3
METODE PENTRU TESTAREA
IPOTEZELOR
• Compararea a două ipoteze sau teorii

concurente
• Prima dată trebuie formulate ca modele.
• Ipoteza nulă H0, reprezintă modelul pe care
experimentatorul ar dori să-l înlocuiască.
• Ipoteza alternativă H1 este noul model care de
regulă reprezintă o negaţie a ipotezei nule.
4
IPOTEZELOR
• Indiferent cum este formulat protocolul
experimentului, scopul cercetătorului este de a
testa ipoteza nulă (de cele mai multe ori pentru a o
respinge)
• Ipoteza nulă nu trebuie probată, ci anulată
• Inferenţă negativă
• Scopul testului statistic este de a dovedi că ipoteza

nulă H0 este falsă
•  nu putem niciodată afirma că acceptăm ipoteza nulă
• O putem nega sau nu o putem nega
5
IPOTEZELOR
• Prin respingerea ipotezei nule, cercetătorul afirmă
că rezultatele observate nu sunt datorate
întâmplării (efect semnificativ)
• Când ipoteza nulă nu este rejectată, cercetătorul
afirmă că diferenţele observate sunt datorate
întâmplării şi rezultatele nu sunt semnificative.
6
TESTE STATISTICE
7
SCENARIU
Se presupune că media taliei normale a nou-născuţilor la

termen este de 51 cm. Pe un eşantion reprezentativ de 60 nou-
născuţi prematur se observă o medie a taliei de 45 cm.
Diferenţa între cele două medii este semnificativă?

Adică, se poate afirma că prematurii se nasc cu o talie mai
mică decât nou-născuţii la termen?
8
ETAPELE UNUI TEST STATISTIC
• Pasul 1: Specificăm ipoteza nulă şi ipoteza
alternativă.
• Pasul 2: Alegem statistica adaptată situaţiei .
• Pasul 3: Alegem nivelul de semnificaţie şi pe baza sa
calculăm pragul de separare (între valorile
“acceptabile” şi cele considerate ca
“inacceptabile”).
• Pasul 4: Calculăm valoarea statisticii, folosind datele
din eşantion (ales aleator).
• Pasul 5: Decidem, prin compararea valorii calculate
cu pragul dat de nivelul de semnificaţie, dacă
respingem sau nu ipoteza nulă.
9
ETAPELE UNUI TEST STATISTIC – 1
(IPOTEZELE STATISTICE)
• Ipoteza nulă H0 este ipoteza care trebuie testată,

testul efectuându-se sub prezumţia că ipoteza nulă
ar fi adevărată.
• Ipoteza alternativă H1 este acea ipoteză care într-

un sens sau altul contrazice ipoteza nulă. Această
ipoteză se mai numeşte şi ipoteza de lucru.
10
ETAPELE UNUI TEST STATISTIC -1 EXEMPLU
• Ipoteza nulă
• H0: μA = μB (μA - μB = 0)
Media valorilor unei variabile cantitative în
populaţia A nu este diferită de media
valorilor în populaţia B;
• Ipoteza alternativă
• H1: μA ≠ μB (μA - μB ≠ 0)
Media valorilor în populaţia A este diferită de
media valorilor în populaţia B.
11
ETAPELE UNUI TEST STATISTIC -1
EXEMPLU
• Ipotezele anterioare stipulau diferenţa fără a
o enunţa: ipoteze non-direcţionale
• Uneori se urmăreşte tocmai respingerea

ipotezei alternative (comparaţia unui
tratament cu un standard)
• Ipoteze direcţionale
• H1: μA < μB (μA - μB < 0)
• H1: μA > μB (μA - μB > 0)
12
REGIUNEA CRITICA
Reject Ho Reject Ho
Accept Ho
1–α
Critical value Critical value
Reject Ho
Accept Ho
1–α
Critical value
Reject Ho
Accept Ho
1–α
Critical value
13
(DEFINIREA PARAMETRULUI STATISTIC)
 Definirea unui parametru care sub ipoteza

nulă H0 urmează o anumită lege de
probabilitate cunoscută (ex- legea normală).
Un bun parametru statistic al testului trebuie
să îndeplinească două condiţii:
• trebuie să se comporte diferit atunci când ipoteza

nulă H0 este adevărată faţă de situaţia în care
ipoteza alternativă H1 este adevărată.
• distribuţia de probabilitate a parametrului statistic al

testului sub prezumţia că H0 este adevărată, este
cunoscută.
14
ETAPELE UNUI TEST STATISTIC –3
3. Definirea unui prag de semnificaţie 

(probabilitatea de a respinge H0 cand ea
de fapt este adevarata)
-de obicei se alege un nivel de
semnificaţie între 1% (=0.01) şi 5%.
( = 0.05)
15
(DEFINIREA PARAMETRULUI STATISTIC)
• 4. Definirea unei regiuni critice pentru parametrul

definit la punctul 2, asociată pragului de
semnificaţie  (adica a regiunii unde parametrul
are cel puţin probabilitatea  de a se găsi).
16
ETAPELE UNUI TEST STATISTIC –4
Depinzând de ipoteza alternativă, se poate alege una din

următoarele trei regiuni critice:
• Regiunea critică unilaterală la dreapta – valoarea
parametrului statistic al testului este mai mare sau egală cu
valoarea din dreapta a intervalului critic;
• Regiunea critică unilaterală la stânga – valoarea parametrului
statistic al testului este mai mică sau egală cu valoarea din
stânga a intervalului critic;
• Regiunea critică bilaterală – valoarea parametrului statistic al
testului este mai mică sau egală cu valoarea extremă din
stânga regiunii critice sau mai mare sau egală cu valoarea
extremă din dreapta regiunii critice, valorile extreme ale
regiunii critice având nivele egale de semnificaţie.
17
DECIZIA (FOLOSIND REGIUNEA CRITICĂ)
• Dacă parametrul statistic calculat se află în regiunea critică

atunci se respinge ipoteza nulă H0, deci se acceptă ipoteza
alternativă H1. Această decizie are un risc de eroare  ,  fiind
riscul de prima speţă.
• Dacă parametrul statistic nu se află în regiunea critică atunci

nu există niciun motiv de a respinge ipoteza nulă H0.
Acceptând-o există un risc de eroare, numit risc de speţa a
doua notat cu .
18
DECIZIA (FOLOSIND VALOAREA LUI P)
La aplicarea testelor statistice programele de
prelucrare statistica vor afisa o probabilitate de
semnificatie a testului statistic, numita si nivel de
semnificatie observat (notat cu p).
• Stabilirea semnificaţiei testului pe baza valorii lui p se
face frecvent cu următoarea regulă empirică
(consideram nivelul ales =0,05) :
1. Dacă 0,01 <= p<0,05 , rezultate semnificative.
2. Dacă 0,001 <= p<0,01, rezultate înalt semnificative.
3. Dacă p<0,001, rezultate foarte înalt semnificative.
4. Dacă p>=0,05, rezultate nesemnificative statistic.
5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă
spre considerarea unei semnificaţii statistice.
19
ERORI ÎN TESTAREA IPOTEZELOR
STATISTICE
realitatea
H0 este falsa H0 este

adevarata
Respingem H0 Eronată (eroare

Corectă!
decizia de tipul I)
Nu respingem
H0 Eronată (eroare
Corectă!
de tipul al II-lea)
21
EROAREA DE TIP I ŞI NIVELUL DE
SEMNIFICAŢIE
• Probabilitatea comiterii unei erori de tip I = nivelul
de semnificaţie, α (alfa)
• Probabilitatea este determinată prin teste statistice
• Am concluzionat că există reale diferenţe deşi
acestea sunt datorate şansei
• Concluzionăm că un tratament este eficient pe
baza unei interpretări greşite
• Nivelul alfa (riscul maxim acceptabil) 5%  există o
şansă de 5% de a respinge incorect ipoteza nulă
• exemple:
• p= 0,18 ipoteza nulă nu se poate respinge
• p= 0,04 ipoteza nulă se poate respinge cu un risc
acceptabil de 4% de a comite o eroare de tipul I
22
H0 este falsa H0 este adevarata
Eronată (eroare
EROAREA DE TIP II Respingem H0
Corectă!
de tipul I)
Nu respingem H0 Eronată (eroare
Corectă!
de tipul al II-lea)
• H0 este nu este respinsă, deşi este falsă;

• Am concluzionat că există diferenţele observate
sunt datorate şansei atunci când acestea apar
datorită diferenţelor dintre eşantioane
• Am putea abandona un tratament pe care tocmai
îl testăm sau o direcţie de cercetare
• Probabilitatea de a nu rejecta o ipoteză nulă falsă =
β, probabilitatea de a face o eroare de tipul II
• 1- β = complementul lui β, puterea unui test
• Puterea = probabilitatea ca un test să respingă
ipoteza nulă sau să obţină semnificaţie statistică
23
CE DETERMINĂ PUTEREA UNUI TEST?
• Criteriul de semnificaţie
• Varianţa
• Dimensiunea eşantionului
• Dimensiunea efectului
24
24
REGIUNEA CRITICĂ
• = regiunea de respingere, aria mărginită
de Z=±1,96
25
STATISTICI PARAMETRICE ŞI NON-
PARAMETRICE
• Statisticile utilizate pentru a estima parametrii unei

populaţii sunt statistici parametrice
• Sunt bazate pe extragerea randomizată de eşantioane
dintr-o populaţie normal distribuită
• Eşantioanele reprezintă parametrii populaţiei
• Dacă nu se respectă aceste condiţii sunt necesare
altfel de teste statistice: teste nonparametrice:
• Nu fac supoziţii asupra populaţiei
• Pot fi folosite atunci când criteriile de normalitate şi
omogenitate nu sunt îndeplinite
26
TESTE STATISTICE
COMPARATII PE DOUA ESANTIOANE 27
COMPARAREA A DOUĂ MEDII
• Compararea mediilor eşantioanelor pentru
determinarea statistică a diferenţelor se face
prin două caracteristici:
• Media – diferenţa mediilor între grupuri
caracterizează nivelul de separare între grupuri
• Varianţa – caracterizează variabilitatea în interiorul
grupurilor
28
TESTUL STUDENT (T)
• Se bazează pe prezumţia că eşantioanele sunt

extrase aleator dintr-o populaţie normal
distribuită (în practică se verifică întotdeauna)
• Subtipuri:
• Testul t pentru eşantioane independente:
• Varianţe egale
• Varianţe inegale
• Testul t pentru eşantioane perechi
• Dacă eșantioanele nu au o distribuție normală,
atunci se vor folosi teste neparametrice (Mann-
Whitney)
29
TESTUL T PENTRU EŞANTIOANE
INDEPENDENTE
 Utilizat pentru compararea a două eşantioane

independente
 Eşantioanele sunt considerate independente deoarece
sunt compuse din seturi independente de subiecţi între
care nu există nici o relaţie derivată din studiu
 se bazează pe această prezumţia de egalitate a
varianţelor (omogenitatea varianțelor)
 În mod normal omogenitatea varianţelor se testează
statistic
 Testul Levene sau testul Barlett
 Bazate pe statistica F
 Dacă varianţele nu sunt semnificativ statistic diferite
(p>0,05) atunci pot fi considerate egale – testul t pentru
varianțe egale
 Dacă sunt diferite – testul t pentru varianțe inegale
30
TESTUL T PENTRU EŞANTIOANE
PERECHE
• Se foloseşte în protocoale de cercetare care
implică măsurători repetate asupra aceloraşi
indivizi sau asupra unor indivizi cu
caracteristici asemănătoare (chiar gemeni)
• Datele sunt considerate împerecheate
deoarece pentru fiecare valoare există o
valoare pereche
• Testul evaluează scorul de diferenţă din
cadrul fiecărei perechi astfel încât subiecţii
sunt comparaţi numai cu ei înşişi sau cu
perechea lor
31
COMPARAȚII PE MAI
MULTE EȘANTIOANE
ANALIZA DE VARIANŢĂ ANOVA
• Este utilizat atunci când trebuiesc comparate 3 sau
mai multe eșantioane independente.
• Bazat pe statistica F şi pe prezumţia că eşantioanele

sunt extrase aleator dintr-o populaţie normal
distribuită (în practică se verifică întotdeauna)
• Ipoteza statistică:
H0: μ1 = μ2 = μ3 ... = μn
• Daca distribuția nu este normală, testul folosit va fi
Kruskal-Wallis sau Testul Median
ANOVA UNIVARIATĂ
PENTRU EŞANTIOANE INDEPENDENTE
• Univariat – analiza se aplică asupra unui experiment

cu un singur factor, care produce cel puţin trei
grupuri independente
• Ipoteza statistică:
H0: μ1 = μ2 = μ3 ... = μn
• Testul statistic utilizat este testul F (propus de Sir Ronald

Fischer)
TESTUL HI PĂTRAT
TESTUL HI PĂTRAT
• Analiza frecvenţelor pentru variabile calitative
• Test neparametric care verifică dacă distribuţia

observată diferă de cea aşteptată (teoretică)
TESTUL HI PĂTRAT
• În aplicare testului Hi-pătrat întotdeauna:
• Frecvenţele sunt date de numărul de cazuri şi nu reprezintă
procente sau ranguri
• Categoriile sunt exhaustive şi mutual exclusive: orice subiect
poate aparţine unei categorii şi numai uneia
• fio -frecvenţa observată şi fit -frecvenţa teoretice (aşteptată),

i=1,2,..,n.
• Statistica testului (ecartul între cele două tabele) notată cu  2
se calculează prin formula:
L C ( f 0  f t )2
2   i t i
i1 f
i
TESTUL HI PĂTRAT
Serveşte la compararea a două distribuţii,
urmând două modele, care constau în:
• compararea unei distribuţii observate (sau empirice)
pe un eşantion cu o distribuţie teoretică. In acest caz,
se caută să se determine dacă un eşantion se
aseamănă cu un anumit model teoretic, fiind astfel
vorba de un test Hi-pătrat de ajustare.
• compararea a două distribuţii observate în scopul
stabilirii fie a independenţei dintre două criterii sau
omogenitatea dintr-un tabel de contingenţă. Este
vorba în acest caz de un test Hi-pătrat de
omogenitate sau de independenţă.
TESTUL HI PĂTRAT - PASI
• Se formulează ipoteza de independenţă între

cele două caractere M şi T (adică ipoteza
nulă H0 , în acest caz)
• Se calculeaza un tabel de contingenţă
teoretic care satisface această ipoteză de
independenţă.
• Se determină abaterea (ecartul) dintre cele
două tabele de contingenţă (observat şi
teoretic).
• Dacă această abatere este mică atunci ea
este explicată doar prin întâmplare (hazard) şi
ipoteza de independenţă este acceptată.
EXEMPLU
Se caută efectul fumatului asupra îmbolnăvirii de o maladie dată
(M). Pentru aceasta se observă un eşantion de 400 de subiecţi
dintre care:
• 160 au boala M prezentă, 240 nu au boala M prezentă
• 130 sunt fumători şi 270 nu sunt fumători
T
• Tabelul de contingenţă observat (cu frecvenţele observate)
CALCULUL TABELULUI DE CONTINGENŢĂ
TEORETIC
Trebuie să completăm un tabel de contingenţă teoretic
(numit şi tabel de contingenţă calculat)
Ipoteza de independenţă dintre cele două caractere M şi
F permite să se calculeze probabilităţile:
Pr(M  F) = Pr(M)  Pr(F), unde
- Pr(M  F) este probabilitatea de a avea simultan
caracterele M şi F
- Pr(M) este probabilitatea de a avea caracterul M
- Pr(F) este probabilitatea de a avea caracterul F.
EXEMPLU-CONTINUARE
Estimări ale acestor probabilităţi se obţin astfel:
Numarul de indivizi avind M 160
 Pr(M) = Numarul total de indivizi

400 şi analog,
130
 Pr(F) = ,
400
Numaruldeindiviziavind M siF F ( F , M )
 Pr(MF) =  ,
Numarultotal deindivizi 400
 unde F(F,M) este frecvenţa teoretică (căutată) din prima

căsuţă a tabelului de contingenţă teoretic.
 Deci F(F,M) se calculează prin formula:
130  160
 F(F,M) = (Pr(M) Pr(F))/n = 400
 52 .
EXEMPLU-
CONTINUARE
 La fel se calculează şi celelalte frecvenţe teoretice
 Acest mod de calcul se aplică şi în cazul general

când cele două caractere studiate au fiecare un
număr de modalităţi (valori) de realizare arbitrar ( 2).
EXEMPLU-CONTINUARE
• Se poate astfel constata că pentru un tabel de contingenţă

teoretic 2x2 este suficient să calculeze o frecvenţă teoretică
pentru a putea determina tabelul în întregime.
• Această proprietate se regăseşte şi în cazul general a unui
tabel cu L linii şi C coloane, unde este suficient să se calculeze
primele (L-1) x (C-1) frecvenţe teoretice celelalte obţinându-se
prin diferenţe. Se va vedea că produsul (L-1) x (C-1) defineşte
numărul de grade de libertate al lui Hi-patrat.
ETAPELE TESTULUI
In continuare se vor prezenta cele şase etape ale testului  2 utilizat pentru
testarea independeţei a două caractere.
Cazul general Ilustrarea printr-un exemplu
Problema Se încearcă să se determine, cu Fumatul (F) şi o maladie (M)
ajutorul unui eşantion de n sunt independente? In acest
subiecţi, dacă două caractere A caz, L=C=2, iar eşantionul
şi B având L şi respectiv C observat are n=400 subiecţi
modalităţi de realizare sunt sau repartizaţi în tabelul de
nu independente. contingenţă prezentat mai sus.
 Etapa 1.
Definirea ipotezei H0 : caracterele A şi B sunt H0 : fumatul nu are influenţă
nule H 0 independente. asupra apariţiei maladiei M.
ETAPELE TESTULUI
 Etapa 2. LC
( f 0
 f t 2
i )
LC
( f 0
 f t 2
i )
X  X 
2 i 2 i
Definirea unui i 1 f it i 1 f it
parametru urmează o lege  2 cu (L-1) x urmează o lege  2 cu 1 grad
(C-1) grade de libertate de libertate .
 Etapa 3. Fie  pragul de semnificaţie al S-a ales pragul de semnificaţie

Alegerea unui testului.  = 0.05
prag de
semnificaţie
 Etapa 4. Tinând seama de faptul că X 2 Pentru pragul  =0.05 şi  2 cu
Definirea regiunii urmează legea  2 cu (L-1) x 1 grad de libertate valoarea  2
critice (C-1) grade de libertate se = 3.84, astfel că în acest caz
determină valoarea  2 încât regiunea critică este intervalul
P(  2   2 ) = . Regiunea [3.84 , ).
critică este [  2 ,).
ETAPELE TESTULUI
 Etapa 5. - Se calculează frecvenţele 2 (80  52) 2
Calcularea valorii teoretice Se calculează X =
52
observate a t
total linie  total coloana (50  78) (80  108) 2
2
parametrului fi = + + +
n 78 108
- Se calculează (190  162) 2
( f i0  f it ) 2
LC + =37.2
X 
2 162
i 1 f it
 Etapa 6.  Dacă X 2 [3.84, ) se X2 >> 3.84 aşa că ipoteza nulă
Decizia respinge H 0 cu un risc de H0 se respinge cu un risc
eroare de prima spetă  . inferior lui 5%.
 Dacă X 2 [3.84, ) atunci In concluzie, fumatul are
H0 nu se respinge, influenţă asupra maladiei M
acceptându-se H 0 cu un risc favorizând-o.
de eroare de speţa a doua 
OBSERVAŢII
• Testul Hi pătrat nu se poate aplica decât dacă

toate frecvenţele teoretice sunt mai mari sau egale
decât 5.
• Dacă frecvenţele teoretice sunt mai mici decât 5,
se aplică un alt test, testul Fisher exact.

2016 c6 Teste Statistice

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2016 c6 Teste Statistice

Încărcat de

Drepturi de autor:

Formate disponibile

TESTE

• Testarea ipotezelor statistice

• Formularea de noi ipoteze (modele sau teorii)

• Compararea a două ipoteze sau teorii

• Scopul testului statistic este de a dovedi că ipoteza

Se presupune că media taliei normale a nou-născuţilor la

Diferenţa între cele două medii este semnificativă?

• Ipoteza nulă H0 este ipoteza care trebuie testată,

• Ipoteza alternativă H1 este acea ipoteză care într-

• Uneori se urmăreşte tocmai respingerea

 Definirea unui parametru care sub ipoteza

• trebuie să se comporte diferit atunci când ipoteza

• distribuţia de probabilitate a parametrului statistic al

3. Definirea unui prag de semnificaţie 

• 4. Definirea unei regiuni critice pentru parametrul

Depinzând de ipoteza alternativă, se poate alege una din

• Dacă parametrul statistic calculat se află în regiunea critică

• Dacă parametrul statistic nu se află în regiunea critică atunci

H0 este falsa H0 este

Respingem H0 Eronată (eroare

• H0 este nu este respinsă, deşi este falsă;

• Statisticile utilizate pentru a estima parametrii unei

• Se bazează pe prezumţia că eşantioanele sunt

 Utilizat pentru compararea a două eşantioane

• Bazat pe statistica F şi pe prezumţia că eşantioanele

• Univariat – analiza se aplică asupra unui experiment

• Testul statistic utilizat este testul F (propus de Sir Ronald

• Test neparametric care verifică dacă distribuţia

• fio -frecvenţa observată şi fit -frecvenţa teoretice (aşteptată),

• Se formulează ipoteza de independenţă între

 unde F(F,M) este frecvenţa teoretică (căutată) din prima

 La fel se calculează şi celelalte frecvenţe teoretice

 Acest mod de calcul se aplică şi în cazul general

• Se poate astfel constata că pentru un tabel de contingenţă

 Etapa 3. Fie  pragul de semnificaţie al S-a ales pragul de semnificaţie

• Testul Hi pătrat nu se poate aplica decât dacă

S-ar putea să vă placă și