Sunteți pe pagina 1din 38

BAZELE STATISTICII

- anul universitar 2019-2020 -


7. Testarea statistică
7.1. Aspecte generale ale testării statistice
7.1.1. Obiectivele testării statistice
7.1.2. Demersul testării statistice
7.1.3. Teste parametrice versus teste neparametrice
7.2. Testarea ipotezelor pentru un eşantion
7.2.1 Testarea ipotezelor asupra mediei: testul t, testul Z
7.2.2 Testarea ipotezelor asupra proporţiei: testul t, testul Z
7.3.Testarea ipotezelor pentru două eşantioane (cazul eşantioanelor
independente)
- verificarea egalităţii mediilor.
7.4. Testarea ipotezelor privind 3 şi mai multe eşantioane independente
- Testul Fisher – ANOVA
7.1. Aspecte generale ale testării statistice
7.1.1. Obiectivele testării statistice
- verificarea ipotezelor asupra unui parametru al unei populaţii;
- verificarea ipotezelor privind legea de distribuţie a unei
populaţii;
- verificarea ipotezelor privind două sau mai multe populaţii,
prin parametrii acestora.
7.1. Aspecte generale ale testării statistice
7.1.2. Demersul testării statistice

a) Formularea ipotezelor statistice


O ipoteză este o presupunere cu privire la valoarea unui
parametru, legea de distribuţie a variabilei studiate etc.
Ipoteza nulă H0 : se presupune egalitatea unui parametru cu o
valoare fixă, la egalitatea intre mai multi parametri sau se
face o presupunere cu privire la legea de repartiţie a unei
variabile.
Ipoteza alternativă H1: este opusul ipotezei nule.
7.1. Aspecte generale ale testării statistice
Test bilateral:
H 0 :   0 Rata şomajului României diferă semnificativ de
H1 :    0 cea la nivelul U.E?

Test unilateral la dreapta:


H 0 :   0 Timpul mediu de redactare al unei pagini A4 este
H1 :    0 semnificativ mai mare de 6 minute?

Test unilateral la stânga:


H 0 :   0 Timpul de răspuns al organismului la administrarea
H1 :    0 unui drog este semnificativ mai mic decât 10’’?
7.1. Aspecte generale ale testării statistice
b) Alegerea testului statistic
- există două categorii de teste statistice: teste parametrice şi
teste neparametrice.

Alegerea testului statistic se face în funcţie de mai multe


criterii.

In general, pentru variabile cantitative se folosesc teste


parametrice şi neparametrice, iar pentru variabile calitative se
folosesc neparametrice.
7.1. Aspecte generale ale testării statistice
c) Alegerea pragului de semnificaţie  al testului şi
citirea valorii critice din tabelul repartiţiei
statisticii test
- riscul (pragul de semnificaţie)  reprezintă
probabilitatea de a respinge ipoteza nulă, atunci când
aceasta este adevărată.

d) Calculul valorii statisticii test, folosind datele


observate la nivelul eşantionului.
7.1. Aspecte generale ale testării statistice
e) Regiunea de respingere/acceptare a ipotezei nule
Regiunea de respingere – intervalul dintr-o distribuţie de probabilitate în care se respinge
ipoteza nulă, acest interval este acoperit de probabilitatea α
Regiunea de acceptare (interval de încredere) – intervalul în care nu se respinge ipoteza nulă
şi este acoperit de probabilitatea 1- α

Regula de decizie in a accepta sau a respinge H0


- Folosind valoarea calculata si valoarea teoretica a testului:
- daca valoarea calculata a testului <= valoarea teoretica a testului: nu se respinge H0, cu o
probabilitate 1- α
- daca valoarea calculata a testului > valoarea teoretica a testului: se respinge H0, cu o
probabilitate α
- Folosind probabilitatea asociata valorii calculate a testului (notata cu p-value sau cu Sig.) cea
asociata valorii teoretice a testului (notata cu α):
- daca p-value >= α: nu se respinge H0, cu o probabilitate 1- α
- daca p-value < α: se respinge H0, cu o probabilitate α
Regiunea critica (de respingere a ipotezei H0) pentru:
a) test bilateral
b) test unilateral dreapta
c) test unilateral stanga
Aplicarea regulii de decizie folosind valoarea calculata
si valoarea teoretica a testului
Aplicarea regulii de decizie folosind p-value (Sig.) si α
Erori de testare
f) Regula de decizie
Decizia testului se ia cu o anumită eroare, care poate fi:
 eroare de tip I (eroare de primă speţă, notată  )
 eroare de tip II (eroare de a doua speţă, notată  )
Realitate
H0 adevărată H0 falsă

Se acceptă H0 Decizie corectă Eroare de tip II


(1-) ()

Decizia Nu se acceptă Eroare de tip I Decizie corectă


H0 () (1-)
7.1.3 Teste parametrice şi teste neparametrice
Teste parametrice:
 presupun o serie de ipoteze restrictive (de ex. ipoteza de
normalitate a distribuţiei populaţiei din care a fost extras
eşantionul analizat);
 variabila analizată este măsurată pe o scală interval sau
raport;
 mărimea eşantionului trebuie să fie suficient de mare (ex.
n>30).
Teste neparametrice:
 puţine ipoteze restrictive privind legea de distribuţie a
populaţiei din care a fost extras eşantionul analizat
(“distribution free methods”).
7.1. Aspecte generale ale testării statistice
 Ca principiu, testarea statistica vizeaza verificarea unor presupuneri pe
care le facem cu privire la comportamentul populatiilor. Astfel:
 Mai intai, se presupune, prin reducere la absurd, ca ipoteza H0 este adevarata.
 Apoi, folosind un instrument de analiza (testul statistic potrivit pentru ipoteza
H0), vedem ce dovezi in sprijinul ipotezei H0 aduc datele pe care le avem la
nivel de esantion (valoarea calculata a testului).
 Apoi verificam daca aceste dovezi inclina spre a confirma sau a infirma, cu o
anumita probabilitate, ipoteza H0 (prin compararea valorii calculate a testului
cu valoarea teoretica a testului)
 Daca datele de la nivelul esantionului produc suficiente dovezi pentru a sustine
afirmatia de la H0 (valoarea calculata a testului este mai mica decat valoarea
teoretica a testului), garantam, cu probabilitatea 1- α, ca ipoteza H0 nu poate fi
respinsa ca fiind falsa.
 In caz contrar (valoarea calculata a testului este mai mare decat valoarea
teoretica a testului), afirmam, cu un risc asumat α, ca ipoteza H0 este respinsa.
7.2. Testarea ipotezelor asupra unui eşantion
7.2.1. Testarea ipotezelor asupra mediei unei populaţii
a) Formularea ipotezelor H 0 :    0
H1 :    0
b) Alegerea testului statistic
2
1. Dacă se cunoaşte  se foloseşte statistica Z, Z ~ N ( 0, 1 )
ˆ   0
Z
/ n
2. Dacă nu se cunoaşte 2 , se foloseşte statistica t, t ~ t( n  1 )
ˆ   0
t
ˆ ' / n
7.2.1. Testarea ipotezelor asupra mediei unei populaţii

c). Alegerea pragului de semnificaţie şi citirea din tabel a


valorii critice a statisticii test

d). Calculul valorii statisticii test pe baza datelor eşantionului

x  0 x  0
z calculat  t calculat 
/ n s' / n
7.2.1. Testarea ipotezelor asupra mediei unei populaţii

e). Regula de decizie


z calculat  z  / 2 sau Sig   se respinge ipoteza nulă,
pentru un risc asumat α

z calculat  z  / 2 sau Sig   nu se respinge ipoteza


nulă, cu o probabilitate de 1-α

f). Compararea valorii calculate a statisticii testului cu


valoarea critică (teoretică) si luarea deciziei
Exemplu
 O companie de protectie a mediului doreste sa
verifice daca o intreprindere respecta normele de
poluare, de 55 ppm. Pentru acest lucru, extrage un
esantion de 20 de zile si obtine o medie de 58 ppm si
o abatere standard de 5 ppm. Pentru un risc de 5%,
exista diferente semnificative intre gradul de poluare
al intreprinderii si normele impuse de autoritati?
7.2.2 Testarea ipotezelor asupra proporţiei

Demersul testării:
a) Formularea ipotezelor statistice
H0 :   0

H1 :    0
7.2.2 Testarea ipotezelor asupra proporţiei
b) Alegerea pragului de semnificaţie 

c) Testul statistic
p  0
t calculat 
p( 1  p ) / n

d) Regula de decizie
Exemplu
 Pentru a verifica dacă femeile sunt supuse riscului de cancer
mamar, doctorii au dezvoltat o metodă nouă de detectare a
cancerului. Pentru a proba această metodă, au alcătuit un
eşantion de 140 de femei cu cancer mamar, şi au observat că,
in urma aplicării noii metode, pentru 12 femei nu s-a reuşit
detectarea cancerului. Ştiind că metoda veche de detectare are
o rată de eşec de 20%, să se verifice, pentru un risc asumat de
5%, dacă rata de eşec a noii metode diferă semnificativ de
rata de eşec a vechii metode.
7.3. Testarea ipotezelor privind două
eşantioane (cazul eşantioanelor independente)
 În cazul eşantioanelor independente, statistica test folosită în
testarea ipotezelor statistice este statistica Z sau t.
 Ipoteze statistice

H 0 : 1   2  0

H 1 : 1   2  0

 Aplicarea testului presupune testarea egalităţii varianţelor


populaţiilor din care au fost extrase eşantioanele (testul
Levene).
7.3. Testarea ipotezelor privind două
eşantioane
 
atunci când 1
2
  2
2 :

- daca se cunoaste σ12 si σ22, se foloseste testul Z


x1  x2  '12 (n1  1)   '22 (n2  1)
zcalculat   'p 
1 1 n1  n2  2
 ' p 
n1 n2

- daca nu se cunoaste σ12 si σ22, se foloseste testul t


x1  x 2
t calculat  s' 12 ( n1  1 )  s' 22 ( n 2  1 )
1 1 s' p 
s' p  n1  n 2  2
n1 n 2
Exemplu
 O firmă de vânzări doreşte să evalueze eficienţa urmării de
către angajaţi a unui curs de vânzări. Pentru aceasta, alcătuieşte
două eşantioane de angajaţi – angajaţii din primul eşantion nu
urmează cursul, iar cei din al doilea eşantion urmează cursul de
vânzări. S-a observat valoarea vânzărilor pentru cele două
eşantioane. Ştiind că cele două grupuri de angajaţi au varianţe
diferite, iar la nivelul eşantioanelor s-a obţinut:
 
x1  1 5, s1  3, x2  22, s2'  4, n1  50, n2  65
'

să se verifice, pentru un risc asumat de 5%, dacă există


diferenţe semnificative de vânzări între cele două grupuri.
Testarea egalităţii a trei sau mai multe medii
(ANOVA)
Obiectiv
- procedeu de analiză a variaţiei în funcţie de sursa acesteia

- permite compararea mediilor a 3 sau mai multe grupe sau


populaţii cu scopul de a verifica dacă există diferenţe
semnificative între acestea

Condiţii de aplicare
- Condiţia de independenţă

- Condiţia de normalitate

- Condiţia de homoscedasticitate
Testarea egalităţii a trei sau mai multe medii
(ANOVA)
Se bazează pe descompunerea variaţiei totale (VT sau TSS) pe componente:
- variaţia explicată (variaţia sub influenţa factorului de grupare): VE sau ESS
- variaţia reziduală (variaţia sub influenţa factorilor întâmplători ): VR sau RSS

VT  VE  VR

TSS  ESS  RSS


Testarea egalităţii a trei sau mai multe medii
(ANOVA)
VT , respectiv TSS reprezintă variaţia totală
n
TSS   ( xi  x ) 2
VE , respectiv ESS - variaţiai variabilei X explicată de factorul de grupare
n
ESS   ( x j  x ) 2
i 1 nj k
VR , respectiv RSS – variaţia reziduală RSS   ( xij  x j ) 2
i 1 j 1

1. Ipoteze statistice:
H 0 : 1   2     k
H1 : mediile a cel putin doua populatii sunt diferite
Testarea egalităţii a trei sau mai multe medii
(ANOVA)
2. Se alege statistica test Fisher

VˆE
k  1 VˆE n  k
F  
VˆR VˆR k  1
nk
unde
k – numărul grupelor care se compara
Testarea egalităţii a trei sau mai multe medii
(ANOVA)
3. Se alege pragul de semnificaţie  şi se citeşte
valoarea critică a testul F din tabelul repartiţiei
Fisher, pentru riscul  admis, şi v1  k  1, v2  n  k
grade de libertate,
F , v1 ,v2
Testarea egalităţii a trei sau mai multe medii
(ANOVA)
4. Regula de decizie:
 Fcalc  F , v1 , v2 sau Sig  
, se respinge ipoteza nulă H 0
 pentru riscul admis

 Fcalc  F , v1 , v2 sau Sig   , nu se respinge ipoteza nulă H 0


Testarea egalităţii a trei sau mai multe medii
(ANOVA)
5. Valoarea statisticii F se calculează astfel:

ESS n  k
Fcalculat  
RSS k  1

6. Decizia

7. Interpretare
Exemplu
Se consideră un eşantion de 1510 persoane observate după educaţie (ani) şi
rasă (alb, negru, altă rasă). Pentru un risc de 5%, să se verifice dacă există
diferenţe semnificative de educaţie în funcţie de rasă.

S-ar putea să vă placă și