Documente Academic
Documente Profesional
Documente Cultură
CURS – ECONOMETRIE
Testarea ipotezelor statistice
3.1. Noţiuni generale privind testarea ipotezelor statistice
3.2. Verificarea ipotezelor statistice
3.3. Câteva exemple de ipoteze statistice testate
Definiție: Ipoteza statistică este o ipoteză asupra unor parametri ai unei repartiții
teoretice, iar verificarea acesteia reprezintă stabilirea adevărului sau falsității ipotezei, pe
baza observațiilor statistice.
Definiție: Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu
desemnificaţie
Scopul unui test statistic este acela de a stabili dacă ipoteza nulă este adevărată
sau falsă.
1
Testele statistice furnizează criterii pe baza cărora se acceptă sau se respinge o
ipoteză cu privire la o populație statistică pe baza observațiilor făcute sau a datelor
statistice existente. Alegerea testului nu depinde de eșantion ci de procedeul de testare a
ipotezei statistice.
Tabelul nr. 3.1. ilustrează legătura dintre decizia pe care o luăm referitor la ipoteza nulă
şi adevărul sau falsitatea ipoteze
Cu cât probabilităţile comiterii erorilor de tip I şi de tip II sunt mai mici, cu atât
testul este mai bun.
2
3.2. Verificarea ipotezelor statistice
3
În continuare sunt prezentate o serie de teste statistice folosite în luarea deciziilor:
a) testul statistic z sau testul diferenței dintre două medii
Utilizarea testului z are loc atunci când eșantioanele sunt mari (n > 30) iar
repartiția teoretică este normal distribuită cu parametrii x̄=0 și σ2.
În funcție de modul de definire a regiunii critice potem avea: test unilateral
dreapta, test unilateral stânga și test bilateral.
Ipotezele admisibile pentru fiecare tip de test:
testul z unilateral dreapta: H0: x̄≤ X̄ și H1: x̄> X̄
testul z unilateral stânga: H0: x̄≥ X̄ și H1: x̄< X̄
testul z bilateral: H0: x̄= X̄ și H1: x̄≠ X̄
unde: X̄ este media teoretică iar x̄ este media selecției
x̄− X̄
≤z α
σ2
testul z unilateral stânga: dacă
se acceptă ipoteza alternativă H1
√ n atunci se respinge ipoteza nulă H 0 și
x̄− X̄
| |>z α
2 1−
σ
testul z bilateral: √ n
2
x̄ − X̄
≤t n−1 ;α
σ2
testul t unilateral stânga: dacă
și se acceptă ipoteza alternativă H1
n−1 √ atunci se respinge ipoteza nulă H0
x̄− X̄
| |>t α
2 n−1;1−
σ
testul t bilateral: √ n−1
2
În cazul în care avem două eșantioane de volum mic (n 1 < 30 și n2 < 30) cu mediile x̄ 1
2 2
și x̄ 2 , și cu estimațiile dispersiilor S 1 și S 2 valoarea calculată a testului t devine:
x̄1 − x̄ 2
S 21 S 22
√ +
n 1 n2
Deci, testul statistic utilizat în testarea ipotezei privind dispersia populației ( σ 2 ) este:
2
2 ( n−1 ) s
χc=
σ2
unde: s2 este dispersia eșantionului iar σ2 este dispersia colectivității.
5
Aplicarea testului χ2 constă în compararea unei valori empirice χ 2c cu o valoare
2
teoretică χ α ; ν .
unde: υ este numărul gradelor de libertate și este r – l – 1, r este numărul de grupe, l este
numărul parametrilor repartiției.
2 2 2 2
Ipoteza nulă H0 este σ =σ 0 iar ipoteza alternativ: σ ≠σ 0
alternativă
Fc< Fα;ν ;ν
dacă 1 2 atunci se acceptă ipoteza nulă
Exemplul nr. 1
6
20 de persoane au fost împărțite în două grupuri egale. Fiecare grup a fost hrănit în
conformitate cu una din cele două diete alimentare prestabilite (A, B). La sfârșitul a trei
săptămâni, a fost înregistrată creșterea în greutate a fiecărei persoane:
H1 greutatea ptr dieta A este semnificativ mai mica fata de greutatea ptr dieta B
H0 greutatea ptr dieta A nu este semnificativ mai mica fata de greutatea ptr dieta B
Răspuns
Etapa 1: Stabilim ipoteza nulă: H0 : x dieta A =x dieta B (mediile celor două populații
sunt egale) și ipoteza alternativă x dieta A ≠x dieta B (mediile celor două populații
nu sunt egale)
Etapa 2: Stabilim testul statistic – în continuare folosim testul statistic t (testul
diferenței dintre două medii) deoarece atât n1 cât și n2 sunt < 30.
Etapa 3: Stabilim valoarea teoretică a testului statistic t α;υ pentru un prag de
semnificație α =0,05 și cu un număr de grade de libertate υ = 20 – 2 = 18; t0,05;18 =
2,1
Etapa 4: Calculăm valoarea testului statistic folosind pachetele de programe din
Excel sau Eviews
Folosind pachetul de programe Data Analysis din Excel
Pasul 1: Folosim pachetul DATA ANALYSIS din meniul DATA
Din fereastra de dialog care apare selectam testul t cu variații egale: TWO-SAMPLE
ASSUMING EQUAL VARIANCE
7
Pasul 2: Completăm câmpurile din fereastra de mai jos cu următoarele informații:
1. Variable 1 Range: Este domeniul care cuprinde valorile creșterii în greutate pentru
dieta A
2. Variable 2 Range: Este domeniul care cuprinde valorile creșterii în greutate pentru
dieta B
3. Hypothesized Mean Difference: se introduce 0 ceea ce înseamnă că presupunem că
cele două medii sunt egale (conform ipotezei nule - Ho).
4. Labels: trebuie bifat pentru că în selecţia noastră am luat și capul de tabel.
5. Alpha: eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
6. Output Range: rezultatele vor fi afişate in aceeaşi pagină începând cu celula C8
9
b) Se poate afirma dacă tipul dietei influențează sau nu creșterea în greutate a
persoanelor?
Etapa 1: Se stabilește ipoteza nulă: H0 : tipul de dietă nu influențează semnificativ
creșterea în greutate și ipoteza alternativă H1 tipul de dietă influențează
semnificativ creșterea în greutate
Etapa 2: Se stabilește testul statistic – în continuare vom folosi testul statistic F.
Etapa 3: Se stabilește valoarea teoretică a testului statistic F α;υ1;υ2 pentru un prag
de semnificație α =0,05 și cu un număr de grade de libertate υ 1 = 2 – 1 = 1 și υ 2 =
20 – 2 = 18; F0,05;1;18 = 4,41
Etapa 4: Se calculează valoarea testului statistic folosind pachetele de programe
din Excel sau Eviews
10
1. Input range: sunt selectate creșterile în greutate pentru cele două tipuri de
diete;
2. Grouped by: poziționarea șirurilor de date (în cazul nostrul pe rând);
3. Labels: trebuie bifat pentru că în selecţia noastră am luat și capul de tabel;
4. Alpha: eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
5. Output Range: rezultatele vor fi afişate in aceeaşi pagină începând cu celula
C8
ANOVA
Source of
Variation SS df MS F P-value F crit
Between 110,4 3,91281 0,06343 4,41387
Groups 5 1 110,45 2 4 3
Within 28,2277
Groups 508,1 18 8
618,5
Total 5 19
În secțiunea Summary sunt prezentate informații pentru ambele șiruri de date referitoare
la: numărul de observații – Count - (atât pentru primul șir cât și pentru cel de-al doilea
avem câte 10 observații), Sum este suma valorilor din șirurile de date (pentru primul șir,
dieta A suma valorilor este de 100 iar pentru șirul de date dieta B, suma este 147),
Average este valoarea medie a creșterii în greutate pentru dieta A este de 10 Kg iar
pentru dieta B este de 14,7 Kg.
În secțiunea Source of Variation se reprezintă descompunerea în variaţie explicată
(Between Groups) şi variaţie neexplicată (Within Groups)
SS este coloana sumelor de pătrate
df este coloana gradelor de libertate asociate sumelor de pătrate
MS conţine mediile sumelor de pătrate
F este valoarea calculată a staticii F
11
P-value, F crit sunt, respectiv, probabilitatea critică şi valoarea critică care permit
decizia în testul statistic: ipoteza nulă a grupurilor omogene se respinge dacă p-
value este mai mică sau egală cu pragul a ales sau dacă valoarea F calculată este
mai mare sau egală cu valoarea critică.
Exemplul nr. 2
Pentru 20 de magazine situate în zona centrală şi periferică a unui oraş, se cunosc
valorile vânzărilor (mil. RON):
Se poate afirma cu o probabilitate de 95% că variația vânzărilor din zona centrală sunt
superioare celor din zona periferică.
Răspuns
Etapa 1: Stabilim ipoteza nulă: H0 : x centrala =x periferica (mediile celor două populații
sunt egale) și ipoteza alternativă x centrala≠x periferica (mediile celor două populații nu
sunt egale)
Etapa 2: Stabilim testul statistic – în continuare folosim testul statistic t (testul
diferenței dintre două medii) deoarece atât n1 cât și n2 sunt < 30.
Etapa 3: Stabilim valoarea teoretică a testului statistic t α;υ pentru un prag de
semnificație α =0,05 și cu un număr de grade de libertate υ = 20 – 2 = 18; t0,05;18 =
2,1
Etapa 4: Calculăm valoarea testului statistic folosind pachetele de programe din
Excel
13
Pasul 3: Se vor obţine următoarele rezultate:
Centra Periferi
lă că
23,272 13,7777
Mean 73 8
16,218 9,94444
Variance 18 4
Observations 11 9
Hypothesized
Mean Difference 0
df 18
5,9120
t Stat 78
6,75E-
P(T<=t) one-tail 06
1,7340
t Critical one-tail 64
1,35E-
P(T<=t) two-tail 05
2,1009
t Critical two-tail 22
Se compară media aritmetică a variației vânzărilor din zona contrală: 23,27 mil. lei
cu media variației vânzărilor din zona periferică: 13,78 mil. (Mean).
14
Numărul de observații eșantion este 11 iar pentru cel de-al doilea eșantion este de 9.
df – gradele de libertate = 18 calculate după formula n1 + n2 – 2 = 18.
t Stat este parametrul testului și este egală cu 5,91.
P(T<=t) one tail - Probabilitatea one-tail este 0,000000675. Deoarece probabilitatea
obţinută este mai mică decât α = 0,05 se poate trage concluzia că testul one-tail este
statistic semnificativ. Ipoteza nulă nu este confirmată. Deci se poate spune că media
aritmetică a vânzărilor din zona centrală este semnificativ mai mare decât media
aritmetică a vânzărilor din zona periferică cu o eroare α = 0,05
t critic one-tail = 1,734. Dacă t stat >t critic one−tail se poate spune că media aritmetică
a vânzărilor din zona centrală este semnificativ mai mare decât media vânzărilor din
zona periferică.
Exemplul nr. 3
Tabelul nr. 3.3. – Evoluţia şomajului BIM în perioada 1996 – 2012 – mii șomeri
1996 1997 1998 1999 2000 2001 2002 2003 2004
Masculi
378,66 343,23 386,5 438,3 456,25 413,87 494,08 408,01 490,8
n
Feminin 369,4 321,46 301,9 307,23 319,22 297,43 351,2 283,75 308,73
continuare tabel
2005 2006 2007 2008 2009 2010 2011 2012
Masculi
420,32 452,41 398,67 369,23 423,76 436,71 431,42 419,41
n
Feminin 284,14 275,97 242,27 206,32 256,93 288,44 298,80 281,80
Sursa: https://statistici.insse.ro/shop/?page=tempo3&lang=ro&ind=AMG130A
Răspuns
Din graficul prezentat mai jos se constată că, în perioada analizată, 1996 – 2012,
numărul bărbaților șomeri este mai mare decât cel al femeilor șomere.
15
Evoluția bărbaților și femeilor șomere în perioada 1996-2012
Masculi
n
Feminin
17
P(T<=t) one tail - Probabilitatea one-tail este 0,00000000000379. Deoarece
probabilitatea obţinută este mai mică decât α = 0,05 se poate trage concluzia că testul
one-tail este statistic semnificativ. Ipoteza nulă nu este confirmată. Deci se poate
spune că media aritmetică a numărului de șomeri bărbați este mai mare semnificativ
decât media aritmetică a numărului de șomeri femei cu o eroare α = 0,05
t critic one-tail = 1,69. Dacă t stat >t critic one−tail se poate spune că media aritmetică a
numărului de bărbați șomeri este mai mare semnificativ decât media numărului de
femei șomere.
Probabilitatea two-tail este 0,0000000000076. Deoarece probabilitatea obţinută este
mai mică decât 0,05 se poate trage concluzia că testul two-tail este statistic
semnificativ.
t critical two-tail = 2,04. Dacă t stat ∉[−t critic one−tail , t critic one−tail ] se poate spune că
media aritmetică a bărbaților șomeri este mai mare semnificativ decât media
aritmetică a femeilor șomere.
Folosind pachetul de programe Eviews
Pasul 1: Deschidem cele două variabile sub formă de grup: OPEN AS GROUP
18
Pasul 3: Obţinem următoarele rezultate:
Deoarece valoarea calculată a testului t este 9,51 este mai mare decât valoarea
teoretică a testului t0,05;32 = 2,04 respectiv probabilitatea (0) este mai mică decât pragul
de semnificație α = 0,05 se poate spune că că media aritmetică a bărbaților șomeri este
mai mare semnificativ decât media aritmetică a femeilor șomere.
21