Sunteți pe pagina 1din 10

Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Compararea mediilor a k-populații (ANOVA)

Problema 1.
Se compară veniturile medii (exprimate în sute de euro) obținute de
populațiile din RO, PL și BG. Studiul efectuat pe câte un eșantion extras din
populația fiecărei țări a condus la următoarele date:
1-3 3-5 5-7 7-9
RO 10 13 19 8
PL 12 6 18 24
BG 7 15 6 2
Diferă semnificativ veniturile medii ale populațiilor din cele trei țări?
Soluție:
Calculul elementelor la nivelul fiecărui eșantion
Calcule:
Romania
valoare frecv valoare*frecv (valoare-medie)^2*frecv
2 10 20 90
4 13 52 13
6 19 114 19
8 8 64 72
suma 250 194
n 50
media ‫ݔ‬ 5
dispersia s2 3.959183673
Polonia
valoare frecv valoare*frecv (valoare-medie)^2*frecv
2 12 24 173.28
4 6 24 19.44
6 18 108 0.72
8 24 192 116.16
suma 348 309.6
n 60
media ‫ݔ‬ 5.8
2
dispersia s 5.247457627
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Bulgaria
valoare frecv valoare*frecv (valoare-medie)^2*frecv
2 7 14 33.88
4 15 60 0.6
6 6 36 19.44
8 2 16 28.88
suma 126 82.8
n 30
media ‫ݔ‬ 4.2
2
dispersia s 2.855172414
Excel
DataData AnalysisDescriptive Statistics Summary Statistics
Romania Polonia Bulgaria
Mean 5 5.8 4.2
Standard Error 0.281396 0.295732 0.3085
Standard Deviation 1.98977 2.290733 1.689726
Sample Variance 3.959184 5.247458 2.855172
Count 50 60 30

România-Polonia
 Formularea ipotezelor
H0: µ1- µ2=0
H1: µ1- µ20 test bilateral
 Stabilirea nivelului de semnificație 
=0.05
 Calcularea elementelor necesare unei decizii
x 1−x 2 s2 s2
 Statistica test z= s
diferența mediilor
x −x
, sx − x = 1 + 2
1 2 n 1 n2
1 2

RO_PL -0.8
RO_BG 0.8
PL_BG 1.6

eroarea standard
RO_PL 0.408217222
RO_BG 0.417559681
PL_BG 0.427352362
s x − x =0.4082
1 2

−0.8
z= =−1.95974
0.4082
zRO_PL= - 1.95974
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

 p-value
n≥30
p=2*(1-
zc>0
Bilateral NORM.S.DIST(zc,1))
zc<0 p=2*NORM.S.DIST(zc,1)
Dreapta p=1-NORM.S.DIST(zc,1)
Stânga p=NORM.S.DIST(zc,1)

p-value==2*NORM.S.DIST(zc,1)=2*NORM.S.DIST(-1.959;1)=0.0501
 Determinarea valorilor critice
Test bilateral, cazul eșantioanelor de volum mare: z/2
=0.05, z/2=1.96 (în fapt valoarea critică este 1.959964)
 Decizia
Valori critice:
Se observă că valoarea calculată (-1.95974) se află între valorile critice,
într-un test bilateral, caz în care ipoteza nulă nu poate fi respinsă. În
concluzie veniturile medii di RO și PL nu diferă semnificativ.
P-value
Se observă că p-value=0.0501>0.05=, caz în care ipoteza nulă nu poate fi
respinsă.

Excel
DataData Analysisz-Test: Two Sample for Means
z-Test: Two Sample for Means

Romania Polonia
Mean 5 5.8
Known Variance 3.959184 5.247458
Observations 50 60
Hypothesized Mean Difference 0
z -1.95974
P(Z<=z) one-tail 0.025013
z Critical one-tail 1.644854
P(Z<=z) two-tail 0.050026
z Critical two-tail 1.959964
zcalculat=-1.95974
zcriritc=1.959964
p-value=0.050026
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

România-Bulgaria
 Formularea ipotezelor
H0: µ1- µ3=0
H1: µ1- µ30 test bilateral

Excel:
z-Test: Two Sample for Means

Romania Bulgaria
Mean 5 4.2
Known Variance 3.959184 2.855172
Observations 50 30
Hypothesized Mean Difference 0
z 1.915894
P(Z<=z) one-tail 0.027689
z Critical one-tail 1.644854
P(Z<=z) two-tail 0.055379
z Critical two-tail 1.959964
 Decizia
Valoare calculată
Zcalculat=1.915
Valori critice: z/2=1.96
Valoarea calculată se află între valorile critice, caz în care ipoteza nulă NU
poate fi respinsă (deci veniturile medii nu diferă semnificativ)

p-value=0.0553>0.05= - ipoteza nulă nu poate fi respinsă


Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Polonia-Bulgaria
 Formularea ipotezelor
H0: µ2- µ3=0
H1: µ2- µ30 test bilateral
Excel:
z-Test: Two Sample for Means

Polonia Bulgaria
Mean 5.8 4.2
Known Variance 5.247458 2.855172
Observations 60 30
Hypothesized Mean Difference 0
z 3.743983
P(Z<=z) one-tail 9.06E-05
z Critical one-tail 1.644854
P(Z<=z) two-tail 0.000181
z Critical two-tail 1.959964
 Decizia
zcalculat=3.74
Valori critice: z/2=1.96
Deoarece valoarea calculată NU se află între valorile critice, ipoteza nulă se
respinge. În concluzie, veniturile medii din PL și BG diferă.

p-value=0.0001<0.05= - aceeași concluzie.

Întrebare: Cum am putea compara o singură dată toate valorile medii


Considerăm k populații, studiate în raport cu aceeași variabilă
cantitativă. Din fiecare populație extragem câte un eșantion de volum n i,
i=1 , k . Notăm cu i, i=1 , k , valoare medie a variabilei în fiecare populație.
Problema care se pune este cea a comparării celor k valori medii.

Etapele unei analize de tip ANOVA


1. Formularea ipotezelor;
Ho: 1=2=...=k;
H1: nu toate mediile sunt egale.
2. Stabilirea nivelului de semnificație ;
3. Calcularea statisticii test (F)
3.1. Calculul elementelor necesare determinării valorii statisticii
test
3.1.1. Calculul mediei și dispersiei fiecărui eșantion x i , s2i , i=1 ,k ;
1 1n x +...+n x
k k
3.1.2. Calculul valorii medii totale x = n +...+n .
1 k
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

3.1.3. Calcul varianței între grupuri ∑ ni ( x i−x )2 .


s2b = i=1
k −1
Observația 1:
k

 Expresia ∑ ni ( x i−x )2 notată cu SSB, poartă numele de suma pătratelor


i=1

între grupuri. Reprezintă suma ponderată a pătratelor abaterilor


mediilor de eșantion de la media totală.
 s2b este o măsură a variabilității mediilor de eșantion în jurul mediei
totale
k k

3.1.4. Calculul varianței în grupuri s2w =


∑ ( ni−1 ) s 2i =∑ ( ni−1 ) s2i
;
i=1 i=1
( n1 +...+nk ) −k n−k
Observația 2:
k

 Expresia ∑ ( ni−1 ) s2i notată cu SSW, poartă numele de suma


i=1

pătratelor în grupuri. Reprezintă suma ponderată a dispersiilor de


eșantion
 sw este o măsură a variabilității valorilor de eșantion în jurul
2

propriei valori valorii medii

Tabelul ANOVA
Tabelul ANOVA este un tabel în care se trec toate elementele calculate la
punctul acesta având următoarea structură:
Suma Grade de Media sumelor
Sursa
pătratelor libertate pătratelor
Între
SSB k–1 s2b =SSB / ( k−1 )
grupuri
În grupuri SSW n–k s2w =SSW / ( n−k )
Total SST=SSB+SSW n–1
3.2. Calcularea statisticii test F;
SSB
2
( k−1 ) s b
F= = 2.
SSW sw
( n−k )
4. Determinarea valorilor critice F; (k-1, n-k)gl;
5. Luarea deciziei: dacă F F; (k-1, n-k)gl ipoteza nulă se respinge în caz
contrar aceasta nu poate fi respinsă.
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Problema 1.
Se compară veniturile medii (exprimate în sute de euro) obținute de
populațiile din RO, PL și BG. Studiul efectuat pe câte un eșantion extras din
populația fiecărei țări a condus la următoarele date:
1-3 3-5 5-7 7-9
RO 10 13 19 8
PL 12 6 18 24
BG 7 15 6 2

Diferă semnificativ veniturile medii ale populațiilor din cele trei țări?

Soluție: n1=50; n2=60; n3=30; n= n1+ n2+ n3=140; k=3


Metoda 1. Calcule
 Formularea ipotezelor
Ho: 1=2=3;
H1: nu toate mediile sunt egale.
 Stabilirea nivelului de semnificație ;
=0.05
 Calcularea statisticii test (F)
 Calculul mediei și dispersiei fiecărui eșantion x i , s2i , i=1,3;
Romania Polonia Bulgaria
Mean 5 5.8 4.2
Standard Error 0.281396 0.295732 0.3085
Standard Deviation 1.98977 2.290733 1.689726
Sample Variance 3.959184 5.247458 2.855172
Count 50 60 30
n1 x 1 + n2 x 2 .+n3 x3
 Calculul valorii medii totale x = n1 +n2 +n3
.
x=5.1 7
n 1 ( x 1−x )2 +n2 ( x 2−x )2 +n3 ( x 3−x )2
 Calcul varianței între grupuri s2b =
k −1
2 2 2
n 1 ( x 1−x ) +n2 ( x 2−x ) +n3 ( x 3−x ) SSB
s2b = =
k −1 k−1
SSB=53.485
k-1=2
53.485
s2b = =26.74 2
2
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

( n1−1 ) s21 + ( n 2−1 ) s 22+ ( n3−1 ) s23


2
 Calculul varianței în grupuri s = w
( n1 +n2 +n3 ) −k
2 2 2
( n1−1 ) s1 + ( n 2−1 ) s 2+ ( n3−1 ) s3 SSW
s2w = =
( n1 +n2 +n3 ) −k n−k
SSW=586.4
n-k=140-3=137
586.4
s2w = =4.2 8
137
 Tabelul ANOVA
Suma Grade de Media sumelor
Sursa
pătratelor libertate pătratelor
Între
53.485 2 26.742
grupuri
În grupuri 586.4 137 4.28
Total 639.885 139
 Calcularea statisticii test F
SSB
2
( k−1 ) s b 26.742
F= = 2 = 4.28 =6.24
SSW sw
( n−k )
Fcalculat=6.24
 Determinarea valorilor critice F; (k-1, n-k)gl
F; (k-1, n-k)gl=F0.05;(2,137)=3.062

Fcritic=3.062
 Decizia
Deoarece Fcalculat>Fcritic, ipoteza nulă se respinge.
În concluzie, cu o probabilitate de 95%, veniturile medii din cele trei tări
diferă.

Observația: Concluzia nu trebuie interpretată în sensul ”toate mediile


diferă” ci cel puțin două.
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Metoda 2: Excel
Data/Data Analysis/ANOVA: Single factor

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Romania 50 250 5 3.959184
Polonia 60 348 5.8 5.247458
Bulgaria 30 126 4.2 2.855172

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 53.48571 2 26.74286 6.247905 0.002531 3.062204
Within Groups 586.4 137 4.280292

Total 639.8857 139

Romania Polonia Bulgaria


Mean 5 5.8 4.2
Standard Error 0.281396 0.295732 0.3085
Standard Deviation 1.98977 2.290733 1.689726
Sample Variance 3.959184 5.247458 2.855172
Count 50 60 30

Suma Grade de Media sumelor


Sursa
pătratelor libertate pătratelor
Între
53.485 2 26.742
grupuri
În grupuri 586.4 137 4.28
Total 639.885 139
Introducere în econometrie Curs 7 Verificarea ipotezelor (3)

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Romania 50 250 5 3.959184
Polonia 60 348 5.8 5.247458
Bulgaria 30 126 4.2 2.855172

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 53.48571 2 26.74286 6.247905 0.002531 3.062204
Within Groups 586.4 137 4.280292

Total 639.8857 139


Fcalculat=6.24
Fcritic=3.06

p-value=0.0025

Problema 2.
Se inițiază un studiu pentru a compara trei zone diferite din punct de
vedere al semnalului GSM. Pentru fiecare zonă este extras câte un eșantion
de volum n=5, acordându-se note de la 0 la 10, datele obținute fiind
următoarele:
Zona 1 Zona 2 Zona 3
7 6 5
8 7 4
6 6 5
5 7 6
7 8 4
Comparați calitatea medie a semnalului din cele două zone.

Soluție – Excel:

S-ar putea să vă placă și