Sunteți pe pagina 1din 21

ECONOMETRIE - 2011 -

Tematic C8
Modele de regresie cu variabile alternative

Modele ANOVA Modele ANCOVA

Aplicaii ale modelelor ANOVA i ANCOVA


Variabilele alternative (dummy) sunt variabile categoriale care pot lua doar dou valori. Acestor dou valori li se acord, de regul, dou coduri: codul 1 i codul 0.

Exemplu: - sexul persoanei: masculin i feminin.

MODELE ANOVA (I)


Modelele ANOVA sunt modelele n care variabilele independente sunt variabile dummy. Variabilele dummy vor fi notate cu D, iar parametrii asociai acestora cu ai. Forma general a modelului ANOVA cu variabile dummy este: Y= a0+ a1D+

Valorile variabilei independente sunt: Di=1, dac se ndeplinete o anumit condiie sau proprietate pentru uniti; Di=0, dac nu se ndeplinete proprietatea.
De exemplu, pentru variabila D = sexul persoanei, valorile sunt: -Di=1 pentru persoanele de sex masculin, -Di=0 pentru persoanele de sex feminin.
-M(Y/D)=

a0, Di=0 a0 + a1, Di=1

MODELE ANOVA (II)


Interpretarea parametrilor - a0 este nivelul mediu al variabilei Y pentru categoria Di=0; a0+a1 arat nivelul mediu al variabilei Y pentru categoria Di=1; a1 arat cu ct difer nivelul mediu al variabilei Y n funcie de cele dou categorii (diferena dintre nivelul mediu al variabilei Y pentru categoria 1 i nivelul mediu al variabilei Y pentru categoria 0).

n situaia n care nu exist nici o diferen semnificativ ntre valoarea medie a variabilei Y, obinut pentru variabila dummy cnd D = 0 i valoarea medie a variabile Y cnd D = 1, variabila dummy nu exercit o influen semnificativ asupra variabilei Y.

MODELE ANOVA (III)


Pentru o populaie mprit n dou grupe, se utilizeaz modelul de regresie: Y= a0+ a1D+ Notm cu: - 1 media variabilei pentru prima grup (Di=0); - 2 media variabilei pentru a doua grup (Di=1); Regresia este: M(Y/D)= a0 = 1, Di=0 a0 + a1 = 2, Di=1 Pentru parametrii modelului se construiesc estimatorii:

0 1
0 1 2

1 2 1

MODELE ANOVA (IV)


Estimaiile parametrilor modelului sunt:
a0 y 1 y1 n1

a0 a1 y 2

y2 n2

a1 y 2 y 1
unde n1 este volumul eantionului pentru prima grup, iar n2 este volumul eantionului pentru a doua grup. Estimarea parametrului 1 echivaleaz cu estimarea diferenei 1-2, iar testarea parametrului echivaleaz cu testarea ipotezei H0: 1=2

MODELE ANOVA (V)


Exemplu: Pentru un eantion format din 10 persoane, se nregistreaz salariul lunar obinut (mil.lei/lun) pe sexe (1- masculin; 0 feminin).
Salariu (mil.lei)
15 10 9 17 11 18

Sexul persoanei
1 0 0 1 0 1

17
12 11 19

1
0 0 1

MODELE ANOVA (VI)


n urma prelucrrii datelor s-au obinut urmtoarele rezultate: Estimarea parametrilor modelului : Yi=10,6+6,6Di
a Coe fficients

Model 1

(Cons tant) sexul

Unstandardiz ed Coefficients B Std. Error 10,600 ,592 6,600 ,837

Standardized Coefficients Beta ,941

t 17,917 7,889

Sig. ,000 ,000

a. Dependent Variable: salariu

Valorile estimate ale parametrilor: - salariului mediu corespunztor persoanelor de sex feminin este de 10,6 mil. lei/lun (estimaia lui a0). - diferena dintre salariul mediu al persoanelor de sex masculin i salariul mediu al persoanelor de sex feminin este de 6,6 mil.lei/lun (estimaia lui a1 ) iar nivelul mediu al salariului persoanelor de sex masculin este de 17,2 mil. lei/lun (estimaia lui a0+ a1).

MODELE ANOVA (VII)


Testarea semnificaiei parametrilor - att pentru parametrul 0 ct i pentru parametrul a1 avem sig.< 5% => respingem H0 cu un risc asumat de 5%. Din tabelele de mai jos rezult c intensitatea legturii dintre variabile, msurat prin R, este de 0,941, iar raportul de corelaie difer semnificativ de zero (sig. < 0.05).
Model Summ ary Model 1 R R Square a ,941 ,886 Adjusted R Square ,872 Std. Error of the Estimate 1,32288

a. Predictors: (Constant), sexul

ANOVAb Model 1 Sum of Squares 108,900 14,000 122,900 df 1 8 9 Mean Square 108,900 1,750 F 62,229 Sig. ,000 a

Regression Residual Total

a. Predictors: (Constant), sexul b. Dependent Variable: s alariu

MODELE ANOVA (VIII)


Pentru o populaie mprit n trei grupe cu ajutorul unei variabile nominale, construirea unui model de regresie ANOVA presupune construirea mai multor variabile alternative. Dac variabila nominal are p categorii, atunci se vor construi p-1 variabile alternative. De exemplu, pentru o variabil nominal cu 3 categorii, care mparte populaia n 3 grupe, cele dou variabilele dummy, D1 i D2, se construiesc astfel: Grupa 1 2 3 D1 1 0 0 D2 0 1 0

Pentru verificarea diferenelor dintre cele trei grupe se utilizeaz modelul ANOVA: Y = 0+1D1+2D2+.

MODELE ANOVA (IX)


Mediile condiionate sunt: M(Y/D)= 0, D1=0, D2=0 0+1, D1=1, D2=0 0+2, D1=0, D2=1 Interpretare Parametrul 0 este media grupei 3, adic 3; 0+1 este media grupei 1, adic 1; 0+2 este media grupei 2, adic 2; 1 este diferena dintre grupa 1 i grupa 3, 1- 3; 2 este diferena dintre grupa 2 i grupa 3, 2- 3.

MODELE ANOVA (X)


Exemplu Se consider legtura dintre venitul persoanelor i nivelul de educaie. Variabila nivelul de educaie are trei categorii: gimnazial, liceal i universitar. Pentru a analiza legtura dintre venit i educaie se construiesc dou variabile dummy, gimnazial i liceal:

Grupa Gimnazial Liceal Universitar

D1 1 0 0

D2 0 1 0

MODELE ANOVA (XI)


a Coe fficients

Model 1

(Cons tant) gimnaz ial liceal

Unstandardiz ed Coef f icients B Std. Error 12.000 .626 -7.667 .921 -4.500 .857

Standardized Coef f icients Beta -1.016 -.641

t 19.178 -8.324 -5.252

Sig. .000 .000 .000

a. Dependent Variable: venit

Ecuaia estimat a modelului este: Y = 12-7.667D1-4.5D2+. Interpretare: -a0: venitul mediu pentru persoanele cu studii universitare; -a1: diferena dintre veniturile medii ale persoanelor cu studii gimnaziale i universitare; -a2: diferena dintre veniturile medii ale persoanelor cu studii liceale i universitare; -a0+a1=12-7.667=4.333: venitul mediu pentru persoanele cu studii gimnaziale; -a0+a2=12-4.5=7.5: venitul mediu pentru persoanele cu studii liceale.

Recapitulare
Se consider legtura dintre Rata mortalitii i PIB.

Model Sum m ary and Param ete r Es tim ate s Dependent V ariable: Inf ant mortality (deaths per 1000 live births ) Equation Linear Inverse Quadratic Compound Pow er R Square .410 .585 .553 .670 .759 Model Summary F df 1 74.383 1 151.115 1 65.513 2 217.516 1 336.253 1 df 2 107 107 106 107 107 Sig. .000 .000 .000 .000 .000 Parameter Es timates Cons tant b1 b2 64.365 -.004 22.263 20504.941 79.588 -.012 4.30E-007 57.088 1.000 3755.157 -.628

The independent v ariable is PIB

Coe fficients Unstandardiz ed Coef f icients B Std. Error -.012 .001 4.30E-007 .000 79.588 4.233 Standardized Coef f icients Beta -2.030 1.440

PIB PIB ** 2 (Cons tant)

t -8.199 5.816 18.803

Sig. .000 .000 .000

Coe fficients Unstandardiz ed Coef f icients B Std. Error -.628 .034 3755.157 1029.735 Standardized Coef f icients Beta -.871

ln(PIB) (Cons tant)

t -18.337 3.647

Sig. .000 .000

The dependent v ariable is ln(Mortalitatea inf antila).

Coe fficients Unstandardiz ed Coef f icients B Std. Error 1.000 .000 57.088 4.388 Standardized Coef f icients Beta .441

PIB (Cons tant)

t 113380.2 13.011

Sig. .000 .000

The dependent v ariable is ln(Mortalitatea inf antila).

Coe fficients Unstandardiz ed Coef f icients B Std. Error -.004 .000 64.365 3.802 Standardized Coef f icients Beta -.640

PIB (Cons tant)

t -8.625 16.927

Sig. .000 .000

Coe fficients Unstandardiz ed Coef f icients B Std. Error 20504.941 1668.031 22.263 2.868 Standardized Coef f icients Beta .765

1 / PIB (Cons tant)

t 12.293 7.762

Sig. .000 .000

Model Summ ary R .871 R Square .759 Adjusted R Square .756 Std. Error of the Estimate .508

The independent v ariable is PIB

ANOVA Sum of Squares 86.842 27.634 114.476 df 1 107 108 Mean Square 86.842 .258 F 336.253 Sig. .000

Regression Residual Total

The independent variable is PIB

Cor relations Mortalitate a inf antila 1 109 -.640** .000 109 PIB -.640** .000 109 1 109

Mortalitatea inf antila

PIB

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is s ignif icant at the 0.01 level (2-tailed).

a Coe fficients

Model 1

(Constant) PIB Aportul de calorii

Unstandardized Coefficients B Std. Error 166.295 18.184 -.001 .001 -.041 .007

Standardized Coefficients Beta -.244 -.594

t 9.145 -2.241 -5.463

Sig. .000 .028 .000

95% Confidence Interval for B Correlations Low er Bound Upper Bound Zero-order Partial 130.047 202.544 -.002 .000 -.690 -.255 -.055 -.026 -.777 -.541

Part -.161 -.392

a. Dependent Variable: Mortalitatea infantila

Model Sum m ary Change Statistics Model 1 2 R .690 a .793 b R Square .476 .629 Adjusted R Square .469 .619 Std. Error of the Estimate 28.2360 23.9049 R Square Change .476 .154 F Change 66.237 29.849 df 1 1 1 df 2 73 72 Sig. F Change .000 .000

a. Predictors: (Constant), PIB b. Predictors: (Constant), PIB, Aportul de calorii

Cor relations Control Variables A portul de c alorii PIB 1.000 . 0 -.255 .028 72 Mortalitatea inf antila -.255 .028 72 1.000 . 0

PIB

Mortalitatea inf antila

Correlation Signif icance (2-tailed) df Correlation Signif icance (2-tailed) df

Se consider modelul de regresie de forma: Y=0+1X1+2X2+3X3+. Modelul de regresie este: a) liniar multiplu b) neliniar multiplu c) polinomial d) cu patru variabile independente La nivelul unui eantion de autoturisme s-a studiat legtura dintre variabilele Puterea motorului (cai putere), Numrul de cilindri (X1, cilindri) i Greutatea autoturismului (X2, sute kg.). Rezultatele modelrii sunt prezentate n tabelul de mai jos.
a Coe fficients

Model 1

(Cons tant) Greutate autoturism Numar cilindri

Unstandardiz ed Coef f icients B Std. Error -13.286 3.392 .025 .002 7.803 1.217

Standardized Coef f icients Beta .554 .347

t -3.917 10.242 6.410

Sig. .000 .000 .000

a. Dependent Variable: Puterea motorului

Care dintre urmtoarele afirmaii sunt corecte: a) Ecuaia estimat este Y=-13,286+0,025X1+7,803X2 b) Modelul de regresie explic semnificativ variaia Puterii motorului; c) Parametrul 2 nu este semnificativ; d) Creterea greutii autoturismului cu o sut de kg. determin o cretere medie a puterii motorului cu 0,025 C.P.

Pentru analiza legaturii dintre rata fertilitatii si PIB s-a obtinut tabelul de mai jos. Care dintre urmatoarele afirmatii sunt corecte?
ANOVA Sum of Squares 86.842 27.634 114.476 df 1 107 108 Mean Square 86.842 .258 F 336.253 Sig. .000

Regression Residual Total

The independent variable is PIB

75.86% din variatia PIB-ului este explicata prin variatia ratei fertilitatii b) PIB-ul influenteaza semnificativ variatia ratei fertilitatii c) raportul de determinatie este semnificativ statistic d) modelul de regresie are 2 parametri e) volumul esantionului este 108 f) raportul de corelatie arata o legatura de intensitate medie intre variabile
a)

Pentru analiza legaturii dintre PIB ($/locuitor) si rata mortalitatii infantile (%) s-a obtinut tabelul de coeficienti de mai jos. Care dintre afirmatiile urmatoare sunt corecte, pentru un risc asumat de 5%?

Coe fficients Unstandardiz ed Coef f icients B Std. Error 1.000 .000 57.088 4.388 Standardized Coef f icients Beta .441

PIB (Cons tant)

t 113380.2 13.011

Sig. .000 .000

The dependent v ariable is ln(Mortalitatea inf antila).

a)Ecuatia

estimata este: Y = 57.088*X1 b)Parametrul 0 este semnificativ, pentru un risc asumat de 5% c)Ecuatia estimata este Y = 57.088*1X d)Ecuatia estimata este lnY = 57.088 + 1*lnX e)Rata medie a mortalitatii este de 57.088% pentru un PIB de 0 $/locuitor

S-ar putea să vă placă și