Sunteți pe pagina 1din 9

Unitatea de studiu 5.

MODELE DE REGRESIE CU VARIABILE


ALTERNATIVE
n funcie de rolul i locul pe care l ocup n modelare variabilele alternative (dummy), exist
dou clase mari de modele econometrice: modele cu variabile dummy independente i modele
cu variabile dummy dependente. n acest curs vor fi prezentate doar modelele din prima clas.
Aceste modele, n funcie de numrul i rolul variabilelor care apar n modelul de regresie, se
pot grupa n dou clase de modele:
- modele ANOVA, care au ca variabile independente doar variabile alternative;
- modele ANCOVA, n care, ca variabile independente, se regsesc att variabile
alternative, ct i variabile numerice.
n capitolele care urmeaz vom nota cu D variabilele alternative sau dummy, iar cu X
variabilele independente numerice, cu i parametrii asociai variabilelor independente
alternative, iar cu i parametrii asociai variabilelor independente numerice.

5.1. Modele ANOVA


n modelul clasic de regresie liniar, dac variabila X este nlocuit cu o variabil alternativ,
obinem un model ANOVA, care este definit prin relaia:
Y 0 1 D
Valorile variabilei independente sunt:
- Di 1 , dac se ndeplinete o anumit condiie sau proprietate pentru unitile populaie;
-

Di 0 , dac nu se ndeplinete proprietatea cerut.

Ca o medie condiionat, regresia are urmtoarea form:


0 , Di 0
M(Y / D )
0 1 , Di 1
Interpretarea parametrilor modelului este uor de realizat (aa cum se observ i din figura 1):
- 0 reprezint valoarea medie a variabilei dependente pentru acea categorie de uniti din
populaie care nu ndeplinesc proprietatea prin care se definete variabila dummy;
- 0+1 reprezint valoarea medie a variabilei dependente pentru acea categorie de uniti
din populaie care ndeplinesc proprietatea cerut;
- 1 reprezint diferena dintre mediile celor dou categorii de persoane delimitate de
variabila alternativ. Mai precis, este diferena dintre media grupei care ndeplinete
proprietatea i media grupei care nu ndeplinete proprietatea.

72

Modele de regresie cu variabile alternative

0 1
0

D0

D 1

Figura 1. Regresia n cazul modelului ANOVA


Exist o legtur ntre procedeul de analiz a varianei ANOVA i modelul de regresie
ANOVA: ambele metode permit testarea influenei unui factor care acioneaz la dou sau
mai multe niveluri asupra unei variabile rezultative. Ambele procedee se rezum la testarea
egalitii mediilor a dou sau mai multe grupe de uniti din populaie pentru o variabil de
interes.
Dac populaia este mprit n dou grupe, se utilizeaz modelul de regresie:
Y 0 1 D .
Pentru acest model, notm cu media populaiei pentru variabila de interes, cu 1 media
variabilei dependente pentru prima grup, adic pentru D 0 , i cu 2 media variabilei
dependente pentru a doua grup, adic pentru D 1 , iar 1 2 .
Di 0
0 1 ,
n aceste condiii, regresia este M ( Y / D )
0 1 2 , Di 1
Pentru parametrii modelului se construiesc estimatorii:
0 1
0 1 2

1 2 1
Estimaiile parametrilor modelului sunt:
1
yi ,
n1 i
1
a0 a1 y 2 yi ;
n2 i
a1 y 2 y1 .
a0 y1

Prin variabila alternativ, eantionul este structurat n dou grupe de volum n1, respectiv n2,
cu proprietatea n1 n2 n .

Econometrie Dnu JEMNA

Modele de regresie cu variabile alternative

73

Estimarea parametrului 1 echivaleaz cu estimarea diferenei 2 1 , iar testarea


parametrului nseamn testarea ipotezei H 0 : 1 2 .
Dac populaia este mprit n mai multe grupe, cu ajutorul unei variabile nominale,
utilizarea modelului ANOVA presupune construirea mai multor variabile alternative. Pentru o
variabil nominal cu p variante, se construiesc p-1 variabile alternative. Ca exemplu,
prezentm cazul unei populaii structurate pe trei grupe, ceea ce presupune construirea a dou
variabile dummy, conform tabelului de mai jos.
Grupa
1
2
3

D1
1
0
0

D2
0
1
0

Pentru verificarea diferenelor dintre cele trei grupe, se utilizeaz modelul ANOVA:
Y 0 1 D1 2 D2 .
Pentru acest model, mediile condiionate sunt:
D1 0 , D2 0
0 ,

M ( Y / D ) 0 1 , D1 1, D2 0
, D 0 , D 1
2
1
2
0
Interpretare
- parametrul 0 este media grupei 3, adic 3 ;
- 0 1 este media grupei 1, iar 1 este diferena dintre media grupei 1 i grupa 3, adic
1 3 ;
- 0 2 este media grupei 2, iar 2 este diferena dintre media grupei 2 i grupa 3, adic
2 3 .
Exemplu
Pentru a exemplifica, construim un model de regresie de tip ANOVA pe baza datelor oficiale,
oferite de Anuarul Statistic al Romniei, 2005. Ca variabil dependent, se consider sperana
medie de via a populaiei ntre anii 2002-2004, pe judee. Variabila de structurare a
populaiei este variabila sex. n model, aceast variabil este transformat ntr-o variabil
alternativ de tipul:
D=1, pentru persoanele de gen masculin;
D=0, pentru persoanele de gen feminin.
Modelarea s-a realizat n SPSS i s-au obinut rezultatele din tabelul de mai jos.

Econometrie Dnu JEMNA

74

Modele de regresie cu variabile alternative

Coefficients

gen
(C ons tant)

Uns tandardized
Coefficients
B
Std. Error
-7.414
.243
74.954
.172

Standardized
Coefficients
Beta
-.959

t
-30.551
436.829

Sig.
.000
.000

Modelul ANOVA estimat are urmtoarea expresie:


Y a0 a1 D 74,95 7 ,41D .
Interpretare
- estimaia a0=74,95 ani este sperana de via medie feminin estimat la nivelul unui jude
al Romniei;
- estimaia a0+a1 = 74,95-7,41=67,54 ani este sperana de via medie masculin estimat la
nivelul unui jude al Romniei;
- estimaia a1 = -7,41 ani este estimaia diferenei dintre sperana medie de via masculin i
cea feminin. Valoarea negativ arat c diferena este n defavoarea persoanelor de gen
masculin, adic brbaii triesc n medie cu 7,41 ani mai puin dect femeile.
Testul Student asupra parametrului 1 ne conduce la decizia de a respinge ipoteza nul
1 2 (sperana de via medie pe jude pentru brbai nu difer semnificativ de sperana
medie de via pentru femei). n concluzie, diferena dintre medii este semnificativ, n
favoarea persoanelor de gen feminin.
5.2. Modele ANCOVA
Modelele ANCOVA conin att variabile dummy, ct i variabile numerice.
Vom considera cteva tipuri de modele: cu o variabil alternativ i una cantitativ, cu o
variabil cantitativ i mai multe variabile alternative construite pe baza unei variabile
nominale, cu dou variabile dummy i o variabil numeric.
A. Model cu o variabil alternativ i o variabil cantitativ
Modelul ANCOVA cu o variabil alternativ i o variabil numeric este definit prin relaia:
Y 0 1 D X .
Variabila alternativ mparte populaia n dou categorii de uniti statistice: o grup care
ndeplinete o proprietate (D=1), i cealalt grup care nu respect proprietatea (D=0).
Mediile condiionate sunt:

Econometrie Dnu JEMNA

Modele de regresie cu variabile alternative

75

0 X , D 0
M ( Y / X ,D )
( 0 1 ) X , D 1

Grafic, cele dou regresii sunt dou drepte paralele (au aceeai pant ), dar cu ordonata la
origine diferit (figura 2). Dac, n urma modelrii, rezult c parametrul 1 nu este
semnificativ diferit de zero, atunci rezult c ntre cele dou categorii de uniti din populaie
introduse de variabila dummy nu exist diferene semnificative.
Interpretare parametri:
- 0 este nivelul mediu al variabilei dependente pentru grupa care nu respect proprietatea
impus de variabila alternativ, n condiiile n care X=0;
- 0 1 este nivelul mediu al variabilei dependente pentru grupa care respect proprietatea
impus de variabila alternativ, n condiiile n care X=0;
- 1 este diferena dintre mediile celor dou grupe;
- indic influena variabilei independente numerice asupra variabilei dependente. Este
panta fiecrei drepte de regresie construite pentru fiecare grup de uniti din populaie.

0+1

Figura 2. Regresia n cazul unui model ANCOVA cu o variabil dummy i o variabil


cantitativ
Exemplu
Pentru exemplu, utilizm baza de date Employee Data oferit de SPSS. Ca variabile se
utilizeaz:
- Current Salary ($), variabil dependent (Y);
- Education Level (X, ani) i Gender, variabile independente. Variabila gen a fost
transformat ntr-o variabil alternativ cu numele alt (D) dup regula: D=1, pentru
persoanele de gen masculin, D=0, pentru persoanele de gen feminin.
Modelul ANCOVA utilizat este de forma: Y 0 1 D X . Rezultatele modelrii sunt
prezentate n tabelul de mai jos.

Econometrie Dnu JEMNA

76

Modele de regresie cu variabile alternative


Coefficientsa

Model
1

Uns tandardized
Coefficients
B
Std. Error
(C ons tant)
-15924.5 2711.310
Educational Level (years ) 3391.683
208.599
alt
8423.462 1207.028

Standardized
Coefficients
Beta
.573
.246

t
-5.873
16.259
6.979

Sig.
.000
.000
.000

a. Dependent Variable: C urrent Salary

Pe baza rezultatelor din tabelul Coefficients se obine modelul estimat:


Y 15924,50 8423,46 D 3391,68 X .
Interpretare
a0=-15924,5$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin, n
condiiile n care nivelul studiilor este X=0;
a0 a1 7501,04$ este nivelul mediu estimat al salariului pentru angajaii de sex masculin,
n condiiile n care X=0;
a1=8423,46$ este diferena dintre salariul mediu al brbailor i al femeilor. Valoarea pozitiv
indic un salariu mai mare pentru brbai n medie cu 8423,46$;
b=3391,68$ este creterea salariul mediu al unui angajat, indiferent de gen, la o cretere a
nivelului de educaie cu un an.
B. Model cu o variabil cantitativ i mai multe variabile dummy, pentru o variabil
nominal cu mai multe categorii
Considerm, de exemplu, o variabil nominal cu trei valori. Pentru a face distincia ntre cele
trei grupe de uniti din populaie, se construiesc dou variabile alternative, conform tabelului
de mai jos:
grupa
1
2
3

D1
1
0
0

D2
0
1
0

Modelul de regresie ANCOVA cu o variabil cantitativ i mai multe variabile dummy,


construite pe baza unei variabile nominale, are urmtoarea expresie:
Y 0 1 D1 2 D2 X
Pentru acest model, se obin trei regresii, care au expresiile:
D1 0 , D2 0
0 X ,

M ( Y / X , D1 , D2 ) ( 0 1 ) X , D1 1, D2 0
( ) X , D 0 , D 1
2
1
2
0

Econometrie Dnu JEMNA

77

Modele de regresie cu variabile alternative

Parametrii modelului au urmtoarea semnificaie:


- 0 este media variabilei dependente pentru grupa 3 de uniti din populaie, cnd X=0;
- 1 este diferena dintre media grupei 1 i a grupei 3, pentru variabila dependent, cnd X=0;
- 2 este diferena dintre media grupei 2 i a grupei 3, pentru variabila dependent, cnd X=0;
- este variaia variabilei dependente la o variaie de o unitate a variabilei cantitative X.
Prin modelare, se obin trei drepte de regresie paralele, cte una pentru fiecare dintre cele trei
categorii de populaie determinate de variabila nominal. Diferenele dintre regresii sunt date
de ordonata la origine, panta fiind aceeai.
Exemplu
Utilizm baza de date Employee Data oferit de SPSS. Variabilele modelului sunt:
- Current Salary ($), variabil dependent (Y);
- Education Level (X, ani) i Employment category, variabile independente. Variabila
nominal are trei valori: Clerical, Custodial, Manager. Pentru aceast variabil construim
dou variabile alternative, D1 i D2, conform tabelului de mai jos.
grupa
Manager
Clerical
Custodial

D1
0
1
0

D2
0
0
1

Pentru modelul de regresie ANCOVA Y 0 1 D1 2 D2 X , s-au obinut


estimaiile din tabelul Coefficients.
Coefficientsa

Model
1

Uns tandardized
Coefficients
B
Std. Error
(C ons tant)
32225.054 3485.798
Educational Level (years ) 1840.739
193.326
D1
-28072.7 1409.011
D2
-20034.4 2469.266

Standardized
Coefficients
Beta
.311
-.697
-.272

t
9.245
9.521
-19.924
-8.114

Sig.
.000
.000
.000
.000

a. Dependent Variable: C urrent Salary

Modelul estimat are relaia:


Y 32225,05 28072,7 D1 20034,4 D2 1840,7 X .
Interpretare
a0=32225,05$ este nivelul mediu estimat al salariului pentru persoanele din categoria
Manager, n condiiile n care nivelul studiilor este X=0;
a1=-28072,7$ este diferena dintre salariul mediu estimat al salariailor din categoria Clerical
i Manager. Valoarea negativ indic o diferen n favoarea salariailor din categoria
Manager (salariul mediu al angajailor Manager este mai mare cu 28072,7$ dect cel al
salariailor Clerical).

Econometrie Dnu JEMNA

78

Modele de regresie cu variabile alternative

a2=-20034,4$ este estimaia diferenei salariului mediu al angajailor Custodial i cel al


angajailor Manager. Salariul managerilor este mai mare cu 28072,7$ dect cel al angajailor
din categoria Custodial.
b=1841,7$ este creterea medie a salariului unui angajat, dac nivelul de educaie crete cu un
an;
a0+ a1=32225,05 - 28072,7=4152,35$ este salariul mediu estimat pentru angajaii din
categoria Clerical, dac X=0;
a0+ a2=32225,05 - 20034,4=12190,65$ este salariul mediu estimat pentru angajaii din
categoria Custodial, dac X=0;
C. Model cu o variabil alternativ i dou variabile cantitative
Un model de acest tip este:
Y 0 1 D1 1 X 1 2 X 2
n acest caz, pentru valorile variabilei alternative rezult dou regresii:
D0
0 1 X 1 2 X 2 ,
M(Y / X1, X 2 ,D )
( 0 1 ) 1 X 1 2 X 2 , D 1
Parametrul 1 este diferena dintre media celor dou grupe de uniti delimitate de variabila
dummy, n condiiile n care influena celor dou variabile independente este nul.
Exemplu
Dac la modelul de la punctul A adugm variabila Beginning Salary, obinem un model
ANCOVA cu dou variabile numerice. Rezultatele modelrii n SPSS sunt prezentate n
tabelul de mai jos.
Coefficientsa

Model
1

Uns tandardized
Coefficients
B
Std. Error
(C ons tant)
-7598.567 1751.791
Educational Level (years ) 989.673
160.822
alt
1593.494
809.611
Beginning Salary
1.634
.062

Standardized
Coefficients
Beta
.167
.047
.753

t
-4.338
6.154
1.968
26.384

Sig.
.000
.000
.050
.000

a. Dependent Variable: C urrent Salary

Estimaia a1, asociat variabilei alternative alt (care grupeaz unitile populaiei pe dou
grupe dup gen), are valoarea 1593,49$ i este estimaia diferenei dintre salariul mediu
pentru brbai i pentru femei, fr influena variabilelor numerice. Valoarea estimaiei este
pozitiv i arat c salariaii de gen masculin ctig n medie cu 1593,49$ mai mult dect
salariaii de gen feminin. Celelalte dou estimaii arat influena fiecrei variabile
independente asupra celei dependente.
D. Model cu dou variabile alternative i o variabil cantitativ
n acest model, cele dou variabile alternative structureaz populaia n patru grupe de uniti,
dup dou criterii diferite. Acest tip de model are ecuaia:
Econometrie Dnu JEMNA

79

Modele de regresie cu variabile alternative

Y 0 1 D1 2 D2 X

Pentru valorile celor dou variabile alternative, rezult patru regresii:


D1 0 , D2 0
0 X ,
( ) X ,
D1 1, D2 0
0
1
M ( Y / X , D1 , D2 )
D1 0 , D2 1
( 0 2 ) X ,
( 0 1 2 ) X , D1 1, D2 1
Exemplu
n modelul de la punctul A, pe lng variabila care grupeaz populaia dup gen, utilizm nc
o variabil alternativ care grupeaz populaia n dou grupe: o grup de salariai manageri i
o grup cu restul salariailor.
Variabila dummy este D1=1, pentru angajaii de gen masculin, i D1=0, pentru angajaii de
gen feminin. Variabila D2=1, pentru angajaii manager, iar D2=0, pentru angajaii care nu au
funcia de manager.
Pentru modelul ANCOVA Y 0 1 D1 2 D2 X , n SPSS, s-au obinut rezultatele:
Coefficientsa

Model
1

Uns tandardized
Coefficients
B
Std. Error
(C ons tant)
12929.611 2815.916
Educational Level (years ) 2574.795
174.932
alt
3320.315 1019.199
man
-19659.0 1217.231

Standardized
Coefficients
Beta
.435
.097
-.488

t
4.592
14.719
3.258
-16.151

Sig.
.000
.000
.001
.000

a. Dependent Variable: C urrent Salary

Interpretare
a0=12929,61$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin care
nu sunt manager, n condiiile n care nivelul studiilor este X=0;
a0+a1=16249,92$ este nivelul mediu estimat al salariului pentru persoanele de gen masculin
care nu sunt manager, pentru X=0;
a0+a2= -6729,39$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin
care sunt manager, pentru X=0;
a0+a1+a2= -3409,08$ este nivelul mediu estimat al salariului pentru persoanele de gen
masculin, manager, pentru X=0;
a1=3320,31$ este nivelul mediu estimat al diferenei dintre salariului pentru persoanele de
gen masculin care nu sunt manager i persoanele de gen feminin care nu sunt manager;
a2=-19659$ este nivelul mediu estimat al diferenei dintre salariului pentru persoanele de gen
feminin care sunt manager i persoanele de gen feminin care nu sunt manager;
b=2574,79$ este creterea medie a salariului unui angajat la o cretere a nivelului de educaie
cu un an de studii.

Econometrie Dnu JEMNA

S-ar putea să vă placă și