Sunteți pe pagina 1din 12

Unitatea de studiu 5.

MODELE DE REGRESIE CU VARIABILE


ALTERNATIVE

Cuprins unitate
5.1 Modele ANOVA
5.2 Modele ANCOVA

Obiective
- definirea variabilelor alternative şi prezentarea rolului lor în modelare
- prezentarea tipurilor de modele cu variabile alternative
- demersul metodologic pentru modelele ANOVA
- demersul metodologic pentru modelele ANCOVA

Competenţe
- înţelegerea rolului şi locului variabilelor alternative în econometrie
- însuşirea metodologiei de construcţie a modelelor ANOVA şi ANCOVA
- capacitatea de a înţelege şi utiliza proprietăţile acestor modelelor
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 6 h

Bibliografie selectivă
1. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

2. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

3. Kmenta, J., Elements of Econometrics, MacMillan Publishing, 1986

4. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001


72 Modele de regresie cu variabile alternative

În funcţie de rolul şi locul pe care îl ocupă în modelare variabilele alternative (dummy), există
două clase mari de modele econometrice: modele cu variabile dummy independente şi modele
cu variabile dummy dependente. În acest curs vor fi prezentate doar modelele din prima clasă.
Aceste modele, în funcţie de numărul şi rolul variabilelor care apar în modelul de regresie, se
pot grupa în două clase de modele:
- modele ANOVA, care au ca variabile independente doar variabile alternative;
- modele ANCOVA, în care, ca variabile independente, se regăsesc atât variabile
alternative, cât şi variabile numerice.

În capitolele care urmează vom nota cu D variabilele alternative sau dummy, iar cu X
variabilele independente numerice, cu  i parametrii asociaţi variabilelor independente
alternative, iar cu  i parametrii asociaţi variabilelor independente numerice.

5.1. Modele ANOVA

În modelul clasic de regresie liniară, dacă variabila X este înlocuită cu o variabilă alternativă,
obţinem un model ANOVA, care este definit prin relaţia:
Y  0  1  D  

Valorile variabilei independente sunt:


- Di  1 , dacă se îndeplineşte o anumită condiţie sau proprietate pentru unităţile populaţie;
- Di  0 , dacă nu se îndeplineşte proprietatea cerută.

Ca o medie condiţionată, regresia are următoarea formă:


 0 , Di  0
M(Y / D )  
 0   1 , Di  1

Interpretarea parametrilor modelului este uşor de realizat (aşa cum se observă şi din figura 1):
- 0 reprezintă valoarea medie a variabilei dependente pentru acea categorie de unităţi din
populaţie care nu îndeplinesc proprietatea prin care se defineşte variabila dummy;
- 0+1 reprezintă valoarea medie a variabilei dependente pentru acea categorie de unităţi
din populaţie care îndeplinesc proprietatea cerută;
- 1 reprezintă diferenţa dintre mediile celor două categorii de persoane delimitate de
variabila alternativă. Mai precis, este diferenţa dintre media grupei care îndeplineşte
proprietatea şi media grupei care nu îndeplineşte proprietatea.

Econometrie – Dănuţ JEMNA


Modele de regresie cu variabile alternative 73

0  1
0

 
D0 D 1

Figura 1. Regresia în cazul modelului ANOVA

Există o legătură între procedeul de analiză a varianţei ANOVA şi modelul de regresie


ANOVA: ambele metode permit testarea influenţei unui factor care acţionează la două sau
mai multe niveluri asupra unei variabile rezultative. Ambele procedee se rezumă la testarea
egalităţii mediilor a două sau mai multe grupe de unităţi din populaţie pentru o variabilă de
interes.

Dacă populaţia este împărţită în două grupe, se utilizează modelul de regresie:


Y  0  1  D   .

Pentru acest model, notăm cu  media populaţiei pentru variabila de interes, cu  1 media
variabilei dependente pentru prima grupă, adică pentru D  0 , şi cu  2 media variabilei
dependente pentru a doua grupă, adică pentru D  1 , iar   1   2 .

 0  1 , Di  0
În aceste condiţii, regresia este M ( Y / D )  
 0   1   2 , Di  1
Pentru parametrii modelului se construiesc estimatorii:
ˆ 0  ˆ 1
ˆ 0  ˆ 1  ˆ 2
ˆ 1  ˆ 2  ˆ 1
Estimaţiile parametrilor modelului sunt:
1
a0  y1 
n1 i
 yi ,
1
a0  a1  y 2   yi ;
n2 i
a1  y2  y1 .

Prin variabila alternativă, eşantionul este structurat în două grupe de volum n1, respectiv n2,
cu proprietatea n1  n2  n .

Econometrie – Dănuţ JEMNA


74 Modele de regresie cu variabile alternative

Estimarea parametrului  1 echivalează cu estimarea diferenţei  2  1 , iar testarea


parametrului înseamnă testarea ipotezei H 0 : 1  2 .

Dacă populaţia este împărţită în mai multe grupe, cu ajutorul unei variabile nominale,
utilizarea modelului ANOVA presupune construirea mai multor variabile alternative. Pentru o
variabilă nominală cu p variante, se construiesc p-1 variabile alternative. Ca exemplu,
prezentăm cazul unei populaţii structurate pe trei grupe, ceea ce presupune construirea a două
variabile dummy, conform tabelului de mai jos.

Grupa D1 D2
1 1 0
2 0 1
3 0 0

Pentru verificarea diferenţelor dintre cele trei grupe, se utilizează modelul ANOVA:
Y   0   1 D1   2 D2   .

Pentru acest model, mediile condiţionate sunt:


 0 , D1  0 , D2  0

M ( Y / D )   0   1 , D1  1, D2  0
   , D  0 , D  1
 0 2 1 2

Interpretare
- parametrul  0 este media grupei 3, adică  3 ;
-  0   1 este media grupei 1, iar  1 este diferenţa dintre media grupei 1 şi grupa 3, adică
1   3 ;
-  0   2 este media grupei 2, iar  2 este diferenţa dintre media grupei 2 şi grupa 3, adică
2  3 .

Exemplu
Pentru a exemplifica, construim un model de regresie de tip ANOVA pe baza datelor oficiale,
oferite de Anuarul Statistic al României, 2005. Ca variabilă dependentă, se consideră speranţa
medie de viaţă a populaţiei între anii 2002-2004, pe judeţe. Variabila de structurare a
populaţiei este variabila sex. În model, această variabilă este transformată într-o variabilă
alternativă de tipul:
D=1, pentru persoanele de gen masculin;
D=0, pentru persoanele de gen feminin.

Modelarea s-a realizat în SPSS şi s-au obţinut rezultatele din tabelul de mai jos.

Econometrie – Dănuţ JEMNA


Modele de regresie cu variabile alternative 75

Coefficients

Uns tandardized Standardized


Coefficients Coefficients
B Std. Error Beta t Sig.
gen -7.414 .243 -.959 -30.551 .000
(C ons tant) 74.954 .172 436.829 .000

Modelul ANOVA estimat are următoarea expresie:


Y  a0  a1 D  74,95  7 ,41D .

Interpretare
- estimaţia a0=74,95 ani este speranţa de viaţă medie feminină estimată la nivelul unui judeţ
al României;
- estimaţia a0+a1 = 74,95-7,41=67,54 ani este speranţa de viaţă medie masculină estimată la
nivelul unui judeţ al României;
- estimaţia a1 = -7,41 ani este estimaţia diferenţei dintre speranţa medie de viaţă masculină şi
cea feminină. Valoarea negativă arată că diferenţa este în defavoarea persoanelor de gen
masculin, adică bărbaţii trăiesc în medie cu 7,41 ani mai puţin decât femeile.

Testul Student asupra parametrului  1 ne conduce la decizia de a respinge ipoteza nulă


 1   2 (speranţa de viaţă medie pe judeţ pentru bărbaţi nu diferă semnificativ de speranţa
medie de viaţă pentru femei). În concluzie, diferenţa dintre medii este semnificativă, în
favoarea persoanelor de gen feminin.

5.2. Modele ANCOVA

Modelele ANCOVA conţin atât variabile dummy, cât şi variabile numerice.

Vom considera câteva tipuri de modele: cu o variabilă alternativă şi una cantitativă, cu o


variabilă cantitativă şi mai multe variabile alternative construite pe baza unei variabile
nominale, cu două variabile dummy şi o variabilă numerică.

A. Model cu o variabilă alternativă şi o variabilă cantitativă

Modelul ANCOVA cu o variabilă alternativă şi o variabilă numerică este definit prin relaţia:
Y   0   1 D  X   .

Variabila alternativă împarte populaţia în două categorii de unităţi statistice: o grupă care
îndeplineşte o proprietate (D=1), şi cealaltă grupă care nu respectă proprietatea (D=0).

Mediile condiţionate sunt:

Econometrie – Dănuţ JEMNA


76 Modele de regresie cu variabile alternative

 0  X , D  0
M ( Y / X ,D )  
(  0   1 )  X , D  1

Grafic, cele două regresii sunt două drepte paralele (au aceeaşi pantă ), dar cu ordonata la
origine diferită (figura 2). Dacă, în urma modelării, rezultă că parametrul 1 nu este
semnificativ diferit de zero, atunci rezultă că între cele două categorii de unităţi din populaţie
introduse de variabila dummy nu există diferenţe semnificative.

Interpretare parametri:
-  0 este nivelul mediu al variabilei dependente pentru grupa care nu respectă proprietatea
impusă de variabila alternativă, în condiţiile în care X=0;
-  0   1 este nivelul mediu al variabilei dependente pentru grupa care respectă proprietatea
impusă de variabila alternativă, în condiţiile în care X=0;
-  1 este diferenţa dintre mediile celor două grupe;
-  indică influenţa variabilei independente numerice asupra variabilei dependente. Este
panta fiecărei drepte de regresie construite pentru fiecare grupă de unităţi din populaţie.


0+1


0
X
Figura 2. Regresia în cazul unui model ANCOVA cu o variabilă dummy şi o variabilă
cantitativă

Exemplu
Pentru exemplu, utilizăm baza de date Employee Data oferită de SPSS. Ca variabile se
utilizează:
- Current Salary ($), variabilă dependentă (Y);
- Education Level (X, ani) şi Gender, variabile independente. Variabila gen a fost
transformată într-o variabilă alternativă cu numele alt (D) după regula: D=1, pentru
persoanele de gen masculin, D=0, pentru persoanele de gen feminin.

Modelul ANCOVA utilizat este de forma: Y   0   1 D  X   . Rezultatele modelării sunt


prezentate în tabelul de mai jos.

Econometrie – Dănuţ JEMNA


Modele de regresie cu variabile alternative 77

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -15924.5 2711.310 -5.873 .000
Educational Level (years ) 3391.683 208.599 .573 16.259 .000
alt 8423.462 1207.028 .246 6.979 .000
a. Dependent Variable: C urrent Salary

Pe baza rezultatelor din tabelul Coefficients se obţine modelul estimat:


Y  15924,50  8423,46 D  3391,68 X .

Interpretare
a0=-15924,5$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin, în
condiţiile în care nivelul studiilor este X=0;
a0  a1  7501,04$ este nivelul mediu estimat al salariului pentru angajaţii de sex masculin,
în condiţiile în care X=0;

a1=8423,46$ este diferenţa dintre salariul mediu al bărbaţilor şi al femeilor. Valoarea pozitivă
indică un salariu mai mare pentru bărbaţi în medie cu 8423,46$;

b=3391,68$ este creşterea salariul mediu al unui angajat, indiferent de gen, la o creştere a
nivelului de educaţie cu un an.

B. Model cu o variabilă cantitativă şi mai multe variabile dummy, pentru o variabilă


nominală cu mai multe categorii

Considerăm, de exemplu, o variabilă nominală cu trei valori. Pentru a face distincţia între cele
trei grupe de unităţi din populaţie, se construiesc două variabile alternative, conform tabelului
de mai jos:

grupa D1 D2
1 1 0
2 0 1
3 0 0

Modelul de regresie ANCOVA cu o variabilă cantitativă şi mai multe variabile dummy,


construite pe baza unei variabile nominale, are următoarea expresie:
Y   0   1 D1   2 D2  X  

Pentru acest model, se obţin trei regresii, care au expresiile:


 0  X , D1  0 , D2  0

M ( Y / X , D1 , D2 )  (  0   1 )  X , D1  1, D2  0
(    )  X , D  0 , D  1
 0 2 1 2

Econometrie – Dănuţ JEMNA


78 Modele de regresie cu variabile alternative

Parametrii modelului au următoarea semnificaţie:


-  0 este media variabilei dependente pentru grupa 3 de unităţi din populaţie, când X=0;
-  1 este diferenţa dintre media grupei 1 şi a grupei 3, pentru variabila dependentă, când X=0;
-  2 este diferenţa dintre media grupei 2 şi a grupei 3, pentru variabila dependentă, când X=0;
-  este variaţia variabilei dependente la o variaţie de o unitate a variabilei cantitative X.

Prin modelare, se obţin trei drepte de regresie paralele, câte una pentru fiecare dintre cele trei
categorii de populaţie determinate de variabila nominală. Diferenţele dintre regresii sunt date
de ordonata la origine, panta fiind aceeaşi.

Exemplu
Utilizăm baza de date Employee Data oferită de SPSS. Variabilele modelului sunt:
- Current Salary ($), variabilă dependentă (Y);
- Education Level (X, ani) şi Employment category, variabile independente. Variabila
nominală are trei valori: Clerical, Custodial, Manager. Pentru această variabilă construim
două variabile alternative, D1 şi D2, conform tabelului de mai jos.

grupa D1 D2
Manager 0 0
Clerical 1 0
Custodial 0 1

Pentru modelul de regresie ANCOVA Y   0   1 D1   2 D2  X   , s-au obţinut


estimaţiile din tabelul Coefficients.

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) 32225.054 3485.798 9.245 .000
Educational Level (years ) 1840.739 193.326 .311 9.521 .000
D1 -28072.7 1409.011 -.697 -19.924 .000
D2 -20034.4 2469.266 -.272 -8.114 .000
a. Dependent Variable: C urrent Salary

Modelul estimat are relaţia:


Y  32225,05  28072,7 D1  20034,4 D2  1840,7 X .

Interpretare
a0=32225,05$ este nivelul mediu estimat al salariului pentru persoanele din categoria
Manager, în condiţiile în care nivelul studiilor este X=0;
a1=-28072,7$ este diferenţa dintre salariul mediu estimat al salariaţilor din categoria Clerical
şi Manager. Valoarea negativă indică o diferenţă în favoarea salariaţilor din categoria
Manager (salariul mediu al angajaţilor Manager este mai mare cu 28072,7$ decât cel al
salariaţilor Clerical).

Econometrie – Dănuţ JEMNA


Modele de regresie cu variabile alternative 79

a2=-20034,4$ este estimaţia diferenţei salariului mediu al angajaţilor Custodial şi cel al


angajaţilor Manager. Salariul managerilor este mai mare cu 28072,7$ decât cel al angajaţilor
din categoria Custodial.
b=1841,7$ este creşterea medie a salariului unui angajat, dacă nivelul de educaţie creşte cu un
an;
a0+ a1=32225,05 - 28072,7=4152,35$ este salariul mediu estimat pentru angajaţii din
categoria Clerical, dacă X=0;
a0+ a2=32225,05 - 20034,4=12190,65$ este salariul mediu estimat pentru angajaţii din
categoria Custodial, dacă X=0;

C. Model cu o variabilă alternativă şi două variabile cantitative


Un model de acest tip este:
Y   0   1 D1   1 X 1   2 X 2  

În acest caz, pentru valorile variabilei alternative rezultă două regresii:


 0   1 X 1   2 X 2 , D0
M(Y / X1, X 2 ,D )  
(  0   1 )   1 X 1   2 X 2 , D  1

Parametrul  1 este diferenţa dintre media celor două grupe de unităţi delimitate de variabila
dummy, în condiţiile în care influenţa celor două variabile independente este nulă.

Exemplu
Dacă la modelul de la punctul A adăugăm variabila Beginning Salary, obţinem un model
ANCOVA cu două variabile numerice. Rezultatele modelării în SPSS sunt prezentate în
tabelul de mai jos.

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -7598.567 1751.791 -4.338 .000
Educational Level (years ) 989.673 160.822 .167 6.154 .000
alt 1593.494 809.611 .047 1.968 .050
Beginning Salary 1.634 .062 .753 26.384 .000
a. Dependent Variable: C urrent Salary

Estimaţia a1, asociată variabilei alternative alt (care grupează unităţile populaţiei pe două
grupe după gen), are valoarea 1593,49$ şi este estimaţia diferenţei dintre salariul mediu
pentru bărbaţi şi pentru femei, fără influenţa variabilelor numerice. Valoarea estimaţiei este
pozitivă şi arată că salariaţii de gen masculin câştigă în medie cu 1593,49$ mai mult decât
salariaţii de gen feminin. Celelalte două estimaţii arată influenţa fiecărei variabile
independente asupra celei dependente.

D. Model cu două variabile alternative şi o variabilă cantitativă


În acest model, cele două variabile alternative structurează populaţia în patru grupe de unităţi,
după două criterii diferite. Acest tip de model are ecuaţia:

Econometrie – Dănuţ JEMNA


80 Modele de regresie cu variabile alternative

Y   0   1 D1   2 D2  X  

Pentru valorile celor două variabile alternative, rezultă patru regresii:


 0  X , D1  0 , D2  0
(    )  X , D1  1, D2  0
 0 1
M ( Y / X , D1 , D2 )  
(  0   2 )  X , D1  0 , D2  1
(  0   1   2 )  X , D1  1, D2  1

Exemplu
În modelul de la punctul A, pe lângă variabila care grupează populaţia după gen, utilizăm încă
o variabilă alternativă care grupează populaţia în două grupe: o grupă de salariaţi manageri şi
o grupă cu restul salariaţilor.

Variabila dummy este D1=1, pentru angajaţii de gen masculin, şi D1=0, pentru angajaţii de
gen feminin. Variabila D2=1, pentru angajaţii manager, iar D2=0, pentru angajaţii care nu au
funcţia de manager.

Pentru modelul ANCOVA Y   0   1 D1   2 D2  X   , în SPSS, s-au obţinut rezultatele:

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) 12929.611 2815.916 4.592 .000
Educational Level (years ) 2574.795 174.932 .435 14.719 .000
alt 3320.315 1019.199 .097 3.258 .001
man -19659.0 1217.231 -.488 -16.151 .000
a. Dependent Variable: C urrent Salary

Interpretare
a0=12929,61$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin care
nu sunt manager, în condiţiile în care nivelul studiilor este X=0;
a0+a1=16249,92$ este nivelul mediu estimat al salariului pentru persoanele de gen masculin
care nu sunt manager, pentru X=0;
a0+a2= -6729,39$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin
care sunt manager, pentru X=0;
a0+a1+a2= -3409,08$ este nivelul mediu estimat al salariului pentru persoanele de gen
masculin, manager, pentru X=0;
a1=3320,31$ este nivelul mediu estimat al diferenţei dintre salariului pentru persoanele de
gen masculin care nu sunt manager şi persoanele de gen feminin care nu sunt manager;
a2=-19659$ este nivelul mediu estimat al diferenţei dintre salariului pentru persoanele de gen
feminin care sunt manager şi persoanele de gen feminin care nu sunt manager;
b=2574,79$ este creşterea medie a salariului unui angajat la o creştere a nivelului de educaţie
cu un an de studii.

Econometrie – Dănuţ JEMNA


Modele de regresie cu variabile alternative 81

Test1
1. Analiza influenţei nivelului educaţiei (primar, mediu, superior) asupra venitului se poate
realiza cu ajutorul:
a) metodei analizei statisticii descriptive
b) unui model ANOVA cu 3 variabile dummy
c) unui model ANOVA cu 2 variabile dummy
d) unui model ANCOVA

2. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
salariu (lei), la nivelul unui eşantion de firme, în anul 2005, se prezintă în tabelul de mai jos.
Coefficientsa

Uns tandardi zed Standardized


Coeffi ci ents Coeffi ci ents
Model B Std. Error Beta t Sig.
1 (Cons tant) 26031.921 1038.710 25.062 .000
gen 15409.862 1407.906 .450 10.945 .000
a. Dependent Vari abl e: Salariu

Salariul mediu estimat pentru persoanele de gen masculin este:


a) 26031,92 lei
b) 1407,96 lei
c) 41441,78 lei

3. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
salariu (lei), la nivelul unui eşantion de firme, în anul 2005, se prezintă în tabelul de mai jos.
Coefficientsa

Uns tandardi zed Standardized


Coeffi ci ents Coeffi ci ents
Model B Std. Error Beta t Sig.
1 (Cons tant) 26031.921 1038.710 25.062 .000
gen 15409.862 1407.906 .450 10.945 .000
a. Dependent Vari abl e: Salariu

Diferenţa dintre salariul mediu estimat al persoanele de gen masculin şi cel al persoanelor de
gen feminin este:
a) 26031,92 lei
b) 15409,86 lei
c) 41441,78 lei

4. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
speranţa medie de viaţă a populaţiei între anii 2002-2004, pe judeţe, se prezintă în tabelul de
mai jos.

1 Rezultate test: 1 – c; 2 – c; 3 – b; 4 – a,c,d; 5 – a,b,c,d

Econometrie – Dănuţ JEMNA


82 Modele de regresie cu variabile alternative

Coefficients

Uns tandardized Standardized


Coefficients Coefficients
B Std. Error Beta t Sig.
gen -7.414 .243 -.959 -30.551 .000
(C ons tant) 74.954 .172 436.829 .000

Sunt corecte răspunsurile:


a) ecuaţia mmodelului estimat este: Y  74,95  7 ,41D
b) estimaţia a0=74,95 ani este speranţa de viaţă medie masculină estimată la nivelul unui
judeţ al României
c) estimaţia a0+a1 = 74,95-7,41=67,54 ani este speranţa de viaţă medie masculină estimată la
nivelul unui judeţ al României
d) estimaţia a1 = -7,41 ani este estimaţia diferenţei dintre speranţa medie de viaţă masculină şi
cea feminină

5. Rezultatele modelării pentru variabilele gen (alt=0, pentru feminin, alt=1 pentru masculin),
nivelul de educaţie (ani) şi nivelul salariului ($), pentru un eşantion de angajaţi, se prezintă în
tabelul de mai jos.
Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -15924.5 2711.310 -5.873 .000
Educational Level (years ) 3391.683 208.599 .573 16.259 .000
alt 8423.462 1207.028 .246 6.979 .000
a. Dependent Variable: C urrent Salary

Sunt corecte afirmaţiile:


a) a0=-15924,5$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin, în
condiţiile în care nivelul studiilor este X=0
b) a1=8423,46$ este diferenţa dintre salariul mediu al bărbaţilor şi al femeilor
c) b=3391,68$ este creşterea salariul mediu al unui angajat, indiferent de gen, la o creştere a
nivelului de educaţie cu un an
d) un salariat de gen feminin câştigă în medie cu 8423,46$ mai puţin decât un angajat de sex
masculin

Econometrie – Dănuţ JEMNA

S-ar putea să vă placă și