Cuprins unitate
5.1 Modele ANOVA
5.2 Modele ANCOVA
Obiective
- definirea variabilelor alternative şi prezentarea rolului lor în modelare
- prezentarea tipurilor de modele cu variabile alternative
- demersul metodologic pentru modelele ANOVA
- demersul metodologic pentru modelele ANCOVA
Competenţe
- înţelegerea rolului şi locului variabilelor alternative în econometrie
- însuşirea metodologiei de construcţie a modelelor ANOVA şi ANCOVA
- capacitatea de a înţelege şi utiliza proprietăţile acestor modelelor
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare
Termen mediu: 6 h
Bibliografie selectivă
1. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009
În funcţie de rolul şi locul pe care îl ocupă în modelare variabilele alternative (dummy), există
două clase mari de modele econometrice: modele cu variabile dummy independente şi modele
cu variabile dummy dependente. În acest curs vor fi prezentate doar modelele din prima clasă.
Aceste modele, în funcţie de numărul şi rolul variabilelor care apar în modelul de regresie, se
pot grupa în două clase de modele:
- modele ANOVA, care au ca variabile independente doar variabile alternative;
- modele ANCOVA, în care, ca variabile independente, se regăsesc atât variabile
alternative, cât şi variabile numerice.
În capitolele care urmează vom nota cu D variabilele alternative sau dummy, iar cu X
variabilele independente numerice, cu i parametrii asociaţi variabilelor independente
alternative, iar cu i parametrii asociaţi variabilelor independente numerice.
În modelul clasic de regresie liniară, dacă variabila X este înlocuită cu o variabilă alternativă,
obţinem un model ANOVA, care este definit prin relaţia:
Y 0 1 D
Interpretarea parametrilor modelului este uşor de realizat (aşa cum se observă şi din figura 1):
- 0 reprezintă valoarea medie a variabilei dependente pentru acea categorie de unităţi din
populaţie care nu îndeplinesc proprietatea prin care se defineşte variabila dummy;
- 0+1 reprezintă valoarea medie a variabilei dependente pentru acea categorie de unităţi
din populaţie care îndeplinesc proprietatea cerută;
- 1 reprezintă diferenţa dintre mediile celor două categorii de persoane delimitate de
variabila alternativă. Mai precis, este diferenţa dintre media grupei care îndeplineşte
proprietatea şi media grupei care nu îndeplineşte proprietatea.
0 1
0
D0 D 1
Pentru acest model, notăm cu media populaţiei pentru variabila de interes, cu 1 media
variabilei dependente pentru prima grupă, adică pentru D 0 , şi cu 2 media variabilei
dependente pentru a doua grupă, adică pentru D 1 , iar 1 2 .
0 1 , Di 0
În aceste condiţii, regresia este M ( Y / D )
0 1 2 , Di 1
Pentru parametrii modelului se construiesc estimatorii:
ˆ 0 ˆ 1
ˆ 0 ˆ 1 ˆ 2
ˆ 1 ˆ 2 ˆ 1
Estimaţiile parametrilor modelului sunt:
1
a0 y1
n1 i
yi ,
1
a0 a1 y 2 yi ;
n2 i
a1 y2 y1 .
Prin variabila alternativă, eşantionul este structurat în două grupe de volum n1, respectiv n2,
cu proprietatea n1 n2 n .
Dacă populaţia este împărţită în mai multe grupe, cu ajutorul unei variabile nominale,
utilizarea modelului ANOVA presupune construirea mai multor variabile alternative. Pentru o
variabilă nominală cu p variante, se construiesc p-1 variabile alternative. Ca exemplu,
prezentăm cazul unei populaţii structurate pe trei grupe, ceea ce presupune construirea a două
variabile dummy, conform tabelului de mai jos.
Grupa D1 D2
1 1 0
2 0 1
3 0 0
Pentru verificarea diferenţelor dintre cele trei grupe, se utilizează modelul ANOVA:
Y 0 1 D1 2 D2 .
Interpretare
- parametrul 0 este media grupei 3, adică 3 ;
- 0 1 este media grupei 1, iar 1 este diferenţa dintre media grupei 1 şi grupa 3, adică
1 3 ;
- 0 2 este media grupei 2, iar 2 este diferenţa dintre media grupei 2 şi grupa 3, adică
2 3 .
Exemplu
Pentru a exemplifica, construim un model de regresie de tip ANOVA pe baza datelor oficiale,
oferite de Anuarul Statistic al României, 2005. Ca variabilă dependentă, se consideră speranţa
medie de viaţă a populaţiei între anii 2002-2004, pe judeţe. Variabila de structurare a
populaţiei este variabila sex. În model, această variabilă este transformată într-o variabilă
alternativă de tipul:
D=1, pentru persoanele de gen masculin;
D=0, pentru persoanele de gen feminin.
Modelarea s-a realizat în SPSS şi s-au obţinut rezultatele din tabelul de mai jos.
Coefficients
Interpretare
- estimaţia a0=74,95 ani este speranţa de viaţă medie feminină estimată la nivelul unui judeţ
al României;
- estimaţia a0+a1 = 74,95-7,41=67,54 ani este speranţa de viaţă medie masculină estimată la
nivelul unui judeţ al României;
- estimaţia a1 = -7,41 ani este estimaţia diferenţei dintre speranţa medie de viaţă masculină şi
cea feminină. Valoarea negativă arată că diferenţa este în defavoarea persoanelor de gen
masculin, adică bărbaţii trăiesc în medie cu 7,41 ani mai puţin decât femeile.
Modelul ANCOVA cu o variabilă alternativă şi o variabilă numerică este definit prin relaţia:
Y 0 1 D X .
Variabila alternativă împarte populaţia în două categorii de unităţi statistice: o grupă care
îndeplineşte o proprietate (D=1), şi cealaltă grupă care nu respectă proprietatea (D=0).
0 X , D 0
M ( Y / X ,D )
( 0 1 ) X , D 1
Grafic, cele două regresii sunt două drepte paralele (au aceeaşi pantă ), dar cu ordonata la
origine diferită (figura 2). Dacă, în urma modelării, rezultă că parametrul 1 nu este
semnificativ diferit de zero, atunci rezultă că între cele două categorii de unităţi din populaţie
introduse de variabila dummy nu există diferenţe semnificative.
Interpretare parametri:
- 0 este nivelul mediu al variabilei dependente pentru grupa care nu respectă proprietatea
impusă de variabila alternativă, în condiţiile în care X=0;
- 0 1 este nivelul mediu al variabilei dependente pentru grupa care respectă proprietatea
impusă de variabila alternativă, în condiţiile în care X=0;
- 1 este diferenţa dintre mediile celor două grupe;
- indică influenţa variabilei independente numerice asupra variabilei dependente. Este
panta fiecărei drepte de regresie construite pentru fiecare grupă de unităţi din populaţie.
0+1
0
X
Figura 2. Regresia în cazul unui model ANCOVA cu o variabilă dummy şi o variabilă
cantitativă
Exemplu
Pentru exemplu, utilizăm baza de date Employee Data oferită de SPSS. Ca variabile se
utilizează:
- Current Salary ($), variabilă dependentă (Y);
- Education Level (X, ani) şi Gender, variabile independente. Variabila gen a fost
transformată într-o variabilă alternativă cu numele alt (D) după regula: D=1, pentru
persoanele de gen masculin, D=0, pentru persoanele de gen feminin.
Coefficientsa
Interpretare
a0=-15924,5$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin, în
condiţiile în care nivelul studiilor este X=0;
a0 a1 7501,04$ este nivelul mediu estimat al salariului pentru angajaţii de sex masculin,
în condiţiile în care X=0;
a1=8423,46$ este diferenţa dintre salariul mediu al bărbaţilor şi al femeilor. Valoarea pozitivă
indică un salariu mai mare pentru bărbaţi în medie cu 8423,46$;
b=3391,68$ este creşterea salariul mediu al unui angajat, indiferent de gen, la o creştere a
nivelului de educaţie cu un an.
Considerăm, de exemplu, o variabilă nominală cu trei valori. Pentru a face distincţia între cele
trei grupe de unităţi din populaţie, se construiesc două variabile alternative, conform tabelului
de mai jos:
grupa D1 D2
1 1 0
2 0 1
3 0 0
Prin modelare, se obţin trei drepte de regresie paralele, câte una pentru fiecare dintre cele trei
categorii de populaţie determinate de variabila nominală. Diferenţele dintre regresii sunt date
de ordonata la origine, panta fiind aceeaşi.
Exemplu
Utilizăm baza de date Employee Data oferită de SPSS. Variabilele modelului sunt:
- Current Salary ($), variabilă dependentă (Y);
- Education Level (X, ani) şi Employment category, variabile independente. Variabila
nominală are trei valori: Clerical, Custodial, Manager. Pentru această variabilă construim
două variabile alternative, D1 şi D2, conform tabelului de mai jos.
grupa D1 D2
Manager 0 0
Clerical 1 0
Custodial 0 1
Coefficientsa
Interpretare
a0=32225,05$ este nivelul mediu estimat al salariului pentru persoanele din categoria
Manager, în condiţiile în care nivelul studiilor este X=0;
a1=-28072,7$ este diferenţa dintre salariul mediu estimat al salariaţilor din categoria Clerical
şi Manager. Valoarea negativă indică o diferenţă în favoarea salariaţilor din categoria
Manager (salariul mediu al angajaţilor Manager este mai mare cu 28072,7$ decât cel al
salariaţilor Clerical).
Parametrul 1 este diferenţa dintre media celor două grupe de unităţi delimitate de variabila
dummy, în condiţiile în care influenţa celor două variabile independente este nulă.
Exemplu
Dacă la modelul de la punctul A adăugăm variabila Beginning Salary, obţinem un model
ANCOVA cu două variabile numerice. Rezultatele modelării în SPSS sunt prezentate în
tabelul de mai jos.
Coefficientsa
Estimaţia a1, asociată variabilei alternative alt (care grupează unităţile populaţiei pe două
grupe după gen), are valoarea 1593,49$ şi este estimaţia diferenţei dintre salariul mediu
pentru bărbaţi şi pentru femei, fără influenţa variabilelor numerice. Valoarea estimaţiei este
pozitivă şi arată că salariaţii de gen masculin câştigă în medie cu 1593,49$ mai mult decât
salariaţii de gen feminin. Celelalte două estimaţii arată influenţa fiecărei variabile
independente asupra celei dependente.
Y 0 1 D1 2 D2 X
Exemplu
În modelul de la punctul A, pe lângă variabila care grupează populaţia după gen, utilizăm încă
o variabilă alternativă care grupează populaţia în două grupe: o grupă de salariaţi manageri şi
o grupă cu restul salariaţilor.
Variabila dummy este D1=1, pentru angajaţii de gen masculin, şi D1=0, pentru angajaţii de
gen feminin. Variabila D2=1, pentru angajaţii manager, iar D2=0, pentru angajaţii care nu au
funcţia de manager.
Coefficientsa
Interpretare
a0=12929,61$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin care
nu sunt manager, în condiţiile în care nivelul studiilor este X=0;
a0+a1=16249,92$ este nivelul mediu estimat al salariului pentru persoanele de gen masculin
care nu sunt manager, pentru X=0;
a0+a2= -6729,39$ este nivelul mediu estimat al salariului pentru persoanele de gen feminin
care sunt manager, pentru X=0;
a0+a1+a2= -3409,08$ este nivelul mediu estimat al salariului pentru persoanele de gen
masculin, manager, pentru X=0;
a1=3320,31$ este nivelul mediu estimat al diferenţei dintre salariului pentru persoanele de
gen masculin care nu sunt manager şi persoanele de gen feminin care nu sunt manager;
a2=-19659$ este nivelul mediu estimat al diferenţei dintre salariului pentru persoanele de gen
feminin care sunt manager şi persoanele de gen feminin care nu sunt manager;
b=2574,79$ este creşterea medie a salariului unui angajat la o creştere a nivelului de educaţie
cu un an de studii.
Test1
1. Analiza influenţei nivelului educaţiei (primar, mediu, superior) asupra venitului se poate
realiza cu ajutorul:
a) metodei analizei statisticii descriptive
b) unui model ANOVA cu 3 variabile dummy
c) unui model ANOVA cu 2 variabile dummy
d) unui model ANCOVA
2. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
salariu (lei), la nivelul unui eşantion de firme, în anul 2005, se prezintă în tabelul de mai jos.
Coefficientsa
3. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
salariu (lei), la nivelul unui eşantion de firme, în anul 2005, se prezintă în tabelul de mai jos.
Coefficientsa
Diferenţa dintre salariul mediu estimat al persoanele de gen masculin şi cel al persoanelor de
gen feminin este:
a) 26031,92 lei
b) 15409,86 lei
c) 41441,78 lei
4. Rezultatele modelării pentru variabilele gen (0, pentru feminin, 1 pentru masculin) şi
speranţa medie de viaţă a populaţiei între anii 2002-2004, pe judeţe, se prezintă în tabelul de
mai jos.
Coefficients
5. Rezultatele modelării pentru variabilele gen (alt=0, pentru feminin, alt=1 pentru masculin),
nivelul de educaţie (ani) şi nivelul salariului ($), pentru un eşantion de angajaţi, se prezintă în
tabelul de mai jos.
Coefficientsa