Sunteți pe pagina 1din 17

Selecia modelului

de regresie linear multipl

Norbert Petrovici
NorbertPetrovici@yahoo.com

regresie multipl

Ipoteza: Venitul asteptat per membru de familie este dependent de


Educaie
Gen
Consum
Vrst
Mediu de reziden

variabilele din model

Variabila Dependenta:

Venitul ateptat per membru de familie (se msoar n milioane ROL)


Variabile Independente dummy:

Mediu de reziden poate lua valoarea

Nivel de educaie

0: rural
1: urban

0: nivel de educaie primar sau mediu


1: nivel de educaie superior (colegiu sau facultate)

Gender poate lua valoare

0: femeie
1: brbat

Variabile independente cantitative:

Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL).

Vrsta se msoar n ani mplinii (se msoar n ani).

Surse date: Barometrul de Opinie Public, 2004oct


(pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)

regresie multipl
Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat
Model Summary
Model
1

R
.534a

R Square
.285

Adjusted
R Square
.283

R2 ajustat penalizeaz modelul


dac are mai multe variabile
independente (5 in cazul
nostru), lund n calcul
mrimea eantionului. Este mai
adecvat pentru regresia
multipla

Std. Error of
the Estimate
3.08102

a. Predictors: (Constant), Mediu de rezidenta, Genul,


Vrsta, Educatie, Consum per membru de familie
ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
5631.485
14115.584
19747.069

df
5
1487
1492

Mean Square
1126.297
9.493

F
118.649

Sig.
.000a

Modelul este generalizabil de la


eantion la populaie

a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per


membru de familie
b. Dependent Variable: Venit asteptat per membru de familie

Dreapta de regresie nestand.


Y* = 2.975 + 2,724*X1 - 0,011*X2
+ 0,438*X3 - 0,007*X4 + 1,382*X5

Coefficientsa

Model
1

(Constant)
Educatie
Genul
Consum per membru
de familie
Vrsta
Mediu

Unstandardized
Coefficients
B
Std. Error
2.975
.279
2.714
.278
-.011
.161

Standardized
Coefficients
Beta
.226
-.001

t
10.648
9.749
-.066

Sig.
.000
.000
.947

.438

.032

.321

13.689

.000

-.007
1.382

.005
.168

-.033
.189

-1.496
8.207

.135
.000

a. Dependent Variable: Venit asteptat per membru de familie

Sau standardizat
Y* = 0.226*X1+ 0,001*X2 +
0.321*X3 -0.033*X4 + 0.189*X5
Acesti coefineci nu sunt
semnificativi. Valorile b nu
difera seminficativ de 0, aceste
diferene pot fi puse pe seama
erorilor de eantioanre

regresie multipl
interpretare

Interpretarea coeficientului b

Interpretarea coeficientului a

Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul
unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de
facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).
Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei
consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).

n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat
este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0),
fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul,
i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c
ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]

Coeficientului

Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil
are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c
pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai
unitate de msur: abateri standard.
n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321

efecte directe

Educaie

Gender

Consum

Varsta

Coeficientului

0.22
6

-0.001

0.321

Venit ateptat

-0.033

0.189

Mediu

Indic intensitatea
efectului direct pe care o
are o var. indep. asupra
unei unei var. depend.
n cazul nostru dou
dintre efecte sunt foarte
mici Gender = -0.001 i
Vrst = - 0.033. De aceea
ne ntrebm dac aceti
coeficieni pot fi
generalizai la ntreaga
populaie de pe eantion
Adic ne ntrebm dac
faptul c sunt diferii de 0
nu cumva se datoreaz
distorsiunilor de eantion
(=erorilor de eantionare)
Testul t ne spune c ntradev aceste dou valori
nu sunt semnificative.

Excluderea valorilor nesemnificative

Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz,
simplificnd modelul.
Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari

efecte indirecte
Educaie
3.72
6

Gender

Consum

0.298

Venit ateptat

Varsta
1.629

Mediu

Efectele indirecte

Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se
evalueaz relaiile dintre variabila dependent si celelalte variabile independente
Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin
efectele indirecte asupra variabilelor independente
Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n
acest nou model simplificat

regresie multipl simplificat

Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat


Model Summary

Model
1

R
.533a

R Square
.284

Adjusted
R Square
.283

R2 ajustat a rmas constant, n


ciuda faptului c avem mai
puine variabile. Lucru acesta
indic c am putea avea un
model mai care este la fel de
adecvat, dar mai simplu

Std. Error of
the Estimate
3.08031

a. Predictors: (Constant), Mediu de rezidenta, Educatie,


Consum per membru de familie
ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
5610.062
14137.624
19747.686

df
3
1490
1493

Mean Square
1870.021
9.488

F
197.086

Sig.
.000a

Modelul este generalizabil de la


eantion la populaie

a. Predictors: (Constant), Mediu de rezidenta, Educatie, Consum per membru de


familie

Dreapta de regresie nestand.


Y* = 2.621 + 2,734*X1 + 0,438*X2
+ 1,399*X3

b. Dependent Variable: Venit asteptat per membru de familie

Coefficientsa

Model
1

(Constant)
Educatie
Consum per membru
de familie
Mediu

Unstandardized
Coefficients
B
Std. Error
2.621
.131
2.734
.278

Standardized
Coefficients
Beta
.228

t
19.987
9.844

Sig.
.000
.000

.438

.032

.320

13.688

.000

1.399

.168

.191

8.335

.000

a. Dependent Variable: Venit asteptat per membru de familie

Sau standardizat
Y* = 0.228*X1+ 0,320*X2 +
0.1991*X3
Toti coeficienii b i au
crescut, ceea ce indic efecte
indirecte, dar au crescut foarte
puin (cteva zecimi), ceea ce
indic efecte indirecte mici!

care model de regresie?


principii
Atunci cnd decidem care din modele de regresie pstrm ne uitm la
schimbrile
-coeficieniilor

(pentru a vedea daca exist efecte indirecte)


-i la coeficientul R2 (pentru a vedea cine explic mai mult varia)

i aceasta pentru c vrem ca modelul nostru s fie:


1.
Adecvat (principiul adecvrii)
model s explice ct mai mult din variabila dependent (din
realitate/ din fenomenul studiat)

simplitate (principiul simplitii)


dar aceast explicaie s fie ct mai simpl. Adic ct mai puine
variabile model cu att mai bine.
ns fr a sacrifica prea mult din adecvare (variana explicat sa
nu scad i nici s nu introducem involuntar variabilele n model
prin intermediul efectelor indirecte)

care model de regresie?


selecie

n acest caz al doilea model este mai bun pentru c :


1.
este mai adecvat
-

Coeficientul de determinaie ajustat R2 indic o proporie


identic de varian explicat
Excluderea variabilelor nesemnificative nu au produs efecte
indirecte asupra celorlalte variabile, (tim asta pentru c
valorile ale variabilelor rmase n model au crescut foarte
puin)

este mai simplu

2.
-

Conine mai puine variabile

care model de regresie?


coeficientul de determinaie
n acest caz valorile R2 ajustate sunt identice. ns cum
decidem dac avem o cretere mare sau mic a lui R2.
Adic:
-

Dorim s tim fr dubiu care model de regresie explic mai


mult din variana variabilei de regresie.
respectiv dac exist diferene semnificative ntre diferitele
R2. Putem s facem acest lucru cu ajutorul unui test F aplicat
coeficieniilor de determinaie a diferitelor modele

R2 diferit semnificativ
cum facem?
Pasul 1:
- Specificm primul modelul cu mai
puine variabile independente
(educatie, consum i mediu)
- Apsm pe butonul NEXT pentru a
specifica modelul cu mai multe
variabile

R2 diferit semnificativ
cum facem?
Pasul 2:
- Specificm al doilea model cu mai
multe variabile (educatie, gen,
consum, varsta i mediu)
- Apsm pe butonul Statistics si de
aici solicitm n noua csut de
dialog aprut afisarea R square
change

Model Summary

R2 diferit semnificativ
cum interpretm?
Change Statistics

Model
1
2

R
.533a
.534b

R Square
.284
.285

Adjusted
R Square
.283
.283

Std. Error of
the Estimate
3.08126
3.08102

R Square
Change
.284
.001

F Change
196.972
1.119

df1
3
2

df2
1489
1487

Sig. F Change
.000
.327

a. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie


b. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie, Genul, vrsta

Ni se indic att valorile


R2 si R2 ajustat pentru
cele dou modele
comparate.

De vreme ce Modelul 2
nu explic mai mult din
varian vom merge pe
criteriul simplitii si
vom pstra modelul cu
mai puine variabile (dar
asta doar dac efectele
indirecte ale variabilelor
excluse nu sunt mari)

Ni se indic Schimbrile survenite n mrimea valorilor


R2.
- Modelul 1 s-a schimbat la 0.284 (fa de un model fr
variabile independete, adic doar dac am estima cu
media variana variabilei dependente)
- Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1)
Testul F indic dac sunt semnificative schimbrile:
- Modelul 1 s-a schimbat semnificativ, nivelul de
semnificaie este 0.000, mai mic dect pragul de 0.050
(acest test este chiar testul ANOVA, valorile fiind identice
cu un test anova)
Informatia esenial:
- Modelul 2 nu a adus schimb[ri semnificative n ceea ce
priveste valoarea lui R2 , nivelul de semnificatie fiin 0.327
(mult mai mare dect 0.050, pragul de semnificaie
pentru 95%)

R2 diferit semnificativ
cum interpretm?
Coefficientsa

Model
1

(Constant)
Educatie
Consum per
membru de familie
Mediu
(Constant)
Educatie
Consum per
membru de familie
Mediu
Genul
vrsta

Unstandardized
Coefficients
B
Std. Error
2.621
.131
2.733
.278

Standardized
Coefficients
Beta
.228

t
19.982
9.837

Sig.
.000
.000

.438

.032

.320

13.681

.000

1.400
2.975
2.714

.168
.279
.278

.192
.226

8.338
10.648
9.749

.000
.000
.000

.438

.032

.321

13.689

.000

1.382
-.011
-.007

.168
.161
.005

.189
-.001
-.033

8.207
-.066
-1.496

.000
.947
.135

a. Dependent Variable: Venit asteptat

Cele dou modele se numesc modele ncuibrite


(nested) pentru c cel mai complex l conine pe
cellalt. Testul F de schimbare a lui R2 se poate
aplica doar modelelor ncuibrite

Coeficienii din modeul 1 cu mai


puine variable

Coeficienii din modeul 2 cu mai


multe variable. Putem observa
c pentru variabilele comune
coeficienii b sau sunt foarte
apropiai.

Cum codm variabile din analiz

Variabile cantitative :
Venit

= venit ateptat per membru de familie

miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM
comp venit = incdec/nrmem.
/* crem variabila venit ateptat mprind venitul atepat al
gospodriei (INCDEC) la numrul de membrii din gospodriei
(NRMEM)
miss val venit (120.0).
/* dup ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 120 milioane lei pe lun si o
excludem setnd-o ca missing.
Consum = consum per membru de familie

miss val chel nrmem (98.0, 99.0).


comp consum = chel/nrmem.
miss val consum (100.0).
p0_age = vrsta subiectului

/* setam valorile lipsa NS si NR pentru variabilele chel si nrmem


/* crem variabila consum mprind cheltuielile pe luna trecut (chel)
la numrul de membrii din gospodriei (nrmem)
/* dupa ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 100 milioane lei pe lun si o
excludem setnd-o ca missing.

Cum codm variabile din analiz

Variabile dummy:
Educatie = venit gospodrie per membru de familie

miss val p0_scoal ("99.0").


if (p0_scoal >= 10) educatie = 1.
if (p0_scoal < 10) educatie = 0.

/* setm valorile missing la variabila P0_SCOAL care nregistreaz


educaia.
/* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin
colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n
aceste condiii valoarea 1.
/* cu aceeai comand IF mai punem condiia c dac cineva are o
diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia
valoarea 0.

Gen = gender (0=femeie; 1=brbat)

recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai
i 2 pentru femei. O transformm ntr-o variabil dummy recodnd
valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face
ntr-o nou variabil numit GEN.
Mediu

= tip localitate (0=rural; 1=urban)

S-ar putea să vă placă și