Sunteți pe pagina 1din 17

Selecia modelului

de regresie linear multipl


Norbert Petrovici
NorbertPetrovici@yahoo.com

Ipoteza: Venitul asteptat per membru de familie este
dependent de
Educaie
Gen
Consum
Vrst
Mediu de reziden

regresie multipl
Variabila Dependenta:
Venitul ateptat per membru de familie (se msoar n milioane ROL)

Variabile Independente dummy:
Mediu de reziden poate lua valoarea
0: rural
1: urban

Nivel de educaie
0: nivel de educaie primar sau mediu
1: nivel de educaie superior (colegiu sau facultate)

Gender poate lua valoare
0: femeie
1: brbat

Variabile independente cantitative:
Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL).
Vrsta se msoar n ani mplinii (se msoar n ani).

Surse date: Barometrul de Opinie Public, 2004oct
(pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)
variabilele din model
Coefficients
a
2.975 .279 10.648 .000
2.714 .278 .226 9.749 .000
-.011 .161 -.001 -.066 .947
.438 .032 .321 13.689 .000
-.007 .005 -.033 -1.496 .135
1.382 .168 .189 8.207 .000
(Constant)
Educati e
Genul
Consum per membru
de fami l i e
Vrsta
Medi u
Model
1
B Std. Error
Unstandardi zed
Coeffi ci ents
Beta
Standardi zed
Coeffi ci ents
t Si g.
Dependent Vari abl e: Venit asteptat per membru de fami l i e
a.
ANOVA
b
5631.485 5 1126.297 118.649 .000
a
14115.584 1487 9.493
19747.069 1492
Regressi on
Resi dual
Total
Model
1
Sum of
Squares df Mean Square F Si g.
Predi ctors: (Constant), Medi u de rezi denta, Genul , Vrsta, Educati e, Consum per
membru de fami l i e
a.
Dependent Vari abl e: Veni t asteptat per membru de famil i e
b.
Model Summary
.534
a
.285 .283 3.08102
Model
1
R R Square
Adj usted
R Square
Std. Error of
the Esti mate
Predi ctors: (Constant), Medi u de rezi denta, Genul ,
Vrsta, Educati e, Consum per membru de fami l i e
a.
Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat
R
2
ajustat penalizeaz modelul
dac are mai multe variabile
independente (5 in cazul
nostru), lund n calcul
mrimea eantionului. Este mai
adecvat pentru regresia
multipla
Dreapta de regresie nestand.
Y* = 2.975 + 2,724*X
1
- 0,011*X
2
+ 0,438*X
3
- 0,007*X
4
+ 1,382*X
5

Sau standardizat
Y* = 0.226*X
1
+ 0,001*X
2
+
0.321*X
3
-0.033*X
4
+ 0.189*X
5
Modelul este generalizabil de la
eantion la populaie
Acesti coefineci nu sunt
semnificativi. Valorile b nu
difera seminficativ de 0, aceste
diferene pot fi puse pe seama
erorilor de eantioanre
regresie multipl

Interpretarea coeficientului b
Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul
unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de
facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).
Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei
consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).

Interpretarea coeficientului a
n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat
este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0),
fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul,
i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c
ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]

Coeficientului
Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil
are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c
pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai
unitate de msur: abateri standard.
n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321
regresie multipl
interpretare
Venit ateptat
Educaie
Gender
Consum
Varsta
Mediu
0.226
-0.001
0.321
-0.033
0.189

Coeficientului
Indic intensitatea
efectului direct pe care o
are o var. indep. asupra
unei unei var. depend.
n cazul nostru dou
dintre efecte sunt foarte
mici Gender = -0.001 i
Vrst = - 0.033. De aceea
ne ntrebm dac aceti
coeficieni pot fi
generalizai la ntreaga
populaie de pe eantion
Adic ne ntrebm dac
faptul c sunt diferii de 0
nu cumva se datoreaz
distorsiunilor de eantion
(=erorilor de eantionare)
Testul t ne spune c ntr-
adev aceste dou valori
nu sunt semnificative.

Excluderea valorilor nesemnificative
Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz,
simplificnd modelul.
Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari
efecte directe
Venit ateptat
Educaie
Gender
Consum
Varsta
Mediu
3.726
0.298
1.629

Efectele indirecte
Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se
evalueaz relaiile dintre variabila dependent si celelalte variabile independente
Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin
efectele indirecte asupra variabilelor independente
Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n
acest nou model simplificat
efecte indirecte
Model Summary
.533
a
.284 .283 3.08031
Model
1
R R Square
Adj usted
R Square
Std. Error of
the Esti mate
Predi ctors: (Constant), Medi u de rezi denta, Educati e,
Consum per membru de fami li e
a.
ANOVA
b
5610.062 3 1870.021 197.086 .000
a
14137.624 1490 9.488
19747.686 1493
Regressi on
Resi dual
Total
Model
1
Sum of
Squares df Mean Square F Si g.
Predi ctors: (Constant), Medi u de rezi denta, Educati e, Consum per membru de
fami l i e
a.
Dependent Vari abl e: Veni t asteptat per membru de famil i e
b.
Coefficients
a
2.621 .131 19.987 .000
2.734 .278 .228 9.844 .000
.438 .032 .320 13.688 .000
1.399 .168 .191 8.335 .000
(Constant)
Educati e
Consum per membru
de fami l i e
Medi u
Model
1
B Std. Error
Unstandardi zed
Coeffi ci ents
Beta
Standardi zed
Coeffi ci ents
t Si g.
Dependent Vari abl e: Venit asteptat per membru de fami l i e
a.
R
2
ajustat a rmas constant, n
ciuda faptului c avem mai
puine variabile. Lucru acesta
indic c am putea avea un
model mai care este la fel de
adecvat, dar mai simplu
Dreapta de regresie nestand.
Y* = 2.621 + 2,734*X
1
+ 0,438*X
2
+ 1,399*X
3

Sau standardizat
Y* = 0.228*X
1
+ 0,320*X
2
+
0.1991*X
3
Modelul este generalizabil de la
eantion la populaie
Toti coeficienii b i au
crescut, ceea ce indic efecte
indirecte, dar au crescut foarte
puin (cteva zecimi), ceea ce
indic efecte indirecte mici!
Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat
regresie multipl simplificat
Atunci cnd decidem care din modele de regresie pstrm ne uitm la
schimbrile

-coeficieniilor (pentru a vedea daca exist efecte indirecte)
-i la coeficientul R
2
(pentru a vedea cine explic mai mult varia)

i aceasta pentru c vrem ca modelul nostru s fie:
1. Adecvat (principiul adecvrii)
model s explice ct mai mult din variabila dependent (din
realitate/ din fenomenul studiat)

simplitate (principiul simplitii)
dar aceast explicaie s fie ct mai simpl. Adic ct mai puine
variabile model cu att mai bine.
ns fr a sacrifica prea mult din adecvare (variana explicat sa
nu scad i nici s nu introducem involuntar variabilele n model
prin intermediul efectelor indirecte)
care model de regresie?
principii

n acest caz al doilea model este mai bun pentru c :
1. este mai adecvat
- Coeficientul de determinaie ajustat R
2
indic o proporie
identic de varian explicat
- Excluderea variabilelor nesemnificative nu au produs efecte
indirecte asupra celorlalte variabile, (tim asta pentru c
valorile ale variabilelor rmase n model au crescut foarte
puin)

2. este mai simplu
- Conine mai puine variabile


care model de regresie?
selecie
n acest caz valorile R
2
ajustate sunt identice. ns cum
decidem dac avem o cretere mare sau mic a lui R
2.
Adic:
- Dorim s tim fr dubiu care model de regresie explic mai
mult din variana variabilei de regresie.
- respectiv dac exist diferene semnificative ntre diferitele
R
2.
Putem s facem acest lucru cu ajutorul unui test F aplicat
coeficieniilor de determinaie a diferitelor modele

care model de regresie?
coeficientul de determinaie
R
2
diferit semnificativ
cum facem?
Pasul 1:
- Specificm primul modelul cu mai
puine variabile independente
(educatie, consum i mediu)
- Apsm pe butonul NEXT pentru a
specifica modelul cu mai multe
variabile
R
2
diferit semnificativ
cum facem?
Pasul 2:
- Specificm al doilea model cu mai
multe variabile (educatie, gen,
consum, varsta i mediu)
- Apsm pe butonul Statistics si de
aici solicitm n noua csut de
dialog aprut afisarea R square
change
Model Summary
.533
a
.284 .283 3.08126 .284 196.972 3 1489 .000
.534
b
.285 .283 3.08102 .001 1.119 2 1487 .327
Model
1
2
R R Square
Adjusted
R Square
Std. Error of
the Esti mate
R Square
Change F Change df1 df2 Si g. F Change
Change Statisti cs
Predi ctors: (Constant), Medi u, Educati e, Consum per membru de fami l i e
a.
Predi ctors: (Constant), Medi u, Educati e, Consum per membru de fami l i e, Genul , vrsta
b.
Ni se indic att valorile
R
2
si R
2
ajustat pentru
cele dou modele
comparate.
Ni se indic Schimbrile survenite n mrimea valorilor
R2.

- Modelul 1 s-a schimbat la 0.284 (fa de un model fr
variabile independete, adic doar dac am estima cu
media variana variabilei dependente)
- Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1)


Testul F indic dac sunt semnificative schimbrile:
- Modelul 1 s-a schimbat semnificativ, nivelul de
semnificaie este 0.000, mai mic dect pragul de 0.050
(acest test este chiar testul ANOVA, valorile fiind identice
cu un test anova)
Informatia esenial:
- Modelul 2 nu a adus schimb[ri semnificative n ceea ce
priveste valoarea lui R
2
, nivelul de semnificatie fiin 0.327
(mult mai mare dect 0.050, pragul de semnificaie pentru
95%)
R
2
diferit semnificativ
cum interpretm?
De vreme ce Modelul 2
nu explic mai mult din
varian vom merge pe
criteriul simplitii si
vom pstra modelul cu
mai puine variabile (dar
asta doar dac efectele
indirecte ale variabilelor
excluse nu sunt mari)
Coefficients
a
2.621 .131 19.982 .000
2.733 .278 .228 9.837 .000
.438 .032 .320 13.681 .000
1.400 .168 .192 8.338 .000
2.975 .279 10.648 .000
2.714 .278 .226 9.749 .000
.438 .032 .321 13.689 .000
1.382 .168 .189 8.207 .000
-.011 .161 -.001 -.066 .947
-.007 .005 -.033 -1.496 .135
(Constant)
Educati e
Consum per
membru de fami l ie
Medi u
(Constant)
Educati e
Consum per
membru de fami l ie
Medi u
Genul
vrsta
Model
1
2
B Std. Error
Unstandardi zed
Coeffi ci ents
Beta
Standardi zed
Coeffi ci ents
t Si g.
Dependent Vari abl e: Veni t asteptat
a.
R
2
diferit semnificativ
cum interpretm?
Coeficienii din modeul 1 cu
mai puine variable
Coeficienii din modeul 2 cu
mai multe variable. Putem
observa c pentru variabilele
comune coeficienii b sau
sunt foarte apropiai.
Cele dou modele se numesc modele ncuibrite
(nested) pentru c cel mai complex l conine pe
cellalt. Testul F de schimbare a lui R
2
se poate
aplica doar modelelor ncuibrite
Variabile cantitative :
Venit = venit ateptat per membru de familie
miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM
comp venit = incdec/nrmem. /* crem variabila venit ateptat mprind venitul atepat al gospodriei
(INCDEC) la numrul de membrii din gospodriei (NRMEM)
miss val venit (120.0). /* dup ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 120 milioane lei pe lun si o
excludem setnd-o ca missing.

Consum = consum per membru de familie
miss val chel nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem
comp consum = chel/nrmem. /* crem variabila consum mprind cheltuielile pe luna trecut (chel) la
numrul de membrii din gospodriei (nrmem)
miss val consum (100.0). /* dupa ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 100 milioane lei pe lun si o
excludem setnd-o ca missing.
p0_age = vrsta subiectului

Cum codm variabile din analiz
Variabile dummy:
Educatie = venit gospodrie per membru de familie
miss val p0_scoal ("99.0"). /* setm valorile missing la variabila P0_SCOAL care nregistreaz
educaia.
if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin
colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n
aceste condiii valoarea 1.
if (p0_scoal < 10) educatie = 0. /* cu aceeai comand IF mai punem condiia c dac cineva are o
diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia
valoarea 0.

Gen = gender (0=femeie; 1=brbat)
recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai
i 2 pentru femei. O transformm ntr-o variabil dummy recodnd
valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face
ntr-o nou variabil numit GEN.

Mediu = tip localitate (0=rural; 1=urban)

Cum codm variabile din analiz

S-ar putea să vă placă și