Sunteți pe pagina 1din 17

Selecia modelului

de regresie linear multipl

Norbert Petrovici
NorbertPetrovici@yahoo.com
regresie multipl

Ipoteza: Venitul asteptat per membru de familie este dependent de


Educaie
Gen
Consum
Vrst
Mediu de reziden
variabilele din model

Variabila Dependenta:
Venitul ateptat per membru de familie (se msoar n milioane ROL)

Variabile Independente dummy:


Mediu de reziden poate lua valoarea
0: rural
1: urban

Nivel de educaie
0: nivel de educaie primar sau mediu
1: nivel de educaie superior (colegiu sau facultate)

Gender poate lua valoare


0: femeie
1: brbat

Variabile independente cantitative:


Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL).

Vrsta se msoar n ani mplinii (se msoar n ani).

Surse date: Barometrul de Opinie Public, 2004oct


(pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)
regresie multipl

Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat


Model Summary
R2 ajustat penalizeaz modelul
Adjusted Std. Error of dac are mai multe variabile
Model R R Square R Square the Estimate
independente (5 in cazul
1 .534a .285 .283 3.08102
nostru), lund n calcul
a. Predictors: (Constant), Mediu de rezidenta, Genul,
mrimea eantionului. Este mai
Vrsta, Educatie, Consum per membru de familie
ANOVAb adecvat pentru regresia
multipla
Sum of
Model Squares df Mean Square F Sig.
1 Regression 5631.485 5 1126.297 118.649 .000a
Residual 14115.584 1487 9.493 Modelul este generalizabil de la
Total 19747.069 1492 eantion la populaie
a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per
membru de familie
b. Dependent Variable: Venit asteptat per membru de familie
Dreapta de regresie nestand.
Y* = 2.975 + 2,724*X1 - 0,011*X2
Coefficientsa
+ 0,438*X3 - 0,007*X4 + 1,382*X5
Unstandardized Standardized
Coefficients Coefficients
Sau standardizat
Model B Std. Error Beta t Sig.
Y* = 0.226*X1+ 0,001*X2 +
1 (Constant) 2.975 .279 10.648 .000
Educatie 2.714 .278 .226 9.749 .000
0.321*X3 -0.033*X4 + 0.189*X5
Genul -.011 .161 -.001 -.066 .947
Consum per membru Acesti coefineci nu sunt
.438 .032 .321 13.689 .000
de familie semnificativi. Valorile b nu
Vrsta -.007 .005 -.033 -1.496 .135 difera seminficativ de 0, aceste
Mediu 1.382 .168 .189 8.207 .000 diferene pot fi puse pe seama
a. Dependent Variable: Venit asteptat per membru de familie erorilor de eantioanre
regresie multipl
interpretare
Interpretarea coeficientului b
Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul
unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de
facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).
Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei
consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile
exist o dependen linear).

Interpretarea coeficientului a
n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat
este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0),
fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul,
i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c
ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]

Coeficientului
Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil
are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c
pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai
unitate de msur: abateri standard.
n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321
efecte directe
Coeficientului
Educaie Indic intensitatea
efectului direct pe care o
0.22 are o var. indep. asupra
6 unei unei var. depend.
Gender
-0.001 n cazul nostru dou
dintre efecte sunt foarte
mici Gender = -0.001 i
Consum 0.321 Vrst = - 0.033. De aceea
Venit ateptat ne ntrebm dac aceti
coeficieni pot fi
-0.033 generalizai la ntreaga
Varsta populaie de pe eantion
Adic ne ntrebm dac
0.189 faptul c sunt diferii de 0
nu cumva se datoreaz
Mediu distorsiunilor de eantion
(=erorilor de eantionare)
Testul t ne spune c ntr-
adev aceste dou valori
nu sunt semnificative.

Excluderea valorilor nesemnificative


Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz,
simplificnd modelul.
Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari
efecte indirecte
Educaie

3.72
6
Gender

0.298
Consum Venit ateptat

Varsta
1.629

Mediu

Efectele indirecte
Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se
evalueaz relaiile dintre variabila dependent si celelalte variabile independente
Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin
efectele indirecte asupra variabilelor independente
Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n
acest nou model simplificat
regresie multipl simplificat

Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat


Model Summary
R2 ajustat a rmas constant, n
Adjusted Std. Error of ciuda faptului c avem mai
Model R R Square R Square the Estimate puine variabile. Lucru acesta
1 .533a .284 .283 3.08031
indic c am putea avea un
a. Predictors: (Constant), Mediu de rezidenta, Educatie, model mai care este la fel de
Consum per membru de familie adecvat, dar mai simplu
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 5610.062 3 1870.021 197.086 .000a Modelul este generalizabil de la
Residual 14137.624 1490 9.488 eantion la populaie
Total 19747.686 1493
a. Predictors: (Constant), Mediu de rezidenta, Educatie, Consum per membru de
familie Dreapta de regresie nestand.
b. Dependent Variable: Venit asteptat per membru de familie Y* = 2.621 + 2,734*X1 + 0,438*X2
+ 1,399*X3
Coefficientsa
Sau standardizat
Unstandardized Standardized Y* = 0.228*X1+ 0,320*X2 +
Coefficients Coefficients
0.1991*X3
Model B Std. Error Beta t Sig.
1 (Constant) 2.621 .131 19.987 .000 Toti coeficienii b i au
Educatie 2.734 .278 .228 9.844 .000 crescut, ceea ce indic efecte
Consum per membru indirecte, dar au crescut foarte
.438 .032 .320 13.688 .000
de familie puin (cteva zecimi), ceea ce
Mediu 1.399 .168 .191 8.335 .000 indic efecte indirecte mici!
a. Dependent Variable: Venit asteptat per membru de familie
care model de regresie?
principii
Atunci cnd decidem care din modele de regresie pstrm ne uitm la
schimbrile
-coeficieniilor (pentru a vedea daca exist efecte indirecte)
-i la coeficientul R2 (pentru a vedea cine explic mai mult varia)

i aceasta pentru c vrem ca modelul nostru s fie:


1. Adecvat (principiul adecvrii)
model s explice ct mai mult din variabila dependent (din
realitate/ din fenomenul studiat)

simplitate (principiul simplitii)


dar aceast explicaie s fie ct mai simpl. Adic ct mai puine
variabile model cu att mai bine.
ns fr a sacrifica prea mult din adecvare (variana explicat sa
nu scad i nici s nu introducem involuntar variabilele n model
prin intermediul efectelor indirecte)
care model de regresie?
selecie

n acest caz al doilea model este mai bun pentru c :


1. este mai adecvat
- Coeficientul de determinaie ajustat R2 indic o proporie
identic de varian explicat
- Excluderea variabilelor nesemnificative nu au produs efecte
indirecte asupra celorlalte variabile, (tim asta pentru c
valorile ale variabilelor rmase n model au crescut foarte
puin)

2. este mai simplu


- Conine mai puine variabile
care model de regresie?
coeficientul de determinaie

n acest caz valorile R2 ajustate sunt identice. ns cum


decidem dac avem o cretere mare sau mic a lui R2.
Adic:
- Dorim s tim fr dubiu care model de regresie explic mai
mult din variana variabilei de regresie.
- respectiv dac exist diferene semnificative ntre diferitele
R2. Putem s facem acest lucru cu ajutorul unui test F aplicat
coeficieniilor de determinaie a diferitelor modele
R2 diferit semnificativ
cum facem?
Pasul 1:
- Specificm primul modelul cu mai
puine variabile independente
(educatie, consum i mediu)
- Apsm pe butonul NEXT pentru a
specifica modelul cu mai multe
variabile
R2 diferit semnificativ
cum facem?
Pasul 2:
- Specificm al doilea model cu mai
multe variabile (educatie, gen,
consum, varsta i mediu)
- Apsm pe butonul Statistics si de
aici solicitm n noua csut de
dialog aprut afisarea R square
change
R2 diferit semnificativ
Model Summary cum interpretm?
Change Statistics
Adjusted Std. Error of R Square
Model R R Square R Square the Estimate Change F Change df1 df2 Sig. F Change
1 .533a .284 .283 3.08126 .284 196.972 3 1489 .000
2 .534b .285 .283 3.08102 .001 1.119 2 1487 .327
a. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie
b. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie, Genul, vrsta

Ni se indic att valorile Ni se indic Schimbrile survenite n mrimea valorilor


R2 si R2 ajustat pentru R2.
cele dou modele
comparate. - Modelul 1 s-a schimbat la 0.284 (fa de un model fr
variabile independete, adic doar dac am estima cu
media variana variabilei dependente)
- Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1)

Testul F indic dac sunt semnificative schimbrile:


- Modelul 1 s-a schimbat semnificativ, nivelul de
De vreme ce Modelul 2 semnificaie este 0.000, mai mic dect pragul de 0.050
nu explic mai mult din (acest test este chiar testul ANOVA, valorile fiind identice
varian vom merge pe cu un test anova)
criteriul simplitii si Informatia esenial:
vom pstra modelul cu - Modelul 2 nu a adus schimb[ri semnificative n ceea ce
mai puine variabile (dar priveste valoarea lui R2 , nivelul de semnificatie fiin 0.327
asta doar dac efectele (mult mai mare dect 0.050, pragul de semnificaie
indirecte ale variabilelor pentru 95%)
excluse nu sunt mari)
R2 diferit semnificativ
cum interpretm?

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2.621 .131 19.982 .000
Educatie 2.733 .278 .228 9.837 .000 Coeficienii din modeul 1 cu mai
Consum per puine variable
.438 .032 .320 13.681 .000
membru de familie
Mediu 1.400 .168 .192 8.338 .000
2 (Constant) 2.975 .279 10.648 .000
Educatie 2.714 .278 .226 9.749 .000
Consum per Coeficienii din modeul 2 cu mai
.438 .032 .321 13.689 .000
membru de familie multe variable. Putem observa
Mediu 1.382 .168 .189 8.207 .000 c pentru variabilele comune
Genul -.011 .161 -.001 -.066 .947 coeficienii b sau sunt foarte
vrsta -.007 .005 -.033 -1.496 .135 apropiai.
a. Dependent Variable: Venit asteptat

Cele dou modele se numesc modele ncuibrite


(nested) pentru c cel mai complex l conine pe
cellalt. Testul F de schimbare a lui R2 se poate
aplica doar modelelor ncuibrite
Cum codm variabile din analiz

Variabile cantitative :
Venit = venit ateptat per membru de familie
miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM
comp venit = incdec/nrmem. /* crem variabila venit ateptat mprind venitul atepat al
gospodriei (INCDEC) la numrul de membrii din gospodriei
(NRMEM)
miss val venit (120.0). /* dup ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 120 milioane lei pe lun si o
excludem setnd-o ca missing.
Consum = consum per membru de familie
miss val chel nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem
comp consum = chel/nrmem. /* crem variabila consum mprind cheltuielile pe luna trecut (chel)
la numrul de membrii din gospodriei (nrmem)
miss val consum (100.0). /* dupa ce am explorat noua variabila creata cu un grafic boxplot
constatm c exist o valoare extrem de 100 milioane lei pe lun si o
excludem setnd-o ca missing.
p0_age = vrsta subiectului
Cum codm variabile din analiz

Variabile dummy:
Educatie = venit gospodrie per membru de familie
miss val p0_scoal ("99.0"). /* setm valorile missing la variabila P0_SCOAL care nregistreaz
educaia.
if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin
colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n
aceste condiii valoarea 1.
if (p0_scoal < 10) educatie = 0. /* cu aceeai comand IF mai punem condiia c dac cineva are o
diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia
valoarea 0.

Gen = gender (0=femeie; 1=brbat)


recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai
i 2 pentru femei. O transformm ntr-o variabil dummy recodnd
valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face
ntr-o nou variabil numit GEN.

Mediu = tip localitate (0=rural; 1=urban)

S-ar putea să vă placă și