Sunteți pe pagina 1din 17

Selecia modelului de regresie linear multipl

Norbert Petrovici NorbertPetrovici@yahoo.com

regresie multipl

Ipoteza: Venitul asteptat per membru de familie este dependent de


Educaie Gen Consum Vrst Mediu de reziden

variabilele din model

Variabila Dependenta: Venitul ateptat per membru de familie (se msoar n milioane ROL)

Variabile Independente dummy: Mediu de reziden poate lua valoarea


0: rural 1: urban

Nivel de educaie

0: nivel de educaie primar sau mediu 1: nivel de educaie superior (colegiu sau facultate)

Gender poate lua valoare


0: femeie 1: brbat

Variabile independente cantitative: Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL). Vrsta se msoar n ani mplinii (se msoar n ani).
Surse date: Barometrul de Opinie Public, 2004oct (pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)

regresie multipl Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat
Model Summary Model 1 R R Square a .534 .285 Adjusted R Square .283 Std. Error of the Estimate 3.08102

a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per membru de familie ANOVAb
Model 1 Sum of Squares 5631.485 14115.584 19747.069 df 5 1487 1492 Mean Square 1126.297 9.493 F 118.649 Sig. .000 a

R2 ajustat penalizeaz modelul dac are mai multe variabile independente (5 in cazul nostru), lund n calcul mrimea eantionului. Este mai adecvat pentru regresia multipla

Regression Residual Total

Modelul este generalizabil de la eantion la populaie

a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per membru de familie b. Dependent Variable: Venit asteptat per membru de familie
Coefficientsa Unstandardized Coefficients B Std. Error 2.975 .279 2.714 .278 -.011 .161 .438 -.007 1.382 .032 .005 .168 Standardized Coefficients Beta .226 -.001 .321 -.033 .189

Dreapta de regresie nestand. Y* = 2.975 + 2,724*X1 - 0,011*X2 + 0,438*X3 - 0,007*X4 + 1,382*X5 Sau standardizat Y* = 0.226*X1+ 0,001*X2 + 0.321*X3 -0.033*X4 + 0.189*X5 Acesti coefineci nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferene pot fi puse pe seama erorilor de eantioanre

Model 1

(Constant) Educatie Genul Consum per membru de familie Vrsta Mediu

t 10.648 9.749 -.066 13.689 -1.496 8.207

Sig. .000 .000 .947 .000 .135 .000

a. Dependent Variable: Venit asteptat per membru de familie

regresie multipl interpretare

Interpretarea coeficientului b

Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear). Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear).

Interpretarea coeficientului a

n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0), fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul, i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]

Coeficientului

Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai unitate de msur: abateri standard. n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321

efecte directe
Educaie
0.226

Coeficientului

Gender

-0.001

Consum

0.321

Venit ateptat

-0.033

Varsta
0.189

Mediu

Indic intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend. n cazul nostru dou dintre efecte sunt foarte mici Gender = -0.001 i Vrst = - 0.033. De aceea ne ntrebm dac aceti coeficieni pot fi generalizai la ntreaga populaie de pe eantion Adic ne ntrebm dac faptul c sunt diferii de 0 nu cumva se datoreaz distorsiunilor de eantion (=erorilor de eantionare) Testul t ne spune c ntradev aceste dou valori nu sunt semnificative.

Excluderea valorilor nesemnificative

Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz, simplificnd modelul. Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari

efecte indirecte
Educaie
3.726

Gender

Consum

0.298

Venit ateptat

Varsta
1.629

Mediu

Efectele indirecte

Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se evalueaz relaiile dintre variabila dependent si celelalte variabile independente Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin efectele indirecte asupra variabilelor independente Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n acest nou model simplificat

regresie multipl simplificat

Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat


Model Summary R R Square .533 a .284 Adjusted R Square .283 Std. Error of the Estimate 3.08031

Model 1

a. Predictors: (Constant), Mediu de rezidenta, Educatie, Consum per membru de familie


ANOVAb Model 1 Sum of Squares 5610.062 14137.624 19747.686 df 3 1490 1493 Mean Square 1870.021 9.488 F 197.086 Sig. .000 a

R2 ajustat a rmas constant, n ciuda faptului c avem mai puine variabile. Lucru acesta indic c am putea avea un model mai care este la fel de adecvat, dar mai simplu

Regression Residual Total

Modelul este generalizabil de la eantion la populaie

a. Predictors: (Constant), Mediu de rezidenta, Educatie, Consum per membru de familie b. Dependent Variable: Venit asteptat per membru de familie

Dreapta de regresie nestand. Y* = 2.621 + 2,734*X1 + 0,438*X2 + 1,399*X3 Sau standardizat Y* = 0.228*X1+ 0,320*X2 + 0.1991*X3

Coefficientsa Unstandardized Coefficients B Std. Error 2.621 .131 2.734 .278 .438 1.399 .032 .168 Standardized Coefficients Beta .228 .320 .191

Model 1

(Constant) Educatie Consum per membru de familie Mediu

t 19.987 9.844 13.688 8.335

Sig. .000 .000 .000 .000

Toti coeficienii b i au crescut, ceea ce indic efecte indirecte, dar au crescut foarte puin (cteva zecimi), ceea ce indic efecte indirecte mici!

a. Dependent Variable: Venit asteptat per membru de familie

care model de regresie? principii


Atunci cnd decidem care din modele de regresie pstrm ne uitm la schimbrile
-coeficieniilor (pentru a vedea daca exist efecte indirecte) -i la coeficientul R2 (pentru a vedea cine explic mai mult varia)

i aceasta pentru c vrem ca modelul nostru s fie: 1. Adecvat (principiul adecvrii) model s explice ct mai mult din variabila dependent (din realitate/ din fenomenul studiat)

simplitate (principiul simplitii) dar aceast explicaie s fie ct mai simpl. Adic ct mai puine variabile model cu att mai bine. ns fr a sacrifica prea mult din adecvare (variana explicat sa nu scad i nici s nu introducem involuntar variabilele n model prin intermediul efectelor indirecte)

care model de regresie? selecie

n acest caz al doilea model este mai bun pentru c : 1. este mai adecvat
Coeficientul de determinaie ajustat R2 indic o proporie identic de varian explicat Excluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (tim asta pentru c valorile ale variabilelor rmase n model au crescut foarte puin)

2.

este mai simplu


Conine mai puine variabile

care model de regresie? coeficientul de determinaie n acest caz valorile R2 ajustate sunt identice. ns cum decidem dac avem o cretere mare sau mic a lui R2. Adic:
Dorim s tim fr dubiu care model de regresie explic mai mult din variana variabilei de regresie. respectiv dac exist diferene semnificative ntre diferitele R2. Putem s facem acest lucru cu ajutorul unui test F aplicat coeficieniilor de determinaie a diferitelor modele

R2 diferit semnificativ cum facem?


Pasul 1: - Specificm primul modelul cu mai puine variabile independente (educatie, consum i mediu) - Apsm pe butonul NEXT pentru a specifica modelul cu mai multe variabile

R2 diferit semnificativ cum facem?


Pasul 2: - Specificm al doilea model cu mai multe variabile (educatie, gen, consum, varsta i mediu) - Apsm pe butonul Statistics si de aici solicitm n noua csut de dialog aprut afisarea R square change

R2 diferit semnificativ cum interpretm?


Model Summary Change Statistics Model 1 2 R R Square .533 a .284 b .534 .285 Adjusted R Square .283 .283 Std. Error of the Estimate 3.08126 3.08102 R Square Change .284 .001 F Change 196.972 1.119 df1 3 2 df2 1489 1487 Sig. F Change .000 .327

a. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie b. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie, Genul, vrsta

Ni se indic att valorile R2 si R2 ajustat pentru cele dou modele comparate.

Ni se indic Schimbrile survenite n mrimea valorilor R2. - Modelul 1 s-a schimbat la 0.284 (fa de un model fr variabile independete, adic doar dac am estima cu media variana variabilei dependente) - Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1) Testul F indic dac sunt semnificative schimbrile: - Modelul 1 s-a schimbat semnificativ, nivelul de semnificaie este 0.000, mai mic dect pragul de 0.050 (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova) Informatia esenial: - Modelul 2 nu a adus schimb[ri semnificative n ceea ce priveste valoarea lui R2 , nivelul de semnificatie fiin 0.327 (mult mai mare dect 0.050, pragul de semnificaie pentru 95%)

De vreme ce Modelul 2 nu explic mai mult din varian vom merge pe criteriul simplitii si vom pstra modelul cu mai puine variabile (dar asta doar dac efectele indirecte ale variabilelor excluse nu sunt mari)

R2 diferit semnificativ cum interpretm?

Coefficientsa Unstandardized Coefficients B Std. Error 2.621 .131 2.733 .278 .438 1.400 2.975 2.714 .438 1.382 -.011 -.007 .032 .168 .279 .278 .032 .168 .161 .005 Standardized Coefficients Beta .228 .320 .192 .226 .321 .189 -.001 -.033

Model 1

(Constant) Educatie Consum per membru de familie Mediu (Constant) Educatie Consum per membru de familie Mediu Genul vrsta

t 19.982 9.837 13.681 8.338 10.648 9.749 13.689 8.207 -.066 -1.496

Sig. .000 .000 .000 .000 .000 .000 .000 .000 .947 .135

Coeficienii din modeul 1 cu mai puine variable

Coeficienii din modeul 2 cu mai multe variable. Putem observa c pentru variabilele comune coeficienii b sau sunt foarte apropiai.

a. Dependent Variable: Venit asteptat

Cele dou modele se numesc modele ncuibrite (nested) pentru c cel mai complex l conine pe cellalt. Testul F de schimbare a lui R2 se poate aplica doar modelelor ncuibrite

Cum codm variabile din analiz

Variabile cantitative :
Venit = venit ateptat per membru de familie

miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM comp venit = incdec/nrmem. miss val venit (120.0). /* crem variabila venit ateptat mprind venitul atepat al gospodriei (INCDEC) la numrul de membrii din gospodriei (NRMEM) /* dup ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 120 milioane lei pe lun si o excludem setnd-o ca missing. /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem /* crem variabila consum mprind cheltuielile pe luna trecut (chel) la numrul de membrii din gospodriei (nrmem) /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 100 milioane lei pe lun si o excludem setnd-o ca missing.

Consum = consum per membru de familie

miss val chel nrmem (98.0, 99.0). comp consum = chel/nrmem. miss val consum (100.0).
p0_age = vrsta subiectului

Cum codm variabile din analiz

Variabile dummy:
Educatie = venit gospodrie per membru de familie

miss val p0_scoal ("99.0").

if (p0_scoal >= 10) educatie = 1.


if (p0_scoal < 10) educatie = 0.

/* setm valorile missing la variabila P0_SCOAL care nregistreaz educaia. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n aceste condiii valoarea 1. /* cu aceeai comand IF mai punem condiia c dac cineva are o diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia valoarea 0.

Gen = gender (0=femeie; 1=brbat)

recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai i 2 pentru femei. O transformm ntr-o variabil dummy recodnd valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face ntr-o nou variabil numit GEN.
Mediu = tip localitate (0=rural; 1=urban)