Documente Academic
Documente Profesional
Documente Cultură
Petrovici (2007) - Slectia Unui Model de Regresie
Petrovici (2007) - Slectia Unui Model de Regresie
regresie multipl
Variabila Dependenta: Venitul ateptat per membru de familie (se msoar n milioane ROL)
0: rural 1: urban
Nivel de educaie
0: nivel de educaie primar sau mediu 1: nivel de educaie superior (colegiu sau facultate)
0: femeie 1: brbat
Variabile independente cantitative: Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL). Vrsta se msoar n ani mplinii (se msoar n ani).
Surse date: Barometrul de Opinie Public, 2004oct (pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii)
regresie multipl Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat
Model Summary Model 1 R R Square a .534 .285 Adjusted R Square .283 Std. Error of the Estimate 3.08102
a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per membru de familie ANOVAb
Model 1 Sum of Squares 5631.485 14115.584 19747.069 df 5 1487 1492 Mean Square 1126.297 9.493 F 118.649 Sig. .000 a
R2 ajustat penalizeaz modelul dac are mai multe variabile independente (5 in cazul nostru), lund n calcul mrimea eantionului. Este mai adecvat pentru regresia multipla
a. Predictors: (Constant), Mediu de rezidenta, Genul, Vrsta, Educatie, Consum per membru de familie b. Dependent Variable: Venit asteptat per membru de familie
Coefficientsa Unstandardized Coefficients B Std. Error 2.975 .279 2.714 .278 -.011 .161 .438 -.007 1.382 .032 .005 .168 Standardized Coefficients Beta .226 -.001 .321 -.033 .189
Dreapta de regresie nestand. Y* = 2.975 + 2,724*X1 - 0,011*X2 + 0,438*X3 - 0,007*X4 + 1,382*X5 Sau standardizat Y* = 0.226*X1+ 0,001*X2 + 0.321*X3 -0.033*X4 + 0.189*X5 Acesti coefineci nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferene pot fi puse pe seama erorilor de eantioanre
Model 1
Interpretarea coeficientului b
Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear). Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear).
Interpretarea coeficientului a
n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0), fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul, i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]
Coeficientului
Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai unitate de msur: abateri standard. n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321
efecte directe
Educaie
0.226
Coeficientului
Gender
-0.001
Consum
0.321
Venit ateptat
-0.033
Varsta
0.189
Mediu
Indic intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend. n cazul nostru dou dintre efecte sunt foarte mici Gender = -0.001 i Vrst = - 0.033. De aceea ne ntrebm dac aceti coeficieni pot fi generalizai la ntreaga populaie de pe eantion Adic ne ntrebm dac faptul c sunt diferii de 0 nu cumva se datoreaz distorsiunilor de eantion (=erorilor de eantionare) Testul t ne spune c ntradev aceste dou valori nu sunt semnificative.
Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz, simplificnd modelul. Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari
efecte indirecte
Educaie
3.726
Gender
Consum
0.298
Venit ateptat
Varsta
1.629
Mediu
Efectele indirecte
Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se evalueaz relaiile dintre variabila dependent si celelalte variabile independente Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin efectele indirecte asupra variabilelor independente Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n acest nou model simplificat
Model 1
R2 ajustat a rmas constant, n ciuda faptului c avem mai puine variabile. Lucru acesta indic c am putea avea un model mai care este la fel de adecvat, dar mai simplu
a. Predictors: (Constant), Mediu de rezidenta, Educatie, Consum per membru de familie b. Dependent Variable: Venit asteptat per membru de familie
Dreapta de regresie nestand. Y* = 2.621 + 2,734*X1 + 0,438*X2 + 1,399*X3 Sau standardizat Y* = 0.228*X1+ 0,320*X2 + 0.1991*X3
Coefficientsa Unstandardized Coefficients B Std. Error 2.621 .131 2.734 .278 .438 1.399 .032 .168 Standardized Coefficients Beta .228 .320 .191
Model 1
Toti coeficienii b i au crescut, ceea ce indic efecte indirecte, dar au crescut foarte puin (cteva zecimi), ceea ce indic efecte indirecte mici!
i aceasta pentru c vrem ca modelul nostru s fie: 1. Adecvat (principiul adecvrii) model s explice ct mai mult din variabila dependent (din realitate/ din fenomenul studiat)
simplitate (principiul simplitii) dar aceast explicaie s fie ct mai simpl. Adic ct mai puine variabile model cu att mai bine. ns fr a sacrifica prea mult din adecvare (variana explicat sa nu scad i nici s nu introducem involuntar variabilele n model prin intermediul efectelor indirecte)
n acest caz al doilea model este mai bun pentru c : 1. este mai adecvat
Coeficientul de determinaie ajustat R2 indic o proporie identic de varian explicat Excluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (tim asta pentru c valorile ale variabilelor rmase n model au crescut foarte puin)
2.
care model de regresie? coeficientul de determinaie n acest caz valorile R2 ajustate sunt identice. ns cum decidem dac avem o cretere mare sau mic a lui R2. Adic:
Dorim s tim fr dubiu care model de regresie explic mai mult din variana variabilei de regresie. respectiv dac exist diferene semnificative ntre diferitele R2. Putem s facem acest lucru cu ajutorul unui test F aplicat coeficieniilor de determinaie a diferitelor modele
a. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie b. Predictors: (Constant), Mediu, Educatie, Consum per membru de familie, Genul, vrsta
Ni se indic Schimbrile survenite n mrimea valorilor R2. - Modelul 1 s-a schimbat la 0.284 (fa de un model fr variabile independete, adic doar dac am estima cu media variana variabilei dependente) - Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1) Testul F indic dac sunt semnificative schimbrile: - Modelul 1 s-a schimbat semnificativ, nivelul de semnificaie este 0.000, mai mic dect pragul de 0.050 (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova) Informatia esenial: - Modelul 2 nu a adus schimb[ri semnificative n ceea ce priveste valoarea lui R2 , nivelul de semnificatie fiin 0.327 (mult mai mare dect 0.050, pragul de semnificaie pentru 95%)
De vreme ce Modelul 2 nu explic mai mult din varian vom merge pe criteriul simplitii si vom pstra modelul cu mai puine variabile (dar asta doar dac efectele indirecte ale variabilelor excluse nu sunt mari)
Coefficientsa Unstandardized Coefficients B Std. Error 2.621 .131 2.733 .278 .438 1.400 2.975 2.714 .438 1.382 -.011 -.007 .032 .168 .279 .278 .032 .168 .161 .005 Standardized Coefficients Beta .228 .320 .192 .226 .321 .189 -.001 -.033
Model 1
(Constant) Educatie Consum per membru de familie Mediu (Constant) Educatie Consum per membru de familie Mediu Genul vrsta
t 19.982 9.837 13.681 8.338 10.648 9.749 13.689 8.207 -.066 -1.496
Sig. .000 .000 .000 .000 .000 .000 .000 .000 .947 .135
Coeficienii din modeul 2 cu mai multe variable. Putem observa c pentru variabilele comune coeficienii b sau sunt foarte apropiai.
Cele dou modele se numesc modele ncuibrite (nested) pentru c cel mai complex l conine pe cellalt. Testul F de schimbare a lui R2 se poate aplica doar modelelor ncuibrite
Variabile cantitative :
Venit = venit ateptat per membru de familie
miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM comp venit = incdec/nrmem. miss val venit (120.0). /* crem variabila venit ateptat mprind venitul atepat al gospodriei (INCDEC) la numrul de membrii din gospodriei (NRMEM) /* dup ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 120 milioane lei pe lun si o excludem setnd-o ca missing. /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem /* crem variabila consum mprind cheltuielile pe luna trecut (chel) la numrul de membrii din gospodriei (nrmem) /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 100 milioane lei pe lun si o excludem setnd-o ca missing.
miss val chel nrmem (98.0, 99.0). comp consum = chel/nrmem. miss val consum (100.0).
p0_age = vrsta subiectului
Variabile dummy:
Educatie = venit gospodrie per membru de familie
/* setm valorile missing la variabila P0_SCOAL care nregistreaz educaia. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n aceste condiii valoarea 1. /* cu aceeai comand IF mai punem condiia c dac cineva are o diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia valoarea 0.
recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai i 2 pentru femei. O transformm ntr-o variabil dummy recodnd valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face ntr-o nou variabil numit GEN.
Mediu = tip localitate (0=rural; 1=urban)