Ipoteza: Venitul asteptat per membru de familie este dependent de Educaie Gen Consum Vrst Mediu de reziden
regresie multipl Variabila Dependenta: Venitul ateptat per membru de familie (se msoar n milioane ROL)
Variabile Independente dummy: Mediu de reziden poate lua valoarea 0: rural 1: urban
Nivel de educaie 0: nivel de educaie primar sau mediu 1: nivel de educaie superior (colegiu sau facultate)
Gender poate lua valoare 0: femeie 1: brbat
Variabile independente cantitative: Suma total cheltuit pe membru de gospodrie (se msoar n milioane ROL). Vrsta se msoar n ani mplinii (se msoar n ani).
Surse date: Barometrul de Opinie Public, 2004oct (pentru a vedea cum au fost create aceste variabile vezi la sfrsitul prezentrii) variabilele din model Coefficients a 2.975 .279 10.648 .000 2.714 .278 .226 9.749 .000 -.011 .161 -.001 -.066 .947 .438 .032 .321 13.689 .000 -.007 .005 -.033 -1.496 .135 1.382 .168 .189 8.207 .000 (Constant) Educati e Genul Consum per membru de fami l i e Vrsta Medi u Model 1 B Std. Error Unstandardi zed Coeffi ci ents Beta Standardi zed Coeffi ci ents t Si g. Dependent Vari abl e: Venit asteptat per membru de fami l i e a. ANOVA b 5631.485 5 1126.297 118.649 .000 a 14115.584 1487 9.493 19747.069 1492 Regressi on Resi dual Total Model 1 Sum of Squares df Mean Square F Si g. Predi ctors: (Constant), Medi u de rezi denta, Genul , Vrsta, Educati e, Consum per membru de fami l i e a. Dependent Vari abl e: Veni t asteptat per membru de famil i e b. Model Summary .534 a .285 .283 3.08102 Model 1 R R Square Adj usted R Square Std. Error of the Esti mate Predi ctors: (Constant), Medi u de rezi denta, Genul , Vrsta, Educati e, Consum per membru de fami l i e a. Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat R 2 ajustat penalizeaz modelul dac are mai multe variabile independente (5 in cazul nostru), lund n calcul mrimea eantionului. Este mai adecvat pentru regresia multipla Dreapta de regresie nestand. Y* = 2.975 + 2,724*X 1 - 0,011*X 2 + 0,438*X 3 - 0,007*X 4 + 1,382*X 5
Sau standardizat Y* = 0.226*X 1 + 0,001*X 2 + 0.321*X 3 -0.033*X 4 + 0.189*X 5 Modelul este generalizabil de la eantion la populaie Acesti coefineci nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferene pot fi puse pe seama erorilor de eantioanre regresie multipl
Interpretarea coeficientului b Nivelul de educaie (dihotomic): Venitul ateptat crete n medie cu 2.714 mii lei n cazul unui absolvent (valoarea 1) de facultate raportat la un non-absolvent (valoarea 0)de facultate dac inem constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear). Consum (cantitativ): Venitul ateptat crete n medie cu 438 mii lei cu fiecare milion de lei consumat dac ine constante toate celelalte variabile (admind c ntre cele dou variabile exist o dependen linear).
Interpretarea coeficientului a n condiiile n care toate variabilele independente sunt egale cu 0 atunci venitul ateptat este de 2 975 mii lei. Adic: dac cineva este femeie (Gender = 0), rural (Mediu = 0), fr facultate (Educ = 0) i n a crei gospodriei consumul per mebru de familie a fost nul, i avea vrsta de zero ani, atunci venitul ateptat n medie este de 2 975 mii lei (admind c ntre cele dou variabile exist o dependen linear) [ceea ce este absurd!!]
Coeficientului Utilitatea lui vine atunci cnd vrem s comparm coeficienii, pentru a stabili care variabil are efectul cel puternic. Coeficienii b nu pot fi folosii n acest scop datorit faptului c pstreaz unitatea de msur a variabilelor. Coeficienii n schimb sunt msurai n aceeai unitate de msur: abateri standard. n cazul nostru cea mai important variabil n cazul nostru este Educaia Consum = 0.321 regresie multipl interpretare Venit ateptat Educaie Gender Consum Varsta Mediu 0.226 -0.001 0.321 -0.033 0.189
Coeficientului Indic intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend. n cazul nostru dou dintre efecte sunt foarte mici Gender = -0.001 i Vrst = - 0.033. De aceea ne ntrebm dac aceti coeficieni pot fi generalizai la ntreaga populaie de pe eantion Adic ne ntrebm dac faptul c sunt diferii de 0 nu cumva se datoreaz distorsiunilor de eantion (=erorilor de eantionare) Testul t ne spune c ntr- adev aceste dou valori nu sunt semnificative.
Excluderea valorilor nesemnificative Atunci cnd o valoare este nesemnificativ putem s ncercm s o excludem din analiz, simplificnd modelul. Excluderea ns este legitim numai dac: efectele indirecte nu sunt mari efecte directe Venit ateptat Educaie Gender Consum Varsta Mediu 3.726 0.298 1.629
Efectele indirecte Atunci cnd excludem din model o variabill atunci ea nu mai este inut constant cnd se evalueaz relaiile dintre variabila dependent si celelalte variabile independente Prin excludere variabila ea nu este neutralizat deci este introdus in model indirect, prin efectele indirecte asupra variabilelor independente Dac efectele indirecte sunt mari atunci coeficieii ai variabilelor independente vor crete n acest nou model simplificat efecte indirecte Model Summary .533 a .284 .283 3.08031 Model 1 R R Square Adj usted R Square Std. Error of the Esti mate Predi ctors: (Constant), Medi u de rezi denta, Educati e, Consum per membru de fami li e a. ANOVA b 5610.062 3 1870.021 197.086 .000 a 14137.624 1490 9.488 19747.686 1493 Regressi on Resi dual Total Model 1 Sum of Squares df Mean Square F Si g. Predi ctors: (Constant), Medi u de rezi denta, Educati e, Consum per membru de fami l i e a. Dependent Vari abl e: Veni t asteptat per membru de famil i e b. Coefficients a 2.621 .131 19.987 .000 2.734 .278 .228 9.844 .000 .438 .032 .320 13.688 .000 1.399 .168 .191 8.335 .000 (Constant) Educati e Consum per membru de fami l i e Medi u Model 1 B Std. Error Unstandardi zed Coeffi ci ents Beta Standardi zed Coeffi ci ents t Si g. Dependent Vari abl e: Venit asteptat per membru de fami l i e a. R 2 ajustat a rmas constant, n ciuda faptului c avem mai puine variabile. Lucru acesta indic c am putea avea un model mai care este la fel de adecvat, dar mai simplu Dreapta de regresie nestand. Y* = 2.621 + 2,734*X 1 + 0,438*X 2 + 1,399*X 3
Sau standardizat Y* = 0.228*X 1 + 0,320*X 2 + 0.1991*X 3 Modelul este generalizabil de la eantion la populaie Toti coeficienii b i au crescut, ceea ce indic efecte indirecte, dar au crescut foarte puin (cteva zecimi), ceea ce indic efecte indirecte mici! Cosnum + Mediu + Educ + Gender + Vrst -> Venit asteptat regresie multipl simplificat Atunci cnd decidem care din modele de regresie pstrm ne uitm la schimbrile
-coeficieniilor (pentru a vedea daca exist efecte indirecte) -i la coeficientul R 2 (pentru a vedea cine explic mai mult varia)
i aceasta pentru c vrem ca modelul nostru s fie: 1. Adecvat (principiul adecvrii) model s explice ct mai mult din variabila dependent (din realitate/ din fenomenul studiat)
simplitate (principiul simplitii) dar aceast explicaie s fie ct mai simpl. Adic ct mai puine variabile model cu att mai bine. ns fr a sacrifica prea mult din adecvare (variana explicat sa nu scad i nici s nu introducem involuntar variabilele n model prin intermediul efectelor indirecte) care model de regresie? principii
n acest caz al doilea model este mai bun pentru c : 1. este mai adecvat - Coeficientul de determinaie ajustat R 2 indic o proporie identic de varian explicat - Excluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (tim asta pentru c valorile ale variabilelor rmase n model au crescut foarte puin)
2. este mai simplu - Conine mai puine variabile
care model de regresie? selecie n acest caz valorile R 2 ajustate sunt identice. ns cum decidem dac avem o cretere mare sau mic a lui R 2. Adic: - Dorim s tim fr dubiu care model de regresie explic mai mult din variana variabilei de regresie. - respectiv dac exist diferene semnificative ntre diferitele R 2. Putem s facem acest lucru cu ajutorul unui test F aplicat coeficieniilor de determinaie a diferitelor modele
care model de regresie? coeficientul de determinaie R 2 diferit semnificativ cum facem? Pasul 1: - Specificm primul modelul cu mai puine variabile independente (educatie, consum i mediu) - Apsm pe butonul NEXT pentru a specifica modelul cu mai multe variabile R 2 diferit semnificativ cum facem? Pasul 2: - Specificm al doilea model cu mai multe variabile (educatie, gen, consum, varsta i mediu) - Apsm pe butonul Statistics si de aici solicitm n noua csut de dialog aprut afisarea R square change Model Summary .533 a .284 .283 3.08126 .284 196.972 3 1489 .000 .534 b .285 .283 3.08102 .001 1.119 2 1487 .327 Model 1 2 R R Square Adjusted R Square Std. Error of the Esti mate R Square Change F Change df1 df2 Si g. F Change Change Statisti cs Predi ctors: (Constant), Medi u, Educati e, Consum per membru de fami l i e a. Predi ctors: (Constant), Medi u, Educati e, Consum per membru de fami l i e, Genul , vrsta b. Ni se indic att valorile R 2 si R 2 ajustat pentru cele dou modele comparate. Ni se indic Schimbrile survenite n mrimea valorilor R2.
- Modelul 1 s-a schimbat la 0.284 (fa de un model fr variabile independete, adic doar dac am estima cu media variana variabilei dependente) - Modelul 2 s-a schimbat cu 0.001 (fa de un modelul 1)
Testul F indic dac sunt semnificative schimbrile: - Modelul 1 s-a schimbat semnificativ, nivelul de semnificaie este 0.000, mai mic dect pragul de 0.050 (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova) Informatia esenial: - Modelul 2 nu a adus schimb[ri semnificative n ceea ce priveste valoarea lui R 2 , nivelul de semnificatie fiin 0.327 (mult mai mare dect 0.050, pragul de semnificaie pentru 95%) R 2 diferit semnificativ cum interpretm? De vreme ce Modelul 2 nu explic mai mult din varian vom merge pe criteriul simplitii si vom pstra modelul cu mai puine variabile (dar asta doar dac efectele indirecte ale variabilelor excluse nu sunt mari) Coefficients a 2.621 .131 19.982 .000 2.733 .278 .228 9.837 .000 .438 .032 .320 13.681 .000 1.400 .168 .192 8.338 .000 2.975 .279 10.648 .000 2.714 .278 .226 9.749 .000 .438 .032 .321 13.689 .000 1.382 .168 .189 8.207 .000 -.011 .161 -.001 -.066 .947 -.007 .005 -.033 -1.496 .135 (Constant) Educati e Consum per membru de fami l ie Medi u (Constant) Educati e Consum per membru de fami l ie Medi u Genul vrsta Model 1 2 B Std. Error Unstandardi zed Coeffi ci ents Beta Standardi zed Coeffi ci ents t Si g. Dependent Vari abl e: Veni t asteptat a. R 2 diferit semnificativ cum interpretm? Coeficienii din modeul 1 cu mai puine variable Coeficienii din modeul 2 cu mai multe variable. Putem observa c pentru variabilele comune coeficienii b sau sunt foarte apropiai. Cele dou modele se numesc modele ncuibrite (nested) pentru c cel mai complex l conine pe cellalt. Testul F de schimbare a lui R 2 se poate aplica doar modelelor ncuibrite Variabile cantitative : Venit = venit ateptat per membru de familie miss val incdec nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM comp venit = incdec/nrmem. /* crem variabila venit ateptat mprind venitul atepat al gospodriei (INCDEC) la numrul de membrii din gospodriei (NRMEM) miss val venit (120.0). /* dup ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 120 milioane lei pe lun si o excludem setnd-o ca missing.
Consum = consum per membru de familie miss val chel nrmem (98.0, 99.0). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem comp consum = chel/nrmem. /* crem variabila consum mprind cheltuielile pe luna trecut (chel) la numrul de membrii din gospodriei (nrmem) miss val consum (100.0). /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatm c exist o valoare extrem de 100 milioane lei pe lun si o excludem setnd-o ca missing. p0_age = vrsta subiectului
Cum codm variabile din analiz Variabile dummy: Educatie = venit gospodrie per membru de familie miss val p0_scoal ("99.0"). /* setm valorile missing la variabila P0_SCOAL care nregistreaz educaia. if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiia c dac cineva a urmat cel puin colegiu, atunci s se creeze o nou variabil EDUCATIE care s ia n aceste condiii valoarea 1. if (p0_scoal < 10) educatie = 0. /* cu aceeai comand IF mai punem condiia c dac cineva are o diplom mai mic dect cea de colegiu, variabil EDUCATIE care s ia valoarea 0.
Gen = gender (0=femeie; 1=brbat) recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomic cu valori 1 pentru brbai i 2 pentru femei. O transformm ntr-o variabil dummy recodnd valoarea femeile n 0 (2=0), iar brbaii rmn 1 (1=1). Recodarea se face ntr-o nou variabil numit GEN.