Sunteți pe pagina 1din 20

Regresia multipl liniar

Probleme: Etapele pregtitoare ale regresiei multiple Cum introducem n regresie relaii neliniare? Cum introducem n regresie variabile categorice? Cum construim un model de regresie ct mai bun?

Exerciiu: s se construiasc un model de regresie al ratei mbolnvirilor cu SIDA 1. Analizm distribuia variabilei Rata de mbolnviri cu SIDA (aids_rt = numr de cazuri de SIDA la 100000 de locuitori)

Majoritatea lucrrilor recomand ca variabilele numerice incluse n modele de regresie s aib distribuii normale, sau mcar s se apropie de una de acest tip. n cazul variabilei noastre avem o distribuie care se ndeprteaz dramatic de aceast cerin astfel c normalizarea este necesar. n baza de date avem o versiune normalizat a variabilei, obinut prin logaritmare n baza 10. Aceasta are o distribuie mult mai apropiat de cerina de normalitate:

Folosirea variabilelor logaritmate solicit atenie la interpretarea rezultatelor. Trebuie avut n vedere faptul c nu avem de a face cu numr de mbolnviri de SIDA sau cu transformri liniare ale acestora, precum n cazul ratelor, ci cu o transformare ne-liniar, relaia dintre variabila iniial i cea de fa nefiind una liniar. Cunoscnd formula logaritmrii, egalitatea dintre variabila iniial i cea normalizat este: Rata mbolnvirilor cu SIDA (aids_rt)=10lg_aidsrt Vom testa efectul urmtoarelor caracteristici asupra variaiei ratei mbolnvirilor cu SIDA: PIB/locuitor Religie Climat predominant Rata alfabetizrii femeilor

Testarea relaiilor bivariate Cu PIB/locuitor

Norul de puncte relev o relaie neliniar, n funcie de U log din rata mbolnrilor cu SIDA este mai mare la valorile extreme ale PIB/locuitori.. n cazul acesta, cel mai potrivit este s presupunem c relaia dintre cele dou variabile este una ptratic. Log_aidsrt=a +b1gdp_cap+b2gdp_cap2 Pentru a introduce aceast relaie ntr-o modelare prin regresie liniar avem nevoie de variabila gdp_cap ridicat la ptrat. Aceasta se obine folosind comanda compute.

Relaia cu religia Religia este variabil categoric. Prin urmare relaia cu variabila dependent se testeaz comparnd mediile pe categoriile de religie predominant. Aceasta se realizeaz cu comanda Means din meniul Compare Means din meniul Statistics.

Report

Log (base 10) of AIDS_RT Predominant religion Mean Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal Total 2,0238 ,7094 1,7011 ,6007 1,3888 ,8660 ,8528 1,7608 ,7627 2,5172 N 4 6 41 1 1 25 8 16 2 1 Std. Deviation ,49564 ,62343 ,55964 . . ,44859 ,46207 ,75290 ,63163 . ,71272

1,3788 105

Precum se vede din tabelul de mai sus, ntre categoriile religioase cele mai frecvente apar diferene importante: rile musulmane au rate de mbolnvire cu SIDA mult mai mici dect media rile catolice i cele protestante au rate similare mult mai mari dect media

n cazul variabilelor categorice (nominale), testarea relaiilor cu var. dependente n regresii liniare presupune construirea de variabile false (dummy) pentru fiecare dintre categoriile care ne intereseaz ale variabilei categorice. Variabilele dummy sunt variabile dihotomice, care au valoarea 1 n cazul n care individul/ cazul are valoarea categoriei de referin i valoarea 0 pentru restul cazurilor. Pentru exerciiul nostru vom construi trei variabile dummy: una pentru categoria rilor musulmane, una pentru cele protestante i una pentru cele catolice. Construcia acestor variabile se realizeaz cu ajutorul comenzii Recode into a different variable

Deoarece var. religie este String, categoriile trebuie trecute precis n comand, ntre ghilimele.

Etc., la fel i pentru rile protestante. ntruct climatul predominant este i el ea o variabil categoric, procedura este identic cu cea de la variabila despre religia predominant.

Report Log (base 10) of AIDS_RT Predominant climate Mean desert arid / desert arid 4 tropical mediterranean maritime temperate arctic / temp Total ,7879 ,8799 1,2550 2,0533 1,5688 1,1691 ,9886 1,4520 1,3770 N 7 5 5 5 32 10 4 33 4 Std. Deviation ,16276 ,41130 ,76891 ,63864 ,74526 ,67639 ,53534 ,69987 ,59163 ,70822

1,3879 105

Compararea mediilor arat variaii mici n jurul mediei internaionale (de 1,38) cu excepia rilor deertice (cu valori mai mici dect media) i a celor din categoria 4 (iat o eroare n baza celor de la SPSS), cu rate logaritmate mult mai mari. Deoarece categoria 4 are puine cazuri, voi construi o singur variabil dummy, pentru primele dou categorii, referitoare la ri deertice i aride. Problema se rezolv tot cu Recode into a different variable.

Relaia cu rata alfabetizrii femeilor

Norul de puncte nu relev nici o relaie. Este aproape sigur c introducerea ratei de alfabetizare a femeilor n modelul de regresie este inutil. O vom introduce, totui, pentru a ne convinge. Regresia
Una dintre cerinele importante care se impun modelelor de regresie este ca ntre variabilele independente s nu existe corelaii puternice. Situaia aceasta neplcut poart denumirea de multi-cominearitate. Pentru a verifica dac datele noastre violeaz aceast condiie, selectm aceast opiune.

O condiie important a unei regresii reuite este ca ntre valorile variabilei dependente i reziduurile regresiei s nu existe corelaie. Pentru a verifica aceast condiie solicitm norul de puncte ale reziduurilor standardizate n funcie de valorile variabilei dependente.

Regression
Notes Output Created Comments Data Active Dataset Input Filter Weight Split File N of Rows in Working Data File Missing Value Handling Definition of Missing Cases Used User-defined missing values are treated as missing. Statistics are based on cases with no missing values for any variable used. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lg_aidsr /METHOD=ENTER gdp_cap gdp_patrat musulman catolic protestant desert lit_fema /SCATTERPLOT=(*SRESID ,lg_aidsr ) . Elapsed Time Memory Required Resources Additional Memory Required for Residual Plots Processor Time 4012 bytes 192 bytes 0:00:00,28 0:00:00,25 C:\Program Files\SPSS Evaluation\World95.sav DataSet1 <none> <none> <none> 109 26-APR-2009 22:52:20

Syntax

[DataSet1] C:\Program Files\SPSS Evaluation\World95.sav


Variables Entered/Removed(b) Model 1 Variables Entered Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, domestic product / capita(a) Modelul nostruGross explic Variables Removed Method . Enter

a All requested variables entered. 43% din variaia variabilei b Dependent Variable: Log (base 10) of AIDS_RT independente. Model Summary(b) Model 1 R ,692(a) R Square ,479 Adjusted R Square ,431 Std. Error of the Estimate ,57683

a Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, Gross domestic product / capita b Dependent Variable: Log (base 10) of AIDS_RT ANOVA(b) Model Sum of Squares df Mean Square F Sig.

Regression 1 Residual Total

23,252 25,287 48,539

7 76 83

3,322 ,333

9,983

,000(a)

a Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, Gross domestic product / capita b Dependent Variable: Log (base 10) of AIDS_RT Coefficients(a) Unstandardized Coefficients B (Constant) 1,922 Std. Error ,216 ,000 ,000 ,212 ,170 ,253 ,242 ,003 Standardized Coefficients Beta 8,887 ,000 -,019 -,070 ,945 ,262 1,040 ,302 -,259 ,043 2,054 t Sig. Collinearity Statistics Tolerance

Parametri cu sig<0,05 sunt semnificativi.

Model

VIF

Gross domestic product / -3,03E-006 capita COMPUTE gdp_patrat = gdp_cap ** 2 1 musulman catolic protestant desert Females who read (%) 2,35E-009 -,436 ,773 ,831 -,095 -,013

,095 10,476 ,108 ,430 ,583 ,719 ,644 ,534 9,251 2,323 1,714 1,391 1,554 1,872

,494 4,553 ,000 ,321 3,287 ,002 -,040 -,392 ,696 -,501 ,000 4,425

a Dependent Variable: Log (base 10) of AIDS_RT

Tolerance msur a colinearitii care exprim inversul corelaiei multiple a variabilei cu celelalte variabile independente. Cu ct msura este mai apropiat de 0 cu att riscul colinearitii este mai mare. VIF factorul de inflaie al varianei indus de variabil, reprezint inversul toleranei: VIF>10 semnalizeaz colinearitate. n datele noastre colinearitatea este evident n cazul celor dou msuri ale produsului intern brut. Aa cum vom vedea, comparnd acest model cu cel urmtor, din care am eliminat efectele nesemnificative i variabilele care produc colinearitate, corelaia f puternic dintre variabilele independente poate duce la distorsionarea estimarea parametrilor de regresie, mai ales prin afectarea semnificativ a erorilor standard a acestora. ntruct relaia dintre PIB i variabila dependent este ptratic, soluia pentru rezolvarea problemei de colinearitate din datele noastre este eliminarea factorului liniar, adic a gdp_cap. n mod aparent surprinztor, n ciuda indiciilor contrare ale analizelor bivariate, efectul celo mai puternic asupra variabilei independente l are rata alfabetizrii femeilor. Contradicia cu lipsa aparent de relaie din analiza bivariat arat c una sau mai multe dintre variabilele introduse n analiz are efect de suprimare a corelaiei dintre rata de alfabetizare a femeilor i rata mbolnvirilor cu SIDA logaritmat.
Collinearity Diagnostics(a) Eigenval Conditio ue n Index Mode Dimensio l n Variance Proportions

COM Gross Gross PUTE Femal dom (Constan domestic gdp_p musulma catoli protesta deser es who (Constan estic t) product atrat = n c nt t read t) product / capita gdp_cap (%) / capita ** 2 1 2 3 1 4 5 6 7 8 3,801 1,586 1,266 ,687 ,392 ,182 ,054 ,031 1,000 1,548 1,733 2,353 3,113 4,571 8,368 11,011 ,00 ,00 ,00 ,00 ,01 ,02 ,83 ,12 ,00 ,00 ,00 ,01 ,00 ,00 ,11 ,87 ,00 ,01 ,01 ,03 ,00 ,03 ,15 ,78 ,00 ,07 ,01 ,00 ,22 ,33 ,33 ,04 ,01 ,00 ,13 ,00 ,09 ,67 ,08 ,02 ,01 ,05 ,07 ,57 ,05 ,21 ,03 ,01 ,01 ,12 ,03 ,00 ,77 ,03 ,04 ,00 ,00 ,00 ,00 ,00 ,00 ,13 ,30 ,56

a Dependent Variable: Log (base 10) of AIDS_RT

Tabelul de teste de colinearitate de mai sus este rezultatul unei analize factoriale aplicate variabilelor independente. Analiza extrage un numr de factori (dimensiuni) egal cu numrjul de variabile independente iar partea din variana total acoperit de dimensiune este exprimat de eigenvalues. Cu ct discrepana dintre eigenvalues-urile cele mai mari i cele mai mici este mai mare, cu att problema de colinearitate este mai grav. Valoarea condition index permite identificarea riscurilor de colinearitate: de pild valori ma mari de 10 indic risc mare de distorsionare a rezultatelor datorit colinearitii.
Residuals Statistics(a) Minimum Maximum Mean Std. Deviation N Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value ,0485 -2,431 ,104 -,0328 -1,62624 -2,819 -2,959 -1,79109 -3,125 1,692 ,000 ,020 2,6756 1,3353 2,532 ,478 ,000 ,170 ,52928 84 1,000 84 ,054 84 ,52947 84 ,55197 84 ,957 84 1,007 84 ,61256 84 1,024 84 6,541 84 ,027 84 ,079 84

2,5444 1,3326 1,30324 ,00000 2,259 2,473 2,562 56,029 ,151 ,675 ,000 ,002 ,000 6,917 ,014 ,083

1,56135 ,00271

a Dependent Variable: Log (base 10) of AIDS_RT

Statisticile din tabelul de mai sus permit identificarea cazurilor prost explicate de date i a celor care au influen asupra rezultatelor regresiei. Astfel, reziduuri standardizate i studentizate mai mari de 2 n valoare absolut exprim abateri mari de la modelul de regresie iar cazurile respective necesit o atenie special. Ultimii trei indici sunt folosii pentru a identifica cazurile influente. De pild, valoarea de leverage (de ridictor) este cu att mai ngrijortoare cu ct este mai departe de 0.

Charts

Norul de puncte nu indic ntrutotul absena unei relaii ntre variabila dependent i reziduurile standardizate ale regresiei. Observm c la extremele scalei variabilei dependente avem probleme n predicia valorilor n timp ce n centrul distribuiei calitatea regresiei este acceptabil. De reinut: necesitatea testrii normalitii distribuiei variabilei dependente i aplicarea transformrilor de normalizare, dac este cazul necesitatea analizrii relaiilor bivariate, folosind tehnici statistice adecvate nivelului de msurare al variabilelor; aceasta permite: o verificarea linearitii relaiilor i aplicarea transformrilor necesare, dac este cazul o identificarea cazurilor aberante i a celor extreme, care pot afecta semnificativ rezultatele regresiei

construirea variabilelor dummy din categoriile variabilelor categorice introduse n modelare ca variabile independente verificarea colinearitii i eliminarea variabilelor cu probleme de colinearitate verificarea prin nori de puncte a relaiei reziduurilor regresiei cu variabila dependent.

Regresie 2 O regresie poate fi realizat avnd n minte mai multe obiective. Exemplul anterior se potrivete cel mai bine situaiilor n care se urmrete testarea unor ipoteze statistice. Scopul cercettorului poate fi, ns, i acela de a elabora un model statistic ct mai bine adecvat datelor. Aceasta nseamn construcia unui model parcimonios (cu ct mai puine variabile) care explic ct mai mult din variaia variabilei dependente. Aceasta se poate realiza prin modelare n trepte (stepwise). Preferata mea este eliminarea treptat a variabilelor pe baza criteriului semnificaiei parametrilor. n fiecare etap sunt eliminate din model variabilele care au testul de semnificaie (sig), >0,05, cel mai mare. n cazul ideal, vom avea n model doar parametri cu sig<0,05.

Regression
Notes Output Created Comments Data Active Dataset Input C:\Program Files\SPSS Evaluation\World95.sav DataSet1 26-APR-2009 23:07:12

Filter Weight Split File N of Rows in Working Data File Missing Value Handling Definition of Missing Cases Used

<none> <none> <none> 109 User-defined missing values are treated as missing. Statistics are based on cases with no missing values for any variable used. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lg_aidsr /METHOD=BACKWARD gdp_cap gdp_patrat musulman catolic protestant desert lit_fema /SCATTERPLOT=(*SRESID ,lg_aidsr ) .

Syntax

Elapsed Time Memory Required Resources Additional Memory Required for Residual Plots Processor Time 4492 bytes 192 bytes

0:00:00,28

0:00:00,41

[DataSet1] C:\Program Files\SPSS Evaluation\World95.sav


Variables Entered/Removed(b) Model Variables Entered Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, Gross domestic product / capita(a) . Gross domestic product / capita Variables Removed . Enter Backward (criterion: Probability of F-to-remove >= ,100). Backward (criterion: Probability of F-to-remove >= ,100). Method

3 a All requested variables entered. b Dependent Variable: Log (base 10) of AIDS_RT

. desert

Model Summary(d) Model 1 2 3 R ,692(a) ,692(b) ,691(c) R Square ,479 ,479 ,478 Adjusted R Square ,431 ,438 ,444 Std. Error of the Estimate ,57683 ,57309 ,57000

a Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, Gross domestic product / capita b Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman c Predictors: (Constant), Females who read (%), protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic,

musulman d Dependent Variable: Log (base 10) of AIDS_RT ANOVA(d) Model Regression 1 Residual Total Regression 2 Residual Total Regression 3 Residual Total Sum of Squares 23,252 25,287 48,539 23,250 25,289 48,539 23,197 25,342 48,539 df 7 76 83 6 77 83 5 78 83 4,639 ,325 14,279 ,000(c) 3,875 ,328 11,799 ,000(b) Mean Square 3,322 ,333 F 9,983 Sig. ,000(a)

a Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman, Gross domestic product / capita b Predictors: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman c Predictors: (Constant), Females who read (%), protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman d Dependent Variable: Log (base 10) of AIDS_RT Coefficients(a) Unstandardized Coefficients B (Constant) 1,922 Std. Error ,216 ,000 ,000 ,212 ,170 ,253 ,242 ,003 ,215 ,000 ,211 ,166 ,251 ,240 ,003 ,213 ,245 -,259 ,495 ,322 -,041 -,505 -,019 ,262 -,259 ,494 ,321 -,040 -,501 Standardized Coefficients Beta t Sig. Collinearity Statistics B Std. Error

Model

Tolerance VIF 8,887 ,000

Gross domestic product / -3,03E-006 capita COMPUTE gdp_patrat = gdp_cap ** 2 1 musulman catolic protestant desert Females who read (%) (Constant) COMPUTE gdp_patrat = gdp_cap ** 2 musulman 2 catolic protestant desert Females who read (%) (Constant) 2,35E-009 -,436 ,773 ,831 -,095 -,013 1,923 2,20E-009 -,437 ,774 ,833 -,096 -,014 1,932

-,070 ,945 ,095 1,040 ,302 ,108 -2,054 ,043 ,430 4,553 ,000 ,583 3,287 ,002 ,719 -,392 ,696 ,644 -4,425 ,000 ,534 8,949 ,000 2,681 ,009 ,807 -2,070 ,042 ,431 4,656 ,000 ,599 3,322 ,001 ,722 -,403 ,688 ,649 -5,163 ,000 ,706 9,089 ,000

10,476 9,251 2,323 1,714 1,391 1,554 1,872

1,238 2,322 1,669 1,384 1,540 1,416

COMPUTE gdp_patrat = gdp_cap ** 2 musulman catolic protestant Females who read (%)

2,19E-009 -,480 ,775 ,836 -,014

,000 ,181 ,165 ,249 ,003

,244 -,285 ,495 ,323 -,510

2,681 ,009 ,809 -2,656 ,010 ,581 4,687 ,000 ,599 3,355 ,001 ,723 -5,275 ,000 ,716

1,236 1,722 1,669 1,383 1,396

a Dependent Variable: Log (base 10) of AIDS_RT Collinearity Diagnostics(a) Eigenval Conditio ue n Index Variance Proportions

COM Gross Mode Dimensio Gross PUTE Femal dom l n (Constan domestic gdp_p musulma catoli protesta deser es who (Constan estic t) product atrat = n c nt t read t) product / capita gdp_cap (%) / capita ** 2 1 2 3 1 4 5 6 7 8 1 2 3 2 4 5 6 7 1 2 3 3 4 5 6 3,801 1,586 1,266 ,687 ,392 ,182 ,054 ,031 3,133 1,512 1,171 ,565 ,391 ,179 ,050 2,986 1,204 1,016 ,560 ,182 ,051 1,000 1,548 1,733 2,353 3,113 4,571 8,368 11,011 1,000 1,440 1,636 2,356 2,831 4,188 7,917 1,000 1,575 1,714 2,309 4,052 7,628 ,00 ,00 ,00 ,00 ,01 ,02 ,83 ,12 ,01 ,00 ,00 ,00 ,01 ,03 ,95 ,01 ,00 ,00 ,00 ,04 ,95 ,00 ,00 ,00 ,01 ,00 ,00 ,11 ,87 ,00 ,01 ,01 ,03 ,00 ,03 ,15 ,78 ,02 ,03 ,12 ,72 ,01 ,07 ,02 ,03 ,15 ,00 ,74 ,06 ,02 ,00 ,07 ,01 ,00 ,22 ,33 ,33 ,04 ,01 ,07 ,00 ,01 ,22 ,34 ,35 ,01 ,03 ,26 ,00 ,35 ,35 ,01 ,00 ,13 ,00 ,09 ,67 ,08 ,02 ,01 ,02 ,11 ,00 ,09 ,73 ,04 ,02 ,04 ,12 ,00 ,78 ,04 ,01 ,05 ,07 ,57 ,05 ,21 ,03 ,01 ,01 ,05 ,21 ,40 ,07 ,25 ,01 ,01 ,26 ,00 ,44 ,27 ,01 ,01 ,12 ,03 ,00 ,77 ,03 ,04 ,00 ,01 ,14 ,01 ,01 ,77 ,03 ,03 ,00 ,00 ,00 ,00 ,00 ,13 ,30 ,56 ,01 ,00 ,00 ,00 ,00 ,18 ,80 ,01 ,00 ,00 ,00 ,18 ,81

a Dependent Variable: Log (base 10) of AIDS_RT Excluded Variables(c) Beta In Model Tolerance VIF 2 Gross domestic -,019(a) -,07 t Sig. Minimum Tolerance ,945 Partial Correlation Tolerance VIF Collinearity Statistics Minimum Tolerance 10,476 Tolerance ,095

-,008 ,095

product / capita Gross domestic product / capita desert -,029(b) -,041(b)

0 -,10 7 -,40 3 ,915 ,688 -,012 ,096 -,046 ,649 10,385 1,540 ,096 ,431

a Predictors in the Model: (Constant), Females who read (%), desert, protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman b Predictors in the Model: (Constant), Females who read (%), protestant, COMPUTE gdp_patrat = gdp_cap ** 2 , catolic, musulman c Dependent Variable: Log (base 10) of AIDS_RT Residuals Statistics(a) Minimum Maximum Mean Std. Deviation N Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value ,0902 -2,355 ,102 ,0553 -1,63136 -2,862 -3,001 -1,79365 -3,170 1,689 ,000 ,020 2,6498 1,3353 2,486 ,395 ,000 ,145 ,52866 84 1,000 84 ,047 84 ,52741 84 ,55256 84 ,969 84 1,012 84 ,60260 84 1,028 84 4,966 84 ,033 84 ,060 84

2,5599 1,3337 1,30253 ,00000 2,285 2,490 2,578 38,775 ,193 ,467 ,000 ,001 ,000 4,940 ,015 ,060

1,54614 ,00160

a Dependent Variable: Log (base 10) of AIDS_RT

Charts

S-ar putea să vă placă și