Sunteți pe pagina 1din 86

Regresia

Partea I. Regresia liniară simplă


Partea II. Regresia liniară multiplă
Partea III. Regresia logistică binomială

Conf. Dr. Paul Teodor Hărăguş


Pornim de la …
Corelația

Indicatorul de corelație ne indică co-variația între două caracteristici


(variabile) cantitative prin folosirea coeficientului de corelație
Pearson.
Practic, acest indicator poate fi folosit pentru a prezice o variabilă în
funcție de alta.
Modulul de faţă se va concentra pe relaţia dintre două sau mai multe
variabile cantitative, modul în care aceste predicţii sunt făcute şi ce
putem afla despre relaţia dintre două variabile dezvoltând o ecuaţie
de predicţie.

Termenul de predicţie este sinonim cu cel de regresie în problematica


de faţă iar prima asumpţie pe care o vom face este că relaţia dintre
cele două variabile este liniară, adică ne vom concentra asupra cele
mai simple regresii (predicţii): cea liniară. (modelele mai complexe de
relaţie între variabile pornesc de la această metodă).
Figure 1. Correlation
between Countries'
Annual Per Capita
Chocolate Consumption
and the Number of
Nobel Laureates per 10
Million Population.

Franz H. Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates. N
Engl J Med; 367:1562-1564
• Pentru că relaţia între variabile este liniară problema predicţiei
devine una de a descoperi curba grafică (în cazul nostru dreapta)
care va aproxima cel mai bine relaţia dintre variabilele noastre.
Numele ei este „dreapta de regresie”.

• Având două variabile, X şi Y prin analiza de regresie liniară vom


încerca să descoperim în ce mod putem prezice
variabila Y (variabila dependentă) în funcţie de variabila X
(variabila independentă).
• O regresie ce conține doar o singură variabilă predictor se numește
regresie simplă.
• Dacă ecuația conține mai multe variabile predictor atunci analiza
poartă denumirea de regresie multiplă.

Exemple:
1. regresie simplă: venitul respondentului în funcţie de anii de
educație.

2. regresie multiplă: venitul respondentului în funcție de anii de


educație, anii de experiență, domeniul de activitate, vârstă, gen,
educația și ocupația tatălui, salariul primului loc de muncă, domeniul
de activitate etc.
• Normal, prin dreapta de regresie noi vom estima pe Y printr-un Y’
pentru că este puţin probabil ca dreapta de regresie să treacă prin
toate punctele, astfel că aceasta va trebui să treacă cât mai aproape
de punctele noastre.

• Formula acestei drepte de regresie este:

Y’ = a + b*X
Problema pe care trebuie să o rezolvăm în continuare este de a
determina coeficienţii dreptei de regresie.
• Primul coeficient, a ne arată unde va intersecta dreapta de regresie
axa Y (intercept=pozitia lui Y cand X=0) şi este mai puţin important
pentru interpretarea datelor .
• Coeficientul b reprezintă panta dreptei de regresie (slope) şi ne
arată cu câte unităţi creşte în medie Y atunci când îl vom creşte pe X
cu o unitate.
• Ceea ce este important în calcularea acestor coeficienţi este că se
face apel la mărimi statistice obişnuite: medii (MediaX şi MediaY ),
abateri standard (σX, σY) şi la coeficientul de corelaţie (r). Valorile
pentru aceste mărimi sunt oferite în tabel:
X Y
1 1
Exemplu: 2 1,3
se dă un set de 10 valori
3 1,9
X= încrederea în sine 4 2
Y=performanţa
5 2,4
6 2,2
7 3
8 3,6
9 3,4
10 4
Statistics

X Y
N Valid 10 10
Missing 0 0
Mean 5.5000 2.4800
Std. Deviation 3.02765 .99532

Formula coeficienţilor:
• a = MediaX – b* MediaY
• b = r * (σX / σY)
Scriem formula dreptei de regresie:
Y’ = 0,713 + 0,321*X
performanta’ = 0,713 + 0,321*increderea in sine
Graficul (scatterplot): X, Y şi dreapta de regresie

4,00

3,50

3,00
Y

2,50

2,00

1,50

1,00

0,00 2,00 4,00 6,00 8,00 10,00


X
Calitatea estimării
• Este evident că dreapta obţinută de către noi (Y’) nu face altceva decât să
aproximeze valorile reale ale lui Y. Distanţa între Y real şi cel estimat Y’ prin
dreapta de regresie constituie eroarea predicţiei noastre pentru fiecare caz în
parte:

Yi-Yi’ = Esi
Esi = Eroarea dată de dreapta de regresie pentru individul i

• Calitatea estimării, sau eroarea standard a estimării (pe care o vom nota cu Es)
se referă la calitatea estimării pentru întreaga populaţie şi nu doar pentru un
singur caz, astfel că vom folosi o formulă asemănătoare abaterii standard
(pentru că întotdeauna Σ (Yi-Yi’) = 0):
4,00

3,50

3,00
Erorile de predicție
Yi-Yi’ = Esi
Y

2,50

2,00

1,50

1,00

0,00 2,00 4,00 6,00 8,00 10,00


X
Eroarea estimarii: Es

  y  y '
2
Es = 1

N
• pentru exemplul nostru: Es = 0,2.

• O formulă alternativă se poate oferi în funcţie de


abaterea standard a populaţiei Y (σY) şi coeficientul de
corelaţie r dintre populaţia X şi Y:

• Es = σY 1  r 
2
• Eroarea estimării (Es) poate fi interpretată ca un indicator
al dispersiei punctelor în jurul dreptei de regresie:
abaterea medie (pătratică) a valorilor reale Y de la valorile
prezise Y’.
• Poate să fie egal cu 0 atunci când estimarea noastră este
perfectă (Yi = Yi’).
• Observăm că avem de-a face cu o problemă similară teoremei de
descompunere a varianței: varianța variabilei dependente este
egală cu suma dintre varianța punctelor în jurul dreptei de regresie
și varianța punctelor de pe dreapta de regresie în jurul mediei.
Formula după care vom scrie afirmația de mai sus este:

σY2 = r2σy2 + (Es)2

• Prima varianţă din formulă (varianţa variabilei dependente)


reprezintă varianţa care trebuie explicată.
• Variaţia scorurilor prezise divizată cu varianţa variabilei dependente
reprezintă varianţa explicată, adică partea din varianţa variabilei
dependente ce a fost explicată.
• Eroarea estimării Es2 divizată cu varianţa variabilei dependente reprezintă
nedeterminarea faţă de dreapta de regresie, adică varianţa care nu a fost
explicată de dreapta de regresie, pentru care trebuie să facem apel la alte
variabile explicative.

• Este important să subliniem aici că dacă efectuăm câteva operaţii matematice


observăm că partea din varianţă care a fost explicată, coeficientul de
determinaţie este egal cu r2 iar coeficientul de nedeterminaţie este egal cu 1 – r2:

coeficientul de determinaţie = r2
coeficientul de nedeterminaţie = 1 – r2

• Pentru exemplul nostru r = 0,977 iar r2 = 0,954 astfel că partea determinată din
varianţa variabilei dependente este de 95% iar varianţa neexplicată este de doar
5%.
Cât este
coeficientul de
nedeterminare
în acest caz?

R2= 0,5076

1 – r2= 0,4924
Sau 49,24%
Exemplu în SPPS.
• H: Notele de la nivelul liceului sunt un predictor bun pentru notele
de la facultate?

• Variabile:
– Notele din liceu: HighGPA – Highscool grade point average
– Notele din univ: UnivGPA – University grade point average

• Ipoteza de cercetare: Media notelor din liceu sunt un predictor bun


pentru notele de la facultate
• Ipoteza nula: H0
• Pt a respinge ipoteza nula: cu cat este mai mare t (adica p este mai
mic), cu atat este mai puternica relatia liniara intre X si Y
• Valoarea lui F (ANOVA) poate fi folosita pt a testa ipoteza nula
Analiza în SPSS
• Primul pas pe care îl vom face va fi să reprezentăm grafic situaţia noastră
(Graph – Scatter – Simple), iar apoi să edităm graficul şi să ataşăm dreapta
de regresie.
• Observăm poziţionarea norului de puncte şi că există totuşi o formă alungită a
norului de puncte ce sugerează o dreaptă de regresie (vezi graficul urmator),
însă nu aşa de clară ca în exemplul precedent.
• În SPSS vom alege analiza: Analyze – Regression – Linear, vom aşeza
variabila univ_gpa ca şi variabilă dependentă şi high_gpa ca şi variabilă
independentă.
• În căsuţa de dialog Statistics sunt selectate două opţiuni standard: Estimates
(ce va calcula coeficienţii de regresie şi alte măsuri asociate) şi Model Fit (va
afişa r, r2 , r2 ajustat etc. precum şi un tabel ANOVA). Vom bifa opţiunea
Descriptives pentru a avea afişate mediile şi abaterile standard ale celor două
variabile.
4,00

3,50

univ_gp

3,00

2,50

2,00

2,00 2,50 3,00 3,50 4,00


high_gpa
Descriptive Statistics

Std.
Mean Deviation N
univ_gp
3,1729 ,44719 105

high_gpa
3,0764 ,51660 105

Primul tabel: “Descriptive statistics” - măsurile statistice


de bază ale celor două variabile pe care le avem în
model.
Discutarea valorilor ...
Correlations

univ_gp high_gpa
Pearson Correlation univ_gp 1,000 ,780
high_gpa ,780 1,000
Sig. (1-tailed) univ_gp . ,000
high_gpa ,000 .
N univ_gp 105 105
high_gpa 105 105

Al doilea tabel “Correlations”: valoarea coeficientului de corelaţie Pearson între


cele două variabile. Interpretare: valoarea coeficientului Pearson este 0,780
– avem o corelaţie pozitivă, puternică.
Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
1 ,780(a) ,608 ,604 ,28144
a Predictors: (Constant), high_gpa

Al treilea tabel: ne oferă un sumar al modelului: r2 este 0,608, eroarea estimării


(Es) este 0,28144, de unde tragem concluzia că varianţa notelor din liceu explică
60% din varianţa notelor din universitate şi că rămân de explicat aproximativ
40% din varianţa variabilei dependente.

Dacă ne vom uita la grafic vom observa că varianţa în jurul dreptei de regresie
nu este aceeaşi pentru toate valorile lui X, astfel că dreapta de regresie are o
predicţie foarte bună pentru valori mari ale notelor şi o predicţie modică pentru
notele mici din liceu.
Unstandardized Standardized
M Coefficients Coefficients t Sig.
Std.
B Error Beta
1 (Constant) 1,097 ,167 6,583 ,000
high_gpa ,675 ,053 ,780 12,632 ,000

Ultimul tabel ne indică coeficienţii de regresie:


A este denumit “constant” (intercept) este punctul în care
dreapta intersectează axa Y = 1,097
B este panta regresiei, în cazul nostru 0,675.
Interpretarea ei se face în felul următor: pentru fiecare
creştere cu o unitate a mediilor din liceu, avem o
creştere cu 0,675 a mediilor din facultate.
Testul t este extrem de important în interpretarea regresiei
pentru că acesta evaluează semnificaţia coeficienţilor
individuali b, prin testarea ipotezei nule. Ipoteza nulă
testată este: coeficientul de regresie este egal cu 0. În
cazul de faţă testul t este semnificativ pentru 0,001 vom
putea respinge ipoteza nulă.
Probleme cu exemplu nostru:

heteroscedastic (heteroskedastic) =
varianţe inegale (eroarea standard are variaţie inegală)

Alte exemple:
Persoanele sărace tind să cumpere acelaşi gen de mâncare
şi să consume sume constant reduse pe mâncare.
Bogaţii însă variază: cumpără mâncăruri foarte scumpe,
altădată foarte ieftine.
• Cum scriem relația liniară/ecuația dreptei de regresie?

Univ_gpa = 1,097 + ,675 *high_GPA


Exemplul 2: când nu există o relaţie liniară semnificativă

• Valoarea F poate fi folosită pentru a testa ipoteza nulă:


– H0: nu există o relaţie liniară între variabila dependentă şi cele
independente.

Pragul de semnificaţie: 0.053 > 0.05

Astfel că nu putem respinge ipoteza nulă


• “Intercept” (A) sau “constanta” are valoarea 2.050. Panta liniei (B) are
valoare .700. În coloana ‘Std. Error’ vom vedea erorile standard are lui A şi B.
Dacă A şi B se împart la erorile lor standard obţinem valorile lui t.
• Valoarea t testează ipoteza nulă: nu există o relaţie între cele două variabile.
Probabilitatea asociată de 0,053 (din coloana “sig”) este mai mare de 0.05, aşa
că nu putem respinge ipoteza nulă.

Daca ar exista o relatie liniara, atunci:


ecuaţia Y = A + BX s-ar scrie:
“variabila dependentă” = 2.05 + (0.700 × var. independentă)
Analiza în PSPP
• Baza de date:
World95.sav
• Analyze-
Regression-
Linear
• Baza de date: World95.sav Variabila dependentă: lifexpf
Variabila independentă: lit_fema

Model Summary (Average female life expectancy)


R R Square Adjusted R Square Std. Error of the Estimate
.82 .67 .67 6.20

ANOVA (Average female life expectancy)


Sum of Squares df Mean Square F Sig.
Regression 6475.18 1 6475.18 168.70 .000
Residual 3185.81 83 38.38
Total 9660.99 84

Coefficients (Average female life expectancy)


Unstandardized Coefficients Standardized Coefficients

B Std. Error Beta t Sig. Lower Bound Upper Bound


(Constant) 47.17 1.73 .00 27.34 .000 43.74 50.60
Females who read (%) .31 .02 .82 12.99 .000 .26 .35
Figure 1. Correlation
between Countries'
Annual Per Capita
Chocolate Consumption
and the Number of
Nobel Laureates per 10
Million Population.

Franz H. Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates.
N Engl J Med; 367:1562-1564
Spurious
correlations
http://tylervigen.com/spurio
us-correlations
• Quartetul lui Anscombe: 4 serii Proprietate Valoare
de date, diferite, în care mediile,
varianţele, corelaţia şi ecuaţia Media lui X 9
de regresie sunt identice.
Varianţa lui X 10
• DAR, graficele ne arată situaţii
foarte diferite. Media lui Y 7.50

Varianţa lui Y 3.75

Corelaţia între X şi Y 0.898

Ecuaţia regresiei liniare: Y = 3.00 + 0.500X

Anscombe, F.J., (1973). "Graphs in Statistical Analysis“, American Statistician, 27, 17-21.
Seriile (quartetul) lui Anscombe
I II III IV
x1 y1 X2 y2 x3 y3 x4 y4
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
• Ecuaţia de regresie:
Y = 3 + 0.5*X

• ? Care dintre cele 4 situaţii este cel mai bine surprinsă de


dreapta de regresie?
• ? Care este cel mai prost surprinsă de dreapta de regresie?
Graficele pentru Seriile lui Anscombe
JASP – regresia liniară Lifexpf=47.170+0,307*lit_fema
Lit_fema
LIFEXPF
(cu interval de 95%
confidence)
Teme practice:
• Care este ecuaţia dreptei de regresie? La ce se referă fiecare termen al
ecuaţiei?
• Dacă o ecuaţie de regresie este Y' = 3X + 5 care va fi scorul prezis pentru un
scor X=8?
• Ce criterii se folosesc pentru a determina care este cea mai bună dreaptă ce
aproximează cel mai bine variabila dependentă?
• Ce măsoară eroarea standard a estimării (Es)?
• În ce mod mărimea coeficientului de corelaţie Pearson este legat de eroarea
standard a estimării (Es)?
• Care sunt „estimările” la care se referă eroarea standard a estimării (Es)?
• În ce mod abaterea standard este legată de eroarea standard a estimării
(Es)?
• Dacă într-o analiză de regresie aflăm că suma pătratelor scorurilor prezise
este 80 iar suma pătratelor erorii este 40, care este r2?
• Care este ecuaţia de regresie dacă media lui X este 20, media lui Y 50 iar
corelaţia între X şi Y este 0?
Partea II-a
Regresia liniară multiplă
• Este o extensie a regresiei simple
• Permite introducerea mai multor variabile independente în
model

• Ecuatia liniara este:


Y’ = a + b1*x1 + b2*x2 + … + bk*xk
Standard Multiple Regression (Enter în SPSS) şi diferită de
Stepwise şi Backward.

Exemplu:
“employee data.sav”
VD: salariul actual
VI: salariul de începător
luni de la angajare
experienţa anterioară
minority
nivel de educaţie (ani)
Descriptive Statistics

Mean Std. Deviation N


Current Salary 34419.57 17075.661 474
Beginning Salary 17016.09 7870.638 474
Months since Hire 81.11 10.061 474
Previous Experience
95.86 104.586 474
(months)
Minority Classification .22 .414 474
Educational Level (years) 13.49 2.885 474

• Putem vedea cum arată mediile și abaterile standard ale


tuturor variabilelor din modelul nostru
• (variabila salariu a fost transformată din $ în numeric)
Correlations

Previous
Beginning Months Experience Minority Educational
Current Salary Salary since Hire (months) Classification Level (years)
Pearson Correlation Current Salary 1.000 .880 .084 -.097 -.177 .661
Beginning Salary .880 1.000 -.020 .045 -.158 .633
Months since Hire .084 -.020 1.000 .003 .050 .047
Previous Experience
-.097 .045 .003 1.000 .145 -.252
(months)
Minority Classification -.177 -.158 .050 .145 1.000 -.133
Educational Level (years) .661 .633 .047 -.252 -.133 1.000
Sig. (1-tailed) Current Salary . .000 .034 .017 .000 .000
Beginning Salary .000 . .334 .163 .000 .000
Months since Hire .034 .334 . .474 .141 .152
Previous Experience
.017 .163 .474 . .001 .000
(months)
Minority Classification .000 .000 .141 .001 . .002
Educational Level (years) .000 .000 .152 .000 .002 .
N Current Salary 474 474 474 474 474 474
Beginning Salary 474 474 474 474 474 474
Months since Hire 474 474 474 474 474 474
Previous Experience
474 474 474 474 474 474
(months)
Minority Classification 474 474 474 474 474 474
Educational Level (years) 474 474 474 474 474 474
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 1.12E+11 5 2.237E+10 401.787 .000a
Residual 2.61E+10 468 55680306.44
Total 1.38E+11 473
a. Predictors: (Constant), Educational Level (years), Months since Hire, Minority
Classification, Previous Experience (months), Beginning Salary
b. Dependent Variable: Current Salary
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .901a .811 .809 7461.924
a. Predictors: (Constant), Educational Level (years),
Months since Hire, Minority Classification, Previous
Experience (months), Beginning Salary
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) -16010.3 3256.193 -4.917 .000
Beginning Salary 1.759 .059 .811 29.714 .000 .542 1.845
Months since Hire 163.352 34.268 .096 4.767 .000 .990 1.010
Previous Experience
-16.682 3.566 -.102 -4.679 .000 .846 1.181
(months)
Minority Classification -1006.986 849.751 -.024 -1.185 .237 .950 1.053
Educational Level (years) 671.834 165.533 .114 4.059 .000 .516 1.937
a. Dependent Variable: Current Salary

• Important: pentru fiecare VI se poate formula o H0 a relaţiei cu


VD.
• BETA (coeficientul B standardizat) elimină unitatea de măsură
şi permite comparaţii între efectele VI (cu cât este mai mare, cu
atît efectul acelei variabile este mai important)
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) -16010.3 3256.193 -4.917 .000
Beginning Salary 1.759 .059 .811 29.714 .000 .542 1.845
Months since Hire 163.352 34.268 .096 4.767 .000 .990 1.010
Previous Experience
-16.682 3.566 -.102 -4.679 .000 .846 1.181
(months)
Minority Classification -1006.986 849.751 -.024 -1.185 .237 .950 1.053
Educational Level (years) 671.834 165.533 .114 4.059 .000 .516 1.937
a. Dependent Variable: Current Salary

• Coliniaritatea: ideal, VIF ar trebui sa fie egal cu 1. În practică, este


indicat să nu depăşească 2 (după unii autori: 4, după alţii 10)
• Din tabelul de corelaţii între variabile: dacă avem valori mai mari
de 0.7 trebuie să renunţăm la variabila/sau variabilele ce produc
coliniaritate, adică ce au coeficientul de corelație mai mare de 0,7.
Atenție: nu le eliminăm pe toate
• Soluţii statistice pentru problemă? Nu există!
• Trebuie să găsim soluţii teoretice.
• Coliniaritatea: duce la inflaţia (nejustificată) a lui R2

• R2 se interpretează ca şi “model fit” (goodness of fit)


• Dacă scopul nostru a fost să “modelăm” – să construim
un model explicativ, atunci valoarea lui R2 este foarte
importantă pentru noi
Exemplul precedent reluat

• Introdus genul – codat 0 (bărbat) -1 (femeie)


• Introdus categoria ocupațională (manager, custodial vs. clerical)
• Introdus vârsta (calculată la 1 ian 1995 din bdate)
compute age = datediff(date.dmy(1,1,1995),bdate,'days') / 365.25.
EXECUTE.

• Rulăm în JASP 0.16.0


• Metoda: Enter, Stepwise, Backwards
Tipuri de metode pentru a realiza regresii liniare
• ENTER Regression = the • Stepwise Regression
default linear regression on A method that almost always
our data resolves multicollinearity is
stepwise regression. We specify
which predictors we'd like
to include. SPSS then inspects
which of these predictors really
contribute to predicting our
dependent variable and
excludes those who don't.
Like so, we usually end up with
fewer predictors than we
specify. However, those that
remain tend to have solid,
significant b-coefficients in the
expected direction
• Metoda stepwise se mai
numește și hiercarchial
linear regression.
• este o metodă iterativă:
introduce cel mai bun
predictor și face un
model de regresie.
• În pasul următor
introduce un alt
predictor, și face un nou
model de regresie
Model Summary - salary
Mod
R R² Adjusted R² RMSE
• Pentru exemplul nostru se
el

1 0.000 0.000 0.000 17093.723 oprește după 9 pași


2 0.880 0.775 0.774 8119.791

3 0.900 0.809 0.809 7479.023

4 0.907 0.822 0.821 7229.414

5 0.913 0.833 0.831 7018.977

6 0.915 0.837 0.835 6948.200

7 0.916 0.839 0.836 6913.329

8 0.917 0.841 0.838 6871.484

9 0.916 0.840 0.838 6884.124


Partea a-III-a

Regresia logistică binomială


Tipuri de analize posibile cu ajutorul regresiei
Tipul regresiei Condiţii
Univariată O variabilă dependentă VD cantitativă
Multivariată Mai multe VD cantitative
Simplă O singură variabilă independentă VI (sau
predictor)
Multiplă Două sau mai multe VI (+ dummy pt calit)
Liniară Toţi parametrii intră liniar în ecuaţie (eventual
după transformări)
Non-liniară Relaţia dintre VI şi VD este non-liniară (nu este
posibilă o transformare)
ANOVA Toţi predictorii (VI) sunt variabile calitative
ANCOVA Avem VI calitativi şi cantitativi
Regresia logistică VD este calitativă
Evenimentul de interes
p= probabilitatea =
Toate posibilitățile
• Odds = șansă
Odds ratio - Șanse relative
Problema:
A voter’s choice in a presidential election (Democrat or Republican), with
predictor variables political ideology, annual income, education level, and
religious affiliation
Whether a person uses illegal drugs (yes or no), with predictors education level,
whether employed, religiosity, marital status, and annual income

• Naufragiul Titanic
– Date despre 2201 indivizi
– Variabila dependentă: a supravieţuit accidentului (1-da, 0-nu)
– Caracteristicile populaţiei: sexul persoanei (masculin, feminin); categoria
de vârstă (copil, adult); clasa (clasa: 1-3, + crew).
Prima soluţie: asocierea între categorii
SURVIV * CLASS Crosstabulation

% within CLASS
CLASS
cls I cls II cls III crew Total
SURVIV decedat 37.5% 58.6% 74.8% 76.0% 67.7%
supravietuitor 62.5% 41.4% 25.2% 24.0% 32.3%
Total 100.0% 100.0% 100.0% 100.0% 100.0%

SURVIV * AGEGROUP Crosstabulation

% within AGEGROUP
AGEGROUP
copil adult Total
SURVIV decedat 47.7% 68.7% 67.7%
supravietuitor 52.3% 31.3% 32.3%
Total 100.0% 100.0% 100.0%
SURVIV * SEX Crosstabulation

% within SEX
SEX
masculin feminin Total
SURVIV decedat 78.8% 26.8% 67.7%
supravietuitor 21.2% 73.2% 32.3%
Total 100.0% 100.0% 100.0%

• Avem 4 variabile calitative – inclusiv variabila dependenta.


• VD: de tip binar.
Dorim sa studiem efectul simultan al celor 3 VI
 regresia logistica multivariată
Asumpții ale regresiei logistice
• nu se presupune o relație liniara intre variabilele independente si cea
dependenta
• variabila dependenta trebuie sa fie dihotomica (sa aibă 2 categorii)
• variabilele independente NU trebuie sa fie normal distribuite, sau de nivel
interval, sau sa aibă o relație liniara sau sa aibă variante egale
• categoriile (grupurile) trebuie sa fie mutual exclusive si exhaustive – un caz
poate sa fie într-un singur grup si orice caz trebuie sa facă parte dintr-un anume
grup

• Regresia logistica: determina impactul mai multor variabile independente


prezentate simultan în reușita predicției apartenentei într-una din
categoriile variabilei independente (0 sau 1).

Cerința:
• Eșantioane mari – astfel încât sa rămână minim 50 de cazuri per predictor.
VD: exista 2 posibilitati: Supravietuire sau Deces
– probabilitatea de Supravietuire este p, probabilitatea de Deces este (1-p).

Odds = p/(1-p)

Definitia transformarii Logit = log din odds ratio (log[p/(1-p)])

Beneficiile analizei logit


• logit este o variabila continua
• negativ daca p < 0.5, pozitiv daca p > 0.5

Regresia logistica standard este o functie liniara :

log  p /(1  p )   a  bX 1  cX 2  ...


Rezultatele la matematica reprezentate cu alocarea intr-una din categoriile:
a luat nota de trecere/nu a luat nota de trecere la statistica
Transformări Logit
 pi 
logit( pi )  log  
 1  pi 
unde
i indice al cazurilor (observatiilor).
pi probabilitatea unui eveniment.
log logaritm natural (in baza e).
Asumpții

pii
P (pi )

L o g it
Tr a n s f o r m

P r e d ic t o r P red ic to r
• Predictorii si parametrii:
• MLE (maximum likelihood estimation) este metoda
folosită pentru a estima coeficientii (, ) (vezi OLS -
regresia liniara)

• Performanța modelului:
– Chi-square
– Procent de predicții corecte
– pseudo R2
Exemplul Titanic
LOGISTIC REGRESSION VAR=surviv
/METHOD=ENTER class agegroup sex
/CONTRAST (class)=Indicator(1) /CONTRAST (agegroup)=Indicator(1)
/CONTRAST (sex)=Indicator(1)
/PRINT=GOODFIT
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

• Analyze-regression-logistic regression
– Dependentă: survival
– Categorice: toate 3.
– Categoria de referinta: prima
Case Processing Summary
a
Unweighted Cases N Percent
Selected Cases Included in Analysis 2201 100.0
Missing Cases 0 .0 Dependent Variable Encoding
Total 2201 100.0
Original Value Internal Value
Unselected Cases 0 .0
decedat 0
Total 2201 100.0
supravietuitor 1
a. If weight is in effect, see classification table for the total
number of cases.

Categorical Variables Codings

Parameter coding
Frequency (1) (2) (3)
CLASS cls I 325 .000 .000 .000
cls II 285 1.000 .000 .000
cls III 706 .000 1.000 .000
crew 885 .000 .000 1.000
SEX masculin 1731 .000
feminin 470 1.000
AGEGROUP copil 109 .000
adult 2092 1.000
Classification Tablea,b

Predicted

SURVIV Percentage
Observed decedat supravietuitor Correct
Step 0 SURVIV decedat 1490 0 100.0
supravietuitor 711 0 .0
Overall Percentage 67.7
a. Constant is included in the model.
b. The cut value is .500

Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
1 2210.061 a .224 .314
a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than .001.
Hosmer and Lemeshow Test

Step Chi-square df Sig.


1 43.104 4 .000

Omnibus Tests of Model Coefficients

Chi-square df Sig.
Step 1 Step 559.396 5 .000
Block 559.396 5 .000
Model 559.396 5 .000
Classification Tablea

Predicted

SURVIV Percentage
Observed decedat supravietuitor Correct
Step 1 SURVIV decedat 1364 126 91.5
supravietuitor 362 349 49.1
Overall Percentage 77.8
a. The cut value is .500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
CLASS 108.243 3 .000
1 CLASS(1) -1.018 .196 26.982 1 .000 .361
CLASS(2) -1.778 .172 107.370 1 .000 .169
CLASS(3) -.858 .157 29.715 1 .000 .424
AGEGROUP(1) -1.062 .244 18.924 1 .000 .346
SEX(1) 2.420 .140 297.068 1 .000 11.247
Constant .685 .273 6.302 1 .012 1.984
a. Variable(s) entered on step 1: CLASS, AGEGROUP, SEX.
Ce trebuie să interpretam?
• Coeficientii
1. daca sunt semnificativi (care sunt), si semnul pentru B (+ sau -)
[in cazul lui -daca este supra sau sub unitar]
2. valoarea lui  standardizat (standardizat pentru a permite
comparatii intre coeficienti) – care predictor este mai important
• Modelul
3. “goodness-of-fit”> cat de bun este modelul – daca este
semnificativ statistic, si la ce prag
- ce procent din raspunsuri prezice corect
- valoarea lui Negelkerke R2
Bibliografie:
• Hosmer, D.W & Lemeshow, S. (2000). Applied Logistic regression. 2 nd
ed. NY: John Wiley & Sons.
• Kerr, AW, Hall, HK, Kozub, SA (2002). Doing statistics with SPSS,
London: Sage
• Landau S, & Everitt, BS (2004). A Handbook of Statistical Analyses
using SPSS. Boca Raton: Chapman & Hall/CRC Press.
• Rotariu, Traian, Bădescu Gabriel, Culic, Irina, Mezei, Elemer şi
Mureşan, Cornelia (1999). Metode statistice aplicate în ştiinţele
sociale, Iasi: Polirom.
Tema : Regresia liniară multiplă
Deschideţi baza de date “1991 US General Social Survey”. Ne intereseaza variabila
prestg80 ce reprezinta [scorul] prestigiului ocupational al unui individ (VD=variabila
dependentă).
Incercând să explicăm de ce unii indivizi au locuri de muncă ce au un prestigiu mai
ridicat iar alţii au locuri de muncă cu un prestigiu scăzut, ne vom concentra asupra
câtorva variabile independente (=VI): sibs (numarul de frati si surori ai
respondentului), childs (numarul de copii si respondentului), age (vârsta), educ
(educaţia respondentului) precum si paeduc (educatia tatalui) si maeduc (educatia
mamei).

Folosind analiza de regresie (multivariata), rezolvaţi urmatoarele probleme:


1. Construiti modelul de regresie (în SPSS, JASP sau PSPP).
2. Formulaţi ipoteza de cercetare şi ipoteza nulă. Ce putem spune despre ipoteza de
cercetare?
3. Verificați coliniaritatea VI. Eliminați problemele.
4. Care predictori (VI) au un efect semnificativ statistic? Care sunt cei mai buni
predictori?
5. Scrieti ecuatia de regresie (doar pentru factorii semnificativi).
6. Interpretati rezultatele obtinute.
Exercitiu: Regresia liniară multiplă
Deschideţi baza de date “World 95”. Ne intereseaza variabila babymort (mortalitatea
infantila) ce reprezinta numarul de copii raportat la mia de nascuti-vii ce au
decedat inainte de a implini varsta de 1 an.
Încercând să explicăm de ce unele tari au mai ridicate (>100) iar altele au valori
scazute (<10) ne vom concentra asupra câtorva variabile independente (=VI):
Urban (procentul de populatie urbana), lifeexpf (speranta de viata la nastere a
femeilor), gdp_cap (PIB/locuitor), fertility (numarul mediu de nascuti pe femeie) si
lit_fema (procentul de femei alfabetizate).

In SPSS, folosind analiza de regresie multivariata, rezolvaţi urmatoarele probleme:


1. Construiti modelul de regresie.
2. Formulaţi ipoteza de cercetare şi ipoteza nulă. Ce putem spune despre ipoteza de
cercetare?
3. Care predictori (VI) au un efect semnificativ statistic? Care sunt cei mai buni
predictori?
4. Verificați coliniaritatea VI. Eliminați problemele.
5. Scrieti ecuatia de regresie (doar pentru factorii semnificativi).
6. Interpretati rezultatele obtinute.
Exercitiu: Regresia liniară multiplă
Deschideţi baza de date “World 95”. Ne intereseaza variabila calories (consumul zilnic de
calorii).

Incercând să explicăm de ce unele tari au mai ridicate iar altele au valori scazute ne vom
concentra asupra câtorva variabile independente (=VI): Urban (procentul de
populatie urbana), lifeexpf (speranta de viata la nastere a femeilor), gdp_cap
(PIB/locuitor) si literacy (procentul de alfabetizare).

In SPSS, folosind analiza de regresie multivariata, rezolvaţi urmatoarele probleme:


1. Construiti modelul de regresie.
2. Formulaţi ipoteza de cercetare şi ipoteza nulă. Ce putem spune despre ipoteza de
cercetare?
3. Verificați coliniaritatea VI. Eliminați problemele.
4. Care predictori (VI) au un efect semnificativ statistic? Care sunt cei mai buni
predictori?
5. Scrieti ecuatia de regresie (doar pentru factorii semnificativi).
6. Interpretati rezultatele obtinute.
Exercitiu: Regresia liniară multiplă
Deschideţi baza de date “World 95”. Ne intereseaza variabila fertility (numar de
nascuti vii per femeie).

Incercând să explicăm de ce unele tari au mai ridicate iar altele au valori scazute ne
vom concentra asupra câtorva variabile independente (=VI): Urban (procentul de
populatie urbana), lifeexpf (speranta de viata la nastere a femeilor), gdp_cap
(PIB/locuitor) si lit_fema (procentul de femei alfabetizate).

In SPSS, folosind analiza de regresie multivariata, rezolvaţi urmatoarele probleme:


1. Construiti modelul de regresie.
2. Formulaţi ipoteza de cercetare şi ipoteza nulă. Ce putem spune despre ipoteza
de cercetare?
3. Verificați coliniaritatea VI. Eliminați problemele.
4. Care predictori (VI) au un efect semnificativ statistic? Care sunt cei mai buni
predictori? Verificati problemele de coliniaritate.
5. Scrieti ecuatia de regresie (doar pentru factorii semnificativi).
6. Interpretati rezultatele obtinute.

S-ar putea să vă placă și