Documente Academic
Documente Profesional
Documente Cultură
Franz H. Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates. N
Engl J Med; 367:1562-1564
• Pentru că relaţia între variabile este liniară problema predicţiei
devine una de a descoperi curba grafică (în cazul nostru dreapta)
care va aproxima cel mai bine relaţia dintre variabilele noastre.
Numele ei este „dreapta de regresie”.
Exemple:
1. regresie simplă: venitul respondentului în funcţie de anii de
educație.
Y’ = a + b*X
Problema pe care trebuie să o rezolvăm în continuare este de a
determina coeficienţii dreptei de regresie.
• Primul coeficient, a ne arată unde va intersecta dreapta de regresie
axa Y (intercept=pozitia lui Y cand X=0) şi este mai puţin important
pentru interpretarea datelor .
• Coeficientul b reprezintă panta dreptei de regresie (slope) şi ne
arată cu câte unităţi creşte în medie Y atunci când îl vom creşte pe X
cu o unitate.
• Ceea ce este important în calcularea acestor coeficienţi este că se
face apel la mărimi statistice obişnuite: medii (MediaX şi MediaY ),
abateri standard (σX, σY) şi la coeficientul de corelaţie (r). Valorile
pentru aceste mărimi sunt oferite în tabel:
X Y
1 1
Exemplu: 2 1,3
se dă un set de 10 valori
3 1,9
X= încrederea în sine 4 2
Y=performanţa
5 2,4
6 2,2
7 3
8 3,6
9 3,4
10 4
Statistics
X Y
N Valid 10 10
Missing 0 0
Mean 5.5000 2.4800
Std. Deviation 3.02765 .99532
Formula coeficienţilor:
• a = MediaX – b* MediaY
• b = r * (σX / σY)
Scriem formula dreptei de regresie:
Y’ = 0,713 + 0,321*X
performanta’ = 0,713 + 0,321*increderea in sine
Graficul (scatterplot): X, Y şi dreapta de regresie
4,00
3,50
3,00
Y
2,50
2,00
1,50
1,00
Yi-Yi’ = Esi
Esi = Eroarea dată de dreapta de regresie pentru individul i
• Calitatea estimării, sau eroarea standard a estimării (pe care o vom nota cu Es)
se referă la calitatea estimării pentru întreaga populaţie şi nu doar pentru un
singur caz, astfel că vom folosi o formulă asemănătoare abaterii standard
(pentru că întotdeauna Σ (Yi-Yi’) = 0):
4,00
3,50
3,00
Erorile de predicție
Yi-Yi’ = Esi
Y
2,50
2,00
1,50
1,00
y y '
2
Es = 1
N
• pentru exemplul nostru: Es = 0,2.
• Es = σY 1 r
2
• Eroarea estimării (Es) poate fi interpretată ca un indicator
al dispersiei punctelor în jurul dreptei de regresie:
abaterea medie (pătratică) a valorilor reale Y de la valorile
prezise Y’.
• Poate să fie egal cu 0 atunci când estimarea noastră este
perfectă (Yi = Yi’).
• Observăm că avem de-a face cu o problemă similară teoremei de
descompunere a varianței: varianța variabilei dependente este
egală cu suma dintre varianța punctelor în jurul dreptei de regresie
și varianța punctelor de pe dreapta de regresie în jurul mediei.
Formula după care vom scrie afirmația de mai sus este:
coeficientul de determinaţie = r2
coeficientul de nedeterminaţie = 1 – r2
• Pentru exemplul nostru r = 0,977 iar r2 = 0,954 astfel că partea determinată din
varianţa variabilei dependente este de 95% iar varianţa neexplicată este de doar
5%.
Cât este
coeficientul de
nedeterminare
în acest caz?
R2= 0,5076
1 – r2= 0,4924
Sau 49,24%
Exemplu în SPPS.
• H: Notele de la nivelul liceului sunt un predictor bun pentru notele
de la facultate?
• Variabile:
– Notele din liceu: HighGPA – Highscool grade point average
– Notele din univ: UnivGPA – University grade point average
3,50
univ_gp
3,00
2,50
2,00
Std.
Mean Deviation N
univ_gp
3,1729 ,44719 105
high_gpa
3,0764 ,51660 105
univ_gp high_gpa
Pearson Correlation univ_gp 1,000 ,780
high_gpa ,780 1,000
Sig. (1-tailed) univ_gp . ,000
high_gpa ,000 .
N univ_gp 105 105
high_gpa 105 105
Dacă ne vom uita la grafic vom observa că varianţa în jurul dreptei de regresie
nu este aceeaşi pentru toate valorile lui X, astfel că dreapta de regresie are o
predicţie foarte bună pentru valori mari ale notelor şi o predicţie modică pentru
notele mici din liceu.
Unstandardized Standardized
M Coefficients Coefficients t Sig.
Std.
B Error Beta
1 (Constant) 1,097 ,167 6,583 ,000
high_gpa ,675 ,053 ,780 12,632 ,000
heteroscedastic (heteroskedastic) =
varianţe inegale (eroarea standard are variaţie inegală)
Alte exemple:
Persoanele sărace tind să cumpere acelaşi gen de mâncare
şi să consume sume constant reduse pe mâncare.
Bogaţii însă variază: cumpără mâncăruri foarte scumpe,
altădată foarte ieftine.
• Cum scriem relația liniară/ecuația dreptei de regresie?
Franz H. Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates.
N Engl J Med; 367:1562-1564
Spurious
correlations
http://tylervigen.com/spurio
us-correlations
• Quartetul lui Anscombe: 4 serii Proprietate Valoare
de date, diferite, în care mediile,
varianţele, corelaţia şi ecuaţia Media lui X 9
de regresie sunt identice.
Varianţa lui X 10
• DAR, graficele ne arată situaţii
foarte diferite. Media lui Y 7.50
Anscombe, F.J., (1973). "Graphs in Statistical Analysis“, American Statistician, 27, 17-21.
Seriile (quartetul) lui Anscombe
I II III IV
x1 y1 X2 y2 x3 y3 x4 y4
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
• Ecuaţia de regresie:
Y = 3 + 0.5*X
Exemplu:
“employee data.sav”
VD: salariul actual
VI: salariul de începător
luni de la angajare
experienţa anterioară
minority
nivel de educaţie (ani)
Descriptive Statistics
Previous
Beginning Months Experience Minority Educational
Current Salary Salary since Hire (months) Classification Level (years)
Pearson Correlation Current Salary 1.000 .880 .084 -.097 -.177 .661
Beginning Salary .880 1.000 -.020 .045 -.158 .633
Months since Hire .084 -.020 1.000 .003 .050 .047
Previous Experience
-.097 .045 .003 1.000 .145 -.252
(months)
Minority Classification -.177 -.158 .050 .145 1.000 -.133
Educational Level (years) .661 .633 .047 -.252 -.133 1.000
Sig. (1-tailed) Current Salary . .000 .034 .017 .000 .000
Beginning Salary .000 . .334 .163 .000 .000
Months since Hire .034 .334 . .474 .141 .152
Previous Experience
.017 .163 .474 . .001 .000
(months)
Minority Classification .000 .000 .141 .001 . .002
Educational Level (years) .000 .000 .152 .000 .002 .
N Current Salary 474 474 474 474 474 474
Beginning Salary 474 474 474 474 474 474
Months since Hire 474 474 474 474 474 474
Previous Experience
474 474 474 474 474 474
(months)
Minority Classification 474 474 474 474 474 474
Educational Level (years) 474 474 474 474 474 474
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 1.12E+11 5 2.237E+10 401.787 .000a
Residual 2.61E+10 468 55680306.44
Total 1.38E+11 473
a. Predictors: (Constant), Educational Level (years), Months since Hire, Minority
Classification, Previous Experience (months), Beginning Salary
b. Dependent Variable: Current Salary
Model Summary
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) -16010.3 3256.193 -4.917 .000
Beginning Salary 1.759 .059 .811 29.714 .000 .542 1.845
Months since Hire 163.352 34.268 .096 4.767 .000 .990 1.010
Previous Experience
-16.682 3.566 -.102 -4.679 .000 .846 1.181
(months)
Minority Classification -1006.986 849.751 -.024 -1.185 .237 .950 1.053
Educational Level (years) 671.834 165.533 .114 4.059 .000 .516 1.937
a. Dependent Variable: Current Salary
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) -16010.3 3256.193 -4.917 .000
Beginning Salary 1.759 .059 .811 29.714 .000 .542 1.845
Months since Hire 163.352 34.268 .096 4.767 .000 .990 1.010
Previous Experience
-16.682 3.566 -.102 -4.679 .000 .846 1.181
(months)
Minority Classification -1006.986 849.751 -.024 -1.185 .237 .950 1.053
Educational Level (years) 671.834 165.533 .114 4.059 .000 .516 1.937
a. Dependent Variable: Current Salary
• Naufragiul Titanic
– Date despre 2201 indivizi
– Variabila dependentă: a supravieţuit accidentului (1-da, 0-nu)
– Caracteristicile populaţiei: sexul persoanei (masculin, feminin); categoria
de vârstă (copil, adult); clasa (clasa: 1-3, + crew).
Prima soluţie: asocierea între categorii
SURVIV * CLASS Crosstabulation
% within CLASS
CLASS
cls I cls II cls III crew Total
SURVIV decedat 37.5% 58.6% 74.8% 76.0% 67.7%
supravietuitor 62.5% 41.4% 25.2% 24.0% 32.3%
Total 100.0% 100.0% 100.0% 100.0% 100.0%
% within AGEGROUP
AGEGROUP
copil adult Total
SURVIV decedat 47.7% 68.7% 67.7%
supravietuitor 52.3% 31.3% 32.3%
Total 100.0% 100.0% 100.0%
SURVIV * SEX Crosstabulation
% within SEX
SEX
masculin feminin Total
SURVIV decedat 78.8% 26.8% 67.7%
supravietuitor 21.2% 73.2% 32.3%
Total 100.0% 100.0% 100.0%
Cerința:
• Eșantioane mari – astfel încât sa rămână minim 50 de cazuri per predictor.
VD: exista 2 posibilitati: Supravietuire sau Deces
– probabilitatea de Supravietuire este p, probabilitatea de Deces este (1-p).
Odds = p/(1-p)
pii
P (pi )
L o g it
Tr a n s f o r m
P r e d ic t o r P red ic to r
• Predictorii si parametrii:
• MLE (maximum likelihood estimation) este metoda
folosită pentru a estima coeficientii (, ) (vezi OLS -
regresia liniara)
• Performanța modelului:
– Chi-square
– Procent de predicții corecte
– pseudo R2
Exemplul Titanic
LOGISTIC REGRESSION VAR=surviv
/METHOD=ENTER class agegroup sex
/CONTRAST (class)=Indicator(1) /CONTRAST (agegroup)=Indicator(1)
/CONTRAST (sex)=Indicator(1)
/PRINT=GOODFIT
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .
• Analyze-regression-logistic regression
– Dependentă: survival
– Categorice: toate 3.
– Categoria de referinta: prima
Case Processing Summary
a
Unweighted Cases N Percent
Selected Cases Included in Analysis 2201 100.0
Missing Cases 0 .0 Dependent Variable Encoding
Total 2201 100.0
Original Value Internal Value
Unselected Cases 0 .0
decedat 0
Total 2201 100.0
supravietuitor 1
a. If weight is in effect, see classification table for the total
number of cases.
Parameter coding
Frequency (1) (2) (3)
CLASS cls I 325 .000 .000 .000
cls II 285 1.000 .000 .000
cls III 706 .000 1.000 .000
crew 885 .000 .000 1.000
SEX masculin 1731 .000
feminin 470 1.000
AGEGROUP copil 109 .000
adult 2092 1.000
Classification Tablea,b
Predicted
SURVIV Percentage
Observed decedat supravietuitor Correct
Step 0 SURVIV decedat 1490 0 100.0
supravietuitor 711 0 .0
Overall Percentage 67.7
a. Constant is included in the model.
b. The cut value is .500
Model Summary
Chi-square df Sig.
Step 1 Step 559.396 5 .000
Block 559.396 5 .000
Model 559.396 5 .000
Classification Tablea
Predicted
SURVIV Percentage
Observed decedat supravietuitor Correct
Step 1 SURVIV decedat 1364 126 91.5
supravietuitor 362 349 49.1
Overall Percentage 77.8
a. The cut value is .500
Incercând să explicăm de ce unele tari au mai ridicate iar altele au valori scazute ne vom
concentra asupra câtorva variabile independente (=VI): Urban (procentul de
populatie urbana), lifeexpf (speranta de viata la nastere a femeilor), gdp_cap
(PIB/locuitor) si literacy (procentul de alfabetizare).
Incercând să explicăm de ce unele tari au mai ridicate iar altele au valori scazute ne
vom concentra asupra câtorva variabile independente (=VI): Urban (procentul de
populatie urbana), lifeexpf (speranta de viata la nastere a femeilor), gdp_cap
(PIB/locuitor) si lit_fema (procentul de femei alfabetizate).