Documente Academic
Documente Profesional
Documente Cultură
Curs 4 - Regresia Liniară (Prezentare)
Curs 4 - Regresia Liniară (Prezentare)
Adrian Gorbănescu
▪ Cea mai populară procedură statistică în științele psiho-sociale
▪ Francis Galton – relația dintre înălțimea medie a părinților și înălțimea copiilor
▪ Analiza de regresie și coeficientul de corelație
Corelația Regresia
Arată asocierea dintre două variabile Permite predicția valorilor unei variabile în
funcție de valorile altei variabile
Nu descrie relația cauzală VI – predictor
VD - criteriu
Nu există variabilă dependentă și
independentă
▪ Corelația liniară
X Y
X Y
▪ Regresia multiplă
X1
Y
X2
▪ VI = predictor (lb. engleză explanatory variable, antecedent variable)
▪ VD = criteriu (lb. engleză consequent variable)
▪ Regresia simplă
- un singur predictor
- are la bază corelația dintre X și Y
▪ Regresia multiplă
- există cel puțin doi predictori
- are la bază corelația multiplă dintre predictori și criteriu
Predicția perfectă
▪ r=±1
▪ Orice valoare a predictorului (X) corespunde unei valori identice a criteriului (Y)
▪ Între X și Y există o relație direct proporțională (corelație perfect pozitivă) sau invers proporțională
(corelație perfect negativă).
Predicția în cazul corelației imperfecte
▪ r ϵ (-1 → 1)
▪ X = atitudinea față de statistică (predictorul)
▪ Y = performanța la statistică (Semestrul I) (criteriul)
Student Anxietate statistică Performanță
1 103 42
2 150 57
3 104 54
4 137 45
5 112 23
6 174 24
7 145 46
8 163 31
9 147 55
10 129 58
11 104 46
12 150 43
13 76 59
14 133 41
15 69 63
▪ Pentru exemplul prezentat r = .578
▪ În contextul regresiei liniare simple, coeficientul de corelație devine coeficient de
regresie și se notează cu R.
▪ Coeficientul de determinare pentru corelație (r²) devine coeficient de determinare
pentru regresie (R²)
▪ R² se interpretează la fel ca r².
▪ Pentru exemplul anterior R² = .3340
▪ Astfel, 33.40% din variabilitatea valorilor performanței la statistică pe primul
semestru are legătură cu variabilitatea valorilor anxietății față de statistică.
▪ zy’ = r * zx
▪ zy’ = valorile prezise ale criteriului în scoruri z
▪ zx = valorile predictorului în scoruri z
▪ Pe măsură ce r tinde spre 0, zy’ va lua valori din ce în ce mai mici (tinzând spre 0).
▪ Sir Francis Galton a introdus termenul de regresie studiind relația dintre înălțimea
copiilor și cea a părinților.
▪ Galton a găsit un r = .67 între înălțimea părinților (X) și cea a copiilor (Y).
▪ Pornind de la acest rezultat se poate prezice înălțimea copilului dacă știm înălțimea
medie a părinților lui.
▪ Dacă înălțimea medie a părinților unui copil este cu 1.5 abateri standard peste
media populației de părinți, atunci copilul va avea o înălțime egală cu:
zy’ = 0.67 * 1.5 = 1.005
▪ Cu alte cuvinte, copilul va avea o înălțime cu 1.005 abateri standard mai mare
decât media populației de copii
▪ Galton a denumit această tendință regresia către mediocritate
▪ denumirea consacrată este de regresie către medie.
▪ Datorită relației de tip liniar vorbim despre regresie liniară către medie.
▪ Relația dintre X și Y poate fi reprezentată grafic prin intermediul graficului
Scatterplot.
▪ Măsura în care norul de puncte descrie relația dintre predictor și criteriu va fi
ilustrată printr-o dreaptă care trece prin acest nor = dreapta de regresie.
▪ Pentru a trasa dreapta avem nevoie de punctul de origine și panta (înclinarea).
▪ Odată cunoscute aceste valori, putem prezice orice valoare a lui Y în funcție de X
folosind următoarea formulă:
▪ 𝑌 ′ = 𝑎 + 𝑏𝑋
▪ Y’ – reprezintă valorile prezise ale lui Y.
▪ a – este constanta (originea dreptei de regresie, locul unde linia de regresie intersectează axa
Oy). Indică ce valoare ar lua criteriul dacă predictorul ar fi egal cu 0.
▪ b – este panta dreptei de regresie (ne indică cu cât se modifică valorile lui Y’ atunci când X
crește/scade cu o unitate). Se notează cu β.
▪ X – reprezintă valorile variabilei predictor.
▪ Graphs – Legacy Dialogs – Scatter/Dot.
▪ În câmpul X Axis va fi multată VI, iar în câmpul Y Axis va fi mutată VD.
▪ Prin bifarea unei opțiuni SPSS-ul ne salvează în baza de date valorile prezise ale VD
(performanța la statistică în sem I).
▪ Diferența dintre valorile prezise și valorile reale ale performanței la statistică reprezintă
eroarea de predicție (varianță neexplicată sau diferență reziduală).
Student Anxietate statistică Performanță statistică Performanța prezisă Eroare de predicție ε
1 84 50 59,95381 -9,95381
2 138 33 47,67464 -14,6746
3 88 47 59,04424 -12,0442
4 86 54 59,49903 -5,49903
5 103 42 55,63336 -13,6334
6 85 50 59,72642 -10,2264
7 112 52 53,58683 -1,58683
8 124 67 50,85813 16,14187
9 102 38 55,86075 -17,8608
10 62 62 64,95644 -2,95644
11 120 53 51,7677 1,2323
12 111 58 53,81423 4,18577
13 92 63 58,13467 4,86533
14 122 72 51,31291 20,68709
15 94 67 57,67989 9,32011
▪ VD – scală I/R (există și situații în care se măsoară pe scală ordinală)
▪ VD – distribuție normlă
▪ VI – scală I/R sau nominală dihotomică (ex: nu consumă = 0; consumă = 1).
▪ VI distribuție normală atunci când este măsurată pe scală I/R.
▪ Existența unei relații liniare între VI și VD
▪ Variabilele predictor trebuie să fie ortogonale (să nu coreleze între ele).
▪ Existența unei corelații între predictori se numește multicoliniaritate (pe scurt coliniaritate).
▪ Predictorii sunt ortogonali atunci când prezintă corelații sub .30; Tolerance > .70; VIF < 10).
▪ Marks (1966) – 200 de participanți indiferent de numărul predictorilor
▪ Linia marcată de numele VI indică panta dreptei de regresie – β = -.227; p < .05 → atitudinea
față de statististică este un predictor semnificativ al performanței la statistică.
▪ Atunci când β este pozitiv înțelegem că între VI și VD există o relație pozitivă
Y’ = 79.055 – 0.227*X
▪ Vom analiza rolul de predictori ai atitudinii față de statistică și nevrotismului asupra
performanței la statistică.
▪ VI (predictorii) sunt atitudinea față de statistică și nevrotismul.
▪ 𝑌 ′ = 𝑎 + 𝑏1 ∗ 𝑋1 + 𝑏2 ∗ 𝑋2 + ⋯ + 𝑏𝑘 ∗ 𝑋𝑘
▪ a – este constanta.
▪ După ce am introdus în Independent(s) primul predictor (St_Atit) vom apăsa butonul Next
▪ În noua casetă de dialog:
▪ Casewise diagnostics – arată impactul valorilor mai mare de n (SPSS este setat implicit pe
valoarea 3) abateri standard față de medie.
▪
▪ În Save vom bifata opțiunile:
▪ Adjusted – pentru valorile prezise pentru fiecare caz, dacă acel caz ar fi exclus.
Evidențiează cazurile cu influență excesivă.
▪ Mahalanobis – arată cât de mult diferă fiecare caz față de media tuturor cazurilor (să nu
depășească 25 atunci când volumul eșantionului este 500; 15 pentru un volum de 100).
▪ D a lui Cook – arată cât de mult se modifică valoarea reziduală dacă acel caz ar fi eliminat
(nu ar trebui să aibă valori mai mari de 1)
▪ În Output vom citi următoarele tabele:
1. Model Summary – afișează rezultatele principale cu privire la modelul de
predicție
Prima linie a tabelului (marcată cu așbastru) ne indică rezultatele pentru modelul cu
un singur predictor (St_Atit).
A doua linie (maracată cu verde) ne indică rezultatele pentru modelul cu doi
predictori (St_Atit și Nevrotism).
▪ Pentru modelul cu un singur predictor (St_Atit) avem următoarele rezultate
▪ R = .578
▪ R² = .335