Curs 4 - Regresia Liniară (Prezentare)

Lect. univ. dr.
Adrian Gorbănescu
▪ Cea mai populară procedură statistică în științele psiho-sociale
▪ Francis Galton – relația dintre înălțimea medie a părinților și înălțimea copiilor
▪ Analiza de regresie și coeficientul de corelație
Corelația Regresia
Arată asocierea dintre două variabile Permite predicția valorilor unei variabile în
funcție de valorile altei variabile
Nu descrie relația cauzală VI – predictor
VD - criteriu
Nu există variabilă dependentă și
independentă
▪ Corelația liniară
X Y
▪ Regresie liniară simplă
X Y
▪ Regresia multiplă
X1
Y
X2
▪ VI = predictor (lb. engleză explanatory variable, antecedent variable)
▪ VD = criteriu (lb. engleză consequent variable)
▪ Regresia simplă
- un singur predictor
- are la bază corelația dintre X și Y
▪ Regresia multiplă
- există cel puțin doi predictori
- are la bază corelația multiplă dintre predictori și criteriu
Predicția perfectă
▪ r=±1
▪ Orice valoare a predictorului (X) corespunde unei valori identice a criteriului (Y)
▪ Între X și Y există o relație direct proporțională (corelație perfect pozitivă) sau invers proporțională
(corelație perfect negativă).
Predicția în cazul corelației imperfecte
▪ r ϵ (-1 → 1)
▪ X = atitudinea față de statistică (predictorul)
▪ Y = performanța la statistică (Semestrul I) (criteriul)
Student Anxietate statistică Performanță
1 103 42
2 150 57
3 104 54
4 137 45
5 112 23
6 174 24
7 145 46
8 163 31
9 147 55
10 129 58
11 104 46
12 150 43
13 76 59
14 133 41
15 69 63
▪ Pentru exemplul prezentat r = .578
▪ În contextul regresiei liniare simple, coeficientul de corelație devine coeficient de
regresie și se notează cu R.
▪ Coeficientul de determinare pentru corelație (r²) devine coeficient de determinare
pentru regresie (R²)
▪ R² se interpretează la fel ca r².
▪ Pentru exemplul anterior R² = .3340
▪ Astfel, 33.40% din variabilitatea valorilor performanței la statistică pe primul
semestru are legătură cu variabilitatea valorilor anxietății față de statistică.
▪ zy’ = r * zx
▪ zy’ = valorile prezise ale criteriului în scoruri z
▪ zx = valorile predictorului în scoruri z
▪ Pe măsură ce r tinde spre 0, zy’ va lua valori din ce în ce mai mici (tinzând spre 0).
▪ Sir Francis Galton a introdus termenul de regresie studiind relația dintre înălțimea
copiilor și cea a părinților.
▪ Galton a găsit un r = .67 între înălțimea părinților (X) și cea a copiilor (Y).
▪ Pornind de la acest rezultat se poate prezice înălțimea copilului dacă știm înălțimea
medie a părinților lui.
▪ Dacă înălțimea medie a părinților unui copil este cu 1.5 abateri standard peste
media populației de părinți, atunci copilul va avea o înălțime egală cu:
zy’ = 0.67 * 1.5 = 1.005
▪ Cu alte cuvinte, copilul va avea o înălțime cu 1.005 abateri standard mai mare
decât media populației de copii
▪ Galton a denumit această tendință regresia către mediocritate
▪ denumirea consacrată este de regresie către medie.
▪ Datorită relației de tip liniar vorbim despre regresie liniară către medie.
▪ Relația dintre X și Y poate fi reprezentată grafic prin intermediul graficului
Scatterplot.
▪ Măsura în care norul de puncte descrie relația dintre predictor și criteriu va fi
ilustrată printr-o dreaptă care trece prin acest nor = dreapta de regresie.
▪ Pentru a trasa dreapta avem nevoie de punctul de origine și panta (înclinarea).
▪ Odată cunoscute aceste valori, putem prezice orice valoare a lui Y în funcție de X
folosind următoarea formulă:
▪ 𝑌 ′ = 𝑎 + 𝑏𝑋
▪ Y’ – reprezintă valorile prezise ale lui Y.
▪ a – este constanta (originea dreptei de regresie, locul unde linia de regresie intersectează axa
Oy). Indică ce valoare ar lua criteriul dacă predictorul ar fi egal cu 0.
▪ b – este panta dreptei de regresie (ne indică cu cât se modifică valorile lui Y’ atunci când X
crește/scade cu o unitate). Se notează cu β.
▪ X – reprezintă valorile variabilei predictor.
▪ Graphs – Legacy Dialogs – Scatter/Dot.
▪ În câmpul X Axis va fi multată VI, iar în câmpul Y Axis va fi mutată VD.
▪ Prin bifarea unei opțiuni SPSS-ul ne salvează în baza de date valorile prezise ale VD
(performanța la statistică în sem I).
▪ Diferența dintre valorile prezise și valorile reale ale performanței la statistică reprezintă
eroarea de predicție (varianță neexplicată sau diferență reziduală).
Student Anxietate statistică Performanță statistică Performanța prezisă Eroare de predicție ε
1 84 50 59,95381 -9,95381
2 138 33 47,67464 -14,6746
3 88 47 59,04424 -12,0442
4 86 54 59,49903 -5,49903
5 103 42 55,63336 -13,6334
6 85 50 59,72642 -10,2264
7 112 52 53,58683 -1,58683
8 124 67 50,85813 16,14187
9 102 38 55,86075 -17,8608
10 62 62 64,95644 -2,95644
11 120 53 51,7677 1,2323
12 111 58 53,81423 4,18577
13 92 63 58,13467 4,86533
14 122 72 51,31291 20,68709
15 94 67 57,67989 9,32011
▪ VD – scală I/R (există și situații în care se măsoară pe scală ordinală)
▪ VD – distribuție normlă
▪ VI – scală I/R sau nominală dihotomică (ex: nu consumă = 0; consumă = 1).
▪ VI distribuție normală atunci când este măsurată pe scală I/R.
▪ Existența unei relații liniare între VI și VD
▪ Variabilele predictor trebuie să fie ortogonale (să nu coreleze între ele).
▪ Existența unei corelații între predictori se numește multicoliniaritate (pe scurt coliniaritate).
▪ Predictorii sunt ortogonali atunci când prezintă corelații sub .30; Tolerance > .70; VIF < 10).
▪ Marks (1966) – 200 de participanți indiferent de numărul predictorilor
▪ Schmidt (1971) - pentru fiecare variabilă independentă sunt necesari 25 de participanți.
▪ Green (1991) – N = 50 + m*8

▪ VI (X) – atitudinea față de statistică (este vorba despre atitudinea negativă față de
statistică; anxietatea față de statistică).
▪ VD (Y) – performanța la statistică în sem I
▪ Analyze → Regression → Linear
▪ În Dependnet vom muta VD (Performanța).
▪ În zona Independent(s) vom introduce VI (Atitudinea față de statistică).
▪ În Statistics vom avea bifate implicit opțiunile Estimates și Model Fit. Vom
finaliza operațiunea prin apăsarea butonului Continue.
▪ În Save vom bifa opțiunile Unstandardized din zona Prediced Values, respectiv
Residuals. Vom finaliza operațiunea prin apăsarea butoanelor Continue și OK.
▪ În Output vom citi următoarele tabele:
1. Model Summary – afișează rezultatele principale cu privire la modelul de
predicție
A. R – indicele de regresie (R = .578)
B. R² = coeficientul de determinare (R² = .335)
2. ANOVA – afișează rezultatele testului de semnificație statistică pentru modelul de
regresie
A. F – valoarea calculată a testului ANOVA (F = 107.120)
B. Sig (p) = semnficația statistică (p < .005). Acest rezultat se traduce prin faptul că modelul
de predicție este semnificativ statistic → atitudinea față de statistică este un predictor
semnificativ al performanței.
▪ Atunci când p > .05 modelul de predicție nu este semnificativ statistic
3. Coefficients ne afișează valorile coeficienților ecuației dreptei de regresie
▪ Linia (Constant) indică originea dreptei de regresie (constanta) = 79.055
▪ Linia marcată de numele VI indică panta dreptei de regresie – β = -.227; p < .05 → atitudinea
față de statististică este un predictor semnificativ al performanței la statistică.
▪ Atunci când β este pozitiv înțelegem că între VI și VD există o relație pozitivă
▪ Atunci când β este < 0 între VI și VD există o relație negativă

▪ Pentru exemplul analizat, înțelegem că performanța la statistică tinde să crească atunci când
atitudinea față de statistică scade.
▪ Vom putea prezice performanța la statistică pe baza formulei:
Y’ = 79.055 – 0.227*X
▪ Vom analiza rolul de predictori ai atitudinii față de statistică și nevrotismului asupra
performanței la statistică.
▪ VI (predictorii) sunt atitudinea față de statistică și nevrotismul.
▪ VD (criteriul) este performanța
▪ 𝑌 ′ = 𝑎 + 𝑏1 ∗ 𝑋1 + 𝑏2 ∗ 𝑋2 + ⋯ + 𝑏𝑘 ∗ 𝑋𝑘
▪ Y’ – este valoarea prezisă.
▪ a – este constanta.
▪ b1, b2, … bk – reprezintă pantele pentru cei k predictori.
▪ X1, X2, … Xk – sunt cele k variabile independente.

▪ Analyze → Regression → Linear
▪ În Dependent vom introduce VD
▪ În Independent(s) vom introduce VI în blocuri diferite.
▪ După ce am introdus în Independent(s) primul predictor (St_Atit) vom apăsa butonul Next
▪ În noua casetă de dialog:
▪ În Dependent rămâne VD introdusă în pasul anterior
▪ În Independent(s) vom introduce al doilea predictor (N).

▪ În Statistics vom bifata opțiunile:
▪ Estimates – afișează coeficienții ecuației de regresie.
▪ Confidence Intervals – afișează intervalele de încredere pentru coeficienții de regresie,
▪ Model Fit – afișează R, R² și teste de semnificație ANOVA pentru modelele de predicție.
▪ R Square Change – indică modificarea lui R² produsă de adăugarea noului predictor.
▪ Coliniarity diagnostics - afișează statistici privind diagnosticul coliniarității.
▪ Durbin-Watson – afișează statisticile pentru valorile reziduale și cele prezise
▪ Casewise diagnostics – arată impactul valorilor mai mare de n (SPSS este setat implicit pe
valoarea 3) abateri standard față de medie.
▪
▪ În Save vom bifata opțiunile:
▪ Unstandardized – pentru valorile prezise nestandardizate
▪ Standardized – pentru valorile prezise standardizate
▪ Adjusted – pentru valorile prezise pentru fiecare caz, dacă acel caz ar fi exclus.
Evidențiează cazurile cu influență excesivă.
▪ Mahalanobis – arată cât de mult diferă fiecare caz față de media tuturor cazurilor (să nu
depășească 25 atunci când volumul eșantionului este 500; 15 pentru un volum de 100).
▪ D a lui Cook – arată cât de mult se modifică valoarea reziduală dacă acel caz ar fi eliminat
(nu ar trebui să aibă valori mai mari de 1)
1. Model Summary – afișează rezultatele principale cu privire la modelul de
predicție
Prima linie a tabelului (marcată cu așbastru) ne indică rezultatele pentru modelul cu
un singur predictor (St_Atit).
A doua linie (maracată cu verde) ne indică rezultatele pentru modelul cu doi
predictori (St_Atit și Nevrotism).
▪ Pentru modelul cu un singur predictor (St_Atit) avem următoarele rezultate
▪ R = .578
▪ R² = .335
▪ Pentru modelul cu doi predictori (St_Atit + Nevrotism) avem următoarele rezultate

▪ R = .581
▪ R² = .337
▪ R² change = .003. Ca urmare a adăugării Nevrotismului R² a crescut cu 0.003
▪ Sig F change = .343. Deoarece acesta are o valoare > 0.05 înțelegem că
incrementul adus de Nevrotism nu este semnificativ statistic
2. ANOVA – afișează rezultatele testelor de semnificație pentru modelele de
predicție.
▪ Linia 1 (marcată cu albastru) indică semnificația statistică a modelului cu un singur
predictor
▪ F = 107.120; p < 0.05
▪ Linia 2 (marcată cu verde) indică semnficația statistică a modelului cu doi

predictori
▪ F = 53.987; p < 0.05
3. Coefficients – afișează rezultatele testelor de semnificație pentru modelele de
predicție.
▪ Linia 1 indică constanta (a = 79.055) și panta (β = -.227) pentru modelul cu un singur
predictor
▪ Linia 2 indică constanta (a = 80.635) și pantele pentru modelul cu doi predictori.

▪ β (St_Atit) = -.221; p < .05
▪ β (N) = -.079; p > .05 → Nevrotismul nu reprezintă un predictor semnificativ al performanței
la statistică
𝟐 𝑹𝟐 𝟎,𝟑𝟑𝟓 𝟎,𝟑𝟑𝟓
▪𝒇 =
𝟏 − 𝑹𝟐
= 𝟏−𝟎,𝟑𝟑𝟓 = 𝟎,𝟔𝟔𝟓 = 0,503
𝑹𝟐𝑨𝑩 − 𝑹𝟐𝑨 𝟎,𝟑𝟑𝟕 −𝟎,𝟑𝟑𝟓 𝟎,𝟎𝟎𝟐

▪ 𝒇𝟐 = = = = 𝟎, 𝟎𝟎𝟑
𝟏 −𝑹𝟐𝑨𝑩 𝟏−𝟎,𝟑𝟑𝟕 𝟎,𝟔𝟔𝟑

Curs 4 - Regresia Liniară (Prezentare)

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 4 - Regresia Liniară (Prezentare)

Încărcat de

Drepturi de autor:

Formate disponibile

Lect. univ. dr.

▪ Regresie liniară simplă

▪ Schmidt (1971) - pentru fiecare variabilă independentă sunt necesari 25 de participanți.

▪ Green (1991) – N = 50 + m*8

▪ Atunci când β este < 0 între VI și VD există o relație negativă

▪ VD (criteriul) este performanța

▪ Y’ – este valoarea prezisă.

▪ b1, b2, … bk – reprezintă pantele pentru cei k predictori.

▪ X1, X2, … Xk – sunt cele k variabile independente.

▪ În Dependent vom introduce VD

▪ În Independent(s) vom introduce VI în blocuri diferite.

▪ În Dependent rămâne VD introdusă în pasul anterior

▪ În Independent(s) vom introduce al doilea predictor (N).

▪ Estimates – afișează coeficienții ecuației de regresie.

▪ Confidence Intervals – afișează intervalele de încredere pentru coeficienții de regresie,

▪ Model Fit – afișează R, R² și teste de semnificație ANOVA pentru modelele de predicție.

▪ R Square Change – indică modificarea lui R² produsă de adăugarea noului predictor.

▪ Coliniarity diagnostics - afișează statistici privind diagnosticul coliniarității.

▪ Durbin-Watson – afișează statisticile pentru valorile reziduale și cele prezise

▪ Unstandardized – pentru valorile prezise nestandardizate

▪ Standardized – pentru valorile prezise standardizate

▪ Pentru modelul cu doi predictori (St_Atit + Nevrotism) avem următoarele rezultate

▪ Linia 2 (marcată cu verde) indică semnficația statistică a modelului cu doi

▪ Linia 2 indică constanta (a = 80.635) și pantele pentru modelul cu doi predictori.

𝑹𝟐𝑨𝑩 − 𝑹𝟐𝑨 𝟎,𝟑𝟑𝟕 −𝟎,𝟑𝟑𝟓 𝟎,𝟎𝟎𝟐

S-ar putea să vă placă și