Sunteți pe pagina 1din 42

Lect. univ. dr.

Adrian Gorbănescu
▪ Cea mai populară procedură statistică în științele psiho-sociale
▪ Francis Galton – relația dintre înălțimea medie a părinților și înălțimea copiilor
▪ Analiza de regresie și coeficientul de corelație

Corelația Regresia
Arată asocierea dintre două variabile Permite predicția valorilor unei variabile în
funcție de valorile altei variabile
Nu descrie relația cauzală VI – predictor
VD - criteriu
Nu există variabilă dependentă și
independentă
▪ Corelația liniară

X Y

▪ Regresie liniară simplă

X Y

▪ Regresia multiplă

X1
Y

X2
▪ VI = predictor (lb. engleză explanatory variable, antecedent variable)
▪ VD = criteriu (lb. engleză consequent variable)

▪ Regresia simplă
- un singur predictor
- are la bază corelația dintre X și Y

▪ Regresia multiplă
- există cel puțin doi predictori
- are la bază corelația multiplă dintre predictori și criteriu
Predicția perfectă
▪ r=±1
▪ Orice valoare a predictorului (X) corespunde unei valori identice a criteriului (Y)
▪ Între X și Y există o relație direct proporțională (corelație perfect pozitivă) sau invers proporțională
(corelație perfect negativă).
Predicția în cazul corelației imperfecte
▪ r ϵ (-1 → 1)
▪ X = atitudinea față de statistică (predictorul)
▪ Y = performanța la statistică (Semestrul I) (criteriul)
Student Anxietate statistică Performanță
1 103 42
2 150 57
3 104 54
4 137 45
5 112 23
6 174 24
7 145 46
8 163 31
9 147 55
10 129 58
11 104 46
12 150 43
13 76 59
14 133 41
15 69 63
▪ Pentru exemplul prezentat r = .578
▪ În contextul regresiei liniare simple, coeficientul de corelație devine coeficient de
regresie și se notează cu R.
▪ Coeficientul de determinare pentru corelație (r²) devine coeficient de determinare
pentru regresie (R²)
▪ R² se interpretează la fel ca r².
▪ Pentru exemplul anterior R² = .3340
▪ Astfel, 33.40% din variabilitatea valorilor performanței la statistică pe primul
semestru are legătură cu variabilitatea valorilor anxietății față de statistică.
▪ zy’ = r * zx
▪ zy’ = valorile prezise ale criteriului în scoruri z
▪ zx = valorile predictorului în scoruri z

▪ Pe măsură ce r tinde spre 0, zy’ va lua valori din ce în ce mai mici (tinzând spre 0).
▪ Sir Francis Galton a introdus termenul de regresie studiind relația dintre înălțimea
copiilor și cea a părinților.
▪ Galton a găsit un r = .67 între înălțimea părinților (X) și cea a copiilor (Y).
▪ Pornind de la acest rezultat se poate prezice înălțimea copilului dacă știm înălțimea
medie a părinților lui.
▪ Dacă înălțimea medie a părinților unui copil este cu 1.5 abateri standard peste
media populației de părinți, atunci copilul va avea o înălțime egală cu:
zy’ = 0.67 * 1.5 = 1.005
▪ Cu alte cuvinte, copilul va avea o înălțime cu 1.005 abateri standard mai mare
decât media populației de copii
▪ Galton a denumit această tendință regresia către mediocritate
▪ denumirea consacrată este de regresie către medie.
▪ Datorită relației de tip liniar vorbim despre regresie liniară către medie.
▪ Relația dintre X și Y poate fi reprezentată grafic prin intermediul graficului
Scatterplot.
▪ Măsura în care norul de puncte descrie relația dintre predictor și criteriu va fi
ilustrată printr-o dreaptă care trece prin acest nor = dreapta de regresie.
▪ Pentru a trasa dreapta avem nevoie de punctul de origine și panta (înclinarea).
▪ Odată cunoscute aceste valori, putem prezice orice valoare a lui Y în funcție de X
folosind următoarea formulă:
▪ 𝑌 ′ = 𝑎 + 𝑏𝑋
▪ Y’ – reprezintă valorile prezise ale lui Y.
▪ a – este constanta (originea dreptei de regresie, locul unde linia de regresie intersectează axa
Oy). Indică ce valoare ar lua criteriul dacă predictorul ar fi egal cu 0.
▪ b – este panta dreptei de regresie (ne indică cu cât se modifică valorile lui Y’ atunci când X
crește/scade cu o unitate). Se notează cu β.
▪ X – reprezintă valorile variabilei predictor.
▪ Graphs – Legacy Dialogs – Scatter/Dot.
▪ În câmpul X Axis va fi multată VI, iar în câmpul Y Axis va fi mutată VD.
▪ Prin bifarea unei opțiuni SPSS-ul ne salvează în baza de date valorile prezise ale VD
(performanța la statistică în sem I).
▪ Diferența dintre valorile prezise și valorile reale ale performanței la statistică reprezintă
eroarea de predicție (varianță neexplicată sau diferență reziduală).
Student Anxietate statistică Performanță statistică Performanța prezisă Eroare de predicție ε
1 84 50 59,95381 -9,95381
2 138 33 47,67464 -14,6746
3 88 47 59,04424 -12,0442
4 86 54 59,49903 -5,49903
5 103 42 55,63336 -13,6334
6 85 50 59,72642 -10,2264
7 112 52 53,58683 -1,58683
8 124 67 50,85813 16,14187
9 102 38 55,86075 -17,8608
10 62 62 64,95644 -2,95644
11 120 53 51,7677 1,2323
12 111 58 53,81423 4,18577
13 92 63 58,13467 4,86533
14 122 72 51,31291 20,68709
15 94 67 57,67989 9,32011
▪ VD – scală I/R (există și situații în care se măsoară pe scală ordinală)
▪ VD – distribuție normlă
▪ VI – scală I/R sau nominală dihotomică (ex: nu consumă = 0; consumă = 1).
▪ VI distribuție normală atunci când este măsurată pe scală I/R.
▪ Existența unei relații liniare între VI și VD
▪ Variabilele predictor trebuie să fie ortogonale (să nu coreleze între ele).
▪ Existența unei corelații între predictori se numește multicoliniaritate (pe scurt coliniaritate).
▪ Predictorii sunt ortogonali atunci când prezintă corelații sub .30; Tolerance > .70; VIF < 10).
▪ Marks (1966) – 200 de participanți indiferent de numărul predictorilor

▪ Schmidt (1971) - pentru fiecare variabilă independentă sunt necesari 25 de participanți.

▪ Green (1991) – N = 50 + m*8


▪ VI (X) – atitudinea față de statistică (este vorba despre atitudinea negativă față de
statistică; anxietatea față de statistică).
▪ VD (Y) – performanța la statistică în sem I
▪ Analyze → Regression → Linear
▪ În Dependnet vom muta VD (Performanța).
▪ În zona Independent(s) vom introduce VI (Atitudinea față de statistică).
▪ În Statistics vom avea bifate implicit opțiunile Estimates și Model Fit. Vom
finaliza operațiunea prin apăsarea butonului Continue.
▪ În Save vom bifa opțiunile Unstandardized din zona Prediced Values, respectiv
Residuals. Vom finaliza operațiunea prin apăsarea butoanelor Continue și OK.
▪ În Output vom citi următoarele tabele:
1. Model Summary – afișează rezultatele principale cu privire la modelul de
predicție
A. R – indicele de regresie (R = .578)
B. R² = coeficientul de determinare (R² = .335)
2. ANOVA – afișează rezultatele testului de semnificație statistică pentru modelul de
regresie
A. F – valoarea calculată a testului ANOVA (F = 107.120)
B. Sig (p) = semnficația statistică (p < .005). Acest rezultat se traduce prin faptul că modelul
de predicție este semnificativ statistic → atitudinea față de statistică este un predictor
semnificativ al performanței.
▪ Atunci când p > .05 modelul de predicție nu este semnificativ statistic
3. Coefficients ne afișează valorile coeficienților ecuației dreptei de regresie
▪ Linia (Constant) indică originea dreptei de regresie (constanta) = 79.055

▪ Linia marcată de numele VI indică panta dreptei de regresie – β = -.227; p < .05 → atitudinea
față de statististică este un predictor semnificativ al performanței la statistică.
▪ Atunci când β este pozitiv înțelegem că între VI și VD există o relație pozitivă

▪ Atunci când β este < 0 între VI și VD există o relație negativă


▪ Pentru exemplul analizat, înțelegem că performanța la statistică tinde să crească atunci când
atitudinea față de statistică scade.
▪ Vom putea prezice performanța la statistică pe baza formulei:

Y’ = 79.055 – 0.227*X
▪ Vom analiza rolul de predictori ai atitudinii față de statistică și nevrotismului asupra
performanței la statistică.
▪ VI (predictorii) sunt atitudinea față de statistică și nevrotismul.

▪ VD (criteriul) este performanța

▪ 𝑌 ′ = 𝑎 + 𝑏1 ∗ 𝑋1 + 𝑏2 ∗ 𝑋2 + ⋯ + 𝑏𝑘 ∗ 𝑋𝑘

▪ Y’ – este valoarea prezisă.

▪ a – este constanta.

▪ b1, b2, … bk – reprezintă pantele pentru cei k predictori.

▪ X1, X2, … Xk – sunt cele k variabile independente.


▪ Analyze → Regression → Linear

▪ În Dependent vom introduce VD

▪ În Independent(s) vom introduce VI în blocuri diferite.

▪ După ce am introdus în Independent(s) primul predictor (St_Atit) vom apăsa butonul Next
▪ În noua casetă de dialog:

▪ În Dependent rămâne VD introdusă în pasul anterior

▪ În Independent(s) vom introduce al doilea predictor (N).


▪ În Statistics vom bifata opțiunile:

▪ Estimates – afișează coeficienții ecuației de regresie.

▪ Confidence Intervals – afișează intervalele de încredere pentru coeficienții de regresie,

▪ Model Fit – afișează R, R² și teste de semnificație ANOVA pentru modelele de predicție.

▪ R Square Change – indică modificarea lui R² produsă de adăugarea noului predictor.

▪ Coliniarity diagnostics - afișează statistici privind diagnosticul coliniarității.

▪ Durbin-Watson – afișează statisticile pentru valorile reziduale și cele prezise

▪ Casewise diagnostics – arată impactul valorilor mai mare de n (SPSS este setat implicit pe
valoarea 3) abateri standard față de medie.

▪ În Save vom bifata opțiunile:

▪ Unstandardized – pentru valorile prezise nestandardizate

▪ Standardized – pentru valorile prezise standardizate

▪ Adjusted – pentru valorile prezise pentru fiecare caz, dacă acel caz ar fi exclus.
Evidențiează cazurile cu influență excesivă.
▪ Mahalanobis – arată cât de mult diferă fiecare caz față de media tuturor cazurilor (să nu
depășească 25 atunci când volumul eșantionului este 500; 15 pentru un volum de 100).
▪ D a lui Cook – arată cât de mult se modifică valoarea reziduală dacă acel caz ar fi eliminat
(nu ar trebui să aibă valori mai mari de 1)
▪ În Output vom citi următoarele tabele:
1. Model Summary – afișează rezultatele principale cu privire la modelul de
predicție
Prima linie a tabelului (marcată cu așbastru) ne indică rezultatele pentru modelul cu
un singur predictor (St_Atit).
A doua linie (maracată cu verde) ne indică rezultatele pentru modelul cu doi
predictori (St_Atit și Nevrotism).
▪ Pentru modelul cu un singur predictor (St_Atit) avem următoarele rezultate
▪ R = .578
▪ R² = .335

▪ Pentru modelul cu doi predictori (St_Atit + Nevrotism) avem următoarele rezultate


▪ R = .581
▪ R² = .337
▪ R² change = .003. Ca urmare a adăugării Nevrotismului R² a crescut cu 0.003
▪ Sig F change = .343. Deoarece acesta are o valoare > 0.05 înțelegem că
incrementul adus de Nevrotism nu este semnificativ statistic
▪ În Output vom citi următoarele tabele:
2. ANOVA – afișează rezultatele testelor de semnificație pentru modelele de
predicție.
▪ Linia 1 (marcată cu albastru) indică semnificația statistică a modelului cu un singur
predictor
▪ F = 107.120; p < 0.05

▪ Linia 2 (marcată cu verde) indică semnficația statistică a modelului cu doi


predictori
▪ F = 53.987; p < 0.05
▪ În Output vom citi următoarele tabele:
3. Coefficients – afișează rezultatele testelor de semnificație pentru modelele de
predicție.
▪ Linia 1 indică constanta (a = 79.055) și panta (β = -.227) pentru modelul cu un singur
predictor

▪ Linia 2 indică constanta (a = 80.635) și pantele pentru modelul cu doi predictori.


▪ β (St_Atit) = -.221; p < .05
▪ β (N) = -.079; p > .05 → Nevrotismul nu reprezintă un predictor semnificativ al performanței
la statistică
𝟐 𝑹𝟐 𝟎,𝟑𝟑𝟓 𝟎,𝟑𝟑𝟓
▪𝒇 =
𝟏 − 𝑹𝟐
= 𝟏−𝟎,𝟑𝟑𝟓 = 𝟎,𝟔𝟔𝟓 = 0,503

𝑹𝟐𝑨𝑩 − 𝑹𝟐𝑨 𝟎,𝟑𝟑𝟕 −𝟎,𝟑𝟑𝟓 𝟎,𝟎𝟎𝟐


▪ 𝒇𝟐 = = = = 𝟎, 𝟎𝟎𝟑
𝟏 −𝑹𝟐𝑨𝑩 𝟏−𝟎,𝟑𝟑𝟕 𝟎,𝟔𝟔𝟑

S-ar putea să vă placă și