Analiza de regresie și corelația liniară șunt proceduri statistice asemănătoare, dar care au
obiective diferite. În timp ce corelația liniară este utilizată cu scopul de a măsura intensitatea și
sensul relației dintre două variabile, analiza de regresie are drept obiectiv predicția scorurilor
unei variabile în funcție de valorile alteia. Atunci când am prezentat coeficientul de corelație
Pearson, am specificat faptul că aceasta analizează variabilitatea comună dintre două variabile
și că acestea nu se află într-o relație de cauzalitate. În schimb, analiza de regresie implică
existența unui efect al unei variabile asupra alteia. Variabila independentă se numește predictor
(simbolizată cu X), în timp ce variabila dependentă este cunoscută sub denumirea de criteriu
(simbolizată cu Y). În contextul analizei de regresie variabila dependentă este măsurată pe scală
de interval/raport. Variabila independentă este măsurată pe scală de interval/raport sau
nominală. Atunci când variabila independentă se măsoară pe scală nominală se recomandă
etichetarea ei începând cu valoarea 0 (Cohen, Cohen, West, & Aiken, 2003). În concluzie, în
analiza de regresie, pe baza valorilor predictorului încercăm să prezicem ce valori va lua
criteriul. Atunci când în model avem un singur predictor discutăm despre analiza de regresie
liniară simplă. Când avem cel puțin doi predictori se vorbește despre regresie liniară
multiplă.
Coeficientul de corelație poate lua valori între -1 și +1, unde -1 este corelația perfectă
negativă și +1 este corelația perfectă pozitivă. O corelație negativă se traduce prin scăderea
valorilor unei variabile în timp ce ale celeilalte cresc și invers. Atunci când coeficientul de
corelație este pozitiv valorile ambelor variabile cresc sau descresc în același timp. Coeficientul
de regresie se notează cu R și poate lua valori între 0 și 1, unde 1 indică predicția perfectă.
Să ne imaginăm că un profesor este interesat să facă o predicție asupra performanței
studenților la examen pe baza punctajelor obținute la seminar. În acest context punctajul de la
seminar este variabila independentă (predictorul), iar performanța la examen (numărul de
răspunsuri corecte) este variabila dependentă (criteriul). În tabelul 14.1 sunt prezentate valorile
pentru 15 cazuri.
𝑌 ′ = 𝑎 + 𝑏𝑋
(formula 6.1)
• Y’ – reprezintă valorile prezise ale lui Y.
• a – este constanta (locul unde linia de regresie intersectează axa Oy).
• b – este panta dreptei de regresie.
• X – reprezintă variabila predictor.
𝑠𝑋
𝑏=𝑟∗
𝑠𝑌
(formula 6.2)
• r – coeficientul de corelație dintre X și Y.
• sX și sY – sunt abaterile standard ale distribuției X, respectiv Y.
𝑎 = 𝑚𝑌 − 𝑏 ∗ 𝑚𝑋
(formula 6.3)
• mY – este media distribuției Y.
• b – este panta pe care o calculăm cu formula 6.2.
• mx – este media variabilei predictor.
Editor. După deschiderea acestei ferestre vom acționa butonul Add Fit Line at Total .
Opțiunea Linear este selectată implicit și vom apăsa butonul Close.
Figura 6.1 - Graficul pentru regresia dintre punctajul obținut la seminar și performanța la
examen
Aplicarea analizei de regresie utilizând un soft statistic permite salvarea valorilor prezise
și a erorilor de predicție, pe care noi le prezentăm în tabelul 14.2. Când am folosit ecuația dreptei
de regresie pentru a prezice performanța studentului cu 2,50 puncte la seminar am obținut un
rezultat egal cu 67,92. În realitate studentul a răspuns corect la 70 de itemi. Diferența dintre
scorul real (Y) și scorul prezis (Y’) se numește eroare de predicție (simbolizată cu ε - epsilon).
Abaterea standard a distribuției erorilor de predicție se numește eroarea standard a estimării.
Suma tuturor erorilor de predicție este egală cu 0.
În caseta Statistics vom bifa opțiunile Estimates și Model fit (aceste opțiuni sunt
selectate implicit). În caseta Save se vor selecta opținile:
• Unstandardized (în câmpul Predicted Values) – va calcula valorile prezise pentru
variabila examen.
• Unstandardized (în câmpul Residuals) – va calcula valorile reziduale (diferența dintre
valoarea reală și cea prezisă).
• Individual (în câmpul Prediction Intervals) – va calcula intervalul de încredere pentru
fiecare valoare prezisă. Intervalul calculat are nivelul de încredere setat implicit pentru
95%. În funcție de opțiunile cercetătorului această valoarea poate fi modificată.
La afișarea rezultatelor vom obține mai multe tabele. Model Summary prezintă valoarea
coeficientului de regresie (R). Reamintim faptul că acesta are o valoare egală cu cea a
coeficientului de corelație dintre cele două variabile supuse analizei. În cazul nostru, R = 0,70.
R Square (0,49) este valoarea coeficientului de determinare al regresiei. Această valoarea ne
informează că 49% din performanța studenților la examen este explicată de punctajul obținut la
examen. Diferența de 51% este explicată de alte variabile: trăsături de personalitate, motivația
pentru învățare, personalitatea evaluatorului etc. Adjusted R Square este o corecție a lui R2 în
funcție de volumul eșantionului și numărul de predictori. Std. Error of the Estimate reprezintă
eroarea standard a estimării (abaterea standard a distribuției valorilor reziduale).
Tabelul Residual Statistics oferă informații despre valorile prezise și valorile reziduale
(valoarea cea mai mică, respectiv cea mai mare, media, abaterea standard etc).
Ca urmare a opțiunilor pe care le-am selectat, în baza de date vor apărea noi variabile,
precum în imaginea de mai jos.
Spre deosebire de regresia simplă, cea multiplă presupune existența a cel puțin doi
predictori. Regresia multiplă are drept obiectiv descoperirea unui set de variabile care pot
prezice cât mai bine o altă variabilă. Astfel, putem obține informații despre puterea fiecărui
predictor analizat separat (Popa, 2010). Analiza de regresie multiplă este una din cele mai
utilizate proceduri în psihologie și nu numai. De exemplu, Chamorro-Premuzic și Furnham
(Chamorro-Premuzic & Furnham, 2003) au studiat rolul de predictor al trăsăturilor de
personalitate asupra performanței academice; Gendreau și Goggin (Gendreau & Goggin, 1994)
au analizat în ce măsură durata pedepselor executate de persoanele private de libertate pot
prezice comiterea unor infracțiuni viitoare; Alessandri și Vecchione (Alessandri & Vecchione,
2012) au analizat puterea de predicție a trăsăturilor de personalitate asupra performanței în
muncă.
Ecuația regresiei multiple este asemănătoare cu cea de la regresia simplă, diferența fiind
generată de existența mai multor coeficienți b, numărul acestora fiind determinat de numărul
predictorilor.
𝑌 ′ = 𝑎 + 𝑏1 ∗ 𝑋1 + 𝑏2 ∗ 𝑋2 + ⋯ + 𝑏𝑘 ∗ 𝑋𝑘
(formula 14.4)
• Y’ – este valoarea prezisă.
• a – este constanta.
• b1, b2, … bk – reprezintă pantele pentru cei k predictori.
• X1, X2, … Xk – sunt cele k variabile independente.
Dacă în cazul regresiei liniare simple relația dintre predictor și criteriu era reprezentată
prin graficul scatterplot, pentru regresia liniară multiplă relația dintre variabile este ilustrată
printr-un scatterplot multivariat, valorile prezise plasându-se într-un spațiu.
Aplicarea regresiei liniare multiple solicită îndeplinirea unor condiții atât la nivelul
variabilei dependente, cât și a celor independente.
• Variabila dependentă trebuie să fie măsurată pe scală de interval/raport și să
îndeplinească condiția de normalitate. Atunci când criteriul este măsurat pe scală
nominală se folosește altă procedură statistică – regresia logistică.
• Variabila independentă se va măsura pe scală de interval/raport, iar atunci când este
măsurată pe sală categorială va primi coduri numerice începând cu cifra 0.
• Variabila dependentă trebuie să coreleze semnificativ cu fiecare predictor. Se
recomandă analiza indicilor de corelație dintre variabile înainte de a aplica regresia.
• Variabilele predictor trebuie să fie ortogonale (nu trebuie să coreleze între ele).
Existența corelațiilor între predictori este cunoscută sub numele de coliniaritate
(multicoliniaritate). Totuși, dacă există corelații semnificative între predictori acestea
trebuie să fie mici (< 0,30). O soluție sugerată pentru diminuarea efectului de
coliniaritate este analiza indicelui de toleranță. Acesta poate lua valori cuprinse între
0 și 1, iar pentru valori mai mici de 0,7 există o problemă de coliniaritate. O altă soluție
de analiză a coliniarității o reprezintă indicele VIF (Variation Inflation Factor). Când
acest indice are o valoare mai mare de 10 există coliniaritate (Field, 2013). Atât indicele
de toleranță, cât și VIF sunt calculați de SPSS și afișați în Output.
Aplicarea analizei de regresie multiplă atrage atenția asupra unui aspect foarte important
în cercetare și în analiza datelor – volumul eșantionului. Este important să asigurăm un volum
optim al eșantionului nu doar pentru a obține coeficienți de regresie semnificativi, ci și pentru
a avea rezultate exacte și stabile (Popa, 2010). Rezultatele obținute în urma analizei datelor
trebuie să ne permită luarea unor decizii statistice cu un nivel al erorii cât mai mic. În literatura
de specialitate există numeroase „reguli” după care se poate stabili volumul unui eșantion. Un
număr mult prea mare de participanți va determina o creștere a erorii de tip I, în timp ce un
volum mic crește probabilitatea erorii de tip II (vezi capitolul 6.5).
Marks (1966, apud Cooley & Lohnes, 1971) recomandă un volum al eșantionului de
minimum 200 de participanți pentru orice analiză de regresie, indiferent de volumul
eșantionului. Schmidt (1971) sugerează construcția eșantionului pe baza raportului dintre
numărul de participanți și predictor, astfel încât pentru fiecare variabilă independentă sunt
necesari 25 de participanți. Harris (1975, apud Green, 1991) recomandă utilizarea unui eșantion
egal cu 50 + m participanți, unde m reprezintă numărul de predictori. Această formulă a fost
dezvoltată de Green (1991) care sugerează un volum N = 50 + 8 * m. De exemplu, pentru un
model cu doi predictori se recomandă un eșantion de 50 + 8 * 2 = 66 participanți. O posibilitate
estimare a eșantionului o reprezintă programul G*Power 3 (Faul et al., 2007). Popa (2010) în
„Statistici Multivariate Aplicate În Psihologie” prezintă un exemplu de calcul a eșantionului
folosind softul menționat mai sus.
În meniul Save vom selecta mai multe opțiuni în urma cărora în baza de date vor apărea
noi variabile:
• Unstandardized – creează o nouă variabilă cu valorile prezise pe baza modelului de
regresie.
• Standardized - creează o nouă variabilă cu valorile exprimate prezise în scoruri
standardizate z.
• Mahalanobis – indică cât de mult diferă un caz de media tuturor cazurilor și nu ar trebui
să aibă valori mai mari de 25.
• Cook – cu cât se modifică valoarea reziduală dacă acel caz este eliminat și este de
preferat să nu aibă valori mai mari de 1.
• Standardized DfBeta(s) – indică cu cât se schimbă coeficienții beta dacă acel caz este
exclus. Este exprimat în scoruri z și este de dorit să aibă valori cât mai apropiate de 0.
• Individual – calculează intervalul de încredere pentru fiecare valoare prezisă.
Tabelul Model Summary prezintă rezultatele pentru fiecare model de predicție. Pe prima
linie sunt prezentate rezultatele pentru modelul cu un singur predictor (seminar), în timp ce pe
linia a doua cele pentru modelul cu doi predictori (seminar și conștiinciozitate).
La revenirea în baza de date putem observa apariția unor noi variabile în funcție de
opțiunile bifate în caseta Save.
Tema 3