Sunteți pe pagina 1din 10

Corelaia i regresia liniar

Coeficientul de corelaie liniar Pearson (r)


Utilizare
Corelaia Pearson (r) evalueaz gradul de asociere dintre dou variabile msurate pe
scal de interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a
valorilor unei variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei
variabile urmeaz, n sens direct, cresctor, sau invers, descresctor, valorile celeilalte
variabile, atunci cele dou variabile coreleaz ntre ele. Domeniul de variaie a coeficientului
de corelaie Pearson (r) este ntre r=-1 (corelaie perfect negativ) i r=+1 (corelaie perfect
pozitiv). Absena oricrei legturi (corelaii) dintre variabile se traduce prin r=0.
Testul de corelaie implic dou variabile dar, adesea, ntr-o cercetare psihologic
numrul variabilelor supuse corelaiei este mai mare de dou. Acest fapt conduce la ceea ce se
numete o matrice de corelaii care este un tabel ale cror celule cuprind corelaiile dintre
perechile de variabile.
Exemplu: ntr-un studiu cu privire la preferina pentru risc se urmrete evidenierea
asocierii acesteia cu nivelul anxietii i cu agresivitatea. n acest scop, toate cele trei variabile
au fost msurate cu ajutorul unor scale special construite, iar rezultatele sunt exprimate n
scoruri numerice (scal I/R). Testul de corelaie ne va spune n ce msur exist o relaie
(asociere) ntre preferina pentru risc, pe de o parte, i celelalte dou caracteristici de
personalitate, pe de alt parte. Dei variabila care face obiectul cercetrii este preferina
pentru risc, ea nu este considerat variabil dependent. n contextul testului de corelaie nu
exist variabile dependente i independente. Rezultatul testului pune n eviden asocierea
dintre ele, ceea ce corespunde unei situaii de dependen reciproc.
Condiii
Condiia principal pentru calcularea coeficientului de corelaie liniar Pearson este
ca variabilele implicate s fie msurate pe scal de interval/raport (alturi de existena unei
forme a distribuiei care nu se abate sever de la curba normal).
Testele neparametrice alternative, pentru cazul n care condiiile pentru utilizarea
testului Pearson nu se ndeplinesc, sunt: testul chi-ptrat (pentru date nominale) sau
coeficienii de corelaie Spearman sau Kendall (pentru date ordinale).
Aranjarea datelor
Se creeaz variabile distincte pentru fiecare caracteristic supus testrii.

Procedura: Statistics-Corelate-Bivariate
Variabilele supuse corelaiei vor fi trecute n lista Variables:
Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un
altul (Kendall sau Spearman), dac datele sunt neparametrice.
Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege
unilateral (dac exist o justificare solid).
Flag significant correlations, determin marcarea cu un asterisc a coeficienilor
semnificativi la p=0.05, i cu dou asteriscuri a celor semnificativi la p=0.01. Acest lucru este
util atunci cnd matricea de corelaie este mare, pentru a scoate n eviden valorile
semnificative ale lui r.

Rezultate

Tabelul rezultatelor cuprinde matricea de corelaii a variabilelor analizate. El este


redundant, deoarece prezint aceleai corelaii de dou ori, deasupra diagonalei i, din nou,
sub diagonal. Corelaiile variabilelor cu ele nsele sunt perfect pozitive (r=1) i nu prezint,
desigur, nici un interes.
Fiecare celul include urmtoarele informaii:
valoarea lui r
nivelul p
numrul de subieci (N)
n cazul nostru, consemnm corelaii negative dar nesemnificative ntre anxietate i
agresivitate (r=-0.38, p=0.26), pe de o parte, i ntre anxietate i preferina pentru risc, pe de
alt parte (r=-0.40, p=0.24). n acelai timp, se constat o corelaie semnificativ (r=0.96,
p<0.001) ntre agresivitate i preferina pentru risc. Precizm faptul c raportarea

coeficienilor de corelaie se face cu dou zecimale, chiar dac programele i calculeaz cu


trei zecimale.
Dezavantajul acestui tip de tabel const n faptul c avem, de fapt, o dubl prezentare
a corelaiilor, deasupra diagonalei i sub diagonal. Pentru corelaii implicnd multe variabile
tabelul se va citi cu relativ dificultate.
S presupunem c suntem interesai doar de corelaiile dintre anxietate i agresivitate
cu variabila preferin pentru risc, nu i de corelaia dintre anxietate i agresivitate. n acest
caz, n caseta principala, Bivariate Correlations, prezentat mai sus, variabilele vor fi
introduse astfel nct variabila preferina pentru risc sa fie ultima din list. Apoi se apas
butonul Paste, al crui efect este deschiderea domeniului Syntax, ca o fereastr distinct, n
care se afl procedura de corelaie. Acolo, pe linia /VARIABLES=anx agresiv risc, se
insereaz cuvntul WITH ntre agresiv si risc, avnd grij s existe spaiu att n stnga ct i
n dreapta sa.

inserai WITH

Mai departe, se selecteaz ntreaga procedur (cu ajutorul mouse-ului) i se apas pe


butonul Run () de pe bara de comenzi a ferestrei
Rezultatul din Viewer va arta ca mai jos:

Este evident c aceast modalitate se poate aplica pentru orict variabile, dac avem
grij s le aezm separat n list i s includem clauza WITH ntre cele dou categorii de
variabile. Nu pot fi incluse mai multe clauze WITH n aceeai procedur.
Ulterior, putem reveni n fereastra Syntax pentru a o nchide (cu File-Close), salvnd
sau nu procedura astfel modificat.
Expresia grafica a corelaiei (Scatterplot)
Caracterul i intensitatea corelaiei dintre dou variabile se evideniaz extrem de
sugestiv cu ajutorul unei proceduri grafice specifice, numit scatterplot.
Aceasta se lanseaz din meniul principal Graphs-Scatter... care deschide urmtoarea
caset de dialog:

n cazul nostru, s presupunem c dorim reprezentarea grafic a corelaiei dintre


agresivitate i preferina pentru risc, singura semnificativ. n acest scop, selectm pe caseta
Scatterplot opiunea Simple i apsm Define.

Trecem variabila Agresivitate pe axa Y i variabila Preferina pentru risc pe axa Z (se
poate la fel de bine i invers). Se apas OK i se obine graficul din imaginea urmtoare, care
sugereaz foarte clar existena unei asocieri de tip liniar ntre cele dou variabile.

Reprezentarea grafic este surs de informaii cu privire la natura relaiei dintre


variabile, motiv pentru care este recomandabil utilizarea frecvent a acesteia. Mai mult, ea

este necesar n special atunci cnd valoarea corelaiei este redus, sau nesemnificativ,
deoarece graficul poate scoate n eviden o legtura de alt tip dect liniar.
O corelaie r=0.92, ca cea obinut mai sus, ntre agresivitate i preferin pentru
risc, este improbabil s se ntlneasc ntr-un studiu real. De fapt, dac s-ar
ntmpla s apar, ar trebui s concluzionm mai degrab c cele dou variabile
se confund, dect c sunt distincte.

Regresia liniar simpl


Utilizare
Analiza de regresie este o aplicaie a corelaiei, utilizat n scopuri de predicie. Dac
evalum agresivitatea ca trstur de personalitate i preferina pentru risc ca expresie a
numrului de incidente n trafic, la conductorii auto, se poate estima, pe baza agresivitii,
riscul de accident nc nainte de dobndirea carnetului de ofer. Acest tip de regresie, n care
exist o singur variabil predictor (agresivitatea) i o variabil criteriu (tendina spre risc) se
numete regresie liniar simpl. Mai frecvent utilizat este regresia multipl, care efectueaz
predicii bazate pe mai multe variabile predictor asupra unei variabile criteriu. Vom prezenta
mai jos regresia liniar simpl, ca o form de introducere n analiza de regresie, mai uor de
neles.
Exemplu: Predicia rezultatului statistic pe baza cunotinelor de matematic,
evaluate anterior nceperii cursului de statistic.
Condiii
Din punct de vedere statistic, condiiile variabilelor care sunt supuse analizei de
regresie sunt aceleai ca n cazul corelaiei deoarece regresia liniar este o aplicaie a acesteia.
Din punct de vedere metodologic, predicia presupune, de regul, evaluarea variabilei
predictor anterior variabilei criteriu. Acest fapt poate sugera o relaie de tip cauzal ntre
variabile, dar numai dac sunt ntrunite i alte condiii (cum ar fi izolarea efectelor altor
variabile).
Aranjarea datelor
Structura de variabile este similar analizei de corelaie.

Procedura: n principiu, analiza de regresie ncepe cu coeficientul de corelaie dintre


variabile i vizualizarea imaginii scatterplot. n cazul nostru, urmnd procedura prezentat
mai sus, am obinut o corelaie r=0.74 (p=0.002). Aceste valori confirm existena unei
legturi pozitive semnificative, ntre cunotinele de matematic i performana la statistic. O
idee mai exact ne ofer coeficientul de determinare r 2=0,54. Acesta ne spune c 54% din
variaia performanei la statistic este explicat de variaia valorilor la variabila cunotine

de matematic. Deducem c restul de 46% din performana la statistic este explicat de alte
variabile, necunoscute n aceast faz1.
Pe baza acestor concluzii se poate trece la analiza de regresie a crei finalitate este
aceea de obinere a coeficienilor a (termenul liber, sau originea dreptei de regresie) i b
(panta dreptei de regresie), cu ajutorul crora se poate estima performana la statistic pe baza
rezultatului la un test de cunotine matematice aplicat n prima zi de coal. Nendoielnic, o
astfel de procedur s-ar justifica mai ales pentru identificarea studenilor cu poteniale
dificulti i care, tocmai fiind avertizai n legtur cu aceste dificulti, vor putea s acorde
statisticii o atenie sporit, n vederea obinerii unui rezultat peste nivelul celui prezis.
Lansarea procedurii: Statistics-Regression-Linear...

n caseta principal Linear Regression se trece variabila criteriu n zona Dependent


iar variabila criteriu, n zona Independent(s).

n caseta Statistics, bifm Estimates pentru


obinerea coeficienilor de regresie (opiune
implicit)

n caseta Regression Save, bifm Predicted


Values-Unstandardized i ResidualsUnstandardized, care vor avea ca efect
crearea de variabile distincte n baza de date.
Prediction interval (individual) va calcula
limitele de ncredere pentru valorile prezise.

Valorile prezise sunt valorile rezultate pe baza modelului de predicie.


Valorile reziduale se calculeaz ca diferen ntre valorile variabilei criteriu si
cele prezise pe baza modelului de regresie.
1

Facem precizarea c valorile i aprecierile nu se bazeaz pe un studiu reale.

Analiza rezultatelor

Tabelul Model Summary ofer valoarea coeficientului de regresie, notat cu R, care


este identic cu coeficientul de corelaie dintre cele dou variabile. Dac modelul de regresie ar
fi avut mai multe variabile predictor, R ar fi fost coeficientul de corelaie multipl dintre
predictori i criteriu. Interpretarea este similar coeficientului de corelaie simpl, la fel ca i
pentru R2, care este coeficientul de determinare al lui R. Valoarea lui ne spune c 55% din
variaia performanei la statistic este explicat de variaia variabilei cunotine de
matematic. Adjusted R Square este o corecie a lui R2 n funcie de numrul de predictori
i numrul de subieci.

Tabelul Coefficients conine coeficienii B (nestandardizai) i coeficientul beta


(standardizat), care pot fi utilizai, la alegere, n ecuaia de predicie.
Astfel, de exemplu, dac un student realizeaz un scor de 30 la testul de cunotine de
matematic, se poate estima performan final la statistic cu ajutorul relaiei:
stat _ fin a b * mat _ in 3.406 0.854 * 30 29.02
unde 3.406 este originea iar 0.854 este panta dreptei de regresie.
Sau, dac predicia se face pe baza unui scor standardizat z al variabilei mat_in (s
zicem, 0.93), atunci:
stat _ fin beta * mat _ in 0.742 * 0.93 0.69
n acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri
standardizate se afl n 0.
Desigur, scorurile astfel prezise sunt estimri, atta timp ct corelaia dintre variabile
nu este perfect. Iar estimrile conin cu att mai mult eroare cu ct corelaia dintre variabile
este mai mic (punctele graficului de corelaie fiind mai ndeprtate de dreapta de regresie).
La finalul procedurii analizei de regresie, cu setrile de mai sus, n baza de date apar
cteva variabile noi, aa cum se vede n imaginea de mai jos.

Variabila pre_1, conine valorile prezise pe baza modelului de regresie.


Variabila res_1, conine diferena dintre valoarea real i valoarea prezis
Variabilele lici_1 i lici_2, conin limitele inferioar i superioar ale intervalului de
ncredere pentru fiecare valoare n parte. Pentru a nelege mai bine problema limitelor, s
privim prima valoare prezis de pe coloana pre_1 (25.598). Cu un nivel de ncredere de 95%
(echivalent cu o probabilitate de eroare de 0.05), putem spune c valoarea adevrat pentru
stat_fin prezis pe baza valorii mat_in=26, s-ar afla n intervalul 21.77 i 29.41.
n fine, rezultatele conin i imaginea scatterplot a relaiei dintre valorile mat_in i
scorurile z ale variabilei pre_1.

Imaginea este identic cu ceea ce am prezentat n cazul corelaiei. Singura deosebire


este dat de trasarea dreptei. Aceasta se face de ctre operator, n felul urmtor:
- se acioneaz dublu clic de mouse pe imaginea graficului din Viewer. prin care...
- graficul este trecut deschis ntr-o fereastr individual de editare, n care...
- se execut procedura Chart-Options-Fit Line- Fit Options. La captul acestei serii de
aciuni apare caseta de mai jos unde se marcheaz Linear regression.

Facem precizarea c acest procedeu de trasare a liniei n interiorul scatterplotului este


utilizabil i n cazul corelaiei. Dac se alege alt model dect cel liniar (de exemplu,
Quadratic regression) se va obine linia de regresie sub form curbilinie, punnd n eviden
abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci cnd corelaia este
mic, fapt care se poate datora faptului c relaia dintre variabile nu urmeaz un model liniar
(vezi exemplul din prima seciune a manualului, bazat pe corelaia dintre scorurile z i
probabilitile de sub curba normal).
Ce utilizm, corelaia sau regresia?
Corelaia i regresia liniar sunt similare i, de aceea, uor de confundat. n unele
situaii pot fi utilizate ambele proceduri.
Se calculeaz corelaia liniar:
atunci cnd exist dou variabile msurate pe aceiai subieci i se dorete evaluarea
gradului de asociere ntre variabile
atunci cnd distribuiile de eantionare ale celor dou variabile sunt normale (atunci
cnd cel puin una dintre variabile este manipulat, nu se calculeaz corelaia
Pearson)
Se calculeaz regresia liniar:
atunci cnd una dintre variabile precede i poate fi cauza celeilalte variabile
atunci cnd una dintre variabile este manipulat, se calculeaz regresia
atenie, calculele regresiei nu sunt simetrice, ca urmare, inversnd variabilele n
ecuaia de regresie se va obine o linie de regresie diferit, n timp ce dac se
inverseaz ordinea variabilelor n calcularea corelaiei, se obine acelai coeficient r.

S-ar putea să vă placă și