Sunteți pe pagina 1din 13

Coeficientul de corelat, ie liniar

a Pearson
Asist. drd. Adrian Gorbanescu
2 Ianuarie 2015

Introducere

Termenul corelat, ieeste foarte des utilizat n libajul de zi cu zi pentru a pune


n relat, ie fenomenele pe care le observam. De exemplu, prezent, a multor copii pe
terenul de joaca al unei s, coli ne sugereaza faptul ca aces, tia se afla n pauza.
In trecut, testul t pentru es, antioane dependente ne-a ajutat sa evident, iem
semnificat, ia diferent, ei dintre doua medii obt, inute la nivelul unui es, antion n doua
condit, ii diferite. Prin intermediul acestui test statistic am reliefat diferent, ele dintre perechile de valori.
In cercetare nu suntem ntotdeauna interesat, i sa studiem diferent, ele dintre
perechile de valori, ci s, i gradul de asociere dintre doua variabile masurate la nivelul
es, antionului. Daca n testul t pentru es, antioane dependente, n ambele condit, ii
ale evaluarii studiam aceeas, i variabila, n contetul corelat, iei liniare putem studia
semnificat, ia relat, iei dintre doua variabile diferite. Analiza de corelat, ie studiaza
n ce masura variat, ia valorilor unei variabile este n legatura cu variat, ia valorilor
celeilalte variabile. In continuare vom prezenta exemple care solicita utilizarea
analizei de corelat, iei:
Exista o relat, ie ntre nivelul de anxietate al copilului s, i nivelul de anxietate
al mamei?
Exista o relat, ie ntre atitudinea fat, a de statistica s, i nota la examen?
Exista o relat, ie ntre starea de bine psihologic s, i nivelul salarial?
Dupa cum se poate observa, n toate situat, iile pe care le-am prezentat studiem
relat, ia dintre doua variabile aflate n relat, ie de dependent, a una fat, a de cealalta.
Coeficientul de corelat, ie ne va indica n ce masura valorile celor doua variabile au
o variat, ie reciproca.
In contextul analizei de corelat, ie liniare Pearson avem doua variabile masurate
pe scala de interval/raport. Atunci cand ne as, teptam ca valorile mari ale unei
variabile sa se asocieze cu valori crescute ale celeilalte variabile spunem ca ntre
cele doua variabile exista o corelat, ie pozitiva. Daca ne as, teptam ca valorile mari
ale unei variabile sa se asocieze cu scoruri mici ale celeilalte variabile ntre cele
doua variabile analizate vom avea o corelat, ie negativa.
Testul statistic care a stat la baza dezvoltarii coeficientului de corelat, ie este
coeficientul de covariant, a. Acesta reprezenta suma produselor dintre cele doua
variabile raportata la numarul de perechi de valori.

xy
N
Cel mai mare dezavantaj al coeficientului de covariant, a este reprezentat de
faptul ca variabilele analizate trebuie sa aiba aceeas, i unitate de masura. Daca
variabilele au unitat, i de masura diferite produsul valorilor nu mai are sens. De
exemplu, nu putem calcula coeficientul de covariat, ie dintre anxietate s, i preferint, a
pentru risc. Pentru ca produsul dintre doua variabile cu unitat, i de masura diferite
sa aiba sens trebuie sa transformam valorile n scoruri standardizate. Astfel, vom
ajunge la coeficientul de corelat, ie liniara, notat cu r. Acesta este cunoscut s, i
sub numele de coeficient de corelat, ie Pearson.
covxy =

Ca urmare a standardizarii scorurilor celor doua variabile formula coeficientului


de corelat, ie devine:
P
zx zy
r=
N
Dupa ce l dezvoltam pe z, formula de calcul al lui r devine:
P
(X mx ) (Y my )
r=
N sx sy

Scatterplot - reprezentarea grafic


a a corelat, iei

Valorile variabilelor corelate pot fi plasate pe un grafic cu doua axe: Ox s, i Oy.


Graficul care rezulta se numes, te scatterplot. In imaginile de mai jos vom prezenta
cateva exemple de reprezentari grafice ale relat, iei dintre doua variabile
Grafic 1 - Corelat, ia pozitiva perfecta r = 1

Grafic 2 - Corelat, ie pozitiva r = 0.85

Grafic 3 - Corelat, ie pozitiva r = 0.40

As, a cum am ment, ionat n unul din paragrafele de mai sus, n cazul corelat, iei
pozitive valorile mari ale unei variabile se asociaza cu valori mari ale celeilalte
variabile. Atunci cand valorile variabilei x sunt egale cu valorile variabilei y ne
aflam ntr-o situat, ie particulara, iar valoarea coeficientului de corelat, ie este r =
+1. In aceasta situat, ie, punctele celor doua variabile se plaseaza pe o linie dreapta,
nclinata la un unghi de 45 de grade. Dupa cum se poate observa, reprezentarea
grafica scatterplot are forma unui nor de puncte. Cu cat coeficientul de corelat, ie
este mai mare, cu atat acest nor de puncte este mai restrans. In plus, n cazul
corelat, iei pozitive graficul ncepe n partea stanga jos s, i se finalizeaza n partea
dreapta sus.
Grafic 4 - Corelat, ia negativa perfecta r = 1

Grafic 5 - Corelat, ie negativa r = -0.85

Grafic 6 - Corelat, ie negativa r = -0.40

Atunci cand valorile mari ale unei variabile sunt asociate cu scoruri mici ale
celeilalte variabile ntre ele exista o corelat, ie negativa. In acest caz, norul de puncte
ncepe n partea stanga sus s, i se ncheie n partea dreapta jos.
3

In situat, ia n care corelat, ia dintre cele doua variabile tinde spre 0, norul de
puncte are o forma circulara s, i nu se poate observa nici o tendint, a de grupare a
punctelor.
Grafic 7 - Corelat, ie liniara r = 0

Punctele din graficul scatterplot se obt, in la intersect, ia dintre valorile pereche


ale celor doua variabile.
Trebuie ret, inut faptul ca nu ntotdeauna exista o relat, ie liniara ntre variabile.
Astfel, corelat, ia dintre variabile poate urma s, i un model curbiliniu. De asemenea,
pot exista situat, ii n care coeficient, i de corelat, ie identici pot avea reprezentari
grafice diferite.
Astfel, statisticianul Francis Anscombe (1973) a comparat patru seturi de date
cu proprietat, i statistice identice. Des, i ntre n cazul fiecarei perechi de variabile
avem o corelat, ie r = 0,81, natura relat, iei dintre ele este diferita.
Grafic 8 - Graficul scatterplot pentru perechile lui Anscombe

In toate cele patru situat, ii de mai sus avem urmatorii indicatori statistici ai
variabilelor:
Media X = 9
Dispersia X = 11
4

Media Y = 7,50
Dispersia Y = 4,12
Prin acest exemplu, Anscombe a dorit sa evident, ieze important, a analizei grafice
a datelor s, i efectul valorilor extreme. In al treilea grafic se poate observa cum o valoare extrema reduce valoarea coeficientului de corelat, ie, iar n al patrulea exemplu
se poate observa cum o corelat, ie egala cu 0 este crescuta la 0,81 prin intermediul
unei astfel de valori.
Pot exista situat, ii n care, des, i se poate observa o tendint, a de asociere a
perechilor de valori, corelat, ia dintre acestea este inexistenta. Un astfel de caz
este reprezentat de funct, iile sinus s, i cosinus. Pe masura ce marimea unghiului
cres, te s, i se apropie de 90 de grade valoarea lui sinus pornes, te de la 0 s, i crets, te
pana la 1. Apoi, pe masura ce unghiul depas, es, te 90 de grade s, i se apropie de
180 de grade valoarea lui sinus descres, te pana la 0. Intre variabilele analizate n
graficul de mai jos avem un coeficient de corelat, ie r = 0, des, i exista tendint, a de
asociere a perechilor de valori.
Grafic 9 - Graficul scatterplot pentru un set de valori simetrice

Analiza de corelat, ie s, i relat, ia de cauzalitate

Analiza de corelat, ie ne indica masura n care valorile a doua perechi de variabile


dispun de o variant, a comuna. Din acest motiv, nu putem sa atribuim coeficientului
de corelat, ie o semnificat, ie de cauzalitate. Pentru a stabili o relat, ie cauzala ntre
variabile trebuie construit un design de cercetare care poate fi verificat doar n
condit, ii de experiment.
De multe ori student, ii au tendint, a de a atribui o nsemnatate cauzala unei
relat, ii descoperite ntre doua variabile.

Analiza de corelat, ie liniar


a Pearson n SPSS

Corelatia Pearson evaluaza gradul de asociere dintre doua variabile masurate pe


scala de interval raport. Aceasta se refera la intensitatea si sensul de variatie concomitenta a valorilor unei variabile n raport cu cealalta, dupa un model de tip
liniar. Daca valorile unei variabile urmeaza, n sens direct, crescator, sau invers,
descrescator valorile celeilalte variabile, atunci cele doua variabile coreleaza ntre
ele. Intervalul de valori este de la maxim +1,00, trecand prin 0,00, pana la -1,00.
Semnul +indica o corelatie pozitiva anume ca scorurile unei variabile se maresc
5

odata cu cresterea scorurilor celeilalte variabile. Semnul indica o crelatie negativa anume ca, n timp ce scorurile unei variable descresc, scorurile celeilalte
varibile cresc.
Un cercetator este interesat sa studieze respectul normelor s, i asocierea acestora
cu nivelul de flexibilitate.
Pentru a realiza acest lucru cercetatorul a masurat cele doua constructe cu
ajutorul unor intstumente raportandu-le la o scala de interval/raport. In cadrul
analizei de corelat, ie nu avem variabile independente sau dependente, deoarece
rezultatul obt, inut va pune n evident, a dependent, a reciproca a celor doua variabile.
In sect, iunile anterioare am aratat cum valorile extreme pot afecta coeficientul
de corelat, ie. Din acest motiv, ne vom asigura ca variabilele analizate nu au valori
extreme. De asemenea, vom verifica s, i ndeplinirea condit, iei de normalitate.
In SPSS vom crea doua variabile masurate pe scala de interval/raport precum
n imaginea de mai jos:
Grafic 10 - Aranjarea bazei de date n SPSS

Pentru a lansa testul statistic parcurgem urmatoarele etape:


1. Analyze - Correlate - Bivariate

2. Se va deschide o caseta de dialog unde variabilele pe care dorima sa le


corelam vor fi mutate n zona Variables. Testul statistic selectat este Pearson,
celelalte doua fiind utilizate pentru date neparametrice. Modul de verificare a
ipotezei este bilateral (Two-tailed). Opt, iunea Flag significant corrlations va
marca cu un asterisc coeficient, ii de corelat, ie semnificativi pentru = 0, 05 s, i
cu doua asteriscuri a coeficient, ilor de corelat, ie semnificativi pentru = 0, 01.

3. In Output va aparea tabelul Correlations care ne prezinta corelat, iile


variabilelor analizate. Unul din dezavantajele acestui tabel este faptul ca
prezinta rezultatele corelat, iei de doua ori. In plus, prezinta s, i rezultatul de
corelat, ie a fiecarei variabile cu ea nsas, i, aceasta neavand nici o important, a
(r = 1).

Pearson Correlation - reprezinta valoarea coeficientului de corelat, ie r. In


cazul nostru r = -0,75. Sunt suficiente doua zecimale n raportarea coeficientului de corelat, ie.
p (sig 2 tailed) - reprezinta probabilitatea asociata coeficientului de corelat, ie.
Daca p > 0, 05 vom accepta ipoteza de nul s, i vom afirma ca nu exista o
corelat, ie semnificativa ntre variabilele analizate. Daca p 0, 05 vom respinge ipoteza de nul s, i vom afirma ca exista o corelat, ie semnificativa ntre cele
doua variabile.
N - volumul es, antionului.
In concluzie, am obt, inut o corelat, ie negativa semnificativa ntre fleibilitate s, i
respectarea normelor (r = -0,75; p < 0, 05). Acest rezultat se traduce n faptul ca
nivelul scazut de flexibilitate se asociaza cu un grad mare de respectare a normelor
s, i invers.
Analiza de corelat, ie suporta mai mult de doua variabile. Sa presupunem ca
cercetatorul ar dori sa studieze s, i asocierea dintre respectarea normelor s, i asumarea
responsabilitat, ii. Prin urmare, n analiza de corelat, ie vor intra trei variabile: respectul normelor, flexibilitatea s, i responsabilitatea. Dupa introducerea variabilei
responsabilitate n modelul de analiza vom obt, ine rezultatele din tabelul de mai
jos:

Rezultatele ne evident, iaza corelat, ia negativa semnificativa ntre respectul normelor


s, i flexibilitate s, i doua corelat, ii nesemnificative ntre flexibilitate s, i responsabilitate
(r = 0,02; p > 0, 05) s, i ntre responsabilitate s, i respectul normelor (r = 0,31;
p > 0, 05).
Tabelul obt, inut ne ofera noua indici de corelat, ie n condit, iile n care pe noi
ne interesau doar doi dintre ei. Noi am studiat n ce masura respectul normelor
se asociaza cu flexibilitatea s, i responsabilitatea. Pentru a obt, ine un tabel care sa
cont, ina doar aces, ti coeficient, i de corelat, ie vom proceda astfel:
1. In caseta Bivariate a analizei de corelat, ie vom introduce variabilele n
ordinea flexibilitate, responsabilitate s, i respectul normelor. Este important
ca variabila pe care dorima sa o asociem cu celelalte doua sa fie ultima din
lista.

2. Se act, ioneaza butonul Paste marcat prin sageata. Ca urmare a act, ionarii
acestui buton se va deschide fereastra Syntax unde se vor respecta urmatorii
pas, i:
Pe linia /VARIABLES = flexibiliate responsabilitate norme se introduce
cuvantul WITH ntre responsabilitate s, i norme, astfel ncat sa existe spat, i
ntre cuvinte.

Cu ajutorul mouse-lui vom selecta ntreaga procedura s, i vom act, iona butonul
Run din baza de comenzi a ferestrei (indicat prin sageata).

Ca urmare a realizarii acestei operat, ii, n output vom obt, ine urmatorul tabel:

4.1

Graficul Scatterplot

Expresia grafica a coeficientului de corelat, ie este reprezentata de scatterplot. Mai


sus am obt, inut o corelat, ie negativa semnificativa ntre flexibilitate s, i respectarea
normelor. In continuare vom prezenta imaginea modalitat, ii n care valorile celor
doua variabile se asociaza. In SPSS putem obt, ine acest grafic din meniul Graphs
parcurgand urmatorii pas, i:
Graphs - Legacy Dialogs - Scatter/Dot.

In caseta Scatter/Dot selectam Simple Scatter s, i act, ionam butonul Define.

In caseta Simple Scatterplot vom transfera cele doua variabile n zona X Axis,
respectiv Y Axis. Deoarece corelat, ia ne indica variat, ia reciproca dintre cele
doua variabile, nu are important, a modul n care vom repartiza variabilele pe
9

axa x sau y. Apoi se act, ioneaza butonul OK.

Graficul obt, inut ne arata prezent, a unei asocieri negative ntre flexibilitate
s, i respectarea normelor. Graficul Scatterplot ne ofera informat, ii cu privire la
natura relat, iei dintre variabile s, i este recomandata utilizarea acestuia alaturi de
prezentarea coeficentului de corelat, ie.

M
arimea efectului pentru coeficientul de corelat, ie

Spre deosebire de testele studiate pana acum, valoarea coeficientului de corelat, ie


este un indicator al intensitat, ii relat, iei dintre variabile. Conform celor spuse mai
sus, cu cat valoarea coeficientului de corelat, ie este mai apropiata de +1 sau de -1,
cu atat exista o asociere mai puternica ntre variabile. De asemenea, putem afirma
ca un indice de corelat, ie 0,58 este mai puternic decat un indice 0,45. In literatura
de specialitate exista mai multe modele de interpretare a marimii coeficient, ilor de
corelat, ie.

Table 1: Interpretarea coeficientului de corelat, ie


Valoarea coeficientului de corelat, ie
Intensitate
0,9 - 1
Aproape perfect
0,7 - 0,9
Foarte mare
0,5 - 0,7
Mare
0,3 - 0,5
Mediu
0,1 - 0,3
Mic
0 - 0,1
Foarte mic
Indicii de corelat, ie trebuie raportat, i pe o scala ordinala, deoarece nu putem
afirma ca un coeficient de corelat, ie 0,25 este de trei ori mai mic decat un coeficient 0,75. Din acest motiv, se recomanda ridicarea lui r la patrat pentru a obt, ine
coeficientul de determinare (r2 ). Acesta este considerat un indicator mai precis al
marimii efectului pentru coeficientul de corelat, ie.
In cazul relat, iei dintre flexibilitate s, i respectarea normelor, coeficientul de determinare este 0, 752 = 0, 56. Acest rezultat ne informeaza ca 56din variant, a
celor doua variabile este comuna. Cu alte cuvinte, 56din variant, a unei variabile
este explicata de variant, a celeilate variabile. Diferent, a de 44din variant, a este
explicata de alte variabile.

10

Limitele de ncredere ale coeficientului de corelat, ie


la nivelul populat, iei

Asemenea testelor t, unde obt, ineam intervalul de ncredere al diferent, ei dintre


medii, putem calcula intervalul de ncredere al coeficientului de corelat, ie la nivelul
populat, iei. Corelat, ia la nivelul populat, iei este reprezentata prin . Spre deosebire
de testele t, n cazul analizei de corelat, ie SPSS nu are opt, iuni de calcul pentru
intervalul de ncredere. Aceste limite pot fi calculate manual pe baza formulelor
existente, dar exista s, i foi de calcul n Excel care pot realiza acest lucru.
Imaginea de mai jos prezinta foaia de calcul a limitelor de ncredere pentru
corelat, ia dintre flexibilitate s, i respectarea normelor conform datelor obt, inute n
urma prelucrarii n SPSS (r = -0,75). Pentru coeficientul de corelat, ie obt, inut
avem un interval de ncredere CI95= 0,30 - 0,92. Interalul obt, inut este larg, ceea
ce ne arata o estimare redusa a coeficientului de corelat, ie la nivelul populat, iei.
Acest lucru se datoreaza n principal numarului mic de subiect, i.

Pentru coeficientul de corelat, ie dintre responsabilitate s, i respectarea normelor


(r = 0,31) avem un interval de ncredere CI95= -0,32 - 0,75. Intervalul de
ncredere l cuprinde pe 0 s, i este un indiciu pentru acceptarea ipotezei de nul,
rezultat obt, inut s, i n analiza SPSS.

Exemplu de calcul

Pe baza problemei enunt, ate mai sus vom explica procedura de calcul a analizei de
corelat, ie liniare Pearson. In tabelul de mai jos sunt prezentate scorurile pentru
cele doua variabile analizate. Cu X vom marca variabila flexibilitate, iar cu Y vom
nota variabila respectarea normelor.
X Y X mx (X mx )2 Y my (Y my )2 (X mx ) (Y my )
45 56
-6,08
36,97
4,50
20,25
-27,36
40 59
-11,08
122,77
7,50
56,25
-83,10
50 51
-1,08
1,17
-0,50
0,25
0,54
44 60
-7,08
50,13
8,50
72,25
-60,81
48 48
-3,08
9,49
-3,50
12,25
10,78
53 53
1,92
3,69
1,50
2,25
2,88
58 45
6,92
47,89
-6,50
42,25
-44,98
60 46
8,92
79,57
-5,50
30,25
-49,06
55 48
3,92
15,37
-3,50
12,25
-13,72
60 52
8,92
79,57
0,50
0,25
4,46
48 50
-3,08
9,49
-1,50
2,25
4,62
52 50
0,92
0,85
-1,50
2,25
-1,38
1.
2.
3.
4.

Calculat, i coeficientul de corelat, ie dintre cele doua variabile.


Luat, i decizia statistica pentru = 0, 05.
Realizat, i reprezentarea scatterplot a celor doua variabile.
Evaluat, i marimea efectului.

11

Pentru a calcula coeficientul de corelat, ie pornim de la formula:


P
(X mx ) (Y my )
r=
N sx sy
Analizand formula putem nt, elege faptul ca avem nevoie de mediile celor doua
variabile s, i de abaterile standard ale acestora.
In prima etapa vom calcula media lui X, respectiv media lui Y. Vom obt, ine
mx = 51, 08 s, i my = 51, 50.
Calculam, apoi, diferent, a dintre fiecare valoare a lui X s, i mx . Diferent, a
obt, inuta o ridicam la patrat. Acelas, i lucru l vom face s, i cu valorile lui Y.
P

(X mx )2 = 456, 96.

(Y my )2 = 253.
rP
r
(X mx )2
456, 96
sx =
sx = 6, 44
sx =
N 1
11
rP
r
253
(Y my )2
sy =
sy =
sx = 4, 79
N 1
11
X
(X mx ) (Y my ) = 256, 50

(1)

(2)

Ca urmare, r devine:
r=

256, 50
256, 50
r=
r = 0, 69.
12 6, 44 4, 79
370, 17

Valoarea calculata este put, in mai mica decat cea obt, inuta n SPSS ca urmare a
aproximarilor utilizate.

Respectarea normelor (Y )

Pentru a stabili semnificat, ia statistica a coeficientului de corelat, ie calculat l


vom compara cu valoarea critica. Valoarea tabelara se cites, te n anexa la intersect, ia
gradelor de libertate (df = N 2) s, i pragul alfa ales ( = 0, 05). Astfel, vom citi
rcritic la intersect, ia df = 12 s, i = 0, 05. Vom obt, ine rcritic = 0, 53. Deoarece
rcalculat > rcritic vom respinge ipoteza de nul s, i vom afirma ca ntre cele doua
variabile exista o corelat, ie negativa semnificativa statistic.
60

55

50

45
40

45
50
55
Flexibilitate (X)

12

60

Coeficientul de corelat, ie obt, inut (r = 0,69) este mare, iar coeficientul de determinare (r2 = 0.47) ne indica faptul ca 47din variabilitatea respectarii normelor
este explicata de flexibilitate.
V
a doresc spor la nv
at, at s, i s
a obt, inet, i note c
at mai mari la part, ialul
de s
apt
am
ana viitoare.

13