Sunteți pe pagina 1din 41

Coeficientul de corelaie Pearson (r)

M. Popa

Conceptul de corelaie - Galton i Pearson

Cauzalitatea este doar limita extrem a relaiei dintre fenomene are un caracter prea complex pentru a fi ntotdeauna demonstrat Asocierea poate fi evideniat prin msurarea variaiei lor concomitente, indiferent de natura exact a cauzei care produce aceast covariaie obinem msurtori concomitente ale unor variabile pentru a fi n msur s aflm gradul lor de variaie reciproc deschide posibilitatea de a se aduce n domeniul tiinelor sociale i umane rigoarea specific tiinelor fizice i naturale.

probleme de cercetare

exist o legtur ntre numrul atitudini pozitive pe care le manifest oamenii i numrul atitudinilor pozitive pe care le primesc din partea celor din jur? exist o legtur ntre timpul de reacie i nivelul extraversiunii, ca trstur de personalitate? exist o legtur ntre greutate i nlime? exist o relaie ntre frecvena pulsului oferilor i viteza mainii pe care o conduc? exist o relaie ntre numrul orelor de studiu la statistic i punctajul obinut la evaluri?

Coeficientul de covarian

precursorul coeficientului de corelaie ridic probleme de utilizare n cazul variabilelor exprimate n uniti de msur diferite

cov xy N

x* y =

Coeficientul de corelaie Pearson

z r=

* zy N
2

zx i zy sunt transformrile z ale variabilelor corelate formula poate fi utilizat indiferent de unitatea de msur r poate lua valori ntre

z r= N

-1, corelaie perfect negativ +1, corelaie perfect pozitiv 0, absena corelaiei
x

Formula de calcul

( X m ) * (Y m ) r=
y

N * sx * s y

Plaja de valori Pearson r

un numr ntre -1 i +1 care indic intensitatea relaiei dintre variabile

Semnul (- sau +) indic direcia relaiei Numrul indic intensitatea relaiei

-1 ------------ 0 ------------ +1
corelaie nul corelaie perfect pozitiv

corelaie

perfect negativ

Scatterplot - corelaie pozitiv

VariabilaY

Variabila X

Scatterplot - corelaie negativ

Variabila Y

Variabila X

Scatterplot - corelaie inexistent (0)

Variabila Y

Variabila X

Scatterplot 1

care indic o corelaie mai puternic?

Scatterplot 2

Un exemplu
tr
184 213 234 197 189 221 237 192 10 6 2 7 13 10 4 9

erori

Cercettorii au observat o relaie ntre timpul de reacie i numrul erorilor la diverse tipuri de sarcini.

compensarea vitez-corectitudine.

Datele reprezint timpul de reacie (milisecunde) i numrul total de erori nregistrate pentru un numr de 8 subieci.

Criteriile deciziei statistice

coeficientul r se raporteaz la o distribuie teoretic, derivat din distribuia t df=N-2 tabel special cu praguri de semnificaie ale coeficientului de corelaie r

pentru test bilateral, =0.05 i df=6 (8-2)

r critic=0.707

tr (X) 10 6 2 7 13 10 4 9 61 7,63 3,583 -3,63 1,37 2,37 5,37 -,63 ,40 28,84 5,62 13,18 1,88 89,88 -5,63 31,70 -1,63 2,66 2,37 5,62 -57,78 -7,53 -144,24 7,17 -104,07 29,91 -103,89 -22,44 -402,87

X-m

(X-m)2 erori (Y)

Y-m

(Y-m)2

(X-m)* (Y-m)

1 21,34

184

-24,38 594,38

213

4,62

234

25,62 656,38

197

-11,38 129,50

189

-19,38 375,58

221

12,62 159,26

237

28,62 819,10

8 3023,88

192

-16,38 268,30

1667 208,38

mX sX

20,784

( X m ) * (Y m ) r= =
y

N * sx * s y

- 402,87 - 402,87 = = 0.68 8 * 20,78 * 3,583 595,14

r calculat = -0.68 < r critic=0.70 Decizia statistic? Decizia cercetrii?

Interpretarea coeficientului de corelaie

(a) Corelaie i cauzalitate (b) Interpretarea valorii testului r (c) Coeficientul de determinare (d) Natura liniar a corelaiei Pearson

(a) Corelaie i cauzalitate

Pearson (r) NU are semnificaie cauzal relev legtura, asocierea, variaia concomitent a valorilor poate fi interpretat cauzal numai dac variablele sunt msurate n condiii de experiment

Interpretarea valorii testului r


Descriptor Foarte mic, neglijabil, nesubstanial Mic, minor

Coeficientul de corelaie 0.1 0.10.3

0.30.5 0.50.7 0.70.9

0.9

Moderat, mediu Mare, ridicat, major Foarte mare, foarte ridicat Aproape perfect, descrie relaia dintre dou variabile practic indistincte

(c) Coeficientul de determinare (r2)


coeficientul de determinare

r2

r=0,68

r2=0,46

1.00 .90 .80 .70 .60 .50 .40 .30 .20

1.00 .81 .64 .49 .36 .25 .16 .09 .04

46% din variaia valorilor uneia dintre variabile este determint de variaia valorilor celeilalte variabile

.10 .0

.01 .0

(d) Natura liniar a corelaiei Pearson

Corelaia dintre valorile lui z i probabilitatea aferent de sub curba normal


Distributia normala z
,6

(r=0)

,5

,4

,3

,2

,1

p
-4

0,0 -3 -2 -1 0 1 2 3 4

Corelaia dintre performan i nivelul stresului

F. J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 1973, 27, 17-21


set #2 X2 10,00 8,00 13,00 9,00 11,00 14,00 6,00 4,00 12,00 7,00 5,00 4,74 7,26 9,13 12,00 7,00 5,00 3,10 4,00 6,13 6,00 8,10 14,00 8,84 6,08 5,39 8,15 6,42 5,73 9,26 11,00 7,81 8,77 9,00 7,11 8,74 13,00 12,74 8,00 8,00 8,00 8,00 8,00 19,00 8,00 8,00 8,00 8,14 8,00 6,77 8,00 9,14 10,00 7,46 8,00 Y2 X3 Y3 X4 Y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89 set #3 set #4

set #1

X1

Y1

10,00

8,04

8,00

6,95

13,00

7,58

9,00

8,81

11,00

8,33

14,00

9,96

6,00

7,24

4,00

4,26

12,00

10,84

7,00

4,82

5,00

5,68

corelaiile dintre toate cele patru seturi de date, dou cte dou, au aceeai valoare: r=0.816... i totui...

Reprezentri scatterplot pentru cele patru seturi de date Anscombe (r=0.81)


14,00 12,00

14,00

12,00

10,00

10,00

x1

8,00

x2
8,00 6,00 4,00 7,00 8,00 9,00 10,00 11,00

6,00

4,00

4,00

5,00

6,00

3,00

4,00

5,00

6,00

7,00

8,00

9,00

10,00

y1

y2

14,00

20,00

18,00

12,00

16,00

10,00

x3

8,00

x4
8,00 10,00 12,00

14,00

12,00

6,00

10,00

4,00

8,00

6,00

6,00

8,00

10,00

12,00

y3

y4

Limite de ncredere pentru coeficientul de corelaie

Semnificaia limitelor de ncredere

r (calculat pentru eantion) estimare pentru (ro) putem evalua probabilitatea ca intensitatea asocierii n populaie s se afle ntre anumite limite aceste limite vor fi cu att mai largi, cu att acurateea estimrii r este mai sczut distana dintre limitele de ncredere (superioar i inferioar) este dat de eroarea standard a valorii calculate a lui r (simbolizat cu re)

variabilitatea estimat pentru o distribuie de coeficieni r, pe care o vom numi rs (de la sample distribution, distribuia de eantionare)

principiul de calcul este acelai ca pentru media populaiei

Calcularea limitelor de ncredere pentru r

Particulariti:

Dac =0, valorile rs (calculate pe eantioanele extrase din aceeai populaie) ar forma o distribuie simetric, n jurul lui zero Dac =+0.7 distribuia lui rs are o mprtiere asimetric n jurul lui acestei valori este mai mult loc pentru valori sub +0.7, dect peste aceast valoare (deoarece tim c r ia valori ntre -1 i +1) Cu ct estimarea pentru este mai aproape de limitele teoretice ale lui r, cu att distribuia rs este mai asimetric spre partea opus. Aceast particularitate creeaz o piedic n transformarea coeficienilor rs n scoruri Z, necesare construirii limitelor intervalului de ncredere pentru . Fisher a elaborat un algoritm pe baza cruia valorile rs sunt transformate n valori Z, a cror arie de distribuie sub curba normal este cunoscut:

Z = 0.5*ln[(1 + r)/(1 - r)]

calculul limitelor de ncredere pentru r


= r zcritic * re
Limita superioar a intervalului (Z).............. (r)

r=-0.68 Z (r-0.68) = -0.8291 Z critic=1.96

= 0.8291 + 1.96 * 0.447 = +0.04

r=+0.04

re =

1 1 = = 0,447 N 3 83

Limita inferioar a intervalului (Z)............... (r)

= 0.8291 1.96 * 0.447 = 1.70


Z (r)

r=-0.94

valoarea limita inferioar calculat limita superioar +0.04 -0.68

-0.94

-1

-0.50 0.00 coeficientul de corelaie

am obinut o corelaie mare, dar valoarea adevrat, la nivelul populaiei, se poate afl oriunde, pe intervalul de la o valoare negativ, la una aproape perfect.

Utilizarea limitelor de ncredere

r statistic semnificativ"

P < 0.05 Zero cade n afara intervalului de ncredere

Exemple: patru corelaii pentru eantioane de 20 subieci r 0.70 0.44 0.25 0.00
1

interval 0.37 -- 0.87 0.00 -- 0.74 -0.22 -- 0.62 -0.44 -- 0.44

p 0.007 0.05 0.29 1.00

-0.50

0.00 0.50 coeficient de corelaie

Un exemplu
Eantion N=30; r=0.30
Limite de ncredere inferioar -0,07 -0,01 95 95 95 0,30 0,30 0,30 95 95 95 0,02 0,05 0,07 0,09 0,10 0,11 Superioar 0,60 0,56 0,53 0,51 0,50 0,49 0,48 0,47 N 30 40 50 60 70 80 90 100 0,30 0,30 0,30 0,30 95 0,30 95 Pearson r Niv. de ncredere (%)

Limitele de ncredere pentru acesta sunt ntre -0.07 i +0.60 nesemnificativ, (ntre cele dou limite este i valoarea zero)

Cu ct N va fi mai mare, cu att valoarea lui re va fi mai mic iar limitele intervalului de ncredere pentru r, mai aproape de r.

Dac am crete volumul eantionului la 50 de subieci, limita inferioar ar trece dincolo de valoarea zero.

Celelalte linii din tabel prezint efectul de mrime al eantionului n cazul creterii lui N pn la 100 de subieci.

pentru exemplul nostru

dac N=10 re=1/sqrt(7)=0.38 lim. sup.=-0.8291+1.96*0.38=-0.08 (r= -0.08) lim. inf. =-0.8291-1.96*0.38=-1.57 (r= -0.93) cu numai 2 subieci n plus, rezultatul devenea semnificativ

Dezavantajele limitelor de ncredere

Nefamiliare Nu sunt oferite ntotdeauna de programele statistice (cazul lui r) Complic tabelele de rezultate

Avantajele limitelor de ncredere

Prezint precizia estimrii Semnificaie suficient de clar.

elimin confuzia dintre semnificaie i magnitudinea efectului

Sunt cerute de cele mai multe reviste de specialitate

Condiii pentru calcularea coeficientului de corelaie Pearson

eantionul aleatoriu variabile cu distribuie care s nu se abat grav de la distribuia normal condiie este cu att mai important cu ct eantionul este mai mic atenie aparte trebuie acordat valorilor excesive, prezena acestora putnd avea efecte neateptate asupra valorii coeficientului de corelaie

vezi seturile Anscombe

Efectul valorilor extreme (bivariate) asupra lui r Anscombe (r=0.81)

14,00

20,00

18,00

12,00

16,00

10,00

x3

8,00

x4
14,00 12,00 10,00 8,00
10,00 12,00

6,00

4,00

6,00

8,00

6,00

8,00

10,00

12,00

y3

y4

Utilizarea coeficientul de corelaie

Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic

consistena testelor (intern, test-retest) validitii testelor psihologice

testul t (dep) sau r?

Publicarea rezultatului corelaiei

A fost evaluat relaia dintre numrul conduitelor agresive emise i cel al aprecierilor primite, pe un grup de 8 elevi. Media conduitelor agresive a fost de m=20.68 (s=20.78) iar a aprecierilor primite m=7.63 (s=3.58). Am rezultat o corelaie negativ, nesemnificativ, ntre cele dou tipuri de conduite, r(6)=-0.68, p>0.05, bilateral.

SFRIT

Tabela Fisher de transformare a valorilor r n scoruri Z (Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)

r 0.2600 0.2661 0.2769 0.2877 0.2986 0.3095 0.3205 0.3316 0.3428 0.3541 0.3654 0.3769 0.3884 0.4001 0.4118 0.4236 0.4356 0.4477 0.4599 0.4722 0.4847 0.4973 0.5101 0.5230 0.5361 0.5493 0.5627 0.6800 0.6900 0.7000 0.7100 0.7200 0.7300 0.7400 0.7500 0.7600 0.7700 0.6700 0.6600 0.6500 0.6400 0.6300 0.7414 0.7582 0.7753 0.7928 0.8107 0.8291 0.8480 0.8673 0.8872 0.9076 0.9287 0.9505 0.9730 0.9962 1.0203 0.6200 0.7250 0.6100 0.7089 0.6000 0.6931 0.5900 0.6777 0.5800 0.6625 0.5700 0.6475 0.8300 0.8400 0.8500 0.8600 0.8700 0.8800 0.8900 0.9000 0.9100 0.9200 0.9300 0.9400 0.9500 0.9600 0.9700 0.9800 0.9900 0.5600 0.6328 0.8200 0.5500 0.6184 0.8100 0.5400 0.6042 0.8000 0.5300 0.5901 0.7900 0.5763 0.2700 0.2800 0.2900 0.3000 0.3100 0.3200 0.3300 0.3400 0.3500 0.3600 0.3700 0.3800 0.3900 0.4000 0.4100 0.4200 0.4300 0.4400 0.4500 0.4600 0.4700 0.4800 0.4900 0.5000 0.5100 0.5200 0.7800 1.0454 1.0714 1.0986 1.1270 1.1568 1.1881 1.2212 1.2562 1.2933 1.3331 1.3758 1.4219 1.4722 1.5275 1.5890 1.6584 1.7380 1.8318 1.9459 2.0923 2.2976 2.6467

0.0000

0.0000

0.0100

0.0100

0.0200

0.0200

0.0300

0.0300

0.0400

0.0400

0.0500

0.0500

0.0600

0.0601

0.0700

0.0701

0.0800

0.0802

0.0900

0.0902

0.1000

0.1003

0.1100

0.1104

0.1200

0.1206

0.1300

0.1307

0.1400

0.1409

0.1500

0.1511

0.1600

0.1614

0.1700

0.1717

0.1800

0.1820

0.1900

0.1923

0.2000

0.2027

0.2100

0.2132

0.2200

0.2237

0.2300

0.2342

0.2400

0.2448

0.2500

0.2554

S-ar putea să vă placă și