Documente Academic
Documente Profesional
Documente Cultură
SP 10 Coeficientul de Corelatie Liniara Pearson (R)
SP 10 Coeficientul de Corelatie Liniara Pearson (R)
Introducere
Într-o relaţie de asociere ambele variabile sunt dependente una de alta, iar
valorile lor pot fi exprimate, fie cu aceeaşi unitate de măsură, fie cu unităţi de măsură
diferite. Iată câteva exemple de acest gen:
• există o legătură între numărul atitudinilor pozitive pe care le manifestă
oamenii şi numărul atitudinilor pozitive pe care le primesc din partea celor
din jur?
• există o legătură între timpul de reacţie şi nivelul extraversiunii, ca
trăsătură de personalitate?
• există o legătură între greutate şi înălţime?
• există o relaţie între frecvenţa pulsului şoferilor şi viteza cu care conduc
maşina?
• există o relaţie între numărul orelor de studiu la statistică şi punctajul
obţinut la evaluări?
În toate aceste situaţii avem câte două variabile, ambele fiind dependente una în
raport cu alta, în sensul că este vizată existenţa unei concordanţe în variaţia reciprocă a
valorilor celor două variabile, iar testul statistic utilizat se bazează pe calcularea unui
„coeficient de corelaţie”.
Înainte de a fi un concept statistic termenul de corelaţie este un cuvânt uzual în
limbajul cotidian. În esenţă, el exprimă o legătură între anumite aspecte ale realităţii, aşa
cum este ea reflectată în planul observaţiei directe. De exemplu, o parcare plină cu
maşini ne sugerează că magazinul alăturat este plin cu cumpărători, între numărul de
maşini din parcare şi numărul de cumpărători existând o anumită „corelare”. La nivel
statistic, corelaţia exprimă o legătură cantitativă sistematică între valorile a două
variabile perechi, măsurate pe subiecţi aparţinând aceluiaşi eşantion de cercetare.
Coeficientul de corelaţie este doar una dintre procedurile statistice prin care se pune în
evidenţă „corelarea” dintre variabile. În termeni generali, chiar şi testele t, prezentate
anterior, pun în evidenţă (co)relaţia (legătura) dintre o variabilă dependentă şi valorile
unei variabile independente.
Corelaţia liniară
În continuare, dacă înlocuim în formula de mai sus expresia de calcul a lui z şi facem
După toate simplificările posibile, ajungem în final la formula deja cunoscută a
dispersiei. În consecinţă, din faptul că dispersia unei distribuţii z este întotdeauna egală
cu +1, rezultă că valoarea maximă pe care o poate atinge coeficientul de corelaţie,
în cazul unei corelaţii pozitive perfecte, este r=+1.
În cazul corelaţiei negative, tendinţa este aceea ca valorilor mari ale unei variabile
să le corespundă valori mici ale celeilalte variabile. Ca urmare, atât linia corelaţiei negative
perfecte (r=-1), cât şi diagonala mare a elipsei norului de puncte al unei corelaţii negative
imperfecte, se orientează din stânga sus spre dreapta jos a sistemului de coordonate.
În fine, atunci când corelaţia dintre cele două variabile este inexistentă, norul
punctelor de intersecţie are o formă circulară, care nu conturează nici o tendinţă (r=0).
Calcularea coeficientului de corelaţie liniară Pearson
x y
unde:
• X şi Y reprezintă valorile individuale ale distribuţiilor X şi Y
• mx şi my reprezintă mediile distribuţiilor X şi Y
• sx şi sy reprezintă abaterile standard ale distribuţiilor X şi Y
• N este volumul eşantionului
Formula 3.30 este doar una dintre variantele utilizate. Ea poate fi utilizată
pentru calcule, la fel de bine ca şi formula 3.28, obţinându-se rezultate identice.
În general, pentru păstrarea acurateţei rezultatului se recomandă păstrarea
primelor patru zecimale ale fiecărei operaţii de calcul dar, pentru exemplele
didactice, unde rezultatul nu are o finalitate reală, se poate lucra şi cu primele
două zecimale. Oricum, în final, valoarea coeficientului r se raportează în mod
obişnuit cu doar două zecimale.
EXEMPLU DE CALCUL
Vom lua în considerare cazul aplicării celor două teste de raţionament de tip
diferit. În acest caz, ipoteza cercetării se exprimă în maniera: „există o legătură
(corelaţie) între cele două tipuri de raţionament, cei care obţin rezultate bune la unul
din teste, vor tinde sa obţină rezultate bune şi la celalalt”. Desigur, ipoteza poate fi
formulată şi corespunzător unei corelaţii negative, dacă avem motive să
presupunem acest lucru.
X de calcul
(x-mx) (x-mx)2 Yde raţionament
(y-my) (y-my)2 de la)*medie
(x-m x (y-my)
25 -4.63 21.44 28 -1.88 3.53 8.70
32 2.37 5.62 27 -2.88 8.29 -6.83
40 10.37 107.54 41 11.12 123.65 115.31
29 -0.63 0.40 34 4.12 16.97 -2.60
31 1.37 1.88 25 -4.88 23.81 -6.69
16 -13.63 185.78 19 -10.88 118.37 148.29
28 -1.63 2.66 26 -3.88 15.05 6.32
36 6.37 40.58 39 9.12 83.17 58.09
= 237 =365.88 = 239 =392.8 =320,63
mX= 29.63 mY = 29.88
sX = 7.23 sY = 7.49
Graficul scatterplot pentru datele din exemplu este corespunzător unei asocieri
pozitive între cele două variabile, norul de puncte urmând o elipsă cu diagonala mare
pe direcţia stânga jos-dreapta sus:
Decizia statistică
Valoarea calculată a lui r (+0.74) este mai mare decât valoarea critică
(+0.62), fapt care îndreptăţeşte respingerea ipotezei de nul. Ca urmare, acceptăm ca
semnificativ coeficientul de corelaţie obţinut. Datele cercetării susţin ipoteza că între
scorurile celor două teste există o legătură pozitivă semnificativă 2.
Corelaţie şi cauzalitate
Din fericire, astfel de situaţii sunt relativ rare în realitate, modelul corelaţiei
liniare fiind adecvat pentru un mare număr de relaţii dintre variabilele naturale,
incluzându-le şi pe cele psihologice. Atunci când există suspiciuni consistente cu
privire la natura liniară a legăturii dintre variabile, se pot efectua anumite transformări
care să le aducă în cadrul unei variaţii liniare (de exemplu, extragerea radicalului sau
logaritmarea variabilelor). Atunci când se raportează un coeficient de corelaţie fără a
se preciza caracterul liniar sau curbiliniu, vom considera că acesta se referă la
corelaţia liniară.
Exemplul dat ne sugerează faptul că graficul scatterplot oferă informaţii
suplimentare semnificative şi, din acest motiv, este recomandabilă realizarea
acestuia de fiecare dată când utilizăm testul de corelaţie Pearson. Un argument
spectaculos în sprijinul acestui aspect ne este oferit de Anscombe (1973), care a
realizat cele patru seturi de date din tabelul de mai jos:
Coeficienţii de corelaţie dintre cele patru perechi de variabile (X 1-Y1, X2-Y2, X3-Y3;
X4-Y4) sunt identici: r=0.81. Şi totuşi, dacă sunt analizate reprezentările scatterplot
pentru fiecare dintre cele patru perechi de variabile, imaginile ne oferă diferenţe
importante cu privire la natura reală a relaţiei dintre ele:
În cazul perechii X3-Y3, o valoare extremă a redus coeficientul de corelaţie, iar
în cazul perechii de variabile X 4-Y4, unde corelaţia ar fi fost nulă, ea este generată de
o singură valoare extremă. Desigur, astfel de efecte apar cu precădere în cazul
eşantioanelor de volum mic, dar grija pentru valorile extreme trebuie menţinută în
toate cazurile.
Coeficientul de Descriptor
0.0-0.1 Foarte mic, neglijabil, nesubstanţial
0.1-0.3 Mic, minor
0.3-0.5 Moderat, mediu
0.5-0.7 Mare, ridicat, major
0.7-0.9 Foarte mare, foarte ridicat
0.9-1 Aproape perfect, descrie relaţia dintre două variabile practic
indistincte
O altă variantă de interpretare a mărimii efectului recunoscută este cea
propusă de Davis (citat de Kotrlik şi Williams, 2003):
Mărimea eşantionului are efect doar asupra puterii testului (eşantioanele mari
conduc mai uşor la atingerea pragului de semnificaţie), dar nu au un efect important
asupra mărimii lui r.
Analiza de corelaţie este una dintre cele mai uzuale proceduri statistice în
cercetarea psihologică. Printre utilizările cele mai comune menţionăm analiza
consistenţei şi validităţii testelor psihologice. Consistenţa se referă la gradul în care un
instrument de evaluare se concentrează asupra unei anumite realităţi psihice.
Validitatea, se referă la faptul dacă ceea ce presupune că măsoară un instrument
psihologic este măsurat cu adevărat (de exemplu, o scală de anxietate măsoară cu
adevărat anxietatea?).
Din cele prezentate, rezultă că putem utiliza coeficientul atunci când avem
serii perechi de distribuţii. Pentru o mai bună înţelegere, se cuvine să facem câteva
aprecieri comparative cu testul t pentru eşantioane dependente. Testul t pentru
eşantioane dependente, se aplică atunci când măsurăm o anumită variabilă în două
situaţii diferite (de ex. înainte/după), ceea ce presupune aceeaşi unitate de măsură.
Coeficientul de corelaţie poate fi aplicat atât pentru variabile măsurate cu aceeaşi
unitate de măsură cât şi pentru variabile exprimate în unităţi de măsură diferite.
Aceasta deoarece formula de calcul ia în considerare expresia standardizată a
valorilor (corurile z). Întrebarea este, când utilizăm unul sau altul dintre cele două
teste? Răspunsul ţine de scopul pe care ni-l propunem. Dacă dorim să punem în
evidenţă diferenţa dintre valorile medii ale variabilelor, vom aplica testul t pentru
eşantioane dependente. Dacă ne interesează intensitatea variaţiei concomitente a
variabilelor, vom utiliza coeficientul de corelaţie.
Coeficientul de corelaţie Pearson nu este singurul test al asocierii variabilelor.
Există o varietate de teste de corelaţie, utilizate pentru situaţiile în care variabilele
cercetate sunt măsurate, fiecare, pe oricare dintre scalele de măurare.
EXERCIŢII
nr. conduite 2 7 5 12 1 10 8 6 5 2 3 4
nr. aprecieri 8 3 4 2 5 2 1 5 4 7 6 1
R Z r Z r Z R Z
0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454
0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714
0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986
0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270
0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568
0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881
0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212
0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562
0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933
0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331
0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758
0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219
0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722
0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275
0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890
0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584
0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380
0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318
0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459
0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923
0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976
0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467
0.2200 0.2237 0.4800 0.5230 0.7400 0.9505
0.2300 0.2342 0.4900 0.5361 0.7500 0.9730
0.2400 0.2448 0.5000 0.5493 0.7600 0.9962
0.2500 0.2554 0.5100 0.5627 0.7700 1.0203
(Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)