Sunteți pe pagina 1din 19

TITLU CAPITOL 153

a lucra cât mai corect; a doua, în condiþii de timp limitat, cu specificarea de a


lucra cât mai repede, dar ºi corect în acelaºi timp. Rezultatele celor douã reprize
sunt cele din tabelul urmãtor:

Fãrã crizã de timp Cu crizã de timp


67 65
79 73
83 70
80 85
99 93
95 88
80 72
100 69

Sã se rezolve urmãtoarele sarcini:


a) formularea ipotezei cercetãrii ºi a ipotezei de nul;
b) stabilirea valorii t critic pentru á = 0,05 bilateral;
c) calcularea testului t pentru eºantioane dependente;
d) decizia statisticã;
e) decizia cercetãrii;
f) indicele de mãrime a efectului;
g) limitele de încredere pentru diferenþa dintre medii;
h) formularea concluziei cercetãrii dupã modelul recomandat.

5.4. Coeficientul de corelaþie liniarã Pearson (r)


5.4.1. Fundamentare teoreticã

Am utilizat testul t pentru eºantioane dependente pentru a evalua semnificaþia diferenþei


dintre douã medii, rezultate în urma mãsurãrii unei variabile cantitative, pe un eºantion
de subiecþi (sau „de subiecþi-pereche”) aflat în douã situaþii (condiþii) diferite. Cele douã
condiþii reprezintã valorile variabilei independente, iar cercetãtorul este interesat sã afle
dacã existã o diferenþã semnificativã între mediile rezultate în fiecare din cele douã
condiþii. În concluzie, problema cercetãrii într-o situaþie de acest gen este axatã pe ideea
de „diferenþã între perechile de valori”.
În cercetare existã situaþii în care nu suntem interesaþi de „diferenþa dintre douã
medii” rezultate pe acelaºi grup de subiecþi, ci de „gradul de asociere dintre douã
variabile mãsurate pe acelaºi grup de subiecþi, fiecare variabilã reprezentând altceva. În
154 TITLU PARTE

acest caz, cercetãtorul doreºte sã afle dacã existã o legãturã între variaþia valorilor unei
variabile în raport cu cealaltã variabilã.
Pentru a înþelege mai bine diferenþa dintre cele douã abordãri statistice, sã privim
comparativ tabelele 5.7 ºi 5.8.

Tabelul 5.7. În cazul diferenþei dintre medii, valorile celor douã distribuþii (v1 ºi v2) pentru un
eºantion de cinci subiecþi sunt „condensate” prin mediile lor (7 ºi 5), a cãror diferenþã (7 – 5
= 2) este testatã din punctul de vedere al semnificaþiei statistice.

v1 v2
sub 1 7 4
sub 2 9 5
sub 3 8 6
sub 4 6 7
sub 5 5 3
M edia 7 5

Tabelul 5.8. În cazul corelaþiei dintre valorile celor douã distribuþii se urmãreºte punerea în
evidenþã a modului în care se asociazã valorile-pereche, adicã în ce mãsurã existã o legãturã
între fiecare valoare ºi perechea ei.

v1 v2
sub 1 7 4
sub 2 9 5
sub 3 8 6
sub 4 6 7
sub 5 5 3

Într-o relaþie de asociere ambele variabile sunt dependente una de alta, iar valorile lor
pot fi exprimate fie cu aceeaºi unitate de mãsurã, fie cu unitãþi de mãsurã diferite. Iatã
câteva exemple de acest gen:
• Existã o legãturã între numãrul atitudinilor pozitive pe care le manifestã oamenii ºi
numãrul atitudinilor pozitive ale celor din jurul lor?
• Existã o legãturã între timpul de reacþie ºi nivelul extraversiunii, ca trãsãturã de
personalitate?
• Existã o legãturã între greutate ºi înãlþime?
• Existã o relaþie între frecvenþa pulsului ºoferilor ºi viteza cu care conduc maºina?
• Existã o relaþie între numãrul orelor de studiu la statisticã ºi punctajul obþinut la
evaluãri?
TITLU CAPITOL 155

În toate aceste situaþii avem câte douã variabile, ambele fiind dependente una în
raport cu cealaltã, în sensul cã este vizatã existenþa unei concordanþe în variaþia reciprocã
a valorilor celor douã variabile, iar testul statistic utilizat se bazeazã pe calcularea unui
„coeficient de corelaþie”.
Înainte de a fi un concept statistic, termenul corelaþie este un cuvânt uzual în limbajul
cotidian. În esenþã, el exprimã o legãturã între anumite aspecte ale realitãþii, aºa cum
este ea reflectatã în planul observaþiei directe. De exemplu, o parcare plinã de maºini
sugereazã cã magazinul alãturat este plin de cumpãrãtori, între numãrul de maºini din
parcare ºi numãrul de cumpãrãtori existând o anumit㠄corelaþie”. La nivel statistic,
corelaþia exprimã o legãturã cantitativã sistematicã între valorile a douã variabile-pereche,
mãsurate pe subiecþi aparþinând aceluiaºi eºantion de cercetare. Coeficientul de corelaþie
este doar una dintre procedurile statistice prin care se pune în evidenþ㠄corelarea” dintre
variabile. În termeni generali, chiar ºi testele t, prezentate anterior, pun în evidenþã
(co)relaþia (legãtura) dintre o variabilã dependentã ºi valorile unei variabile independente.
Sã presupunem cã un grup de studenþi a efectuat un test de inteligenþã bazat pe
raþionament abstract/figurativ ºi un altul bazat pe raþionament verbal/logic. Dacã studenþii
care obþin valori mari la primul test tind sã obþinã valori mari ºi la al doilea, spunem
despre corelaþie cã e pozitivã. Dacã, dimpotrivã, studenþii care obþin valori mari la unul
dintre teste tind sã obþinã valori mici la al doilea, atunci ne aflãm în faþa unei corelaþii
negative. Este evident cã existã ºi posibilitatea ca valorile celor douã variabile sã evolueze
absolut independent unele de celelalte, fapt ce indicã absenþa oricãrei corelaþii.
Precursorul teoretic al coeficientului de corelaþie este coeficientul de covarianþã. El
se defineºte ca sumã a produselor dintre valorile celor douã variabile, raportatã la
numãrul perechilor de valori din cele douã distribuþii:

cov xy =
å x * y (formula 5.24)
N
unde x ºi y sunt valorile-pereche ale celor douã variabile, iar N este volumul eºantionului.
Problema pe care o ridicã coeficientul de covarianþã este legatã de unitãþile de
mãsurã. Formula poate fi aplicatã numai dacã valorile-pereche sunt exprimate în aceeaºi
unitate de mãsurã, pentru ca produsul lor sã aibã sens. Evident, nu poate fi utilizatã
pentru a calcula coeficientul de covariaþie între înãlþime ºi greutate, de exemplu, deoarece
este dificil sã înþelegem rezultatul unui produs dintre unitãþi de mãsurã diferite (greutate
ºi lungime). Soluþia problemei constã în transformarea valorilor celor douã variabile în
scoruri standard, ce produce un rezultat care nu mai are legãturã cu unitatea de mãsurã.
Intensitatea legãturii dintre valorile a douã variabile se exprimã prin coeficientul de
corelaþie liniarã, notat cu simbolul r. Introdus de Karl Pearson1, acest coeficient mai este
cunoscut ºi sub numele de coeficientul de corelaþie Pearson sau al „moment-produsului”,
dupã expresia uneia dintre formulele de calcul.
Formula de definiþie a coeficientului de corelaþie este:

1. Karl Pearson (1857-1936), matematician, filozof al ºtiinþei, biometrician ºi statistician englez.


156 TITLU PARTE

r=
åz x * zy
(formula 5.25)
N

unde zx, respectiv zy sunt scorurile z ale variabilelor x ºi y, iar N este volumul eºantionului.
Situaþia de maximã corelaþie posibilã între cele douã distribuþii se produce atunci
când valorile lor sunt identice. Dacã ar fi aºa, atunci valorile zx sunt egale cu valorile zy,
iar formula 5,25 ar putea scrisã ca:

r=
åz x
2
(formula 5.26)
N

În continuare, dacã înlocuim în formula de mai sus expresia de calcul a lui z ºi facem
toate simplificãrile posibile, ajungem în final la formula deja cunoscutã a dispersiei. În
consecinþã, din faptul cã dispersia unei distribuþii z este întotdeauna egalã cu +1 rezultã
cã valoarea maximã pe care o poate atinge coeficientul de corelaþie, în cazul unei
corelaþii pozitive perfecte, este r = +1. În mod corespunzãtor, în cazul unei corelaþii
negative perfecte, conform aceluiaºi raþionament, rezultã cã valoarea minimã posibilã a
coeficientului de corelaþie este r = – 1.

5.4.2. Reprezentarea graficã a corelaþiei

Plasarea valorilor corelate pe un grafic produce o imagine intuitivã a relaþiei dintre


valori. Acest tip de grafic se numeºte scatterplot (denumiri echivalente: scattergramã ºi
scattergraf). Figura 5.12 ilustreazã grafic trei corelaþii pozitive.

Relaþie direct㠖 Corelaþie pozitivã


r = 1.00 r = .80 r = .20

+ + + l
| l | l | l l
| l | l l | l
| l | l | l l l
| l | l l | l l
|________________ |________________

Figura 5.12. Graficul scatter plot pentru trei coeficienþi de corelaþie pozitivi

În cazul unei corelaþii pozitive, valorilor mari ale unei variabile tind sã le corespundã
valori mari ale celeilalte variabile. La limitã, pentru o corelaþie pozitivã perfectã (r =
+1) punctele de intersecþie ale perechilor de valori se plaseazã pe o linie dreaptã,
dinspre stânga-jos spre dreapta-sus, la un unghi de 45 de grade între cele douã axe. Cu
cât corelaþia este mai micã, cu atât norul de puncte este mai larg, dar forma elipsei indicã
relaþia pozitivã dintre cele douã variabile.
În figura 5,13 avem reprezentãri scatterplot caracteristice pentru trei corelaþii liniare
negative.
TITLU CAPITOL 157

În cazul corelaþiei negative, tendinþa este aceea ca valorilor mari ale unei variabile sã
le corespundã valori mici ale celeilalte variabile. Ca urmare, atât linia corelaþiei negative
perfecte (r = – 1), cât ºi diagonala mare a elipsei norului de puncte al unei corelaþii
negative imperfecte se orienteazã din stânga-sus spre dreapta-jos în sistemul de
coordonate.

Relaþie indirectã- Corelaþie negativã


r = -1.00 r = -.80 r = -.20

+ + +
| l | l | l l
| l | l | l l l
| l | l l l | l l l
| l | l | l l
|________________ |________________ |________________
- + - + - +

Figura 5.13. Graficul scatter plot pentru trei coeficienþi de corelaþie negativi

În fine, atunci când corelaþia dintre cele douã variabile este inexistentã, norul
punctelor de intersecþie are o formã circularã, care nu contureazã nici o tendinþã (r = 0).

Nici o relaþie – Nu existã corelaþie r = 0.00

+ l
| l l
| l l l l
| l l
| l l l l
| l l l l
|________________
- +

Figura 5.14. Graficul unei corelaþiei liniare r = 0

5.4.3. Exemplu de calcul

De obicei, pentru a uºura calculul manual al coeficientului de corelaþie, mai ales atunci
când avem date numeroase, sunt utilizate formule derivate din formula de definiþie
(formula 5.25), prin înlocuirea expresiilor pentru scorul z.

r=
åz x * zy
=
å [( X - m ) / s ]* [(Y - m ) / s ]
x x y y
N N
158 TITLU PARTE

Se deduce astfel o formulã care, deºi pare mai complicatã, este mai uºor de pus în
practicã, deoarece se bazeazã pe valori obþinute prin calcule mai simple:

r=
åz x * zy
=
å [( X - m ) / s ]* [(Y - m ) / s ]
x x y y
(formula 5.27)
N N

unde:
• X ºi Y reprezintã valorile individuale ale distribuþiilor X ºi Y;
• mx ºi my reprezintã mediile distribuþiilor X ºi Y;
• sx ºi sy reprezintã abaterile standard ale distribuþiilor X ºi Y;
• N este volumul eºantionului.

Formula 5,27 este doar una dintre variantele utilizate. Ea poate fi utilizatã pentru
calcule la fel de bine ca ºi formula 5,25, obþinându-se rezultate identice. În general,
pentru pãstrarea acurateþei rezultatului se recomandã pãstrarea primelor patru zecimale
ale fiecãrei operaþii de calcul, dar, pentru exemplele didactice, unde rezultatul nu are o
finalitate practicã, se poate lucra ºi cu primele douã zecimale. Oricum, în final, valoarea
coeficientului r se raporteazã în mod obiºnuit doar cu douã zecimale.

Criteriile deciziei statistice


La fel ca în cazul celorlalte teste statistice, ºi coeficientul r se raporteazã la o distribuþie
teoreticã, care este una derivatã din distribuþia t. Indiferent de cât de mare este r calculat,
nu putem avea încredere în acesta atât timp cât nu ºtim în ce mãsurã este diferit de un r
care ar rezulta prin jocul întâmplãrii. Pentru aceasta se utilizeazã distribuþia t ºi o
formulã care derivã din testul t.
Pentru uºurinþa evaluãrii semnificaþiei, a fost creat un tabel special cu praguri de
semnificaþie ale coeficientului de corelaþie r care poate fi folosit fãrã a mai fi necesarã
utilizarea formulei (vezi anexa 4). Practic, se cautã în tabel care este nivelul lui r pentru
numãrul gradelor de libertate (df = N – 2), ºi un prag a ales în prealabil. Dacã valoarea
calculatã este cel puþin egalã sau mai mare decât valoarea tabelarã (criticã) a lui r, atunci
ipoteza de nul se respinge, coeficientul de corelaþie fiind considerat semnificativ.
Pentru exemplul nostru, în situaþia unui test unilateral, a = 0,05 ºi df = 6 (8 – 2),
citirea tabelului se face ca în figura de mai jos.

Tabelul 5.9. Extras din tabelul valorilor testului r (anexa 4)


TITLU CAPITOL 159

Nivel de semnificaþie – test unilateral


,05 ,025 ,01 ,005
df
Nivel de semnificaþie – test bilateral
,10 ,05 ,02 ,01
1 ,988 ,997 ,9995 ,9999
2 ,900 ,950 ,980 ,990
3 ,805 ,878 ,934 ,959
4 ,729 ,811 ,882 ,917
5 ,669 ,754 ,833 ,874
6 ,622 ,707 ,789 ,834

În condiþiile precizate pentru cercetarea propusã ca exemplu, valoarea tabelarã


(criticã) a lui r este 0,622. Dacã am fi preferat un test bilateral, pentru acelaºi nivel al
lui a, valoarea r critic ar fi fost 0,707.
Vom lua în considerare cazul aplicãrii celor douã teste de raþionament de tip diferit.
În acest caz, ipoteza cercetãrii se exprimã în maniera: „existã o legãturã (corelaþie) între
cele douã tipuri de raþionament, cei care obþin rezultate bune la unul din teste vor tinde
sã obþinã rezultate bune ºi la celãlalt”. Desigur, ipoteza poate fi formulatã ºi corespunzãtor
unei corelaþii negative, dacã avem motive sã presupunem acest lucru.

Tabelul 5.10. Exemplu de calcul pentru testul de corelaþie Pearson

Scorul la testul Scorul la testul Produsul abaterilor de


de calcul aritmetic de raþionament verbal la medie
(x –
X (x – mx)2 Y (y – my) (y – my)2 (x – mx)* (y – my)
mx)
25 – 4,63 21,44 28 – 1,88 3,53 8,70
32 2,37 5,62 27 – 2,88 8,29 – 6,83
40 10,37 107,54 41 11,12 123,65 115,31
29 – 0,63 0,40 34 4,12 16,97 – 2,60
31 1,37 1,88 25 – 4,88 23,81 – 6,69
16 – 13,63 185,78 19 – 10,88 118,37 148,29
28 – 1,63 2,66 26 – 3,88 15,05 6,32
36 6,37 40,58 39 9,12 83,17 58,09
S= S=
S = 237 S = 239 S = 320,63
365,88 392,88
mX =
mY = 29,88
29,63
sX = 7,23 sY = 7,49
160 TITLU PARTE

Pentru calcularea coeficientului de corelaþie am ales, de data aceasta, formula 5,27,


prin care, înlocuind valorile, obþinem valoarea coeficientului de corelaþie:

r=
å ( X - m )* (Y - m ) =
x y 320,63
=
320,63
= +0,74
N * sx * s y 8 * 7,23 * 7,49 433,22

Graficul scatterplot pentru datele din exemplu (figura 5.15) este corespunzãtor unei
asocieri pozitive între cele douã variabile, norul de puncte urmând o elipsã cu diagonala
mare pe direcþia stânga-jos – dreapta-sus:

45
40
35
30
25
X

20
15
10
5
0
0 10 20 30 40 50
Y

Figura 5.15. Graficul scatter plot pentru datele din exemplul de calcul

Decizia statisticã
Valoarea calculatã a lui r (+0,74) este mai mare decât valoarea criticã (+0,62), fapt care
îndreptãþeºte respingerea ipotezei de nul. Ca urmare, acceptãm ca semnificativ coeficientul
de corelaþie obþinut. Datele cercetãrii susþin ipoteza cã între scorurile celor douã teste
existã o legãturã pozitivã semnificativã.1

5.4.4. Corelaþie ºi cauzalitate

Coeficientul de corelaþie oferã informaþii despre modul cum variazã valorile a douã
variabile, una în raport cu cealaltã. Astfel, coeficientul de corelaþie nu are o semnificaþie
cauzalã decât dacã cele douã variabile au fost mãsurate într-un context care probeazã
cauzalitatea. Iar acest lucru se petrece numai în condiþii de experiment.

1. În mod uzual, valorile lui r se raporteazã cu douã zecimale, chiar dacã valorile tabelare ºi cele
calculate de programele statistice sunt redate cu mai mult.
TITLU CAPITOL 161

5.4.5. Natura liniarã a corelaþiei Pearson

Trebuie sã reþinem faptul cã ceea ce exprimã r este intensitatea corelaþiei liniare, adicã
mãsura în care norul de puncte reprezentat de intersecþia valorilor-pereche ale celor douã
variabile poate fi reprezentat de o linie dreaptã. Asocierea de tip liniar este însã doar una
dintre formele de aproximare a legãturii dintre variabile. În realitate, uneori corelaþia
dintre douã variabile are o formã care se abate de la modelul rectiliniu (are o formã
curbã). Dacã privim figura 5.16 putem observa câteva tipuri posibile de curbe de
corelaþie. Figurile a ºi b exprimã corelaþii perfecte, dar care se supun unui model
curbiliniu, în timp ce figura c reprezintã o corelaþie perfectã rectilinie.

Figura 5.16. Diferite tipuri de corelaþii liniare perfecte, dintre care doar „c” este rectilinie

Relaþiile curbilinii sunt calculate pe baza altor proceduri decât coeficientul Pearson
(r), dar acestea nu fac de regulã obiectul de studiu al unei introduceri în statistica
aplicatã. Sã reþinem totuºi cã, dacã am calcula un coeficient r pentru distribuþiile din
figurile a ºi b, atunci valoarea acestora ar fi foarte micã ºi, cel mai probabil, nesemni-
ficativã, în ciuda asocierii grafice evidente a valorilor lor.
Pentru a înþelege ºi mai bine acest fapt, oferim un exemplu. Am introdus valorile lui
z ºi probabilitãþile corespunzãtoare lor de pe curba normalã, într-un program de prelucrãri
statistice. Forma normalã a curbei obþinute indicã faptul cã, dinspre partea stângã a
acesteia, valorile z devin din ce în ce mai mici (în valoare absolutã), corespunzãtor
creºterii probabilitãþii, pânã la mijlocul curbei, unde z = 0, iar probabilitatea este
maximã. Mergând mai departe, spre dreapta, valorile lui z încep sã creascã, concomitent
cu reducerea probabilitãþii. Coeficientul de corelaþie calculat pentru un eºantion de date
ale celor douã variabile statistice este r = 0, iar imaginea scatterplot a relaþiei dintre ele
este prezentatã în figura 5.171, Se poate observa cã, deºi r = 0 – ceea ce indicã absenþa
oricãrei corelaþii liniare între variabile, curba de distribuþie aratã o corelaþie curbilinie perfectã.

1. Exemplul se bazeazã pe un eºantion de 61 de perechi de valori, selectate de pe toatã plaja


distribuþiei z.
162 TITLU PARTE

Distributia normala z (r=0)


,6

,5

,4

,3

,2

,1

0,0
p

-4 -3 -2 -1 0 1 2 3 4

Figura 5.16. Graficul corelaþiei dintre un eºantion de valori simetrice de pe curba normalã z ºi
probabilitãþile asociate acestora

Din fericire, astfel de situaþii sunt relativ rare în realitate, modelul corelaþiei liniare
fiind adecvat pentru un mare numãr de relaþii dintre variabilele naturale, incluzându-le ºi
pe cele psihologice. Atunci când existã suspiciuni consistente cu privire la natura liniarã
a legãturii dintre variabile, se pot efectua anumite transformãri care sã le aducã sub
forma unei variaþii liniare (de exemplu, extragerea radicalului sau logaritmarea varia-
bilelor). Atunci când se raporteazã un coeficient de corelaþie fãrã a se preciza caracterul
liniar sau curbiliniu, vom considera cã acesta se referã la corelaþia liniarã.
Exemplul dat ne sugereazã faptul cã graficul scatterplot oferã informaþii suplimentare
semnificative ºi, din acest motiv, este recomandabilã realizarea acestuia de fiecare datã
când utilizãm testul de corelaþie Pearson. Un argument spectaculos în sprijinul acestui
aspect ne este oferit de Anscombe (1973), care a realizat cele patru seturi de date din
tabelul urmãtor:

Tabelul 5.11. Seturile de valori Anscombe

Setul #1 Setul #2 Setul #3 Setul #4


X1 Y1 X2 Y2 X3 Y3 X4 Y4
10,00 8,04 10,00 9,14 10,00 7,46 8,00 6,58
8,00 6,95 8,00 8,14 8,00 6,77 8,00 5,76
13,00 7,58 13,00 8,74 13,00 12,74 8,00 7,71
9,00 8,81 9,00 8,77 9,00 7,11 8,00 8,84
11,00 8,33 11,00 9,26 11,00 7,81 8,00 8,47
14,00 9,96 14,00 8,10 14,00 8,84 8,00 7,04
6,00 7,24 6,00 6,13 6,00 6,08 8,00 5,25
4,00 4,26 4,00 3,10 4,00 5,39 19,00 12,50
12,00 10,84 12,00 9,13 12,00 8,15 8,00 5,56
7,00 4,82 7,00 7,26 7,00 6,42 8,00 7,91
5,00 5,68 5,00 4,74 5,00 5,73 8,00 6,89
TITLU CAPITOL 163

Coeficienþii de corelaþie dintre cele patru perechi de variabile (X 1-Y1, X2-Y2, X3-Y3,
X4-Y4) sunt identici: r = 0,81. ªi totuºi, dacã sunt analizate reprezentãrile scatterplot
pentru fiecare dintre cele patru perechi de variabile, imaginile ne oferã diferenþe
importante cu privire la natura realã a relaþiei dintre ele (figura 5.17).

1 4 ,0 0 1 4 ,0 0

1 2 ,0 0 1 2 ,0 0

1 0 ,0 0 1 0 ,0 0
x1

x2
8, 00 8, 00

6, 0 0 6, 0 0

4 ,0 0 4 ,0 0

4 ,0 0 5, 0 0 6, 0 0 7, 00 8, 00 9, 00 1 0,00 1 1,00 3 ,00 4 ,0 0 5, 0 0 6, 0 0 7, 00 8, 00 9, 00 1 0,00

y1 y2

1 4 ,0 0 2 0 ,0 0

1 8 ,0 0
1 2 ,0 0

1 6 ,0 0

1 0 ,0 0
x3

1 4 ,0 0
x4

8, 00

1 2 ,0 0

6, 0 0
1 0 ,0 0

4 ,0 0 8, 00

6, 0 0 8 ,0 0 1 0 ,0 0 1 2,00 6, 0 0 8 ,0 0 1 0 ,0 0 1 2,00
y3 y4

Figura 5.17. Graficul scatter plot pentru cele patru perechi de variabile ale lui Anscombe

În cazul perechii X3-Y3, o valoare extremã a redus coeficientul de corelaþie, iar în


cazul perechii de variabile X4-Y4, unde corelaþia ar fi fost nulã, ea este generatã de o
singurã valoare extremã. Desigur, astfel de efecte apar cu precãdere în cazul eºantioanelor
de volum mic, dar grija pentru valorile extreme trebuie menþinutã în toate cazurile.

5.4.6. Mãrimea efectului pentru coeficientul de corelaþie

Spre deosebire de testele t, introduse anterior, valoarea testului r este interpretabilã prin
ea însãºi, exprimând intensitatea asocierii dintre variabile. Am menþionat deja cã existã
o corelaþie perfectã atunci când r este egal cu +1 sau –1. Valoarea obþinutã pe exemplul
nostru (+0,74) este destul de apropiatã de +1. Desigur, +0,74 este mai puþin decât +1,
dar mai mult decât, de pildã, +0,32. O asemenea interpretare, deºi absolut corectã, nu
poate fi satisfãcãtoare. Se simte necesitatea de a avea un criteriu de valorizare a
cuantificãrii numerice a corelaþiei. De-a lungul timpului au fost propuse diverse astfel de
scale de valorizare, prin atribuirea unor calificative coeficienþilor de corelaþie, în funcþie
de mãrimea lor. Aceastã problemã comportã multe discuþii, iar soluþiile oferite de diferiþi
autori sunt deseori deosebite. Ca regulã generalã, toþi autorii sunt în consens cã valorile
mai mici de ±0,1 ale coeficienþilor de corelaþie trebuie sã fie considerate „neglijabile”,
chiar ºi atunci când ating pragul de semnificaþie statisticã.
164 TITLU PARTE

Oferim, cu caracter orientativ, modelul de descriere propus de Hopkins (2000) cu


privire la interpretarea valorilor coeficienþilor de corelaþie:

Tabelul 5.12. Interpretarea coeficientului de corelaþie (Hopkins, 2000)

Coeficientul de corelaþie Descriptor


0,0-0,1 Foarte mic, neglijabil, nesubstanþial
0,1-0,3 Mic, minor
0,3-0,5 Moderat, mediu
0,5-0,7 Mare, ridicat, major
0,7-0,9 Foarte mare, foarte ridicat
Aproape perfect, descrie relaþia dintre douã variabile
0,9-1
practic indistincte

O altã variantã de interpretare a mãrimii efectului recunoscutã este cea propusã de


Davis (apud Kotrlik ºi Williams, 2003).

Tabelul 5.13. Interpretarea coeficientului de corelaþie (Davis, apud Kotrlik ºi Williams, 2003)?

0,70 Asociere foarte puternicã


0,50, 0,69 Asociere substanþialã
0,30, 0,49 Asociere moderatã
0,10, 0,29 Asociere scãzutã
0,01 – 0,09 Asociere neglijabilã

Înaintea oricãrui calificativ însã, prima condiþie pentru a lua în considerare existenþa
unei corelaþii între douã variabile rãmâne atingerea pragului de semnificaþie (a). Dacã
valoarea lui r este mai micã decât r critic (corespunde unui nivel p mai mare decât 0,05
sau decât alt prag legitim decis de cercetãtor), existenþa unei corelaþii nu poate fi luatã
în considerare, indiferent de mãrimea coeficientului r Pearson, deoarece nu avem temei
pentru a accepta cã se îndepãrteazã suficient de o valoare ce ar fi putut decurge din jocul
hazardului.
Cele ce trebuie sã luãm în considerare în continuare: semnificaþia sau intensitatea
asocierii? Desigur, rãspunsul este relativ. Dacã finalitatea studiului este de a lua decizii,
ca în cazul selecþiei de personal, de exemplu, se vor cãuta valori cât mai mari ale
coeficientului de corelaþie (r). Dar dacã obiectivul este preponderent teoretic, de a pune
în evidenþã relaþii „ascunse” între variabile, atunci, indiferent de mãrimea lor, coeficienþii
de corelaþie vor fi luaþi în considerare (desigur, dacã sunt mai mari de 0,1).

Coeficientul de determinare
Valorile lui r trebuie considerate pe o scalã ordinalã. Aºadar, nu este corect sã afirmãm
cã un coeficient de corelaþie de 0,40 este de douã ori mai mare decât altul de 0,20. Dacã
dorim sã comparãm în mod direct doi coeficienþi de corelaþie trebuie sã ridicãm valorile
TITLU CAPITOL 165

lui r la pãtrat (r2), obþinând astfel ceea ce se numeºte coeficient de determinare (prezentat
în programele statistice ºi ca r squared). Acesta este considerat un indicator mai adecvat
al mãrimii efectului, deoarece ia valori sensibil mai mici decât cele ale coeficientului de
corelaþie. Pentru exemplul nostru, coeficientul de determinare este 0,742 = 0,55.
Transformat în procente, acest rezultat se interpreteazã astfel: „55% din variaþia
(împrãºtierea) uneia din cele douã variabile este determinatã de variaþia celeilalte
variabile”. Sau, altfel spus, cele douã variabile au în comun 55% din variaþia care le
caracterizeazã, ceea ce înseamnã cã 45% din variabilitatea lor provine din alte surse.
Atenþie, interpretarea procentualã, în modul prezentat, este valabilã numai pentru
coeficientul de determinare. Coeficientul de corelaþie (r) nu poate fi interpretat în nici un
caz sub formã procentualã!
Cohen (apud Kotrlik ºi Williams, 2003) a propus urmãtoarea regulã de evaluare a
mãrimii coeficientului de determinare ca indice de mãrime a efectului în cazul corelaþiei:

Tabelul 5.14. Grila de interpretare a coeficientului de determinare (Cohen, apud Kotrlik ºi


Williams, 2003)

0,0196 Efect mic


r2
0,1300 Efect mediu
0,2600 Efect mare

Observãm cã valorile lui r corespunzãtoare celor trei praguri ale lui r2 sunt 0,14, 0,36
ºi, respectiv 0,50, ceea ce este în concordanþã cu recomandãrile de mai sus pentru
interpretarea lui r.
Sã reþinem cã mãrimea efectului, care este exprimatã, de fapt, prin însãºi mãrimea
coeficientului r, depinde de douã elemente principale:
- caracterul liniar al relaþiei dintre variabile. O componentã curbilinie a asocierii va
conduce la valori mai mici ale coeficientului de corelaþie. Graficul scatterplot ne
poate ajuta la evidenþierea acestui aspect.
- variabilitatea distribuþiilor comparate. Dacã variabilele cercetate au o împrãºtiere
redusã, acest fapt limiteazã posibilitatea de a obþine valori ridicate pentru r.

Dincolo de dimensiunea statisticã a mãrimii efectului existã ºi o dimensiune practicã,


raportatã la valori umane sau sociale. Uneori chiar ºi valori foarte mici ale coeficientului
de corelaþie, implicit ale coeficientului de determinare, pot prezenta o utilitate practicã
considerabilã. De exemplu, în cazul administrãrii unor medicamente, chiar dacã indicii
statistici de mãrime a efectului sunt mici, efectele practice se pot traduce în zeci de
cazuri rezolvate pozitiv la mia de bolnavi, aspect care nu poate fi ignorat. Sau, în cazul
antrenamentului sportiv, introducerea unei metode de antrenament al cãrei efect statistic
nu este foarte ridicat poate însemna câºtigarea unei medalii.
166 TITLU PARTE

5.4.7. Limitele de încredere pentru coeficientul de corelaþie

Atunci când calculãm coeficientul de corelaþie pentru valorile mãsurate pe un eºantion,


o facem, desigur, cu scopul de a estima gradul în care cele douã variabile au o variaþie
comunã la nivelul întregii populaþii. Deoarece calcularea corelaþiei pe „valorile populaþiei”
este practic imposibilã, tot ce putem face este sã o estimãm, cu o anumitã marjã de
eroare, prin utilizarea corelaþiei pe eºantion. Astfel, în termeni formali, r (calculat
pentru eºantion) este o estimare pentru ñ (ro), corelaþia „adevãrat㔠la nivelul populaþiei.

Calcularea limitelor de încredere


Construirea intervalelor de încredere pentru coeficientul de corelaþie la nivelul populaþiei
(r???ro) nu este la fel de simplã ca în cazul altor valori statistice, dar se bazeazã pe
acelaºi raþionament fundamental: limitele de încredere se aflã în jurul unui punct de
estimare (r) la care se adaugã sau se scade valoarea r critic înmulþitã cu eroarea standard
a estimãrii. Problemele specifice decurg din natura distribuþiei lui r. Atunci când valoarea
corelaþiei la nivelul populaþiei este ñ = 0, distribuþia de eºantionare rs (valorile lui r care
ar fi calculate pe eºantioanele extrase din aceeaºi populaþie) formeazã o distribuþie
normalã în jurul lui zero (dacã volumul eºantionului este suficient de mare). Dar, dacã
ñ = +0,7, distribuþia lui rs are o împrãºtiere asimetricã în jurul acestei valori. Motivul
este simplu: este mai mult „loc” pentru valori sub +0,7 decât peste aceastã valoare,
deoarece ºtim cã r ia valori între – 1 ºi +1. Cu cât estimarea pentru ñ este mai aproape
de limitele teoretice ale lui r, cu atât distribuþia rs este mai asimetricã spre partea opusã.
Aceastã particularitate creeazã o piedicã în transformarea coeficienþilor rs în scoruri Z
(cu majusculã, pentru a se evita confuzia cu scorurile z clasice), necesare construirii
limitelor intervalului de încredere pentru ñ. Problema a fost rezolvatã de Fisher, autorul
unui algoritm pe baza cãruia valorile rs sunt transformate în valori Z cu o arie de
distribuþie sub curba normalã cunoscutã:

Z = 0,5ln[(1 + r)/(1 – r)] (formula 5.28)

Pentru a se evita aplicarea acestei formule relativ complicate, se poate utiliza un tabel
(vezi anexa 5 – tabelul Fisher de transformare în Z a valorilor lui r) care, chiar dacã nu
conþine toate valorile intermediare, este suficient pentru a acoperi nevoile practice.
Sã luãm ca exemplu valoarea coeficientului de corelaþie parþialã obþinut de noi
anterior: r = +0,74. Ne propunem sã aflãm care sunt limitele de încredere ale acestei
valori, adicã sã definim intervalul în care se poate afla valoarea realã a corelaþiei la
nivelul populaþiei, cu o probabilitate asumatã. De regulã, aceastã probabilitate asumatã
este de 0,05 sau, exprimatã altfel, corespunde unui nivel de încredere de 95%.
Practic, aflarea limitelor se face în felul urmãtor:
• Se transformã r calculat în valoare Z, citind tabela Fisher: în cazul nostru, pentru r
= 0,74 avem o valoare Zr = 0,9505 (dacã valoarea lui r nu se regãseºte ca atare în
tabel, se poate face o medie a valorilor apropiate). Pe o distribuþie normalã, cum este
distribuþia de eºantionare Z, ºtim cã aproximativ 95% dintre valori se întind între
-1,96 ºi +1,96. Adicã, pe o distanþã de aproximativ douã abateri standard în jurul
mediei (abaterea standard a valorilor Z fiind 1).
TITLU CAPITOL 167

• Se calculeazã eroarea standard a transformãrii Zr, cu formula:

1 1
re = = = 0,447
N -3 8-3

unde N este volumul eºantionului.

• Se calculeazã limitele superioarã ºi inferioarã a intervalului: ECUATIE, adicã:


– limita superioarã (Z): 0,9505 + 1,96 * 0,447 = +1,826;
– limita inferioarã (Z): 0,9505 – 1,96 * 0,447 = +0,074.

Limitele astfel calculate sunt exprimate în valori transformate Z, or noi avem nevoie
sã ºtim limitele în valori ale lui r. Pentru aceasta, facem transformarea inversã, citind
valorile lui Z în tabela Fisher, corespunzãtoare celor douã limite de mai sus:
– limita superioarã de încredere pentru r = +0,95;
– limita inferioarã de încredere pentru r = +0,07.

În concluzie, valoarea realã (la nivelul populaþiei) a corelaþiei dintre cele douã
variabile, se aflã, cu o probabilitate de 95%, în intervalul cuprins între +0,07 ºi +0,95.
Limita inferioarã se regãseºte în apropierea unei corelaþii egale cu 0, iar limita superioarã
în vecinãtatea corelaþiei perfecte, sugerând o precizie a estimãrii scãzutã. Acest fapt este
normal, dacã avem în vedere dimensiunea redusã a eºantionului, care determinã un nivel
ridicat al erorii standard pentru r (pentru cã se aflã la numitorul formulei).

Utilizarea limitelor de încredere


Dacã analizãm limitele intervalului de încredere astfel obþinute pentru exemplul nostru,
constatãm cã ele sunt foarte mari, în zona valorilor pozitive, dar având limita inferioarã
destul de aproape de valoarea zero. Acest fapt conduce la concluzia cã, deºi este atât
mare ºi semnificativ statistic, coeficientul obþinut are o valoare de generalizare micã.
Situaþia este generatã, în acest caz, de volumul extrem de mic al eºantionului. Amplitudinea
intervalului de încredere este direct dependentã de volumul eºantionului. Cu cât N este
mai mare, cu atât valoarea erorii standard tinde sã scadã, aducând limitele intervalului de
încredere mai aproape de valoarea calculatã a lui r.
Presupunem cã am efectuat un calcul de corelaþie pe 30 de subiecþi ºi am obþinut r =
0,30 (când semnul corelaþiei nu este specificat, se considerã pozitiv). Limitele de
încredere pentru acesta sunt –0,07 ºi +0,60, arãtând cã este nesemnificativ, dat fiind
faptul cã între cele douã limite se aflã ºi valoarea zero, adicã aceea vizatã de ipoteza de
nul. Faptul cã limita inferioarã este foarte aproape de valoarea zero (la numai ºapte
sutimi de ea) ne îndreptãþeºte sã credem cã, prin mãrirea volumului eºantionului de
cercetare ar putea fi atins nivelul de semnificaþie statistic. Deoarece în formula erorii
standard a lui r volumul eºantionului se aflã la numitor ºi, cu cât N va fi mai mare, cu
atât valoarea lui re va fi mai micã, iar limitele intervalului de încredere pentru r mai
aproape de r.
Tabelul 5.15 aratã care sunt limitele pentru exemplul dat, dacã N ar creºte, progresiv,
pânã la 100.
168 TITLU PARTE

Tabelul 5.15. Variaþia limitelor de încredere ale lui r, în funcþie de volumul eºantionului

Nivelul de Limite de încredere


Pearson
N încredere
R inferioarã superioarã
(%)
30 0,30 95 –0,07 0,60
40 0,30 95 –0,01 0,56
50 0,30 95 0,02 0,53
60 0,30 95 0,05 0,51
70 0,30 95 0,07 0,50
80 0,30 95 0,09 0,49
90 0,30 95 0,10 0,48
100 0,30 95 0,11 0,47

Utilitatea practicã a acestor estimãri de limite este datã de faptul cã sugereazã cu cât
trebuie sã se creascã volumul eºantionului pentru a se obþine un rezultat semnificativ al
coeficientului de corelaþie dintre cele douã variabile. Dacã mãrim volumul eºantionului
la 50 de subiecþi, limita inferioarã trece peste valoarea zero. Celelalte linii din tabel
prezintã efectul de mãrime al eºantionului în cazul creºterii lui N pânã la 100 de subiecþi.

5.4.8. Semnificaþia diferenþei dintre doi coeficienþi de corelaþie

Presupunem cã într-o cercetare este evaluatã corelaþia dintre extraversie ºi agresivitate


separat, pentru bãrbaþi ºi pentru femei, obþinându-se o valoare r = 0,50 pentru bãrbaþi
ºi r = 0,30 pentru femei, ambii coeficienþi fiind semnificativi. În acest caz ne putem
pune problema dacã cei doi coeficienþi diferã semnificativ între ei, însemnând cã relaþia
dintre extraversie ºi agresivitate este mai ridicatã la bãrbaþi decât la femei.
Diferenþa dintre doi coeficienþi de corelaþie poate fi evaluatã cu un test specific, care
ia în considerare nu doar diferenþa dintre valorile r, ci pe lângã mãrimea în sine a lor ºi
dimensiunea eºantioanelor. De exemplu, având în vedere cã semnificaþia coeficienþilor
de corelaþie depinde ºi de mãrimea eºantionului, înseamnã cã o diferenþã de 0,1 între doi
indici de corelaþie poate fi nesemnificativã dacã cei doi r sunt 0,15 ºi 0,25, dar poate fi
semnificativã dacã valorile r comparate sunt 0,80 ºi 0,901.

1. Modul de calcul al semnificaþiei dintre doi coeficienþi de corelaþie nu face obiectul acestei
prezentãri, dar precizãm cã existã programe care oferã o procedurã statisticã în acest scop (de
exemplu, SYSTAT).
TITLU CAPITOL 169

5.4.9. Condiþii pentru calcularea coeficientului de corelaþie Pearson

Pentru a putea utiliza în mod legitim calculul de corelaþie, eºantionul trebuie sã fie
aleatoriu, iar cele douã variabile (ambele mãsurate pe scale de interval/raport) sã aibã o
distribuþie care sã nu se abatã grav de la distribuþia normalã. Aceastã condiþie este cu atât
mai importantã cu cât eºantionul este mai mic. O atenþie deosebitã trebuie acordatã
valorilor excesive, prezenþa lor putând avea efecte neaºteptate asupra valorii coeficientului
de corelaþie (vezi exemplele lui Anscombe).

5.4.10. Utilizarea coeficientului de corelaþie

Analiza de corelaþie este una dintre cele mai uzuale proceduri statistice în cercetarea
psihologicã. Printre utilizãrile cele mai comune menþionãm analiza consistenþei ºi a
validitãþii testelor psihologice. Consistenþa se referã la gradul în care un instrument de
evaluare se concentreazã asupra unei anumite realitãþi psihice. Validitatea evalueazã dacã
ceea ce se presupune cã analizeazã un instrument psihologic este mãsurat cu adevãrat (de
exemplu, o scalã de anxietate mãsoarã cu adevãrat anxietatea?).
În continuare, rezultã cã putem utiliza coeficientul atunci când dispunem de serii-pereche
de distribuþii. Pentru o mai bunã înþelegere, se cuvine sã facem câteva aprecieri comparative
cu testul t pentru eºantioane dependente. Testul t pentru eºantioane dependente se aplicã
atunci când mãsurãm o anumitã variabilã în douã situaþii diferite (de exemplu, înainte/
dupã), evaluare ce presupune aceeaºi unitate de mãsurã. Coeficientul de corelaþie poate
fi aplicat atât pentru variabile mãsurate cu aceeaºi unitate de mãsurã, cât ºi pentru
variabile exprimate în unitãþi de mãsurã diferite, deoarece formula de calcul ia în
considerare expresia standardizatã a valorilor (scorurile z). Întrebarea este când îl utilizãm
pe unul sau pe celãlalt dintre teste? Rãspunsul depinde de scopul pe care ni-l propunem.
Dacã dorim sã punem în evidenþã diferenþa dintre valorile medii ale variabilelor, vom
aplica testul t pentru eºantioane dependente. Dacã ne intereseazã intensitatea variaþiei
concomitente a variabilelor, vom utiliza coeficientul de corelaþie.
Coeficientul de corelaþie Pearson nu este singurul test al asocierii variabilelor. Existã
o varietate de teste de corelaþie, în pentru situaþiile în care variabilele cercetate sunt
mãsurate, fiecare, pe orice scalã de mãsurare.

5.4.11. Raportarea rezultatului corelaþiei

Raportarea coeficienþilor de corelaþie va cuprinde, pe lângã indicatorii statistici descriptivi ai


variabilelor (medii, abateri standard, indicatorii simetriei ºi aplatizãrii), volumul eºantionului,
valoarea lui r, nivelul de semnificaþie ºi coeficientul de determinare (r2). Prezentarea
limitelor de încredere nu este uzualã, probabil pentru cã nici programele statistice obiºnuite
nu le oferã, dar calcularea ºi includerea lor în documentul cercetãrii sunt recomandate.
Pentru exemplul anterior, o prezentare narativã a rezultatului poate fi formulatã astfel:
„A fost evaluatã performanþa la un test de calcul aritmetic ºi la unul de raþionament
verbal logic, pentru un eºantion de ºase subiecþi. Scorurile mari se referã la performanþe
170 TITLU PARTE

ridicate. Media scorului la primul test a fost m = 29,63 (s = 6,76), iar la al doilea m =
29,88 (s = 7,01). Am obþinut o corelaþie semnificativã între cele douã performanþe, r =
0,74 (r2 = 0,55), p < 0,05, bilateral. Limitele de încredere pentru coeficientul r (95%)
sunt cuprinse între +0,07 ºi +0,95”.

Notã. Se precizeazã neapãrat semnificaþia valorilor variabilelor în raport cu mãrimea


lor, pentru a se putea aprecia corect natura relaþiei dintre variabile.

Concluzii
• Coeficientul de corelaþie Pearson testeazã intensitatea asocierii dintre douã
variabile mãsurate pe aceiaºi subiecþi, în condiþii diferite sau cu instrumente
diferite.
• Coeficientul de corelaþie nu este un indicator al relaþiei cauzale, ci doar al
variaþiei concomitente a valorilor variabilelor testate.
• Domeniul de variaþie al coeficientului r se regãseºte între –1 (corelaþie perfectã
negativã) ºi +1 (corelaþie perfectã pozitivã). Valoarea zero indicã absenþa
oricãrei corelaþii.
• Coeficientul de corelaþie este sensibil la valorile extreme. Cu cât eºantionul
este mai mic, cu atât efectul eventualelor valori extreme este mai mare. De
aceea, se va avea în vedere inspectarea graficului scatterplot, care poate oferi
informaþii despre modul de asociere a variabilelor, efectul eventualelor valori
extreme ºi chiar despre existenþa unui alt tip de asociere decât cel rectiliniu
(prin utilizarea opþiunilor grafice analitice ale programelor statistice).
• Tipul asocierii surprins de coeficientul Pearson este cel liniar (rectiliniu), care
înseamnã cã în cazul unor asocieri curbilinii, chiar perfecte, valoarea coeficientului
Pearson (r) poate fi mai micã sau chiar 0.
• Valoarea coeficientului de corelaþie este, prin ea însãºi un indicator de mãrime
a efectului. Totuºi, în acest scop se utilizeazã coeficientul de determinare (r2).
• Coeficientul r calculat pe eºantion estimeazã corelaþia la nivelul populaþiei.
• Valoarea realã a corelaþiei la nivelul populaþiei nu poate fi cunoscutã cu
precizie, dar poate fi estimatã cu ajutorul limitelor de încredere pentru r.

Exerciþii
Un psiholog ºcolar consemneazã numãrul conduitelor agresive ºi, concomitent,
numãrul conduitelor demne de laudã ale aceloraºi elevi pe durata pauzelor.
Rezultatele sunt centralizate în tabelul urmãtor.

Numãrul conduitelor agresive 2 7 5 12 1 10 8 6 5 2 3 4


Numãrul aprecierilor primite 8 3 4 2 5 2 1 5 4 7 6 1

1. Care este coeficientul de corelaþie dintre cele douã variabile?


TITLU CAPITOL 171

2. Este coeficientul r obþinut semnificativ la un nivel a = 0,05, bilateral?


3. Cum interpretaþi din punct de vedere psihologic rezultatul?
4. Realizaþi reprezentarea scatterplot a celor douã variabile.
5. Evaluaþi mãrimea efectului.
6. Calculaþi limitele lui r pentru un interval de încredere de 95%.