Documente Academic
Documente Profesional
Documente Cultură
Conceptul de corelaţie
cov xy =
∑x* y
N
∑z x * zy
r=
N
unde zx şi zy sunt transformările în note standard z ale variabilelor x, respectiv y, iar N este
volumul eşantionului (numărul perechilor de valori pe care se calculează corelaţia).
Nu facem decât să reamintim aici că r poate lua valori pe o plajă între +1 (corelaţie
pozitivă, directă, perfectă) şi -1 (corelaţie negativă, inversă, perfectă). Între aceste limite
extreme, un coeficient de corelaţie 0 (zero), indică absenţa totală a corelaţiei sau, cu alte
cuvinte, independenţa acestora una faţă de alta. Pe de altă parte, coeficientul de corelaţie
Pearson se bazează pe un model de asociere liniară între variabile. De aceea, absenţa unei
valori suficient de mari, ori semnificative, nu exprimă neapărat absenţa unei legături între
variabile ci, poate, existenţa unui alt tip de variaţie concomitentă decât cel liniar (curbiliniu).
Mai adăugăm, de asemenea, că în studiile bazate pe coeficientul de corelaţie nu avem
variabilă „independentă”, ambele variabile fiind considerate „dependente”. Cu alte cuvinte,
-1–
Actualizare: 24.11.2005; 12:35
nici una variabile nu este considerată ca având o „influenţă” asupra celeilalte (cel puţin din
punctul de vedere al raţionamentului statistic).
Deşi nu vom o utiliza în mod direct, redăm mai jos formula de calcul pentru
coeficientul de corelaţie parţială:
unde: r12.3 este corelaţia parţială dintre variabila 1 şi variabila 2 cu izolarea efectului
variabilei 3; r12 este corelaţia dintre variabila 1 şi 2; r13 corelaţia dintre variabila 1 şi 3 iar r23
corelaţia dintre variabila 2 şi 3.
Vom prezenta în continuare modul de calcul al coeficientului de corelaţie parţială prin
utilizarea programului SPSS. Să luăm în considerare un studiu ipotetic al cărui scop ar fi
evidenţierea relaţiei dintre rezultatele la un test de reprezentare spaţială şi cele de la un test de
calcul aritmetic. Deşi interesul cercetării vizează relaţia dintre aceste două variabile, ne putem
pune problema influenţei inteligenţei asupra celor două tipuri de performanţă, motiv pentru
-2–
Actualizare: 24.11.2005; 12:35
care aplicăm şi un test de inteligenţă. Matricea de date, introdusă în Editorul de date SPSS,
arată ca mai jos:
Acţionăm butonul Options, care deschide caseta corespunzătoare, unde bifăm opţiunile
Means and standard deviation (dacă dorim să avem statistica descriptivă a variabilelor) şi,
mai ales, Zero-order correlations, pentru a obţine şi matricea de corelaţie a tuturor
variabilelor, fără eliminarea vreuneia dintre ele.
După acţionarea succesivă a comenzilor Continue şi, apoi, OK, rezultatele procedurii
vor fi afişate în fereastra Viwer.
Primul lucru pe care îl analizăm în fereastra Output este matricea corelaţiilor complete,
care apare ca în imaginea alăturată, care nu este diferită de matricea produsă de procedura
clasică a corelaţiei bivariate.
-3–
Actualizare: 24.11.2005; 12:35
Rezultatele indică corelaţii ridicate între (de peste 0.80) între toate cele trei variabile.
Dar, aşa cum am spus, avem motive teoretice să credem că relaţia dintre cele două variabile
(reprezentare spaţială şi calcul aritmetic) este „intermediată” de inteligenţă. Din această cauză
semnificaţia coeficienţilor nu poate fi acceptată ca şi cum variabilele ar fi total independente
(presupunerea tipică pentru corelaţia bivariată). Aşa cum ştim, fiecare dintre coeficienţii de
corelaţie este purtător al unei Erori de tip I (probabilitatea de a respinge ipoteza de nul, deşi ea
ar putea fi adevărată). Acceptând acest lucru ar însemna că, la un set de trei coeficienţi de
corelaţie, cantitatea de eroare de tip I ar însuma 0.15 adică de trei ori 0.05, cea ce este
inacceptabil. Ca urmare, se aplică metoda Bonferonni de control pentru „eroarea de tip I”, la
ansamblul celor trei perechi de corelaţii: 0.05/3=0.017. Adică, se repartizează în mod egal
valoare lui alfa pentru un singur test (0.05) la toţi cei trei coeficienţi calculaţi. Nu ne rămâne
decât să constatăm în ce măsură coeficienţii obţinuţi sunt semnificativi la acest prag corectat
de siguranţă. După cum se observă, privind fie deasupra, fie sub diagonala matricei, în toate
cazurile coeficienţii de corelaţie dintre cele trei variabile sunt semnificativi la un p<0.017 ceea
ce sugerează că toate perechile de variabile corelează semnificativ. Principala concluzie este
aceea că ambele variabile cercetate (reprezentarea spaţială şi operaţiile aritmetice) au o
variaţie comună, semnificativă, cu inteligenţa.
Mai departe citim rezultatul procedurii de calcul după ce influenţa inteligenţei a fost
eliminată:
1
Facem precizarea că acesta este un studiu ipotetic, fără nici o legătură cu date reale
-4–
Actualizare: 24.11.2005; 12:35
Interpretarea coeficientului de corelaţie parţială
În orice caz, prima condiţie pentru a lua în considerare existenţa unei corelaţii între două
variabile rămâne atingerea pragului de semnificaţie (alfa). Dacă valoarea lui r corespunde unui nivel
alfa mai mare de 0.05, existenţa unei corelaţii este de neluat în seamă, indiferent de mărimea
coeficientului Pearson. Aceasta, deoarece nu avem temei pentru a accepta că se îndepărtează suficient
de o valoare care ar fi putut decurge din jocul hazardului.
Mai departe, în interpretarea coeficientului trebuie să operăm cu distincţia dintre
„semnificaţia statistică” şi „relevanţa practică” a valorii obţinute. Un coeficient de corelaţie
puternic semnificativ nu înseamnă că are, automat, şi o relevanţă practică pe măsură. Ne ajută
în înţelegerea acestei distincţii ceea ce se numeşte „coeficientul de determinare” şi care nu
este altceva decât valoarea lui r ridicată la pătrat. Coeficientul de determinare este utilizat în
mod uzual în forma sa procentuală (r2*100) şi indică procentul de varianţă pe care cele două
variabile o au în comun. Cu alte cuvinte, cît la sută din gradul de împrăştiere a unei variabile
este „determinat” de variaţia (împrăştierea) celeilalte variabile.
2
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). New Jersey: Lawrence
Erlbaum
3
Hopkins, W. G. (2000). A new view of statistics. Internet Society for Sport Science:
http://www.sportsci.org/resource/stats/
-5–
Actualizare: 24.11.2005; 12:35
R r2 Dacă observăm cu atenţie tabelul alăturat, vom observa că valoarea
1.00 1.00 coeficientului de determinare scade mult mai accentuat decât valorile lui r ,
.90 .81 datorită efectului ridicării la pătrat a unor numere subunitare.
.80 .64 Dacă obţinem un r=+0.80 între inteligenţă şi performanţa şcolară, vom putea
.70 .49 spune că doar 64% din variaţia celor două variabile este comună, restul de 36%
.60 .36 datorându-se altor influenţe. Ca regulă generală, la capătul procedurii de testare
.50 .25 a corelaţiei se recomandă interpretarea coeficientului de determinare şi nu a
.40 .16 celui de corelaţie, acesta din urmă sugerând o covarianţă mai mare decât există
.30 .09 în mod real.
.20 .04
.10 .01
.0 .0
-6–
Actualizare: 24.11.2005; 12:35
mare). Dar dacă ρ=+0.7 distribuţia lui rs are o împrăştiere asimetrică în jurul lui acestei
valori. Motivul este simplu: este mai mult „loc” pentru valori sub +0.7 decât peste această
valoare (deoarece ştim că r ia valori între -1 şi +1). Cu cît estimarea pentru ρ este mai aproape
de limitele teoretice ale lui r, cu atât distribuţia rs este mai asimetrică spre partea opusă.
Această particularitate creează o piedică în transformarea coeficienţilor rs în scoruri Z (cu
majusculă, pentru a se evita confuzia cu scorurile z, clasice), necesare construirii limitelor
intervalului de încredere pentru ρ. Problema a fost rezolvată de Fisher, care a elaborat un
algoritm pe baza căruia valorile rs sunt transformate în valori Z, a căror arie de distribuţie sub
curba normală este cunoscută:
Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi
Anexa) care, chiar dacă nu conţine toate valorile intermediare, este suficient pentru a acoperi
nevoile practice.
Să luăm ca exemplu valoarea coeficientului de corelaţie parţială obţinut de noi mai
sus: r=0.094. Ne propunem să aflăm care sunt limitele de încredere ale acestei valori, adică să
definim intervalul în care se poate afla o astfel de valoare, cu o probabilitate asumată. De
regulă, aşa cum ştim, această probabilitate asumată este de 0.05 sau, exprimată altfel, un nivel
de încredere de 95%.
Practic, aflare limitelor se face astfel:
- Transformăm r calculat în valoare Z, citind tabela Fisher: în cazul nostru, pentru
r=0.094 avem o valoare Z=0.095 (o aproximare acceptabilă între cele două valori
tabelare apropiate de r-ul nostru). Pe o distribuţie normală, cum este distribuţia de
eşantionare Z, ştim că aproximativ 95% dintre valori se întind între -1.96 şi +1.96.
Adică, pe o distanţă de aproximativ două abateri standard în jurul mediei (abaterea
standard a valorilor Z fiind 1).
- Calculăm eroarea standard a transformării Z, în formula:
1 1
re = = = 0,40 unde N este
N −3 9−3 volumul eşantionului
-7–
Actualizare: 24.11.2005; 12:35
Mai trebuie să observăm, de asemenea, că amplitudinea intervalului de încredere este
direct dependentă de volumul eşantionului. Cu cât N este mai mare, cu atât valoarea erorii
standard tinde să scadă, ceea ce aduce limitele intervalului de încredere mai aproape de
valoarea calculată a lui r.
Iată un alt exemplu, ilustrat grafic. Într-un studiu pe 64 de subiecţi, coeficientul de
corelaţie dintre înălţime şi greutate a fost 0.68, cu un interval de încredere cuprins între +0.52
şi +0.79, aşa cum se vede în imaginea de mai jos:
În acest caz limitele de încredere nu intersectează valoarea zero, fapt care indică un
coeficient de corelaţie semnificativ. Dar utilizarea limitelor de încredere ne poate fi de folos şi
în evaluarea şanselor de a obţine o corelaţie semnificativă după ce am obţinut un coeficient
nesemnificativ. Şi aceasta datorită evaluării efectului mărimii eşantionului.
Să ne imaginăm că am efectuat un calcul de corelaţie pe 30 de subiecţi şi am obţinut
r=0.30. Limitele de încredere pentru acesta sunt între -0.07 şi +0.60, ceea ce arată că este
nesemnificativ, dat fiind faptul că între cele două limite este şi valoarea zero, aceea care este
vizată de ipoteza de nul. Dar, dat fiind faptul că în formula erorii standard a lui r volumul
eşantionului de află la numitor, cu cât N va fi mai mare, cu atât valoarea lui re va fi mai mică
iar limitele intervalului de încredere pentru r, mai aproape de r. Pentru exemplul anterior,
calculele ne arată că, dacă am creşte volumul eşantionului la 50 de subiecţi, limita inferioară
trece deja peste valoarea zero. Celelalte linii din tabel prezintă efectul de mărime al
eşantionului în cazul creşterii lui N până la 100 de subiecţi.
-8–
Actualizare: 24.11.2005; 12:35
testele de selecţie şi performanţa în procesul de instruire se efectuează frecvent pe eşantioane
limitate, rezultate în urma unei decizii de selecţie, prin care doar o parte a candidaţilor sunt
declaraţi admişi. În fapt, calculele de validare se efectuează numai pe acest eşantion, pentru
care performanţa la testele psihologice are un grad de variaţie mai mic, tocmai din cauza
respingerii celor cu performanţe mai mici. Acest fenomen a fost denumit „restricţie de
amplitudine” şi este considerat responsabil pentru concluzii incorecte în studiile de validare.
Thorndike (1949), citat de Carreta & Ree (2003), a oferit un dramatic exemplu al acestui
efect. Un grup experimental de 1036 candidaţi piloţi din US Army Air Corps au fost admişi în
procesul de instruire în anul 1944, indiferent de scorul obţinut la cinci teste de aptitudini.
Ulterior, au fost calculate corelaţiile dintre performanţa la teste şi un criteriu de performanţă
de instruire pentru toţi cei 1036 candidaţi şi, separat, pentru 136 de candidaţi care ar fi fost
admişi dacă s-ar fi aplicat standardul de selecţie existent în uz. Scorul compozit rezultat din
cele cinci teste psihologice a obţinut o corelaţie de 0.64 pentru întregul lot evaluat (fără
restricţie de amplitudine) şi numai 0.18 pentru lotul care ar fi putut fi selectat conform
standardului (cu restricţie de amplitudine). Cea mai dramatică diferenţă s-a constatat pentru
testul de coordonare psihomotorie, unde corelaţia pentru lotul nerestricţionat a fost de 0.40,
iar pentru lotul restricţionat de -0.03! În medie, coeficienţii de corelaţie pentru lotul
nerestricţionat s-au dovedit mai mari cu 0.29 faţă de lotul restricţionat.
Exemplul de mai sus este dovada clară că validitatea calculată pe loturi restricţionate
în amplitudine (o expresie care are în vedere o împrăştiere mai mică a variabilelor predictor),
are o valoare mai mică decât în realitate, prin reducerea importanţei cauzale a variabilei
predictor asupra variabilei criteriu (Goldberg, 1991). Ca urmare, calcularea şi raportarea
coeficienţilor de corelaţie fără a se ţine cont de efectul de restricţie a amplitudinii poate
conduce la decizii de selecţie greşite. Soluţia acestei probleme constă în procedura de
„corecţie de continuitate a coeficientului de corelaţie”. Ea se poate face, fie la nivel univariat,
atunci când avem un singur predictor, fie la nivel multivariat, atunci când există mai mulţi
predictori (teste psihologice) pentru un anumit criteriu de performanţă (Ree & Carretta, 1994).
Pentru exemplificare, vom reda mai jos doar un calcul al corecţiei de continuitate
univariată, utilizând una dintre formulele uzuale pentru acest scop:
σ X rxy
rXY =
( )
σ x 2 1 − rxy 2 + σ X 2 rxy 2
unde:
rXY=corelaţia corectată
rxy=corelaţia necorectată
σX=abaterea standard a grupului integral (totalul celor evaluaţi iniţial)
σx=abaterea standard a grupului selecţionat (cei admişi)
Este evident faptul că pentru a putea efectua corecţia este necesar să păstrăm datele
pentru întregul lot testat la selecţie. Să presupunem că valoarea coeficientului de corelaţie
dintre scorul la un test de inteligenţă şi performanţa şcolară, calculat pe un lot de elevi admişi
în urma unui examen de selecţie, este de 0.29. Tabelul de mai jos cuprinde parametrii lotului
integral (nerestricţionat) şi cei ai lotului admis (restricţionat).
-9–
Actualizare: 24.11.2005; 12:35
Înlocuim datele în formulă:
17 * 0.29
rXY = = 0.42
( )
112 * 1 − 0.29 2 + 17 2 * 0.29 2
Aşadar, corelaţia corectată dintre testul de inteligenţă şi criteriul de validare este mai
mare decât cea obţinută (r=0.42). Vom reţine că, în măsura în care împrăştierea datelor
restricţionate (prin selecţie) este mai mică decât împrăştierea datelor integrale, iar media
datelor restricţionate este mai mare decât cea a datelor integrale, coeficientul de corelaţie
corectat („adevărat”) este mai mare decât cel calculat. Cu alte cuvinte, în situaţii de acest gen,
coeficienţii de corelaţie obţinuţi subapreciază valoarea reală a legăturii dintre variabile. Chiar
şi după aplicarea corecţiei, se apreciază că se menţine o tendinţă de subestimare a validităţii
(Linn, Harnish, & Dunbar, 1981).
Atunci când se utilizează procedura de corecţie este recomandabil să se raporteze atât
valoarea necorectată cât şi valoarea corectată a coeficientului de corelaţie, chiar dacă doar
aceasta din urmă va fi luată în considerare la elaborarea concluziilor. Această procedură de
corecţie este extrem de utilă mai ales pentru situaţiile în care se urmăreşte validarea unor teste
în procedurile de selecţie a personalului.
- 10 –
Actualizare: 24.11.2005; 12:35
Tabela Fisher de transformare a valorilor r în scoruri Z
(Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)
R Z r Z r Z R Z
0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454
0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714
0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986
0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270
0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568
0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881
0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212
0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562
0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933
0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331
0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758
0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219
0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722
0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275
0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890
0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584
0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380
0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318
0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459
0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923
0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976
0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467
0.2200 0.2237 0.4800 0.5230 0.7400 0.9505
0.2300 0.2342 0.4900 0.5361 0.7500 0.9730
0.2400 0.2448 0.5000 0.5493 0.7600 0.9962
0.2500 0.2554 0.5100 0.5627 0.7700 1.0203
- 11 –
Actualizare: 24.11.2005; 12:35