Sunteți pe pagina 1din 10

RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 3.
ANALIZA LEGĂTURII DINTRE VARIABILE

1. COEFICIENTUL DE CORELAŢIE PEARSON

Notele Z fac posibilă analiza legăturii dintre două variabile. De exemplu, putem analiza
legătura dintre nivelul stresului unui manager şi numărul de subordonaţi. Prin transformarea notelor
brute obţinute de subiecţi la cele două variabile putem să identificăm dacă exista sau nu o legătură între
aceste două variabile.

DEFINIŢIE
Corelaţia este o metodă statistică descriptivă (r=( ( Z1 * Z 2) / N ) care indică existenţa unei
legături între variabile.

Legătura poate fi pozitivă (când scorurile slabe la prima variabilă se asociază cu scoruri slabe la
a doua variabilă, scorurile medii la prima variabilă se asociază cu scoruri medii la a doua variabilă şi
scorurile mari la prima variabilă se asociază cu scoruri mari la a doua variabilă), negativă (când
scorurile slabe la prima variabilă se asociază cu scoruri mari la a doua variabilă, scorurile medii la prima
variabilă se asociază cu scoruri medii la a doua variabilă şi scorurile mari la prima variabilă se asociază
cu scoruri mici la a doua variabilă). Bineînţeles că între variabile poate să nu apară nici o legătură.
Coeficientul de corelaţie (r) indică gradul în care apare paternul unei relaţii între cele două
variabile. Acest coeficient poate lua valori de la -1 la +1, corelaţia pozitivă poate lua valori de la 0 la 1,
iar corelaţia negativă poate lua valori la de -1 la 0.

IMPORTANT
Analiza corelaţiei dintre două variabile nu permite stabilirea relaţiei de cauzalitate între aceste
variabile. Există trei modalităţi de interpretare a unui coeficient de corelaţie obţinut între două variabile
(x şi y): fie x poate fi cauză pentru y, fie y poate fi cauză pentru x, fie a apărut a o treia variabilă care a
determinat apariţia simultană a celor doua variabile.

1.1. Pragul de semnificaţie (p)


În psihologie este necesară generalizarea concluziile studiilor. Astfel, după analiza rezultatelor
corelaţiei ne interesează să vedem dacă legătura găsită (la un grup de oameni) poate fi extinsă la
întreaga populaţie. Mai precis, ne interesează să ştim în ce măsură rezultatele se datorează întâmplării.
Pragul de semnificaţie, p, indică în ce măsură ne înşelăm atunci când afirmăm ceva. În cazul corelaţiei,
pragul de semnificaţie, indică dacă există o legătură între două sau mai multe variabile.

IMPORTANT
În cercetarea ştiinţifică se lucrează de obicei cu două praguri de semnificaţie, corespunzătoare
procentajului de eroare: pragul de 0,01 (1% eroare) şi pragul de 0,05 (5% eroare).

140
ANALIZA COMPUTERIZATĂ A DATELOR

În general, când se fac predicţii pot să apară patru situaţii, prezentate în tabelul de mai jos:
Evenimentul
Apare Nu apare
Predicţia Apare Corect Eroarea I
Evenimentului Nu apare Eroarea II Corect

Sunt două situaţii în care se poate greşi: când afirmăm că un eveniment se va produce şi în
realitate acesta nu va apărea (eroare de tip I) sau când afirmăm că un eveniment nu se va produce şi
aceste va apare (Eroare de tip II). Situaţia I corespunde minciunii, iar situaţia II corespunde ignoranţei.
Dacă vrem să evităm primul tip de greşeală care are consecinţe mai grave (de a demonstra ceva ce nu
există în realitate), alegem pragul de semnificaţie de 0,010 (prag de eroare de 1%). Dacă dorim însă să
avem mai multe şanse în a demonstra ceva şi consecinţele nu sunt grave în caz de greşeală, atunci se
preferă pragul de eroare de 5% (deci un p=0,050). În concluzie, vom considera un test statistic ca fiind
semnificativ dacă pragul de semnificaţie este mai mic sau cel mult egal cu valoarea 0,050.
În psihologie se lucrează cu două modalităţi de formulare a ipotezelor (non-direcţionale sau
direcţional). Ipotezele non-direcţionale sunt cele în care nu se precizează tipul de relaţie dintre
variabile. În testarea acestor ipoteze probabilitatea de eroare de 1% sau 5% se împarte la cele
extremităţi (cozi) ale distribuţiei scorurilor. Testul de semnificaţie pentru verificarea acestui tip de ipoteză
este TWO-TAILED. În cazul nostru ipoteza ar putea fi formulată non-direcţional astfel: există o legătură
între salariul iniţial şi final al subiecţilor. Ipotezele direcţionale sunt cele în care se precizează tipul de
modificare, cercetătorul se aşteaptă la un anumit rezultat. Pentru aceste ipoteze probabilitatea de
eroare se stabileşte la una dintre extremităţile distribuţiei. Testul de semnificaţie pentru verificarea
acestui tip de ipoteză este ONE-TAILED. Ipoteza din exemplul nostru ar putea fi formulată direcţional,
astfel: legătura dintre salariul iniţial şi final este pozitivă, cu cât salariul iniţial este mai mare cu atât şi
salariul final va fi mai mare.

1.2. Calcularea corelaţiei Pearson cu ajutorul SPSS

APLICAŢIE
Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nouă bază
de date “Baza2.sav”, care va cuprinde 3 variabile: STUDII (nivelul de studii al subiecţilor) cu trei valori 1
(studii generale), 2 (studii medii) şi 3 (studii superioare), Sal_in (salariul iniţial al subiecţilor) şi sal_fin
(salariul final al subiecţilor). aceste variabile au următoarele valori:
- studii:1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
- sal_in: 189, 198, 197, 168, 201, 185, 156, 175, 201, 220, 210, 214, 205, 301, 332, 341, 221,
206, 298, 301, 654, 214, 258, 245
- sal_fin: 201, 220, 205, 203, 185, 168, 178, 260, 280, 274, 298, 305, 582, 542, 392, 445, 401,
502, 403, 954, 425, 725, 625, 199

Pentru calculul corelaţiei se activează opţiunea BIVARIATE din meniul ANALIZE-


CORRELATE:

141
RUXANDRA-LOREDANA GHERASIM

Activarea comenzii va deschide următoarea fereastră:


2
1

4
5

Elementele principale ale ferestrei sunt:


1. câmpul care prezintă lista variabilelor din baza de date;
2. câmpul de analiză, unde se introduc variabilele ce vor fi analizate; se pot introduce mai multe
variabile, calculatorul afişând corelaţiile între variabilele luate două câte două;
3. în câmpul CORRELATION COEFFICIENTS se alege tipul de corelaţie: coeficientul Pearson
se foloseşte pentru date parametrice (variabile cantitative şi continui), coeficienţii KENDALL şi
SPEARMAN se folosesc pentru date categoriale şi ordinale.
4. câmpul TEST OF SEGNIFICANCE permite selectarea modului de testate a ipotezei (TWO-
TAILED sau ONE-TAILED); de obicei se foloseşte pragul TWO-TAILED în testarea ipotezelor de
cercetare cu ajutorul SPSS.
5. opţiunea FLAG SIGNIFICANCE CORRELATIONS are ca efect apariţia unui asterisc (*) în
dreptul corelaţiilor semnificative;
6. butonul OPTIONS este urmat de apariţia unei casete de dialog.

142
ANALIZA COMPUTERIZATĂ A DATELOR

Aceasta permite realizarea unei analize descriptive a datelor (STATISTICS) şi precizarea


modalităţii de tratament a datelor lipsă MISSING VALUES, prin excluderea din analiză a perechilor de
rezultate în care avem doar una dintre valori (EXCLUDE CASES PAIRWISE) sau de a exclude din
analiză un rând întreg dacă doar una dintre valori lipseşte (EXCLUDE CASES LISTWISE). Se
recomandă utilizarea primei variante selectată implicit.
Pentru baza de date creată vom analiza legătura dintre variabilele salariu iniţial şi final al
subiecţilor. Vom introduce variabilele SAL_INI şi SAL_FIN în câmpul din dreapta.

Coeficientul de corelaţie Pearson este selectat implicit de către calculator, la fel ca şi celelalte
opţiuni test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG
SIGNIFICANCE CORRELATIONS. După activarea butonului OK, în foaia OUTPUT sunt afişate
următoarele rezultate:

2
4
1
5
3

Se observă că cele două variabile apar pe coloane da şi pe linii.


Pe rândul 1 - PEARSON CORRELATION se găsesc valorile coeficienţilor de corelaţie dintre
două variabile
Pe rândul 2 - SIG. (2-TAILED) apare probabilitatea de eroare la respingerea ipotezei de nul şi
acceptare a ipotezei de cercetare
Rândul 3 - N conţine numărul de subiecţi care au scoruri la ambele variabile
În tabel apare legătura dintre fiecare variabilă şi ea însăşi (SAL_INI şi SAL_INI şi respectiv între
SAL_FIN şi SAL_FIN) dar şi legătura dintre cele două variabile (între SAL_INI şi SAL_FIN dar şi între
SAL_FIN şi SAL_ INI).
Prima celulă din stânga (notată cu 4) prezintă coeficientul de corelaţie între variabila salariul
iniţial şi salariul iniţial (SAL_INI şi SAL_INI). Între o variabilă şi ea însăşi apare o corelaţie perfect
pozitivă (r=1,0), dar lipsită de semnificaţie (nu apare nici un prag de semnificaţie). Acest coeficient de

143
RUXANDRA-LOREDANA GHERASIM

corelaţie nu aduce nici un fel de informaţie şi în consecinţă nu se analizează. La fel nu se analizează


corelaţia dintre variabila salariul final şi salariul final (SAL_FIN şi SAL_FIN).
În celula din dreapta sus apare coeficientul de corelaţie dintre salariul iniţial şi salariul final
(SAL_INI şi SAL_FIN), semnificaţia acestuia şi numărul de perechi de scoruri. Acelaşi rezultate apar şi
în celula din stânga jos care prezintă coeficientul de corelaţie dintre salariul final şi salariul iniţial
(SAL_FIN şi SAL_ INI).

IMPORTANT
Rezultatele din cele două celule sunt identice deoarece corelaţie este bidirecţională (corelaţia
dintre variabilele A şi B este acelaşi lucru cu cea dintre variabilele B şi A). În consecinţă rezultatul poate
fi extras din oricare din cele două celule.

Vom extrage datele pentru legătura dintre salariul iniţial şi salariul final al subiecţilor:
Interpretarea corelaţiei: r=0,81 (coeficientul de corelaţie), p0,001 (pragul de semnificaţie), N=24
(numărul de subiecţi).

1.3. Interpretarea coeficientului de corelaţie Pearson

IMPORTANT
Sunt mai multe elemente de care trebuie să se ţină seama în interpretarea corelaţiei:
 semnul corelaţiei: arată natura legăturii care există pozitive (dacă semnul este pozitiv) sau negative
(dacă semnul este negativ). În cazul nostru, semnul este pozitiv, ceea ce înseamnă că un salar iniţial
mic se asociază, după cinci ani, cu un salariu tot mic, un salar iniţial mediu se asociază cu un salar
final mediu şi un salar mare iniţial se asociază cu salariu mare final.
 mărimea absolută a coeficientului: descrie tăria legăturii care apare între variabile. Se consideră,
astfel, că legătura este slabă dacă valoarea absolută a lui r nu depăşeşte 0,30, legătura este medie
la o valoare a lui r cuprinsă între 0,30-0,50, legăturile puternice având o mărime absolută mai mare
de 0,50. În exemplul nostru, tăria legăturii este ridicată (r=0,81) coeficientul având valoare mi mare
de 0,50
 pragul de semnificaţie dacă este mai mic de 0,05, atunci putem considera că există o relaţie între
variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raportează un
p0,001, pentru a arăta că probabilitatea de a greşi este mai mică decât 0,1% (calculatorul ne
afişează doar primele trei zecimale). Putem spune că există o legătură semnificativă între nivelul
iniţial şi final al salariului subiecţilor, pragul de semnificaţie fiind mai mic de 0,05.
 proporţia de varianţă. Coeficientul de corelaţie ridicat la pătrat ne indică proporţia de varianţă
explicată de relaţia găsită. Proporţia de varianţă indică la ce procent din populaţia generală apare
relaţia. Pentru exemplu nostru proporţia de varianţă are valoarea 0,65 (r=0,81, deci r2=0,65). Se
observă că abia 65% din variaţia observată se întâlneşte în realitate, deci relaţia găsită este
prezentă la 65% dintre subiecţi.

Toate aceste elemente trebuie să apară în interpretare, pentru ca ea să fie completă.

144
ANALIZA COMPUTERIZATĂ A DATELOR

1.4. Graficul corelaţiei


Relaţia dintre două variabile poate fi reprezentată grafic sub forma unui nor de puncte. Practic,
graficul îl alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:

Vom alege un grafic simplu, care să ilustreze relaţia dintre două variabile, deci vom selecta
opţiunea SIMPLE. Se activează apoi butonul DEFINE, care deschide următoarea fereastră:

Se introduc cele două variabile în câmpurile axei X şi axei Y (nu contează ordinea în care se
introduc variabilele deoarece corelaţia este bidirecţională) şi apoi se apasă butonul OK.

Reprezentarea grafică a corelaţiei este următoarea:

145
RUXANDRA-LOREDANA GHERASIM

Reprezentarea grafică a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru
norul de puncte este ascendent crescător (din stânga-jos spre dreapta-sus) deoarece relaţia dintre
variabile este pozitivă, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are
valoare ridicată (r=0,81). Dacă relaţia ar fi fost invers proporţională, norul de puncte ar fi fost orientat
descrescător (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost
distribuite uniform pe grafic.

APLICAŢIE
Analizaţi legătura dintre variabilele nivel optimism şi nivel sociabilitate din baza de date BD1,
realizată în capitolul anterior.

2. COEFICIENTUL DE CORELAŢIE KENDALL'S TAU-B

DEFINIŢIE
Corelaţia Kendall`s Tau-B reprezintă o măsură non-parametrică a asocierii variabilelor ordinale
sau rangate care presupun cantităţi.

La fel ca şi în cazul corelaţiei Pearson, semnul coeficientului de corelaţie Kendall's tau-b indică
direcţia relaţiei, iar valoarea absolută a coeficientului indică puterea relaţiei. Cu cât valoarea
coeficientului este mai mare cu atât relaţia dintre variabile este mai mare. Acest coeficient de corelaţie
poate lua valori doar intre -1 şi 1.

Calcularea corelaţiei Kendall cu ajutorul SPSS


Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază
de date “Baza3.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), Prof_1
(evaluarea interesului elevilor faţă de şcoală de către primul profesorul) şi Prof_2 (evaluarea interesului
elevilor faţă de şcoală realizată de al doilea profesor). În tabelul următor prezentăm valorile acestor
variabile.

146
ANALIZA COMPUTERIZATĂ A DATELOR

Pentru a analiza legătura dintre evaluarea făcută de primul profesorul şi evaluarea realizată de
al doilea profesor (prof_1 şi prof_2), trebuie să folosim coeficientul de corelaţie Kendall's.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE, apoi se introduc variabilele prof_1 şi prof_2 în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Kendall's:

După confirmarea comenzii în foaia cu rezultate apare următorul tabel:

Se constată că apare o asociere pozitivă între variabile (r=0,60), elevii clasaţi pe primele locuri
de către primul profesor ocupă tot o poziţie fruntaşă din perspectiva celui de al doilea profesor.
Asocierea nu este însă semnificativă, p=0,091 posibila explicaţie fiind numărul mic de subiecţi din baza
de date.
Dacă ar fi apărut o asociere negativă dintre variabile (coeficientul de corelaţie ar fi fost negativ)
s-ar fi interpretat astfel: elevii plasaţi pe primele locuri de către primul profesor s-ar fi plasat în coada
clasamentului din perspectiva celui de al doilea profesor.

3. COEFICIENTUL DE CORELAŢIE SPEARMAN

DEFINIŢIE
Corelaţia Spearman este o măsurare non-parametrică a corelaţiei dintre două variabile ordinale.

147
RUXANDRA-LOREDANA GHERASIM

Pentru toate cazurile, valorile fiecărui tip de variabilă sunt rangate, de la cele mai mici la cele
mai mari. Se foloseşte atunci când nu este posibilă măsurarea caracteristicilor analizate ci doar
evaluarea lor, în asemenea manieră încât indivizii statistici să fie ordonaţi în funcţie de două criterii X şi
Y. Această evaluare presupune atribuirea de valori care indică ierarhia subiecţilor (cum ar fi primul, al
doilea, al treilea). Modalitatea de calcul a corelaţiei Spearman este similară coeficientului Pearson (de
fapt de aplică formula coeficientului Pearson). Acest coeficient de corelaţie mai este denumit şi
coeficient de corelaţie a rangurilor.

Calcularea corelaţiei Spearman cu ajutorul SPSS


Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază
de date “Baza4.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), eval_i
(evaluarea de către profesori a interesul pentru şcoală) şi eval_re (evaluarea de către profesori a
relaţiilor cu ceilalţi elevi).

Pentru a analiza legătura dintre evaluarea interesului faţă de şcoală al elevilor şi evaluarea
relaţiilor cu ceilalţi colegi (eval_i şi eval_re) se foloseşte coeficientul de corelaţie Spearman.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE. Se introduc variabilele eval_i şi eval_re în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Spearman:

După confirmarea comenzii în foaia cu rezultate apare următorul tabel:

Se constată că apare o inversare a clasamentului, corelaţia având semn negativ, ceea ce


semnifică faptul că elevii plasaţi pe primele locuri ale variabilei interes pentru şcoală ocupă ultimele

148
ANALIZA COMPUTERIZATĂ A DATELOR

locuri după cel de al doilea criteriu, relaţii bune cu ceilalţi elevi. Inversarea clasamentului nu este
semnificativă, pragul de semnificaţie fiind mai mare de 0,050 (p=0,260).

149