Sunteți pe pagina 1din 62

RELAŢII ÎNTRE VARIABILE

1. Coeficienţi de corelaţie neparametrici


2. Coeficienţi de corelaţie parametrici
3. Corelaţii parţiale
4. Interpretarea coeficienţilor de corelaţie
5. Obţinerea coeficienţilor de corelaţie în SPSS

În general, într-o cercetare ştiinţifică, nu ne putem rezuma doar la studiul unei singure variabile, deşi
acest pas este important pentru stabilirea normalităţii distribuţiei. Faptul că notele obţinute de către
candidaţi la un examen de admitere la facultate sunt sau nu sunt distribuite normal, este de mare importanţă,
atât pentru aflarea nivelului candidaţilor respectivi, cât şi în vederea stabilirii procedurilor ulterioare de
analiză. Nu ne putem, însă, rezuma doar la acest lucru. Ne-ar interesa, poate, să aflăm dacă există vreo
legătură între aceste note şi coeficientul de inteligenţă, să vedem dacă, întradevăr, cei cu medii mari la
admitere au şi un coeficient de inteligenţă ridicat, sau din contra.
Aceasta este o problemă specifică, ce poate fi abordată printr-un studiu corelaţional. Ca în orice studiu
ştiinţific, începem de la un fapt de observaţie. De exemplu, constatăm în ultimii ani o reducere a calităţii
sistemului de învăţământ universitar. Problema poate fi la nivelul cadrelor didactice, al studenţilor, sau
poate reprezenta o combinaţie a acestor elemente. După ce am citit „o sută” de articole referitoare la această
temă, după ce am studiat cercetările existente, putem ajunge la concluzia investigării relaţiei dintre mediile
anilor de studiu din liceu, media de la bacalaureat şi coeficientul de inteligenţă. Putem, aşadar, formula
obiectivul studiului: investigarea relaţiei dintre media de admitere la universitate şi coeficientul de
inteligenţă. În mod cert, după stabilirea obiectivului, va trebui să formulăm ipoteza sau ipotezele cercetării.
În cazul nostru, ipoteza de cercetare devine:
H1: Există o relaţie între nivelul de inteligenţă şi media de admitere a candidaţilor în învăţământul
superior.
Această ipoteză este evident o ipoteză bidirecţională, şi ne duce cu gândul la un studiu corelaţional.
După cum ştim, ipoteza de cercetare nu poate fi confirmată sau infirmată. Toate analizele se fac pe baza
ipotezei nule. În situaţia de faţă, ipoteza nulă va fi:
H0: Nu există nicio relaţie între nivelul de inteligenţă şi
media de admitere a candidaţilor în învăţământul superior.
Din simpla parcurgere a ipotezei, putem identifica foarte
uşor atât planul de cercetare – evident un plan corelaţional cu
două variabile continui – cât şi variabilele – coeficientul de
inteligenţă şi media de admitere. Nu ne rămâne decât să
colectăm datele prin administrarea unui test de inteligenţă şi
prin înregistrarea mediilor de admitere ale candidaţilor şi astfel
obţinem baza de date a cercetării noastre. Ambele variabile
fiind scalare, în următoarea etapă vom proceda la analiza
normalităţii distribuţiei acestora. Dar după aceea, ce facem?
Bineînţeles, intenţionăm să studiem relaţia dintre aceste două
variabile.
Relaţiile stabilite din analiza a două variabile se numesc
analize bivariate, deoarece este posibil să studiem relaţiile
dintre mai multe variabile, metode reunite sub numele de
analize multivariate. Aţi observat că prefer folosirea
termenului de relaţie şi nu a celui de corelaţie. Care ar fi
diferenţa?
Întregul concept al investigării gradului de asociere între
două variabile se bazează pe covarianţă. Ce este, însă,
covarianţa? Vă mai amintiţi de termenul de varianţă folosit în
prima lucrare? Am definit atunci acest element ca fiind media abaterilor scorurilor faţă de tendinţa centrală
(Opariuc-Dan, 2009). Lucram atunci doar cu o singură variabilă. Dacă am include încă o variabilă, am
spune că cele două covariază dacă scorurile celei de-a doua se abat în acelaşi sens de la medie, chiar dacă
magnitudinile abaterilor pot fi altele.
Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi variabila Y. Observăm că
scorurile primei variabile se abat negativ faţă de medie în primele două cazuri şi pozitiv faţă de medie în
ultimele trei cazuri. Acelaşi model este urmat şi de cea de-a doua variabilă, deşi magnitudinea abaterilor
este diferită. Putem suspecta faptul că cele două variabile covariază, adică subiecţii care au scoruri mici la
prima variabilă, au scoruri mici şi la a doua variabilă. Cei care au scoruri mari la prima variabilă, au scoruri
mari şi la a doua variabilă. Acesta este principiul covarianţei. Problema care se pune este să stabilim
magnitudinea acestei covarianţe, în acelaşi mod în care am aflat magnitudinea varianţei pentru fiecare
variabilă luată separat. Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianţei, în mod similar
coeficientului de varianţă (𝑠 2 )? Răspunsul este, din fericire, pozitiv.
Vă aduceţi aminte că, în cazul calculării varianţei unei singure variabile, am ridicat la pătrat fiecare
abatere de la medie, pentru a compensa problemele legate de semn. Este necesar să facem acest lucru şi
aici? Gândiţi-vă înainte de a răspunde! Ei bine, nu. Fiind două variabile, înmulţind, pentru fiecare subiect,
abaterile de la medie ale fiecărei variabile, rezolvăm această problemă. Dacă ambele abateri sunt ori
pozitive, ori negative, vom obţine un produs pozitiv, arătând faptul că variabilele covariază în acelaşi sens
(se abate pozitiv de la medie una, se abate pozitiv de la medie şi cealaltă; se abate negativ una, se abate
negativ şi cealaltă). Dacă o abatere este pozitivă şi cealaltă este negativă, vom obţine un produs negativ,
arătând faptul că variabilele covariază invers (dacă una se abate pozitiv de la medie, cealaltă se abate
negativ). Mai simplu nici nu se putea.
Cum obţinem însă o valoare numerică unică a acestor abateri? Nu este deloc complicat. Adunăm toate
produsele şi împărţim la numărul de cazuri minus unu (efectuând corecția cunoscută pentru lucrul cu
eșantioane). Iată ce greu e:
∑𝑛 (𝑥 − 𝑥̅ )(𝑦 − 𝑦̅)
𝑐𝑜𝑣𝑥,𝑦 = 𝑖=1 𝑖 𝑛−1 𝑖 (formula 1.1)
Am obţinut, astfel, formula covarianţei pe care o putem acum aplica datelor noastre.
(−0.6)(−1.6)+(−0.2)(−0.6) + (0.5)(0.4) + (0.4)(0.8) + (2.3)(1.4) 0.96+0.12+0.2+0.32+3.22 4.82
𝑐𝑜𝑣𝑥,𝑦 = = = 4 =1.2
5−1 4
Cele două variabile din exemplul de mai sus covariază pozitiv (adică dacă scorul la o variabilă se află
peste medie, scorul la cealaltă variabilă se află şi el peste medie şi invers), valoarea acestei covariaţii fiind
de 1,20.
Marea problemă a covarianţei este aceea că relaţiile dintre cele două variabile depind de scala de
măsură. Dacă avem două instrumente ce măsoară, fiecare, o singură variabilă, unul cu 100 de itemi şi unul
cu 10 itemi, în condițiile în care itemii sunt cotați la fel, modul în care se vor abate scorurile individuale de
la medie diferă extrem de mult, coeficientul de covarianţă fiind foarte mare în comparaţie cu situaţia
analogă în care cele două instrumente ar avea, fiecare, 10 itemi. În realitate acest coeficient nu ne spune,
practic, nimic. Avem nevoie, aşadar, de o măsură standardizată a covarianţei, iar această măsură o regăsim
sub denumirea de corelaţie.
Corelaţia exprimă, practic, sub formă numerică, gradul de asociere dintre variabile. Două variabile
sunt asociate, în situaţia în care comportamentul uneia este legat de comportamentul celeilalte, cu alte
cuvinte, dacă nu sunt independente. Două variabile independente arată că modificarea valorilor într-o
variabilă nu are niciun efect asupra valorilor din cealaltă variabilă. (Gibbons, 1993).
În teorie e simplu. În practica ştiinţifică din domeniul socio-uman, am arătat că variabilele pot fi
dificil măsurate la un nivel de interval, majoritatea lor fiind, strict vorbind, la o scală de măsură ordinală.
Este greu să găsim o relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarianţe decât de
corelaţii.
Un alt aspect important, pe care mulţi îl ignoră, este acela că nu putem stabili legături cauzale în urma
studiilor corelaţionale. Din corelaţii nu se pot face inferenţe cauzale, nu putem stabili care este cauza şi care
este efectul. Dacă în urma unui studiu ajungem la concluzia că există o legătură puternică între anxietate şi
depresie, care este cauza şi care este efectul? Anxietatea determină depresia sau depresia produce anxietate?
Studiile corelaţionale permit stabilirea intensităţii şi a sensului unei legături între variabile, nu şi stabilirea
relaţiei cauză-efect. Accentuez asupra acestui aspect, deoarece am întâlnit multe asemenea confuzii în care
se vorbea despre relaţii cauzale, fapt complet eronat din punct de vedere ştiinţific.
Relaţiile dintre două variabile se studiază în baza a două categorii de indici de corelaţie. Vorbim de
indici de corelaţie parametrici şi indici de corelaţie neparametrici, în funcţie de condiţiile îndeplinite de
variabile – şi anume dacă îndeplinesc sau nu cerinţele de administrare ale statisticilor parametrice.
1. Coeficienţi de corelaţie neparametrici
Aceşti coeficienţi de corelaţie se utilizează în cazul în care cel puţin una dintre cele două variabile nu
îndeplineşte condiţiile unei distribuţii normale, fie din cauza specificului datelor, fie din aceea a nivelului de
măsură la care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere, coeficienţii de corelaţie
neparametrici pot fi folosiţi atât în cazul în care distribuţia este cunoscută, de obicei normală, dar mai ales
în cazul în care distribuţia nu se cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel de măsură
cel puţin de interval. Motivul este acela că, datele aflate la un nivel de interval ori de raport, pot fi uşor
convertite în ranguri sau în frecvenţe (la nivel ordinal ori nominal). Invers nu este, însă, posibil.
1.1. Coeficientul de corelaţie a rangurilor ρ (rho) Spearman
Este un coeficient bazat pe ranguri, nu este influenţat de
reprezentativitatea mediei şi se utilizează, în general, atunci când lotul de
cercetare are dimensiuni mici (sub 30 de cazuri), sau când cel puţin una
dintre variabile nu îndeplineşte condiţiile de administrare ale testelor
parametrice. A fost dezvoltat de psihologul englez Charles Spearman şi,
datorită similarităţii sale cu coeicientul r Bravais-Pearson, acest indicator
este frecvent utilizat în ştiinţele socio-umane. De fiecare dată când aveţi de
calculat coeficientul de corelaţie bivariată, iar datele dumneavoastră nu se
distribuie normal pentru cel puţin una dintre variabile, apelaţi cu încredere
la acest coeficient.
Coeficientul nu face altceva decât să transforme scorurile originale în
ranguri şi să analizeze relaţia dintre acestea. Formula de calcul nu este
complicată şi poate fi rezumată la:
6x ∑ d2
ρ = 1- n(n2 −1) (formula 1.2)
unde d reprezintă diferenţa dintre rangurile valorilor măsurate la un subiect, iar n se referă la numărul de
subiecţi
Să considerăm un exemplu în care avem un număr de 10 elevi de cla-sa a XI-a care obţin următoarele
rezultate la matematică şi la fizică (tabelul 1.1).
După cum
observăm, cele două
variabile se află la un
nivel de măsură
scalar, însă numărul
mic de subiecţi
(n=10) nu permite
analiza distribuţiei
rezultatelor, fiind sub
30 de cazuri. În
această situaţie, nu
putem folosi
coeficienţi de
corelaţie parametrici. Pentru a uşura lucrurile, notele la matematică şi la fizică au fost ordonate astfel încât
să puteţi înţelege mai uşor algoritmul. Vom decide să folosim coeficientul de corelaţie a rangurilor ρ
Spearman. Evident, primul pas este acela al calculării rangurilor. Nu intram în amănunte asupra acestei
proceduri, deoarece a fost tratată în lucrarea anterioară, capitolul referitor la mediană şi ranguri.
După calculul rangurilor, facem diferenţa dintre rangul primei variabile (matematică) şi rangul celei
de-a doua variabile (fizică). Valoarea d va fi, aşadar, d = Rang Matematică – Rang Fizică.
În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a elimina problemele generate de
semnul diferenţelor, şi facem suma pătratelor diferenţelor.
Rezultatele acestor etape sunt prezentate în tabelul 1.2. Avem acum toate datele necesare înlocuirii în
formulă.
6x ∑ d2 6x6 36
ρ = 1- n(n2 −1) = 1 - 10(100−1) = 1- 990 = 1- 0.036 = 0.96
Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am obţinut o corelaţie pozitivă şi
puternică între notele obţinute de către cei 10 elevi la matematică şi fizică. Putem spune că cei care obţin
note mari la matematică, obţin note mari şi la fizică; cei cu note mici la matematică au note mici şi la fizică.
Calculul după această formulă poate fi efectuat numai în situaţia în care nu există ranguri egale.
Atunci când apar ranguri egale (cum se poate observa şi în cazul nostru), se foloseşte o formulă uşor
diferită, formulă de corecţie pentru ranguri egale. Această formulă se aplică în cazul în care ambele
variabile au ranguri egale, sau atunci când întâlnim ranguri egale doar în situația unei singure variabile.
n(∑ 𝑟𝑥 𝑟𝑦 ) − ∑ 𝑟𝑥 x ∑ 𝑟𝑦
ρ= (formula 1.3)
√n ∑ 𝑟𝑥2 –(∑ 𝑟𝑥 )2 √n ∑ 𝑟𝑦2 –(∑ 𝑟𝑦 )2

Revenind la
exemplul nostru, vom
avea un alt tip de tabel,
ceva mai complex.
După calculul
rangurilor, am efectuat
produsul rangurilor şi
ridicarea la pătrat a
fiecărui rang. Apoi, am
calculat sumele
necesare. Nu rămâne, în
final, decât înlocuirea în
formulă. Rezultatul va
fi, în acest caz, foarte apropiat cu cel de mai sus. Evident, numărul foarte mic de cazuri, face ca efectul
corecţiei pentru ranguri egale să fie, și el, foarte mic.
n(∑ 𝑟𝑥 𝑟𝑦 ) − ∑ 𝑟𝑥 x ∑ 𝑟𝑦 10 x 361 − 55 x 52 3610 − 2860 750
ρ= = = = 28.63 x 27.03 =
√n ∑ 𝑟𝑥2 –(∑ 𝑟𝑥 )2 √n ∑ 𝑟𝑦2 –(∑ 𝑟𝑦 )2 √10 x 384.5−552 √10 x 343.5–522 √3845−3025 √3435–2704
750
= 0.96 773.86
Acest coeficient de corelaţie, foarte uşor de calculat, are, însă, o problemă. Aţi observat că cele două
variabile utilizate se situează la un nivel scalar de măsură. După unii autori (Vasilescu, 1992, apud Yule şi
Kendall, 1969; Lohse, Kudwig şi Rohr, 1986), acest coeficient de corelaţie este inadecvat pentru ranguri,
deoarece presupune că datele au, toate, proprietăţile necesare pentru calcularea coeficienţilor parametrici.
Indicatorul reduce, de fapt, datele de la un nivel scalar la un nivel ordinal. În acest sens, mai adecvată ar fi
calcularea altor coeficienţi, specifici pentru rang (Vasilescu, 1992).
Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că poate fi folosit pentru date
parametrice care nu îndeplinesc condiţiile aplicării de teste parametrice, coeficientul ρ Spearman are o largă
utilizare. În general, folosim acest coeficient de corelaţie atunci când ambele variabile se află la un nivel de
măsură ordinal, când o variabilă se află la un nivel ordinal, iar cealaltă la un nivel scalar, ori când ambele se
află la nivel scalar, dar cel puţin una dintre ele nu prezintă o distribuţie normală.
Semnificaţia coeficientului de corelaţie ρ Spearman
În cazul studiilor corelaţionale, şi nu numai, nu este suficientă obţinerea coeficientului de corelaţie
pentru a respinge sau nu ipoteza nulă. Ştim foarte bine că avem nevoie şi de pragul de semnificaţie care ne
arată, practic, ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantionare. Putem
accepta semnificaţia acestui indicator şi respinge ipoteza nulă, doar dacă această şansă este mai mică de 5%,
cu alte cuvinte, dacă ne situăm la un prag de semnificaţie mai mic de 0,05.
Cea mai simplă metodă de a determina semnificaţia coeficientului de corelaţie a rangurilor ρ este
aceea în care putem compara valoarea acestuia cu valoarea de referinţă pentru nivelul de semnificaţie dorit,
valoare publicată în tabele speciale. Stabilirea modului în care au fost construite aceste tabele nu face
obiectul prezentei lucrări, deoarece calculele sunt mai complicate şi s-au realizat în decursul anilor pe
eşantioane de diferite dimensiuni, folosindu-se distribuţii teoretice de probabilităţi. În anexa 1 am furnizat
un asemenea tabel. Dacă reluăm exemplul nostru, am obţinut un coeficient de corelaţie a rangurilor de 0,96,
studiind un lot de cercetare de 10 elevi. În prima coloană avem mărimea eşantionului. Dacă nu găsim
numărul exact de cazuri, vom lua valoarea inferioară cea mai apropiată. În situaţia noastră, avem 10
subiecţi, iar rândul care ne interesează este al şaselea rând din acel tabel, unde avem numărul 10 pe coloana
n. Observăm că pentru a fi semnificativ la un prag de semnificaţie mai mic de 0,05, coeficientul ρ trebuie să
aibă cel puţin valoarea 0,648. Dacă dorim să fim mai riguroşi, la un prag de semnificaţie mai mic de 0,02,
valoarea acestui coeficient trebuie să fie mai mare de 0,735 iar la un prag mai mic de 0,01, coeficientul
trebuie să depăşească valoarea 0,794. Coeficientul nostru de corelaţie a rangurilor este de 0,96 şi constatăm
că ne aflăm la un prag de semnificaţie mai mic de 0,01. Putem spune că există o legătură puternică între
cele două variabile, la un prag de semnificaţie mai mic de 0,01.
În condiţiile în care numărul de subiecţi este mai mare de 10, putem testa semnificaţia coeficientului
de corelaţie a rangurilor ρ Spearman şi în alt mod, folosind distribuţia t, deoarece am arătat faptul că acest
coeficient nu este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, despre care vom
discuta mai târziu.
𝑛−2
t = 𝜌 √1− 𝜌2 (formula 1.4)
În situaţia noastră, am obţinut un coeficient de corelaţie a rangurilor ρ de 0,96 pentru un număr de 10
subiecţi. Valoarea testului t va fi:

𝑛−2 10−2 8
t = 𝜌 √1− 𝜌2 = 0.96 √1− 0.962 = 0.96 √0.08 = 0.96 x 10 = 9.6
În tabelul din anexa 4 referitor la distribuţia t, vom căuta semnificaţia valorii testului t pentru un
număr de 10-2=8 grade de libertate. La un număr de 8 grade de libertate, pentru a fi semnificativă corelaţia,
valoarea testului t trebuie să depăşească 1,86 la un prag de semnificaţie mai mic de 0,05 şi 2,89 la un prag
de semnificaţie mai mic de 0,01. Rezultatul obţinut, 9,60, este mai mare de 2,89, rezultând că acest
coeficient de corelaţie ρ = 0,96 este semnificativ la un prag de semnificaţie p < 0,01.
O altă variantă prin care putem testa semnificaţia acestui coeficient de corelaţie, are în vedere faptul
că pentru eşantioane mari, distribuţia se apropie de o distribuţie normală şi putem calcula statistica z, după
formula:
z = ρ √𝑛 − 1 (formula 1.5)
În situaţia noastră, statistica z va fi 2,88. Raportat la distribuţia z, coeficientul arată o valoare puternic
semnificativă a corelaţiei, la un prag de semnificaţie mai mic de 0,01.
z = ρ √𝑛 − 1 = 0.96 √10 − 1 = 0.96 x 3 = 2.88
Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de corelaţie direcţional şi poate
avea valori cuprinse între -1 şi +1. Valorile apropiate de +1 indică existenţa unei asocieri directe (pozitive)
între cele două variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri inverse (negative).
Cu cât valorile se apropie mai mult de 1 (indiferent de semn), cu atât asocierea este mai puternică,
variabilele fiind mai „legate” între ele.
 Un coeficient de corelaţie care are exact valoarea +1 arată că în cele două variabile există exact aceleaşi
ranguri ale scorurilor. Dacă Ionel obţine rangul 5 la matematică, obţine tot rangul 5 şi la fizică; Viorel are
rangul 7 la matematică şi rangul 7 la fizică; Viorica are rangul 3 la matematică şi rangul 3 la fizică şi aşa
mai departe.
 Un coeficient de corelaţie care are exact valoarea -1 arată că rangurile dintr-o variabilă sunt inversul
perfect al rangurilor din cealaltă variabilă. Dacă Dan are rangul 8 la matematică, are rangul 3 la fizică;
Mioara are rangul 6 la matematică şi rangul 4 la fizică; Costel are rangul 9 la matematică şi rangul 2 la
fizică.
 Un coeficient de corelaţie cu valoarea 0 semnifică lipsa oricărei legături între cele două variabile şi
spunem că cele două variabile sunt necorelate liniar între ele.
În practică nu găsim aproape niciodată aceste extreme (-1; 0; +1), decât în cazul în care copiem, pur şi
simplu, datele dintr-o variabilă într-o altă variabilă şi apoi calculăm coeficientul de corelaţie, ceea ce, fiind
vorba între noi, s-a mai văzut pe la unii studenţi în lucrările lor „ştiinţifice”. Cu cât valorile coeficientului de
corelaţie se apropie mai mult de zero, cu atât variabilele sunt necorelate, fără legătură între ele; cu cât sunt
mai apropiate de 1, cu atât sunt mai asociate, mai strâns legate, au elemente comune. Între aceste două
extreme, independenţă şi covarianţă, se situează întreaga filozofie şi întreaga putere a coeficienţilor de
corelaţie.
Există o legătură logică între mărimea coeficientului ce corelaţie şi semnificaţia acestuia. Nu trebuie
demonstrat faptul că în cazul în care coeficienţii de corelaţie se apropie de valoarea ±1, deci variabilele sunt
puternic asociate, această asociere este şi semnificativă, pragul de semnificaţie apropiindu-se de zero, în
timp ce la apropierea coeficientului de corelaţie de valoarea zero, pragul de semnificaţie se apropie şi el de
1, legătura nefiind semnificativă.
Am făcut aceste precizări în cadrul primului coeficient de corelaţie studiat, coeficientul de corelaţie ρ
Spearman. Informaţiile prezentate mai sus se aplică tuturor coeficienţilor direcţionali, astfel încât nu le vom
mai repeta în cazul altor coeficienţi de corelaţie, ci ne vom axa doar asupra posibilelor completări şi
proceduri speciale de calcul.
Un ultim aspect care merită a fi menţionat: coeficientul de corelaţie al rangurilor ρ Spearman este,
alături de marea majoritate a coeficienţilor de acest tip, adimensional şi situat la un nivel ordinal. Adică nu
are o unitate de măsură şi permite comparaţii directe. Putem compara un coeficient ρ cu un alt coeficient de
corelaţie, putem lucra cu mediana coeficienţilor de corelaţie, etc. Bineînţeles, fiind situat la un nivel de
măsură ordinal, nu putem calcula statistici metrice, nu putem vorbi de media coeficienţilor de corelaţie.
1.2. Coeficientul de corelaţie a rangurilor τ (tau) Kendall
Este un alt coeficient de corelaţie pentru date neparametrice,
dezvoltat de statisticianul englez Maurice Kendall în anul 1938, fiind mai
precis decât ρ Spearman în cazul variabilelor ce se situează într-un mod
real la un nivel pur ordinal. Procedurile de calcul ale acestui coeficient
diferă între ele, însă toate se bazează pe numărarea inversiunilor (cazul
în care un element care are un rang mai mare pentru o variabilă, se
situează în faţa unui element cu un rang mai mic, datele fiind ordonate
după cealaltă variabilă) şi a opusului acestora, numit şi proversiuni
(Vasilescu, 1992).
Ca să înţelegem mai bine cum stau lucrurile, să luăm un exemplu. Să presupunem că într-o clasă au
fost evaluaţi un număr de patru elevi la limba română şi la chimie, obţinându-se rezultatele din tabelul 1.4.
Aceste date nu pot fi asociate unor date la un nivel scalar, fiind în mod cert date ordinale.
Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu 3, foarte bine cu 4 şi
excepţional cu 5, putem obţine expresia numerică a acestor evaluări. Vă reamintesc faptul că aceste cifre nu
reprezintă decât nişte coduri asociate calificativelor şi nu au valoare în sine. La acest nivel putem doar
ordona elevii în funcţie de calificative (de la nesatisfăcător la excepţional) şi nu putem preciza cu cât un
elev este mai bun decât celălalt (vezi referinţele la scale de măsură din
lucrarea anterioară).
Calcularea numărului de inversiuni se face prin ordonarea datelor
după prima variabilă. Ordonând datele, tabelul se prezintă în felul următor
(tabelul 1.5).
Inversiunile vor fi calculate în baza celei de-a doua variabile
(chimie) urmărindu-se, pe rând, ordinea naturală a rangurilor. Pentru
prima linie, subiectul are rangul 3 la chimie. Acest rang este mai mare
decât rangul la chimie pentru a doua linie (1), deci avem de-a face cu o
inversiune. Prima inversiune găsită este (3 – 1). Comparând prima linie cu a treia (rangul 3 cu rangul 4, tot
pe coloana „chimie”), observăm că cele două ranguri sunt în ordine naturală, deci nu apare o inversiune în
acest caz. O altă inversiune apare la compararea primei linii cu ultima (inversiunea 3 – 2).
A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordinea naturală (atât comparaţia
rangului 1 cu rangului 4 cât şi comparaţia rangului 1 cu rangului 2), lucru evident, deoarece rangul acestei
linii este 1 şi nu există nici un rang mai mic decât 1. A treia linie presupune compararea rangului 4 cu
rangul 2 (liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune sub forma perechii 4 – 2.
Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3 inversiuni (perechile 3 – 1, 3 –
2 şi 4 – 2) şi un număr de 3 proversiuni (perechile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se
face diferit, în funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang. În cazul nostru, observăm că
nu există elemente cu acelaşi rang, situaţie în care putem aplica prima formulă de calcul a coeficientului τ
Kendall:
4xI
τ = 1 - 𝑛 (𝑛−1) (formula 1.6), unde I - reprezintă numărul de inversiuni, iar n numărul de subiecţi
Înlocuind în formula noastră, unde au fost 3 inversiuni şi 4 subiecţi, obţinem următorul coeficient de
corelaţie a rangurilor:
4xI 4x3 12
τ=1- =1- =1- =1-1=0
𝑛 (𝑛−1) 4 (4−1) 12
Iată o primă situaţie în care nu există nici o legătură între cele
două variabile. Acest lucru se datorează, evident, numărului extrem de
mic de subiecţi luaţi în calcul, faptului că informaţia este insuficientă
pentru a ne permite formularea unor concluzii utile. Acest coeficient de
corelaţie se mai numeşte coeficientul de corelaţie τa . Există şi alte
variante ale acestui coeficient, având exact aceeaşi semnificaţie, (τb şi
τc ), pe care nu le vom discuta aici. Menţionăm numai ca τb se
foloseşte în cazul variabilelor cu un număr egal de modalităţi de
realizare (tabele pătratice), iar τc se foloseşte în cazul variabilelor cu un
număr inegal de modalităţi de realizare (tabele rectangulare).
Dacă există elemente cu acelaşi rang în cazul celei de-a doua
variabile, lucrurile se complică puţin. Vom relua exemplul anterior
pentru 5 subiecţi, la aceleaşi discipline (tabelul 1.6).
Observăm că în cazul primei variabile nu avem ranguri care se repetă, în timp ce pentru variabila
chimie avem două cazuri în care se repetă calificativul foarte bine. În aceste situaţii, ordonăm datele după
variabila care nu are elemente cu acelaşi rang – în cazul nostru, după variabila română. Ştim că dacă două
sau mai multe elemente ocupă aceeaşi poziţie, rangul lor devine media poziţiilor pe care se află. Cele două
elemente cu calificativul foarte bine ocupă poziţiile 4 şi 5, rangul lor fiind acelaşi, 4,5. Aceste elemente
poartă numele de ambiversiuni şi reprezintă un nou concept în calculul coeficientului de corelaţie, alături
de inversiuni şi proversiuni.
În condiţiile în care nu sunt elemente cu ranguri egale, atunci putem spune că numărul inversiunilor şi
𝑛(𝑛−1)
cel al proversiunilor este egal cu suma primelor n-1 numere naturale. Adică I + P = 2 . Din acest lucru
putem deduce un alt element, numit suma lui Kendall şi notat cu S. Suma lui Kendall se defineşte după
𝑛(𝑛−1)
formula S = 2 − 2 𝑥 𝐼. Dacă nu ar exista inversiuni, adică I=0, atunci s-ar obţine valoarea maximă a
𝑛(𝑛−1)
acestei sume, astfel încât 𝑆𝑚𝑎𝑥 = 2 .
În baza acestor sume, formula generalizată a coeficientului de corelaţie a rangurilor τ Kendall devine:
𝑆 4𝑥𝐼
τ= =1- (formula 1.7)
𝑆𝑚𝑎𝑥 𝑛 (𝑛−1)
Practic nu am făcut decât să generalizăm formula anterioară de calcul a acestui coeficient, pentru a
include un alt element şi anume cel de corecţie a ambiversiunilor. Dacă apar ambiversiuni, suma maximă
se reduce cu acest element de corecţie, după formula următoare:
𝑝(𝑝−1)
A = ∑𝑛𝑝=2 2 x 𝑓𝑝 (formula 1.8)
unde 𝑓𝑝 este numărul de asocieri de p elemente şi p se referă la numărul elementelor.
În exemplul nostru, avem o singură pereche de elemente, şi anume cele cu rangurile 4,5. Astfel,
2(2−1) 2
valoarea A devine A = 2 x 1 = 2 x 1 = 1. Pentru o clarificare mai bună a modalităţii de calcul al acestui
element, să luăm un alt exemplu de ranguri:
Note: 2; 3; 5; 5; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12
Poziţie: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14
Rang: 1; 2; 4; 4; 4; 6; 7,5; 7,5; 9; 10; 11,5; 11,5; 13; 14
Observăm că avem două perechi de elemente (7 cu rangurile 7,5 şi 10 cu rangurile 11,5) şi o asociere
2(2−1) 3(3−1)
cu 3 elemente (5 cu rangurile 4). Aplicând formula pentru ambiversiune, obţinem A = ( 2 x 2) + ( 2
x 1) = 2 + 3 = 5
Existenţa acestor ambiversiuni reduce atât numărul maxim de legături ierarhice, cât şi suma lui
𝑛(𝑛−1) 𝑛(𝑛−1)
Kendall, cu valoarea inversiunilor (Vasilescu, 1992). Astfel, 𝑆𝑚𝑎𝑥 = 2 - A şi, de asemenea, S = ( 2
– 2 x I) - A . Cunoscând acum aceste date şi formula generalizată pentru coeficientul τ Kendall de corelaţie
a rangurilor, putem deduce cu uşurinţă noua formulă pentru cazul în care una dintre variabile are elemente
de acelaşi rang.
𝑛(𝑛−1)
𝑆 ( – 2 𝑥 𝐼) − 𝐴
τ=𝑆 = 2
𝑛(𝑛−1) (formula 1.9)
𝑚𝑎𝑥 −𝐴
2
Reluând exemplul de mai sus, avem un număr de 3 inversiuni
(3 – 1; 3 – 2; 4,5 – 2) şi o ambiversiune (4,5 – 4,5). Toate datele sunt
cunoscute şi nu ne rămâne decât să înlocuim în formulă, obţinând
coeficientul τ Kendall de 0,55.
𝑛(𝑛−1) 5(5−1)
𝑆𝑚𝑎𝑥 = 2 – 𝐴 = 2 – 1 = 9
𝑛(𝑛−1 5(5−1
S =( − 2 𝑥 𝐼) − 𝐴 =( − 2 x 3) − 1 =10 – 6 – 1 = 5
2 2
5
τ = 9 = 0.55
Deşi este puţin mai complicat şi presupune calculul unui
indicator suplimentar, algoritmul nu pune probleme deosebite.
Să vedem în continuare modul de calcul al acestui coeficient în
condiţiile în care ambele variabile au elemente de acelaşi rang. De data
aceasta, algoritmul implică mai multe etape, deoarece avem
ambiversiuni atât în cazul primei variabile, cât şi în cazul celei de-a
doua variabile. Suma Kendall va deveni S = (𝑆+ + 𝑆_)/2, iar suma maximă se calculează în baza formulei
𝑛(𝑛−1) 𝑛(𝑛−1)
𝑆𝑚𝑎𝑥 = √( – 𝐴𝑥)( – 𝐴𝑦), unde Ax şi Ay sunt ambiversiunile din cele două variabile, iar 𝑆− şi
2 2
𝑆+ sunt sumele calculate numai din rangurile celei de-a doua variabile. Nu va speriaţi. Clarificăm imediat
aceste concepte abstracte.
Având în vedere formula generalizată pentru coeficientul de corelaţie τ Kendall şi cunoscând sumele,
putem da expresia formulei de calcul a coeficientului, în condiţiile în care găsim ambiversiuni atât în prima,
cât şi în a doua variabilă:
(𝑆+ +𝑆_)
𝑆
τ=𝑆 = 2
(formula 1.10)
𝑚𝑎𝑥 𝑛(𝑛−1) 𝑛(𝑛−1)
√( – 𝐴𝑥)( – 𝐴𝑦)
2 2
Pentru a nu intra în detalii teoretice inutile, să considerăm că un număr de 8 elevi au obţinut
următoarele calificative la limba română şi la chimie (tabelul 1.7).
Datele din tabelul 1.7 nu sunt ordonate după nicio variabilă şi putem observa cu uşurinţă că atât
calificativele la limba română, cât şi cele de la chimie, vor conţine elemente cu ranguri egale.
Pentru a calcula 𝑆+ , se ordonează crescător elementele după prima variabilă (română). În cazul în care
întâlnim ranguri egale ale primei variabile (română), elementele vor fi aranjate crescător, în funcţie de a
doua variabilă (chimie). Obţinem, astfel, un nou şir numit în termeni de specialitate Y+, pe baza căruia
calculăm ambiversiunile Ay şi inversiunile, după care putem afla suma 𝑆+ , în mod similar sumei prezentate
în capitolul anterior. Vom rearanja tabelul de mai sus pentru a putea calcula mai uşor aceste elemente.
Suma 𝑆+ se
va calcula ţinând
cont doar de
rangurile celei
de-a doua
variabile, în cazul
nostru, chimia.
Din tabelul 1.8
observăm că apare de două ori rangul 2,5, de trei ori rangul 5 şi de 2 ori rangul 7,5. Numărul de legături
𝑝(𝑝−1) 2(2−1) 3(3−1)
ambiverte (Ay) va fi, prin urmare, Ay = ∑𝑛𝑝=2 2 x 𝑓𝑝 = ( 2 x 2) + ( 2 x 1) = 5, deoarece avem
două legături cu 2 elemente şi o singură legătură cu 3 elemente.
Perechile de inversiuni în variabila chimie vor fi (2,5 – 1), (5 – 2,5), (5 – 2,5), (7,5 – 2,5), (7,5 – 5), (5
– 7,5), vorbind, astfel, de un număr de 6 inversiuni. Cu toate aceste elemente putem acum calcula suma S+,
aplicând formula de mai sus şi obţinem valoarea 11.

Calcului
sumei 𝑆− se face în
mod similar,
singura diferenţă
este că la ranguri
egale ale primei
variabile,
elementele celei
de-a doua variabile se ordonează descrescător, obţinându-se şirul Y-, restul algoritmului rămânând
neschimbat.
Fiind acelaşi număr de ranguri egale în cea de-a doua variabilă, indicele legăturilor ambiverte nu se
schimbă. Se modifică doar numărul de inversiuni în acest caz, astfel (2,5 – 1), (5 – 1), (5 – 2,5), (7,5 – 5),
(7,5 – 5), (7,5 – 2,5), (5 – 2,5), (5 – 2,5), rezultând un număr de 8 inversiuni. Înlocuind în formulă, vom
avea 𝑆− în valoare de 7.

Având valorile pentru 𝑆+ şi 𝑆− , putem acum calcula suma lui Kendall

Pentru a putea calcula Smax ,va trebui să aflăm doar numărul de legături ambiverte din prima
variabilă (Ax), în cazul nostru limba română. Avem trei legături de câte 2 elemente, 2,5 4,5 şi 6,5. Ştim
acum formula de calcul şi putem afla uşor această valoare

Nu ne rămâne decât să completăm formula de calcul şi obţinem valoarea 23,97.

Coeficientul de corelaţie τ Kendall, în acest caz ca raport al celor două sume, devine
9
τ = 23.97 = 0.37
Se pare că v-aţi obişnuit cu mai puţine calcule în lucrarea anterioară. Aceasta este situaţia. În
definitiv, am trecut la stabilirea relaţiilor dintre variabile, nu mai lucrăm cu una, ci cu două variabile în
acelaşi timp şi este normal să se complice puţin şi calculele. Din fericire, aveţi ceva mai mult de adunat,
scăzut sau înmulţit iar formulele vă pot speria doar la prima vedere. În definitiv, algoritmii de calcul sunt
destul de simpli. Singura problemă este aceea că la un număr mare de subiecţi trebuie să fiţi extrem de
atenţi, altfel vă puteţi încurca uşor. Bine că avem, însă, computerele care ne scot din impas. Imaginaţi-vă
doar cum lucrau cercetătorii prin anii `30 ai secolului XX şi veţi putea înţelege ce norocoşi suntem noi
acum.
Acest coeficient de corelaţie se poate utiliza în condiţiile în care ambele variabile sunt ordinale sau o
variabilă este ordinală, iar cealaltă este scalară.
Semnificaţia coeficientului τ Kendall
Care este semnificaţia coeficientului de corelaţie τ Kendall? Deoarece acest coeficient se bazează
practic pe numărarea perechilor diferite provenite din două şiruri ordonate de date, ea nu reprezintă altceva
decât o diferenţă dintre probabilitatea elementelor de a fi în aceeaşi ordine şi probabilitatea elementelor de a
fi într-o altă ordine (Kenny, 1987).
Coeficientul τ Kendall este un coeficient direcţional, având aceeaşi semnificaţie interpretativă ca şi
coeficientul ρ Spearman. În anexa 2 am furnizat tabelele de referinţă ale valorilor acestui coeficient pentru
diferite praguri de semnificaţie.
Deoarece la valori mari ale numărului de subiecţi, distribuţia τ Kendall se apropie de distribuţia
normală, este posibil, atunci când numărul de subiecţi este mai mare de 30, să se calculeze statistica z
pentru coeficientul de corelaţie τ Kendall, după formula următoare:

Dacă am obţine un coeficient de corelaţie τ Kendall de 0,42 pe un număr de 34 de subiecţi, atunci


statistica z a acestui coeficient devine 5,25, valoare puternic semnificativă ce indică legătura dintre cele
două variabile analizate.

Statistica z a coeficientului de corelaţie τ Kendall se raportează la distribuţia z, pe baza tabelelor de


distribuţie z prezentate în anexa 8.
1.3. Coeficientul de contingenţă χ2 (chi pătrat)
Este greu de definit χ2. A fost conceput de Pearson şi putem afirma, fără să ne înşelăm prea tare, că
statisticile neparametrice încep şi se termină cu χ2, atât de mare este importanţa acestui indicator utilizat în
studii corelaţionale şi factoriale cu date nominale. Rolul său este esenţial în analiza datelor nominale,
coeficientul putând fi folosit în stabilirea relaţiilor dintre două variabile dihotomice, ale unei variabile
dihotomice cu una nominală, şi ale celor în care intervin o variabilă nominală şi una ordinală, sau o
variabilă nominală şi una scalară. Practic, atunci când avem de a face cu o variabilă nominală, cel mai
pertinent indicator este acest χ2.
χ2 este un coeficient de asociere între două variabile nominale. El măsoară gradul de contingență al
celor două variabile, verificând dacă sunt sau nu sunt asociate în vreun fel. În realitate, acest coeficient pare
mai degrabă un test statistic decât un indicator al gradului de asociere. Spre exemplu, avem o cercetare în
care dorim să stabilim în ce măsură se asociază genul biologic al unor subiecţi şi calitatea de fumător.
Suntem în situaţia unei variabile nominale şi a unei variabile dihotomice. În acest caz vom utiliza aşa-
numitele tabele de contingenţă, pe baza cărora vom calcula χ2.
La această cercetare au participat un număr de 206 persoane, 99 bărbaţi şi 107 femei. Dintre aceştia,
58 sunt fumători, iar 148 nefumători.
Ipoteza nulă de la care pleacă χ2 este Tabelul 1.10 – Tabelul de contingență cu frecvențele estimate pentru 𝜒 2
aceea conform căreia nu există nicio asociere
Calitatea fumător
între aceste două variabile. Cu alte cuvinte, Da Nu
frecvenţele de apariţie ale cazurilor nu sunt Bărbați
35 64 Bărbați
diferite de situaţia în care toate cele patru Gen biologic (27.87) (71.12) 99
23 84 Femei
variante ar avea o frecvenţă de apariţie teoretică Femei
(30.12) (76.87) 107
(frecvența corespunzătoare situației în care cele Fumători Nefumători Total
două variabile ar fi independente). Datorită 58 148 206
acestui fapt, atunci când lucrăm cu χ2, ne putem exprima în frecvenţe relative sau în frecvenţe absolute.
Ideea testului χ2 este aceea a comparării acestor frecvenţe observate cu situaţia în care celulele ar avea
frecvenţele teoretice estimate, prin frecvențe teoretice estimate înțelegând frecvențele pentru cazul în care
cele două variabile ar fi independente. Dacă diferenţele între frecvenţele observate şi cele estimate
(teoretice) sunt mari, atunci vorbim de un χ2 semnificativ, fapt care indică existenţa unei asocieri între cele
două variabile. Dar cum se obţine practic acest lucru? Primul pas este acela al calculării frecvenţelor
estimate pentru fiecare dintre cele patru celule care ne interesează. Acest lucru se face foarte simplu pe baza
formulei:

99x58
Pentru prima coloană (bărbaţi fumători) vom avea o frecvenţă estimată de 𝐹𝑒𝑠𝑡 = = 27.87. Pentru
206
99x148
bărbaţi nefumători avem 𝐹𝑒𝑠𝑡 = = 71.12, pentru femeile fumătoare frecvenţa aşteptată devine 𝐹𝑒𝑠𝑡 =
206
107x58 107x148
= 30.12, iar pentru femeile nefumătoare vom avea 𝐹𝑒𝑠𝑡 = 206 = 76.87.
206
Odată stabilite frecvenţele teoretice (estimate), urmează calcularea coeficientului χ2. La acest nivel
putem distinge două situaţii.
 În cazul în care cel puţin una dintre cele două variabile are mai mult de două categorii (de exemplu
o variabilă de tipul ocupaţiei cu variantele muncitor, maistru şi inginer), se aplică formula generală a
coeficientului χ2.

 Dacă cele două variabile au exact câte două categorii fiecare, atunci se aplică o formulă de corecţie
pentru continuitate.

Noi ne aflăm în cea de-a doua situaţie, astfel încât vom aplica, pentru fiecare dintre cele patru celule,
formula corectată şi vom obţine valoarea 4,2 pentru coeficientul de contingenţă χ2.

Ce facem acum cu acest coeficient obţinut? Va trebui să-l verificăm la un prag de semnificaţie stabilit,
pentru a vedea dacă putem sau nu respinge ipoteza nulă. Dar înainte de aceasta vom stabili gradele de
libertate. Ştiu că nu aveţi o idee prea clară referitoare la acest concept. Aveţi răbdare, o vom discuta
imediat. În cazul nostru, gradele de libertate se calculează înmulţind numărul categoriilor fiecărei variabile
din care se scade unu. Adică, df=(CatX-1)(CatY-1). Noi avem două variabile cu două categorii şi rezultă (2-
1)(2-1)=1 grad de libertate. În
acest moment avem toate
informaţiile pentru a stabili dacă
acest coeficient de contingenţă
este sau nu este semnificativ.
Coeficientul de
contingenţă χ2, după cum aţi
putut constata, este simplu de
înţeles şi de calculat. De aceea,
voi „risca” să abordez, în cele ce
urmează, o perspectivă ceva mai
„matematizată” asupra datelor
neparametrice, deoarece un stil asemănător îl puteţi întâlni în cele mai multe lucrări din acest domeniu.
Tabelele de contingenţă (asociere) sunt intens folosite atunci când lucrăm cu date discrete. În
momentul în care reprezentăm, folosind un asemenea tabel, doar două variabile, vorbim de tabele de
contingenţă bidimensionale, deoarece există posibilitatea reprezentării mai multor variabile în acelaşi tabel,
caz în care ne vom referi la tabele de contingenţă multidimensionale.
În tabelul 1.11 v-am furnizat reprezentarea generală a unui tabel de contingenţă bidimensional.
Putem observa că variabila X are un număr de i categorii (unde, spre exemplu, i poate fi 2, în cazul
variabilei sex – masculin şi feminin, ori 4 în cazul culorii ochilor – albastru, verde, negru, căprui), iar
variabila Y are un număr de j categorii. Prin însumarea datelor, la nivelul fiecărei categorii, obţinem un nou
tip de rubrică, numită secţiunea datelor marginale. Coloana „Total X”, respectiv linia „Total Y” se referă
exact la acest tip de date.
Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja, cu litera n, căreia i se adaugă
indici arătând numărul liniei și numărul coloanei. Astfel, subiecţii din categoria 1 pentru variabila X şi
categoria 1 pentru variabila Y, se notează cu n11 (spre exemplu, bărbaţii cu ochi albaştri). Subiecţii din
categoria 2 pentru variabila X şi din categoria 1 pentru variabila Y se notează cu n21 (de exemplu femeile cu
ochi albaştri) şi aşa mai departe. Generalizând parţial, vom spune că subiecţii din categoria 1 pentru
variabila X şi din categoria j pentru variabila Y se notează n1j; similar, subiecţii din categoria 1 pentru
variabila Y şi din categoria i pentru variabila X se notează ni1. Înţelegând acest stil de notare, vom spune că
numărul de subiecţi din categoria i în cazul variabilei X şi din categoria j în cazul variabilei Y se poate nota
nij.
Rezultatele marginale urmează aceeaşi logică. Toţi subiecţii aflaţi în categoria 1 a variabilei X sunt
reprezentaţi de ΣnX1 (de exemplu, toţi bărbaţii, indiferent de culoarea ochilor). Toţi subiecţii aflaţi în
categoria 1 a variabilei Y sunt reprezentaţi de ΣnY1 (de exemplu, toţi subiecţii cu ochi albaştri, indiferent de
sex). În general, toţi subiecţii din categoria i a unei variabile şi din categoria j a celeilalte variabile sunt
reprezentaţi de Σnij.
Referindu-de strict la χ2, putem raţiona în acelaşi mod atunci când vorbim despre frecvenţele
estimate, notate în cazul nostru cu e. Nu vom detalia raţionamentul, vă lăsăm pe dumneavoastră să o faceţi.
Cunoscând toate aceste date, să revedem formula pentru χ2, în condiţii de maximă generalitate. Vă
reamintim formula iniţială, apoi vom proceda la deducerea noii formule.

Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar notaţia şi modul în care s-au
abstractizat conceptele. Formula 1.15 este valabilă doar dacă cel puțin una dintre variabile are mai mult de
două categorii.
Desigur, intuiesc întrebarea care vă vine în minte în acest moment. Probabil că vă gândiţi la ce
foloseşte complicarea lucrurilor. Nu era suficientă o singură formulă? Nu ajunge prezentarea modalităţii
efective de calcul? De ce avem nevoie de formule generalizate şi alte asemenea lucruri care ţin mai mult de
o abordare matematică? Răspunsul comportă o serie de aspecte. În primul rând, formule de acest tip, şi
altele, mult mai complexe, găsiţi în lucrări de specialitate, comunicări ştiinţifice şi articole. Este bine să le
puteţi înţelege şi să puteţi lucra cu ele. În al doilea rând, cel mai probabil că în carieră veţi fi pus în situaţia
de a redacta un articol ştiinţific. Normele de acceptare şi de publicare ale unor asemenea lucrări impun
prezentarea formulelor generalizate, folosindu-se notaţii universale. În al treilea rând, vă dezvoltaţi, pas cu
pas, gândirea matematică şi vă familiarizaţi cu limbajul. Vrem nu vrem, statistica este totuşi o ramură a
matematicii, iar noi nu putem face abstracţie de acest lucru.
Semnificaţia coeficientului de contingenţă χ2
Acest coeficient este unul nedirecţional şi dimensional; nu putem compara acest coeficient cu alţi
coeficienţi de asociere. Această ultimă situaţie creează probleme în interpretare, probleme legate de
magnitudinea asocierii dintre cele două variabile.
După stabilirea gradelor de libertate, comparăm coeficientul obţinut cu valoarea de referinţă a
distribuţiei χ2 pentru numărul de grade de libertate găsit. Tabelul distribuţiei χ2 pentru diferite grade de
libertate este prezentat în anexa 3.
În cazul nostru, avem o valoare χ2 de 4,2 la un număr de 1 grade de libertate. Parcurgând prima linie,
corespunzătoare unui singur grad de libertate, observăm că acest coeficient este semnificativ la un prag de
semnificaţie mai mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de referinţă pentru
acest prag. Coeficientul nu este semnificativ la un prag de semnificaţie mai mic de 0,02 sau mai mic de
0,01, deoarece 4,2, pe care l-am obţinut, este mai mic decât valoarea de referinţă pentru pragul de
semnificaţie 0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdată spune care este intensitatea,
magnitudinea acestei asocieri, din motivele expuse mai sus. Coeficientul de contingenţă χ2 permite doar
identificarea unei contingenţe între variabile. Nu putem fi siguri, însă, de intensitatea acesteia.
Observăm că acest coeficient este sensibil la mărimea lotului de cercetare. Dacă lotul de cercetare este
prea mic, χ2 va fi supraestimat; dacă lotul de cercetare este prea mare, χ2 poate fi subestimat. Va fi
necesară, aşadar, găsirea unei soluţii de standardizare, soluţie prin care să evităm aceste supra sau
subestimări şi să găsim magnitudinea contingenţei. Pentru a se elimina aceste dezavantaje, au fost calculaţi
alţi coeficienţi derivaţi din χ2, şi anume coeficientul de asociere φ, coeficientul V Cramer, coeficientul de
contingenţă (cc) şi alţii.
1.4. Coeficientul de asociere φ (phi), coeficientul V Cramer şi coeficientul de contingenţă (cc), derivaţi
din χ2
Coeficientul de asociere φ este un coeficient foarte simplu, derivat din χ2 şi se calculează pentru
două variabile dihotomice, care înregistrează, în special, prezenţa sau absenţa unei caracteristici. Dacă ne
interesează relaţia dintre ochii albaştri şi părul blond, vom putea concepe două variabile prin care să stocăm
prezenţa şi absenţa ochilor albaştri, respectiv prezenţa şi absenţa părului blond. Evident, ambele variabile
sunt la un nivel nominal de măsură, şi se
bazează pe un tip special de distribuţie
discretă, astfel încât coeficientul φ este un
coeficient ce lucrează cu frecvenţe absolute
sau relative. La modul general, tabelul de
lucru (Tabelul 1.12) se prezintă sub forma
unei structuri cu 4 celule.
În calculul acestui coeficient suntem interesaţi doar de câteva cazuri: cazul în care sunt prezente
caracteristicile pentru ambele variabile (celula Prezent X şi Prezent Y), cazul în care este prezentă doar
variabila X (suma celulelor Prezent X, Prezent Y şi Prezent X, Absent Y) şi cazul în care este prezentă doar
variabila Y (suma celulelor Prezent X, Prezent Y şi Absent X, Prezent Y). Formula de calcul a acestui
coeficient este:

Această formulă nu este, practic, altceva decât rădăcina pătrată din raportul dintre χ2 şi numărul de
𝝌𝟐
cazuri. Putem spune că φ = √ 𝒏
Să reluăm exemplul legăturii dintre
prezenţa părului blond şi prezenţa ochilor
albaştri (Tabelul 1.13).
Avem următoarele date: un număr
de 80 de blonzi cu ochi albaştri (PXY), un
număr total de 134 de blonzi (PX) şi un
număr total de 113 persoane cu ochi
albaştri (PY). Sigur că posedăm toate
datele necesare pentru a calcula coeficientul φ. Putem înlocui în formulă aceste frecvenţe absolute sau
putem converti frecvenţele absolute în proporţii, pentru evitarea numerelor kilometrice. În definitiv,
rezultatul va fi acelaşi. La cercetarea noastră au participat un număr de 80+54+33+48=215 persoane.
Proporţia blonzilor cu ochi albaştri este PXY=80/215=0,37, proporţia blonzilor PX=134/215=0,62 şi
proporţia celor cu ochi albaştri este de PY=113/215=0,52. Aceste date pot fi acum introduse în formulă,
obţinându-se valoarea 0,21 pentru coeficientul de corelaţie φ.
Acest coeficient de corelaţie se foloseşte doar într-un singur caz, respectiv cel în care ambele variabile
sunt dihotomice. În cazul în care una dintre variabile nu mai este dihotomică, acest coeficient devine
nerelevant.
Pearson, autorul acestui coeficient, a sesizat această dificultate în utilizarea lui; dacă dimensiunea
tabelului de contingenţă creşte (dacă una dintre variabile nu mai este dihotomică), amplitudinea acestui
coeficient creşte şi ea (Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variantă ajustată,
numită ajustarea Sakoda, rezultând coeficientul de contingenţă Pearson.
Coeficientul de contingenţă Pearson reprezintă o altă variantă derivată din χ2, de fapt fiind vorba
despre coeficientul φ ajustat, şi se calculează în baza formulei următoare:

Nu intrăm în detalii legate de acest coeficient, simplitatea lui excluzând orice fel de comentarii. Vom
înlocui doar în formulă datele utilizate în exemplul anterior.

Coeficientul de contingenţă nu este altceva decât o formă ajustată a coeficientului de asociere φ,


putând fi utilizat pentru orice tip de variabile neparametrice. Dacă nu mă credeţi, aplicaţi a doua formulă a
coeficientului de asociere φ, bazată pe valoarea lui χ2, şi veţi obţine acelaşi rezultat.
Coeficientul de contingenţă Tschuprow se notează cu t (nu este acelaşi lucru cu testul de diferenţă
semnificativă între mediile eșantioanelor, Student t) şi are, la bază, de această dată, coeficientul φ.
A fost propus în anul 1919 de către matematicianul rus Alexander Alexandrovici Tschuprow, formula
de calcul fiind:

Acest coeficient ţine seama doar de numărul de categorii din cadrul fiecărei variabile şi de valoarea
lui φ, fiind vorba, de fapt, de o ajustare a acestui coeficient, similară celei efectuate de Pearson.
Dacă reluăm exemplul relaţiei dintre ochii albaştri şi părul blond, în care am obţinut φ=0,21,
observăm că fiecare variabilă are doar două categorii. În acest caz, coeficientul de contingenţă Tschuprow
devine:

Desigur, am obţinut valoarea iniţială a coeficientului φ. În realitate, acest coeficient ajustează valoarea
lui φ în condiţiile în care cel puţin una dintre variabile prezintă mai mult de două categorii, fiind o versiune
mai precisă a coeficientului de contingenţă Pearson.
Coeficientul de asociere v Cramer se foloseşte în cazul în care cel puţin una dintre variabile are mai
mult de două modalităţi de realizare şi poate fi definit după formula următoare:

unde l reprezintă minimum dintre numărul liniilor şi numărul coloanelor, iar n numărul subiecților.
Dacă o variabilă are 3 categorii şi una 2 categorii, atunci l va lua valoarea 2, valoarea variabilei cu
cele mai puţine categorii.
Reluând exemplul utilizat la analiza coeficientului ce contingenţă χ2, am avut fumătorii şi genul
biologic, variabile cu două categorii fiecare, deci l va avea valoarea 2. În acelaşi timp, numărul total a fost
de 206 subiecţi pentru care am obţinut valoarea 4,2 pentru χ2. Înlocuind în formulă, obţinem 0,14 valoarea
coeficientului de asociere v Cramer.

Semnificaţia coeficienţilor de asociere


Aceşti coeficienţi de asociere au fost stabiliţi în ideea compensării dezavantajelor coeficientului de
contingenţă χ2. Prin urmare, toate interpretările legate de semnificaţia acestora se bazează pe interpretarea
coeficientului χ2, de aceea nu vom intra în detalii. Practic, întâi se interpretează semnificaţia lui χ2 la un
prag de semnificaţie stabilit şi apoi intensitatea asocierii în baza unuia dintre coeficienţi.
Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea 0,14. Am arătat deja că această
valoare este semnificativă la un prag de semnificaţie mai mic de 0,05 (χ2 avea valoarea 4,2; pragul de
semnificaţie la un număr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de contingenţă
putem deduce faptul că asocierea dintre cele două variabile este slabă (vom vedea imediat ce înseamnă
acest lucru), însă semnificativă. Iată că pe baza acestor coeficienţi derivaţi, putem stabili acum şi
intensitatea contingenţei.
Toţi coeficienţii sunt nedirecţionali. Aceasta înseamnă că pot lua valori cuprinse între 0 şi 1, unde
apropierea de zero indică lipsa asocierii dintre variabile, iar valorile apropiate de 1 arată puterea asocierii
acestora.
O singură observaţie se mai impune la acest capitol. Mă veţi întreba, desigur, cum stabilesc
semnificaţia pentru coeficientul φ, dacă aplic direct prima formulă de calcul, fără să mai ajung la χ2? Nu
întâmplător am dat a doua formulă. Dacă ştiţi puţină matematică, veţi descoperi că:

Putem, practic, extrage valoarea lui χ2, dacă ştim numărul de subiecţi şi valoarea lui φ. În exemplul
nostru, φ avea valoarea 0,21, cercetare realizată pe 215 persoane. Atunci

Fiind un singur grad de libertate, observăm că această valoare este semnificativă, la un prag de
semnificaţie mai mic de 0,01. Putem spune că există o asociere slabă între părul blond şi ochii albaştri.
Adică, în majoritatea cazurilor, persoanele cu păr blond au şi ochii albaştri, restul situaţiilor fiind excepţii.
1.5. Coeficientul de asociere λ (lambda) Goodman şi Kruskal
Coeficientul λ a fost stabilit de Goodman şi Kruskal, prin anul 1980, alături de un alt coeficient
similar, coeficientul de asociere τ Goodman şi Kruskal, pe care nu-l vom aborda în această lucrare,
deoarece se referă aproximativ la acelaşi lucru. Se calculează în situaţia asocierii unei variabile nominale cu
o variabilă dihotomică, cu o altă variabilă nominală, cu o variabilă ordinală sau cu o variabilă scalară, în
condiţiile în care aceasta este grupată în clase.
Practic, acest coeficient se referă la cantitatea de cunoştinţe cuprinsă într-o variabilă, ce poate acoperi
informaţiile din cealaltă variabilă. Sau, cu alte cuvinte, având o anumită cantitate de informaţie în variabila
X, cât din variabila Y putem prezice? Formula de calcul este următoarea:

unde nMi este cea mai mare frecvenţă de pe rândul i şi Max(Cj) este frecvența cea mai mare dintre
frecvențele coloanelor, iar n se referă la numărul subiecților.
Ştiţi ce mă bucură acum cel mai tare? Faptul că nu vă mai speriaţi de formule. Aţi observat că ele
devin din ce în ce mai stufoase şi, totuşi, în realitate, aplicarea lor este foarte simplă. Să luăm un nou
exemplu. Presupunem că am desfăşurat o cercetare în cadrul căreia dorim să studiem asocierea între două
variabile: preferinţa pentru un partid politic (1 – PSD; 2 – PNL; 3 – PDL; 4 – PC şi 5 – PRM) şi nivelul de
stres al subiecţilor pe o scală Likert de la 1 la 5 (1 – Foarte slab; 2 – Slab; 3 – Mediu; 4 – Ridicat; 5 – Foarte
ridicat). Suntem în situaţia asocierii dintre o variabilă nominală (preferinţa pentru partide) şi o variabilă
ordinală (nivelul de stres). Vom construi tabelul de contingenţă pentru cele două variabile.
Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoane au un nivel de stres foarte
scăzut, 9 un nivel de stres scăzut, 7 un nivel de stres mediu, 4 ridicat şi o persoană prezintă nivelul stresului
foarte ridicat. Situaţia este analogă în cazul celorlalte partide.
Avem partidele afişate pe linii şi nivelul de stres pe coloane. În primul rând, va trebui să stabilim,
pentru fiecare linie, celula cu frecvenţa cea mai mare. Pentru PSD, categoria cu frecvenţa cea mai mare este
reprezentată de nivelul de stres foarte scăzut (12 persoane). Pentru PNL întâlnim categoria cu nivelul de
stres scăzut (45 de persoane), pentru PDL nivelul de stres mediu (42 de persoane), pentru PC tot nivelul de
stres mediu (10 persoane), iar pentru PRM nivelul de stres scăzut (5 persoane).
Efectuăm acum totalul pe
coloane. În mod clar, categoria cu
frecvenţa cea mai mare este cea a
stresului scăzut (82 de persoane), în
timp ce numărul total de participanţi la
studiu a fost de 244 de persoane. În
acest moment, informaţiile sunt
suficiente pentru a putea completa
formula.

Am obţinut acum valoarea 0,19 pentru acest coeficient, valoare pe care o vom analiza din punctul de
vedere al semnificaţiei.
Semnificaţia coeficientului λ
Coeficientul λ este un alt coeficient nedirecţional. Aceasta înseamnă că poate lua valori între 0 şi 1,
unde apropierile de zero ne arată că informaţiile conţinute într-o variabilă nu pot prezice cealaltă variabilă,
variabilele neavând nimic în comun, iar apropierile de 1 sunt semnificative pentru gradul de predicţie a
evoluţiei unei variabile, în baza informaţiilor conţinute în cealaltă variabilă.
Analiza semnificaţiei acestui coeficient se face în baza statisticilor z, iar valorile vor fi raportate la
distribuţia z. Prin urmare, va trebui să definim formula de calcul pentru statistica z a coeficientului λ şi apoi
să comparăm această valoare cu valorile de referinţă z la diferite praguri de semnificaţie. Pentru a vă
reaminti de semnificaţia notelor z, parcurgeţi capitolul referitor la distribuţia normală din lucrarea
anterioară. Formula de transformare a coeficientului λ în statistica z este următoarea:

unde λref înseamnă valoarea de referinţă λ, iar sλ reprezintă valoarea varianţei acestui coeficient
Deoarece acest coeficient măsoară cât dintr-o variabilă se poate găsi într-o altă variabilă, valoarea de
referinţă se exprimă sub formă de proporţii. Dacă presupunem că nivelul de stres influenţează preferinţele
pentru partidele politice, sau cu alte cuvinte putem prezice preferinţa pentru partide în baza analizei
nivelului de stres, atunci plecăm de la o bază, de la o referinţă, în care presupunem, de exemplu, că 10% din
nivelul de stres poate prezice preferinţa pentru partide. Această valoare de referinţă este aleasă în funcţie de
necesităţile cercetării. Soluţia pesimistă este aceea conform căreia valoarea de referinţă se apropie de zero.
Altfel spus, nu avem niciun motiv să presupunem că cele două variabile sunt legate în vreun fel. În acest
caz, vom alege valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de proporţii, valori de
0,10, 0,05, 0,03 sau 0,01 pentru λref.
Dacă avem motive suficiente să credem că există legături între cele două variabile, atunci putem
aborda soluţii optimiste, în sensul că vom considera o mare parte dintre informaţiile unei variabile ca fiind
dependente de informaţiile din cealaltă variabilă. În acest sens, putem alege valori de 50%, 60%, 70%
pentru λref.
Nu există o regulă de atribuire în acest sens. Personal, vă recomand să fiţi sceptici şi să nu consideraţi
valori mai mari de 0,10 – 0,15 pentru λref. Evident, cu cât valorile lui λref se apropie cu zero, cu atât
legătura trebuie să fie mai puternică pentru a fi semnificativă.
În exemplul nostru, am plecat de la presupunerea că doar 10% din nivelul de stres poate determina
preferinţe pentru un anumit partid politic. Valoarea pentru λref va fi, aşadar, 0,10 şi vom analiza dacă la
acest nivel putem vorbi despre o legătură semnificativă.
Următorul aspect din formula 1.21 se referă la varianţa coeficientului λ. Această varianţă poate fi
calculată în baza relației următoare:
unde nMi este cea mai mare frecvenţă de pe rândul i, Max(Cj) cea mai mare frecvență dintre frecvențele
calculate pe coloane şi ∑𝑘𝑖=1 𝑛𝑀𝑖 este suma tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea
mai mare, m reprezentând numărul de rânduri.
Aceasta este chiar complicată, nu-i aşa? Oare cum o calculăm? Poate vă gândiţi să o învăţaţi pe de
rost pentru examene. Sau poate o memoraţi să impresionaţi prietenul ori prietena. Nu are rost. În condiţii de
examen, ar trebui să vi se dea formula, iar dumneavoastră să ştiţi să o aplicaţi. Pentru prieten ori prietenă,
cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie formula asta într-o scrisoare de amor, în mod sigur nu
veţi reuşi decât să îndepărtaţi partenerul. Haideţi totuşi să vedem ce ne cere formula şi dacă e atât de com-
plicat calculul. Vom relua tabelul de contingenţă.
Numărul total de persoane este 244. Îl avem, aşadar, pe n. Suma celor mai mari frecvenţe de pe
rânduri o ştim deja. Este 114 şi nu reprezintă altceva decât valoarea ∑𝑚 𝑖=1 𝑛𝑀𝑖 . Cea mai mare frecvență
dintre frecvențele calculate pe coloane este situată în a doua coloană şi are valoarea 82. Iată că avem şi
rezultatul pentru Max (𝐶𝑗 ).
Ce trebuie să mai facem? Trebuie să
calculăm suma tuturor frecvenţelor maxime
asociate coloanei cu frecvenţa cea mai mare. Am
stabilit deja care este aceasta. Este a doua coloană.
Care sunt frecvenţele maxime din această
coloană? Pe primul rând avem frecvenţa 9, pe al
doilea rând frecvenţa 45, pe al treilea rând frecvenţa 19, pe al patrulea rând frecvenţa 4 şi pe al cincilea rând
frecvenţa 5. Care este frecvenţa cea mai mare? Evident, cea de pe al doilea rând, frecvenţa 45. Mai vedeţi şi
alte cifre de 45 acolo? Nu. Ei bine, aceasta este şi suma mult căutată. Dacă aveaţi 45 pe rândul 2 şi 45 pe
rândul 4, atunci suma frecvenţelor maxime ar fi fost 90 (45+45). În cazul nostru, avem o singură frecvenţă
maximă, 45, şi aceea reprezintă valoarea pentru ∑𝑘𝑖=1 𝑛𝑀𝑖 . Relaxaţi-vă. V-am spus că formulele mai mult
sperie prin aspect decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim varianţa
coeficientului λ.

Am găsit varianţa coeficientului. Nu trebuie decât să calculăm statistica z după formula de mai sus şi
obţinem scorul z de 1,5.

Acest scor îl vom compara cu valoarea de referinţă z pentru pragul de semnificaţie ales. Pentru un
prag de semnificaţie de 0,05, valoarea z este de 1,96. Valoarea noastră (1,5) este mai mică decât valoarea
prag. Prin urmare, nu există nicio legătură între nivelul de stres şi preferinţa pentru partide politice, în
condiţiile în care 10% dintr-o variabilă ar explica cealaltă variabilă.
Drept exerciţiu, calculaţi valoarea z pentru situaţia în care presupunem că 50% din preferinţa pentru
partide politice este influenţată de nivelul de stres. Este această legătură semnificativă sau nu?
Argumentaţi.
1.6. Coeficientul de asociere γ (gamma)
Un alt coeficient de asociere este coeficientul de asociere γ Goodman – Kruskal. La fel ca şi
coeficientul de corelaţie a rangurilor τ Kendall, şi acest coeficient se bazează pe numărul de inversiuni şi
proversiuni, adică pe numărul de perechi concordante şi discordante. Coeficientul se calculează foarte
simplu pe baza formulei:

în care Pc reprezintă numărul perechilor concordante, iar Pd numărul perechilor discordante.


Vom considera un exemplu, astfel încât să lămurim rapid bazele acestui coeficient. Să presupunem că
efectuăm un studiu în mai multe oraşe, pentru a vedea dacă există o legătură între nivelul intelectual al
primarilor şi mă-rimea oraşelor. Cele două variabile au fost operaţionalizate astfel: oraşele pot fi
considerate oraşe mici, medii şi mari – în funcţie de numărul de locuitori, iar nivelul intelectual al
primarilor poate fi considerat superior sau inferior. Ambele variabile se află la un nivel ordinal de măsură şi
pot fi ierarhizate.
Menţionez faptul că toate datele din lucrări sunt date fictive şi nu au nicio legătură cu fapte sau
persoane reale. De aceea, nimeni nu are niciun motiv să se simtă lezat în vreun fel. Exemplele au fost alese
astfel încât să se refere la fapte sociale de actualitate, în vederea unei însuşiri mai bune a informaţiei. Fac
această precizare deoarece mi s-a sugerat că prin demersul meu îmi exprim preferinţe politice sau de altă
natură. Departe de mine acest gând. Nu intenţionez decât să redactez o lucrare pe înţelesul tuturor, indife-
rent de specificul formării iniţiale – umanist sau realist. Şi, ca să folosesc un stereotip verbal, orice
asemănare cu realitatea este pur întâmplătoare. Cine se simte lezat de aceste exemple, îl asigur că nu a fost
intenţia mea, iar concluziile care
decurg sunt rezultatul unor date
absolut fictive şi nu au nicio
legătură cu vreo realitate politică,
economică sau socială.
Acum să revenim.
Convenim să reprezentăm rezultatul acestei cercetări sub forma unui nou tabel de contingenţă.
Avem 10 primari cu un intelect superior în oraşele mici, 15 în oraşele medii şi 20 în oraşele mari. De
asemenea, avem 10 primari cu un intelect inferior în oraşele mici, 5 în oraşele medii şi 3 în oraşele mari. În
total cercetarea a cuprins un număr de 63 de oraşe. Cum calculăm perechile? Vă voi prezenta o procedură
foarte simplă, fără a mai intra în detalii matematice, deoarece acestea implică anumite cunoştinţe de
combinatorică. În cazul nostru, perechile reprezintă suma produselor înmulţirii frecvenței unei celule de la
un nivel superior cu suma frecvențelor celulelor succesive de la un nivel inferior, datele fiind ordonate
ascendent pentru perechile concordante şi descendent pentru perechile discordante. Aşa-i că nu aţi înţeles
nimic? Iată, poate, prima situaţie în care lucrurile transpar mult mai clar din formule.

Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aşa că acum lucrurile sunt clare? Avem
toate datele necesare. Să le înlocuim în formulă.

Am obţinut valoarea -0,56 pentru coeficientul de asociere γ. Această valoare va trebui să o analizăm
apoi din punctul de vedere al semnificaţiei.
Semnificaţia coeficientului γ
Coeficientul γ reprezintă un raport al diferenţelor dintre perechile concordante şi cele discordante,
bazat pe numărul total de perechi, fără a se lua în calcul perechile cu rangurile egale. Coeficientul γ este un
coeficient direcţional şi poate lua valori cuprinse între -1 şi +1, la fel ca şi coeficientul ρ Spearman sau τ
Kendall, având aceeaşi semnificaţie. În termenii coeficientului anterior (şi aici vorbim de coeficientul λ
propus de aceiaşi savanţi), un coeficient λ de 0,56 înseamnă că avem 56% şanse să prezicem o variabilă,
cunoscând rangul (nu valoarea) celeilalte variabile. Analiza semnificaţiei acestui coeficient se face similar
coeficientului τ Kendall.
1.7. Coeficientul tetrachoric şi polichoric
Coeficientul de corelaţie tetrachoric
este notat, în general, sub forma rtet , fiind
definit de Pearson în anul 1901 şi se foloseşte
atunci când ambele variabile sunt
dihotomice, la fel ca şi coeficientul φ, însă
aceste variabile trebuie să provină din
variabile continui şi normal distribuite (spre exemplu, prin gruparea vârstei subiecţilor în subiecţi tineri şi
vârstnici). Dacă variabilele sunt situate la un nivel ordinal, au mai multe grade de intensitate şi pot respecta
caracteristica provenienţei din variabile continui, se foloseşte un alt coeficient de corelaţie, şi anume
coeficientul polichoric. Ambii coeficienţi se bazează pe acelaşi principiu. Vom relua tabelul explicativ al
coeficientului φ pentru a stabili formula de calcul în cazul coeficientului de corelaţie tetrachoric (Tabelul
1.17). Formula coeficientului de corelaţie tetrachoric se bazează pe calculul cosinusului, după următoarea
expresie:

În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi nu frecvenţe absolute.


Coeficientul este folosit mai ales în
situaţiile în care se doreşte măsurarea
gradului de acord între doi evaluatori.
Să presupunem că doi psihologi
evaluează un lot de subiecţi în vederea
depistării prezenţei sau absenţei
anxietăţii. Rezultatele pot fi sistematizate în tabelul 1.18:
Analizând acest tabel, constatăm că 40% dintre subiecţi (în proporţie de 0,4) au fost consideraţi non-
anxioşi de psihologul X şi anxioşi de psihologul Y – situaţie de dezacord între cei doi -, 20% dintre subiecţi
(în proporţie de 0,2) au fost consideraţi non-anxioşi de ambii psihologi – situaţie de acord pe non-anxietate
-, 10% dintre subiecţi (proporţie de 0,10) sunt consideraţi anxioşi de ambii psihologi – situaţie de acord pe
anxietate - şi 30% dintre subiecţi sunt consideraţi anxioşi de psihologul X şi non-anxioşi de psihologul Y –
din nou situaţie de dezacord. Se pune acum problema în ce măsură cei doi psihologi au căzut sau nu de
acord în privinţa anxietăţii subiecţilor evalaţi. Iată o situaţie tipică în care vom folosi coeficientul
tetrachoric.

Observăm, în primul rând, o corelaţie negativă, ceea ce ne duce cu gândul la un dezacord puternic
între cei doi psihologi, fapt indicat de valoarea ridicată a coeficientului de corelaţie.
În cazul în care anxietatea ar fi fost evaluată, să
presupunem, pe o scală de la 1 la 5, unde 1 ar însemna foarte
puţin anxios iar 5 foarte anxios, coeficientul tetrachoric nu
poate fi folosit. În acest scop se utilizează coeficientul
polichoric, bazat pe acelaşi principiu. Din nefericire,
algoritmul de calcul este unul iterativ, presupune mai multe
etape şi are un grad ridicat de complexitate, motiv pentru care
nu-l vom prezenta aici. Pachetul de programe SPSS for
Windows nu conţine aceşti doi coeficienţi. Dacă doriţi să efectuaţi analize bazate pe coeficienţii de corelaţie
tetrachoric, polichoric sau poliserial (o variantă a coeficientului polichoric în care se asociază o variabilă
scalară şi o variabilă ordinală), vă recomand utilizarea pachetului LISREL şi a componentei PRELIS,
pachet software produs de SSI – Scientific Software
Internaţional (http://www.ssicentral.com).
În general, analizele bazate pe aceşti coeficienţi intră în
componenţa ecuaţiilor structurale şi a modelelor de ecuaţii
structurale (SEM).
1.8. Coeficientul de concordanţă W Kendall
Coeficientul de concordanţă W Kendall se bazează pe
ranguri, fiind folosit, de obicei, la stabilirea acordului dintre
evaluatori. Fiind mult mai simplu de calculat în comparaţie cu procedeul tetrachoric sau polichoric, tehnica
este larg răspândită printre specialişti. Pentru a înţelege exact semnificaţia acestui coeficient, să presupunem
că un număr de 6 studenţi sunt evaluaţi de către o comisie de licenţă formată din trei evaluatori. Rezultatele
vor fi trecute într-un tabel similar tabelului 1.19.
Nu putem lucra direct cu aceste note, fiind necesare, pentru calculul acordului dintre evaluatori,
rangurile la care se situează notările fiecărui evaluator. Notele acordate de către fiecare evaluator vor fi
transformate în ranguri şi introduse într-un tabel asemănător cu tabelul 1.20. Nu trebuie să uităm faptul că
ne referim la evaluatori şi nu la studenţi.
Despre modul în care putem calcula rangurile nu mai discutăm, subiectul fiind epuizat cu altă ocazie.
În urma stabilirii rangurilor, vom obţine tabelul 1.20. Se poate observa că profesorii au acordat aceeaşi notă
mai multor studenţi, fapt obişnuit. Ne amintim că rangul pe care îl ocupă două scoruri identice este
reprezentat de media poziţiilor pe care se află scorurile respective.
În următoarea etapă vom calcula suma
rangurilor pentru fiecare dintre cei şase studenţi
şi vom ridica la pătrat fiecare sumă.
Operaţiile finale impun calculul totalului
atât pentru suma rangurilor, cât şi pentru
pătratul acesteia. În final, pentru calculul
coeficientului de concordanţă W Kendall, va
trebui să avem un tabel similar tabelului 1.21
Coeficientul de concordanţă W Kendall poate fi obţinut prin aplicarea formulei:

unde k reprezintă numărul de evaluatori, n numărul de persoane evaluate, iar S reprezintă suma pătratelor
abaterilor dintre suma rangurilor relative la fiecare subiect şi media acestor sume.
În situaţia de faţă, avem majoritatea elementelor. Numărul de evaluatori este 3 (k=3), numărul de
studenţi este 6 (n=6), singurul lucru care ne lipseşte este suma pătratelor abaterilor, S. Din fericire, există o
formulă de calcul şi pentru acest coeficient, astfel:

unde 𝑆𝑅 2 se referă la totalul pătratelor sumelor rangurilor, toate celelalte elemente fiind cunoscute.
De fapt, am putea scrie cel mai simplu formula coeficientului de con-cordanţă W Kendall astfel:

De data aceasta avem toate elementele şi putem înlocui în formulă, obţinând coeficientul de
concordanţă W Kendall, în valoare de 0,60.

Semnificaţia coeficientului de concordanţă W Kendall


Coeficientul de concordanţă W Kendall verifică gradul de acord dintre evaluatori şi poate lua valori
cuprinse între 0 şi 1, fiind un coeficient nedirecţional. Valorile apropiate de 0 indică lipsa acordului, în timp
ce valorile apropiate de 1 arată acordul perfect. Între cei trei profesori evaluatori din exemplul precedent am
obţinut un acord de 0,60, sub forma coeficientului de concordanţă W Kendall. Putem suspecta existenţa
unui acord destul de ridicat între cei 3 evaluatori. Problema care se pune este aceea a semnificaţiei acestui
acord. Putem spune că acordul dintre cei trei evaluatori este semnificativ sau nu? În acest sens, există două
cazuri speciale (Radu, și alții, 1993):
 Prima situaţie este aceea în care numărul de subiecţi evaluaţi se situează între 3 şi 7, iar numărul de
evaluatori între 3 şi 20. Este exact situaţia de faţă;
 În al doilea caz se are în vedere un număr de subiecţi evaluaţi peste 7, nefiind important numărul de
evaluatori.
Pentru prima situaţie se poate folosi direct valoarea sumei pătratelor abaterilor (S), ori coeficientul de
concordanţă (W), utilizând tabelele propuse de Kendall şi prezentate în anexa 5. Avem 3 evaluatori şi 6
subiecţi, s-a obţinut un coeficient de concordanţă W de 0,60, iar suma pătratelor abaterilor este de 94,5.
Privind în tabel pe linia k=3 şi coloana n=6, obţinem valoarea critică pentru S de 103,6 iar pentru W, de
0,66. În ambele cazuri, nu putem vorbi despre un acord semnificativ între cei trei profesori. Suma pătratelor
(94,5) este mai mică decât valoarea de referinţă (103,6) la un prag de semnificaţie p<0,05. La fel,
coeficientul de concordanţă obţinut (0,60) este mai mic decât valoarea de referinţă (0,66). Prin urmare, nu
putem spune că cei trei profesori au ajuns la un acord în privinţa celor şase studenţi evaluaţi.
În cea de-a doua situaţie, se va transforma coeficientul de concordanţă W Kendall în χ2 şi se vor folosi
tabelele pentru χ2 la un număr de n-1 grade de libertate. Transformarea în χ2 se face după formula
următoare:

Aplicând această formulă (deşi situaţia nu o impune pentru că avem doar şase subiecţi), putem obţine
χ2 = 𝑊𝑘 (n - 1) = 0.6 x 0.3 x (6 - 1) = 9. Folosind tabelul χ2 pentru un număr de 5 grade de libertate (anexa
3), vom observa că valoarea de referinţă pentru un prag de semnificaţie mai mic de 0,05 este de 11,07. Cum
valoarea noastră este 9, inferioară lui 11,7, gradul de acord între cei trei profesori nu este semnificativ. Se
acceptă, aşadar, ipoteza nulă.
1.9. Coeficientul de corelaţie rang biserială
Corelaţiile biseriale vor fi expuse pe larg în subcapitolul destinat datelor parametrice. Tot ceea ce
trebuie să ştiţi dumneavoastră este că atunci când vorbim de corelaţii biseriale, punem în legătură o
variabilă dihotomică şi o variabilă scalară ori ordinală. Coeficientul de corelaţie rang biserială ne dă
expresia numerică a legăturii dintre o variabilă dihotomică şi o variabilă ordinală, calculându-se după
formula următoare:

unde mr1 reprezintă media rangurilor pentru situaţia prezenţei caracteristicii la nivelul variabilei
dihotomice, mr0 se referă la media rangurilor în cazul absenţei acestei caracteristici, iar n reprezintă
numărul de cazuri analizate.
Să presupunem că suntem interesaţi de relaţia care există între genul biologic (0 – femeie și 1 –
bărbat) şi gradele militare la nivelul cadrelor dintr-o unitate a ministerului apărării. Suntem în situaţia unei
variabile nominale ce poate fi asociată unei variabile dihotomice (este sau nu este bărbat), în relaţie cu o
variabilă ordinală (gradele militare cu valorile 1 – locotenent; 2 – căpitan; 3 – maior; 4 – locotenent colonel;
5 – colonel; 6 – general).
Colectăm datele de la un număr de
15 persoane din unitatea militară
respectivă, centralizându-le în
table 1.22.
Observăm că primul subiect este femeie locotenent, al doilea subiect bărbat locotenent, al treilea
femeie maior, al patrulea femeie locotenent colonel, al cincilea femeie căpitan, al şaselea bărbat colonel şi
aşa mai departe. Avem un număr de 15 perechi (n=15). Ne interesează media valorilor pentru femei şi
pentru bărbaţi, date pe care le includem în ultima coloană. Media pentru femei este de 2,42, iar pentru
bărbaţi 3,25. Avem acum toate datele pentru a înlocui în formulă.

Am obţinut un coeficient de corelaţie rang biserial de 0,11, ceea ce indică o corelaţie slabă sau
inexistentă între cele două variabile. Despre problema semnificaţiei acestui coeficient vom discuta la
corelaţiile biseriale şi punct biseriale, deoarece situaţiile sunt analoage.
Ne vom opri aici cu prezentarea coeficienţilor de corelaţie pentru date neparametrice. Desigur, nu am
epuizat subiectul, ar fi încă multe de spus. Considerăm, totuşi, că aveţi deja suficiente informaţii pentru a
face faţă solicitărilor din cadrul studiilor corelaţionale care implică date neparametrice. Puteţi găsi în
literatura de specialitate descrieri complexe ale acestor tehnici. Probabil că v-am sufocat prezentându-vă o
mulţime de coeficienţi de corelaţie pentru asemenea date. Credeţi-mă, toţi sunt importanţi şi se folosesc în
situaţii bine precizate. Când şi cum îi folosiţi, sunt aspecte ce nu pot fi tratate aici, deoarece se referă la
metodologia cercetării pe care o vom aborda în alte lucrări. Nu vă panicaţi. Cu răbdare şi puţin exerciţiu
veţi reuşi să stăpâniţi toate aceste informaţii şi să decideţi metoda statistică adecvată fiecărui caz particular.
2. Coeficienţi de corelaţie parametrici
Coeficienţii de corelaţie parametrici se calculează, cu unele excepţii, într-o singură situaţie şi anume
atunci când cele două variabile respectă cerinţele parametrice de calcul. Adică, în situaţia în care se află la
un nivel de măsură cel puţin de interval şi prezintă o distribuţie normală. Bazându-se pe medie ca indicator
al tendinţei centrale, coeficienţii de corelaţie parametrici trebuie să îndeplinească, aşadar, condiţiile de
reprezentativitate a mediei.
2.1. Coeficientul de corelaţie r Bravais-Pearson
Iată tartorul studiilor corelaţionale, Zeus al relaţiilor dintre două variabile, dictatorul absolut şi
incontestabil. Coeficientul de corelaţie r Bravais-Pearson reprezintă dezideratul ştiinţific al oricărui
cercetător. Se mai numeşte coeficientul de corelaţie „produs-moment”, una dintre cele mai reprezentative
măsuri ale relaţiei dintre două variabile.
Am să încep descrierea acestui coeficient prin a vă povesti o serie de întâmplări. Două dintre multele
mele defecte, care cred că sunt şi cele mai importante, se referă la faptul că nu pot sta prea mult într-un loc
şi că am probleme cu subordonarea faţă de şefi. Acestea cred că sunt şi motivele pentru care am schimbat
până acum mai multe locuri de muncă, îndeosebi universităţi. Oricum, m-am trezit, la un moment dat, într-o
universitate, predând statistică şi analiza datelor, psihodiagnostic şi cam atât. Ei bine, chiar de la început am
rămas oarecum surprins să aflu că acolo, toată lumea, profesori, studenţi, toţi, ştiau una şi bună.
Coeficientul de corelaţie r Bravais-Pearson.
Nu conta că variabilele erau la nivel ordinal, uneori chiar nominal, sau că analiza univariată scotea în
evidenţă asimetrii evidente. Se aplica, peste tot, coeficientul de corelaţie r Bravais-Pearson. Când, timid şi
cu prietenie, am încercat să explic că acest coeficient se foloseşte numai în anumite condiţii, că există şi alţi
coeficienţi ce pot fi utilizaţi, că statisticile neparametrice sunt şi ele, acolo, un capitol de studiu, am fost
privit cu neîncredere, cu ostilitate chiar. Deşi majoritatea cărţilor de statistică încep studiul corelaţiilor cu
acest coeficient, eu am preferat să nu procedez aşa. Nu de alta, dar poate dacă scriu la început despre
statistici neparametrice, vor înţelege unii că şi acestea au un rol. Dacă prezenta carte va ajunge în mâinile
profesorilor şi ale foştilor studenţi la care mă refer, sper că vor şti să se identifice perfect cu situaţia. Aveţi
dreptate, am fost rău aici şi am profitat de situaţie pentru a plăti o poliţă. Vă rog să nu mă judecaţi prea
aspru, însă diletantismul nu cred că are ce căuta în lumea ştiinţifică şi universitară. Acum, să trecem la
treabă.
Având două variabile, X şi Y, distribuite normal şi, evident, aflate cel puţin la un nivel de interval,
putem analiza relaţia dintre ele pe baza coeficientului de corelaţie r Bravais-Pearson, după formula:

unde x barat reprezintă media scorurilor pentru variabila X, iar y barat reprezintă media scorurilor pentru
variabila Y.
Sunt deja convins că formula nu vă mai sperie deloc. Acum priviţi la ea ca la un tablou de Picasso şi
aşteptaţi cu mult drag exemplele concrete de calcul. Vom prezenta, în cele ce urmează, câteva modalităţi de
calcul ale acestui coeficient, pentru date luate ca atare sau grupate în interval, folosind atât formula de
definiţie (formula 1.29), cât şi alte formule derivate.
Să considerăm că un psiholog a evaluat un număr de 10 subiecţi cu două inventare de personalitate,
reţinând scorurile pentru scala anxietate şi pentru scala depresie. Menţionăm că întotdeauna veţi lucra cu
note brute şi nu cu notele standard obţinute după raportarea la etalon. Spun acest lucru, deoarece la aceeaşi
instituţie la care am activat o perioadă a vieţii mele mi s-a întâmplat să văd şi o asemenea minunăţie.
Rezultatele obţinute de către cei 10 subiecţi au fost trecute într-un tabel prezentat în continuare (Tabel
1.23).
Dacă vă uitaţi cu atenţie la formula de definiţie, ce observaţi? Nu cumva ceva asemănător cu „scorul
minus media supra abaterea standard”? Chiar aşa şi este. În realitate, coeficientul de corelaţie r Bravais-
Pearson asta şi face. Transformă totul în scoruri z şi stabileşte relaţia dintre două variabile care conțin
scoruri z. Iată de ce putem analiza liniştiţi relația liniară dintre rezultatele obţinute în urma administrării a
două instrumente complet diferite. Nu contează că un instrument are 20 de itemi şi altul are 2000 de itemi,
că o scală are o amplitudine teoretică între 0 şi 20 de puncte, iar alta între 23 şi 190 de puncte. Ştim deja că
statisticile z reprezintă numitorul comun ce permite analiza relațiilor dintre două variabile.
Desigur, prima etapă o reprezintă
verificarea normalităţii distribuţiei
celor două variabile; să presupunem că
cele două variabile se distribuie
normal. Urmează să calculăm mediile
celor zece scoruri la anxietate şi
depresie şi obţinem manxietate=13,5 şi
mdepresie=13,7. Ce ne spune formula?
În primul rând, să scădem fiecare scor
din medie, apoi să facem produsul acestor diferenţe şi în final să le adunăm. Numărătorul fracţiei din
formulă va avea valoarea 277,5. Pentru numitor, va trebui să ridicăm diferenţele la pătrat, să facem suma
acestor pătrate pentru fiecare variabilă, să înmulţim aceste sume şi apoi să extragem radicalul din rezultat.
Cele două sume sunt de 264,5 pentru anxietate şi 344,1 pentru depresie. Produsul lor este 91014,45 iar
rădăcina pătrată din acest produs devine 301,68, valoarea numitorului. Nu avem acum decât să calculăm
fracţia pentru a obţine coeficientul de corelaţie r Bravais-Pearson. Prin urmare, r=277,5/301,68=0,91, un
coeficient de corelaţie ridicat, care indică o relaţie puternică şi pozitivă între cele două variabile. Dacă este
sau nu semnificativă, vom vedea imediat.
Dacă avem un volum mare de date, formula de definiţie devine ineficientă. Ne-a fost destul de dificil
să lucrăm cu 10 subiecţi, darămite cu 100 sau 1000. Pentru volume mari de date, lucrurile sunt mai simple
decât credeţi şi se rezumă la a efectua 3-4 clicuri de maus în SPSS for Windows. Dar probabil că sunteţi,
totuşi, curioşi să aflaţi cum am face pe hârtie o asemenea corelaţie. Sper că vă mai aduceţi aminte de datele
grupate în interval. Vom relua exemplul, de data aceasta cu intervale de grupare.
Metoda se bazează pe aşa-numita operaţie de codare, fiind descrisă de Ioan Radu şi colaboratorii
(Radu, și alții, 1993), drept pentru care o vom prelua cu adăugirile noastre. Cele două variabile vor fi
grupate în intervale, fiind prezentate simultan în tabelul de analiză.
Prima etapă în operaţia de codare este stabilirea mediei de lucru, valoare situată de obicei în mijlocul
şirului. Dacă numărul de clase este par (ca în situaţia noastră), vom alege media de lucru din clasa cu
frecvenţa cea mai mare. În general, media de lucru o vom nota prin ml. Având două variabile, evident, vom
avea două medii de lucru: mla şi mld.
Concret, media de lucru pentru
anxietate se poate situa undeva în cele
două intervale centrale, intervalele 16-19
sau 20-23. Vom alege media de lucru din
intervalul care are frecvenţa cea mai
mare. Primul interval (16-19) are valorile
10, 3, 17, 2 şi 9 pentru anxietate.
Frecvenţa totală va fi aşadar 41. Al
doilea interval (23-23) are valorile 3, 11,
2, 5, 2, 6 cu frecvenţa totală 29.
Intervalul cu frecvenţa cea mai mare va fi intervalul 16-19, din care vom extrage media de lucru. În mod
analog, stabilim intervalul din care vom extrage media de lucru pentru depresie. Avem de ales între
intervalul 13-16 şi inter-valul 17-20. Primul interval are o frecvenţă totală de 15 iar al doilea de 31. Evident,
media de lucru va fi aleasă din intervalul 17-20. Odată stabilite intervalele, extragerea mediei de lucru este
un fapt banal. În cazul variabilei anxietate, media de lucru va fi în intervalul 16-19, adică media valorilor
16, 17, 18, 19 rezultând mla=17,5. Similar, pentru depresie rezultă mld=18,5. Valorile codate sunt notate de
către autorii mai sus menţionaţi, folosind litera u, codarea făcându-se după formula:
unde x reprezintă valoarea, ml se referă la media de lucru, iar i este intervalul de clasă
Vom avea, în mod evident, două variabile codate: variabila anxietate şi variabila depresie. Codarea
este foarte simplă. Pentru fiecare dintre variabile se acordă valoarea 0 în dreptul intervalului care conţine
media de lucru. Apoi, succesiv, se scade sau se adaugă o unitate pentru intervalele situate sub, respectiv
peste intervalul care conţine media de lucru. Intervalul care conţine media de lucru în cazul variabilei
„anxietate” este intervalul 16-19. Acesta va primi valoarea 0 pentru coloana u. Intervalul 12-15 primeşte
valoarea -1 şi intervalul 8-11 primeşte valoarea -2. Similar, intervalul 20-23 primeşte valoarea 1, intervalul
24-27 primeşte valoarea 2, iar intervalul 28-31 primeşte valoarea 3. Analog, se procedează şi în cazul
celeilalte variabile.
Următorul pas este reprezentat de calculul frecvenţei absolute pentru fiecare dintre cele două
variabile. Pentru intervalul 8-11 al variabilei anxietate, avem 2 subiecţi care au depresia în intervalul 9-12, 3
subiecţi cu depresia în intervalul 17-20, 7 subiecţi cu depresia în intervalul 25-28. În total avem 12 subiecţi,
noua valoare pentru frecvenţa absolută a acestui interval. Procedăm similar pentru celelalte intervale ale
anxietăţii şi pentru intervalele depresiei. În final, suma frecvenţelor absolute pentru variabila depresie
trebuie să fie egală cu suma frecvenţelor absolute pentru variabila anxietate şi reprezintă, practic, numărul
total de subiecţi. Avem, în cazul nostru, un număr de 155 de subiecţi evaluaţi cu cele două probe (n=155).
Următorul pas este reprezentat de înmulţirea valorii codate u cu frecvenţa absolută pentru fiecare
dintre cele două variabile analizate şi efectuarea sumelor acestor produse. Suma pentru anxietate va fi de
92, iar suma pentru depresie va fi de -54.
În continuare, vom face produsul dintre frecvenţa absolută a variabilei şi pătratul codării acesteia.
Atenţie, întâi ridicăm la pătrat valoarea codată şi apoi înmulţim cu frecvenţa absolută. Sursa citată mai sus a
fost folosită şi de mine atunci când eram student. Îmi aduc aminte că nu înţelegeam deloc cum au ieşit
valorile de acolo. Bineînţeles că întâi făceam produsul frecvenţei absolute cu valoarea codată şi apoi
încercam să ridic la pătrat. M-am prins, până la urmă, şi de aceea nu doresc să faceţi şi dumneavoastră
aceeaşi eroare. Pentru intervalul 8-11 al variabilei anxietate, avem frecvenţa absolută 12 şi valoarea codată -
2. Întâi ridicăm la pătrat valoarea codată şi obţinem 4, apoi înmulţim 4 cu 12 şi obţinem 48, cifră pe care o
trecem în ultima coloană a tabelului. Similar procedăm cu toate intervalele celor două variabile şi în final
însumăm rezultatele.
Ultimul lucru pe care îl mai avem de făcut este reprezentat de obţinerea valorii g, valoare al cărei
calcul necesită puţină atenţie şi concentrare. Ea rezultă din intersecţia celor două variabile, ţinându-se cont
de numărul de subiecţi şi de valoarea codată. Pentru intervalul 5-8 al variabilei depresie, avem valoarea
codată -3. Pe acest interval, găsim 3 subiecţi aflaţi în intervalul 20-23 pentru anxietate (cu valoarea codată
1), 1 subiect aflat în intervalul 24-27 pentru anxietate (cu valoarea codată 2) şi 2 subiecţi aflaţi în intervalul
28-31 pentru anxietate (cu valoarea codată 3). Valoarea g este dată de suma produselor parţiale, astfel: (-
3)x3x1=-9 pentru intervalul 20-23 anxietate şi 5-8 depresie, (-3)x1x2=-6 pentru intervalul 24-27 anxietate şi
5-8 depresie şi, în final, (-3)x2x3=-18 pentru intervalul 28-31 anxietate şi 5-8 depresie. Aşadar, valoarea g
pentru intervalul 5-8 depresie devine -9-6-18=-33, cifră pe care o scriem în prima coloană. A doua coloană
corespunde intervalului 9-12 pentru depresie, iar algoritmul este asemănător. Avem 2 subiecţi la intersecţia
inter-valului 9-12 depresie cu 8-11 anxietate, prin urmare (-2)x2x(-2)=8; 5 subiecţi la intersecţia
intervalului 9-12 depresie cu 12-15 anxietate, atunci (-2)x5x(-1) rezultă 10. Similar, 10 subiecţi la
intersecţia intervalului 9-12 depresie cu 16-19 anxietate şi, deci, (-2)x10x0=0, 11 subiecţi la intersecţia
intervalului 9-12 depresie cu 20-23 anxietate generând (-2)x11x1=-22, 13 subiecţi la intersecţia intervalului
9-12 depresie cu 24-27 anxietate şi (-2)x13x2=-52. În final, 12 subiecţi la intersecţia intervalului 9-12
depresie cu 28-31 anxietate, calculul fiind (-2)x12x3=-72. Valoarea g pentru această coloană va deveni
8+10+0-22-52-72=-128. Cred că aţi prins deja ideea. Desigur, intervalul în care variabila codată are
valoarea 0, va avea şi aici tot valoarea 0. În restul intervalelor, vom proceda ca mai sus. La sfârşit, efectuăm
suma acestor valori obţinute.
Finalizând tabelul necesar calculului coeficientului de corelaţie r Bravais-Pearson, probabil că vă
întrebaţi acum ce formulă aplicăm. Iată, mai jos, formula necesară în acest caz:
Toate datele sunt cunoscute şi au fost deja tratate. Nu rămâne decât să înlocuim în formulă, obţinând
un coeficient de corelaţie de -0,41.

Constatăm că cele două variabile corelează negativ. Nimic mai firesc, având în vedere faptul că am
folosit date absolut fictive. Având coeficientul de corelaţie, se pune din nou problema semnificaţiei
acestuia.
Puteţi observa că acest calcul este, poate, cel mai elaborat de până acum. Este şi normal să fie aşa,
deoarece am lucrat cu o serie de convenţii şi ne-am bazat pe câteva proprietăţi ale datelor grupate în
intervale. După câteva exersări, procedura va deveni familiară. Nu este foarte greu, însă necesită ceva
concentrare. Iată motivul pentru care s-au inventat programele de analiză statistică.
În cazul în care doriţi să calculaţi direct coeficientul de corelaţie r Bravais-Pearson, fără a mai calcula,
în prealabil, mediile, puteţi aplica următoarea formulă:

Formula este foarte simplă şi nu comportă explicaţii


suplimentare. Vom relua exemplul celor 10 subiecţi evaluaţi cu
inventarele de anxietate şi depresie pentru a verifica, prin
această metodă, dacă ajungem la acelaşi rezultat. În tabelul
1.25 am reluat exemplul.
Operaţiile nu sunt complicate deloc. Trebuie să efectuăm
ridicarea la pătrat a valorilor celor două variabile şi apoi
înmulţirea valorilor celor două variabi-le (nu a valorilor
variabile-lor ridicate la pătrat). În final, efectuăm suma
scorurilor pentru valorile cele două variabile, pentru pătratul acestora, şi suma produsului lor. Acestea sunt
toate datele necesare aplicării formulei.

Observăm că am obţinut exact acelaşi coeficient de corelaţie Bravais-Pearson, 0,91, cele două
formule fiind echivalente.
Vă lăsăm dumneavoastră plăcerea de a alege între cele trei metode de calcul propuse. Metoda a doua,
deşi mai complicată la prima vedere, vă asigură posibilitatea calculării acestui coeficient pentru volume
mari de date. Aceasta este situaţia. Analiza statistică a datelor nu este complicată, însă presupune calcule
laborioase şi multă atenţie. Iar dacă acestea vi se par calcule complexe, staţi să vedeţi analiza factorială cum
se prezintă. Glumeam! Nu vă speriaţi şi nu aruncaţi cartea din mână. Vom discuta acum despre semnificaţia
acestui coeficient.
Semnificaţia coeficientului de corelaţie r Bravais-Pearson
Acest coeficient de corelaţie este un coeficient direcţional şi poate lua valori între -1 şi +1, cu o
semnificație analoagă coeficientului de corelaţie a rangurilor ρ Spearman sau ca a oricărui coeficient
direcţional.
Fiind bazat pe date scalare, pragul de semnificaţie se poate raporta la distribuţia t, în funcţie de
valoarea testului t pentru un număr de n-2 grade de libertate, după relaţia:

În primul exemplu am obţinut un coeficient de corelaţie r Bravais-Pearson de 0,91 pe un lot de 10


subiecţi. Valoarea testului de semnificaţie t va fi de 6,198
Vom compara această valoare cu valoarea critică a testului t din anexa 4 pentru un număr de 10-2=8
grade de liberate. Observăm că pentru a fi semnificativă la un prag de semnificaţie mai mic de 0,05,
valoarea testului t trebuie să fie mai mare de 1,860, şi la un prag de semnificaţie mai mic de 0,01 va trebui
să fie mai mare de 2,89 (pentru o ipoteză bidirecţională). Valoarea noastră, 6,198, este mult mai mare decât
aceste praguri critice, ceea ce înseamnă că acest coeficient de corelaţie obţinut este semnificativ la un prag
de semnificaţie mai mic de 0,01.
Această analiză are doar un rol de exemplu. Numărul de subiecţi nu permite generalizarea
rezultatelor. În realitate, după cum ştim, valoarea unui studiu efectuat pe doar 10 persoane este extrem de
limitată, concluziile neputând fi extinse la nivelul populaţiei.
În al doilea exemplu, am obţinut un coeficient de corelaţie de -0,41, studiind un număr de 155 de
persoane. În mod cert, vom dori să ştim dacă această corelaţie inversă este sau nu este semnificativă. Vom
folosi din nou testul t.

Nu suntem interesaţi de semnul testului t. Este normal să fie negativ, deoarece şi corelaţia este
negativă. Ne interesează doar să comparăm această valoare (12,33) cu valoarea de referinţă pentru un prag
de semnificaţie mai mic de 0,05 sau mai mic de 0,01 la un număr de 155-2=153 grade de libertate. În
tabelul din anexa 4 nu avem exact valorile pentru 153 grade de libertate. Valoarea inferioară cea mai
apropiată este 150 de grade de libertate, valoare cu care vom efectua comparaţia. Pentru un prag de
semnificaţie mai mic de 0,05, valoarea de referinţă este 1,96 iar pentru un prag de semnificaţie mai mic de
0,01 este 2,57. Încercaţi să memoraţi aceste valori deoarece le veţi folosi frecvent. Ce constatăm? Ceea ce
am obţinut (12,33) este mult mai mare în comparaţie cu 2,57, valoarea de referinţă pentru un prag de
semnificaţie mai mic de 0,01. Aşadar, coeficientul de corelaţie este semnificativ la un prag de semnificaţie
mai mic de 0,01.
Sigur că cea mai simplă metodă este aceea de a compara valoarea coeficientului de corelaţie Bravais-
Pearson cu pragurile critice din tabelul special (anexa 6). Coeficientul de corelaţie -0,41 obţinut în urma
studiului unui eşantion de 155 de subiecţi va fi comparat cu pragul critic pentru un număr de 155-2=153
grade de libertate. Tabelul conţine valori doar pentru 100 de grade de libertate, acesta fiind şi rândul pe
care-l vom lua în calcul. Pentru a fi semnificativ la un prag de semnificaţie mai mic de 0,05, coeficientul de
corelaţie trebuie să depăşească valoarea 0,195, iar la un prag de semnificaţie mai mic de 0,01 trebuie să
depăşească valoarea 0,25. Desigur, valoarea noastră (0,41) este mai mare decât aceste praguri critice,
corelaţia fiind semnificativă.
M-am tot gândit dacă să mă opresc aici sau să vă mai prezint un element important referitor la acest
coeficient de corelaţie. Până la urmă am decis să vă mai „bombardez” cu o informaţie. Ştim deja că scopul
unei cercetări efectuate pe un eşantion este acela de a extinde cunoştinţele dobândite la nivelul întregii
populaţii. Stabilind că între anxietate şi depresie există un coeficient de corelaţie de 0,41 şi observând că
această corelaţie este semnificativă lucrând pe un eşantion de 155 de persoane (presupunând că vorbim de
un eşantion şi nu de un lot de cercetare), am putea extinde această informaţie la nivelul întregii populaţii,
spunând că între nivelul de anxietate şi cel al depresiei există o corelaţie pozitivă, semnificativă şi de nivel
mediu. Luând un alt eşantion de 150 sau 200 de persoane, vom obţine cam aceleaşi rezultate, coeficientul
de corelaţie fiind, să spunem, de 0,51. Pe un alt eşantion am obţine un coeficient de corelaţie de 0,38 şi aşa
mai departe. Ideea este aceea dacă putem găsi o măsură a acestei corelaţii la nivelul populaţiei. Care ar fi
oare coeficientul de corelaţie dacă, presupunând prin absurd, am investiga întreaga populaţie a globului? În
mod normal, acest parametru îl notăm cu litera grecească ρ şi nu are nici o legătură cu notaţia folosită
pentru a desemna coeficientul de corelaţie a rangurilor Spearman. Ei bine, valoarea exactă a acestui
parametru nu o vom putea şti niciodată. În mod sigur însă, valorile obţinute prin studiul eşantionului se pot
apropia mai mult sau mai puţin de acest parametru. În realitate, valoarea parametrului este situată într-un
interval, numit interval de încredere. Putem spune că [rinf < ρ < rsup], adică valoarea exactă a
parametrului la nivelul populaţiei este situată undeva între o limită inferioară şi o limită superioară a unui
interval de încredere. Din fericire, deşi nu putem calcula valoarea exactă a parametrului, putem însă calcula,
cu o anumită probabilitate, acest interval de încredere.
Reluând exemplul cu cei 155 de subiecţi examinaţi, pentru care am obţinut un coeficient de corelaţie
de 0,41, demonstrând că această corelaţie este semnificativă, să vedem care este intervalul de încredere,
între ce limite putem găsi valoarea reală a acestei corelaţii la nivelul întregii populaţii. În acest sens, Fisher
a introdus o variabilă teoretică, având o distribuţie aproximativ normală, numită variabila u (Vasilescu,
1992) şi calculată după formula:

unde prin ln am desemnat logaritmul natural, iar r reprezintă coeficientul de corelaţie care ia valori între -
1 şi +1.
Cunoscând această relaţie generală, putem stabili variabilele u necesare limitelor inferioare şi
superioare ale intervalului de încredere, astfel:

unde n este numărul de subiecţi, iar z1-α reprezintă valoarea distribuţiei z la pragul 1-α ales.
În baza acestor formule putem acum stabili modalităţile de calcul ale limitelor intervalului de
încredere:

unde e este o constantă matematică, numită şi numărul lui Euler, şi are valoarea 2,71828.
Nu vă speriaţi, că nu este greu deloc. Calculăm imediat intervalul de încredere pentru coeficientul de
corelaţie din exemplul de mai sus. Desigur, întâi vom calcula variabila u.

Am obţinut valoarea 0,435 pentru variabila u. Obţinerea logaritmului natural se face cu ajutorul unui
calculator ştiinţific. Nu vă pune nimeni să-l calculaţi cu creionul pe hârtie. Desigur, va trebui să stabilim
acum probabilitatea intervalului de încredere. La o probabilitate de 95% (α=0,05), valoarea z va fi de 1,645,
valoare extrasă din tabele (tabelul distribuţiei t din anexa 4, în general ultima linie a tabelului). Folosind
aceste date, vom putea calcula variabilele u pentru limitele inferioare şi superioare.

Putem acum stabili limitele inferioare şi superioare ale intervalului de încredere, aplicând ultimele
formule:

Am obţinut, cu o probabilitate de 95%, intervalul în care se regăseşte acest parametru la nivelul


populaţiei. Coeficientul de corelaţie dintre anxietate şi depresie se găseşte, la nivelul populaţiei, cu o
probabilitate de 95%, între un coeficient de corelaţie de 0,293 şi un coeficient de corelaţie 0,513.
Îmi exprim speranţa că acum aveţi o imagine clară asupra coeficientului de corelaţie r Bravais-
Pearson şi veţi şti să-l folosiţi în mod corect. Indiferent dacă efectuaţi calculele manual sau folosind un
program computer, este absolut necesar să înţelegeţi semnificaţia acestui indicator şi condiţiile în care îl
puteţi folosi. Altminteri, riscaţi obţinerea de date şi interpretări incorecte. Şi, ca să parafrazez un mare
statistician, nu statistica minte ci oamenii mint folosindu-se de statistică.
2.2 Coeficientul de corelaţie biserial, punct biserial şi triserial
Avem deja o idee asupra corelaţiei biseriale din capitolul destinat corelaţiilor neparametrice, unde am
vorbit despre corelaţia rang biserială şi am promis, tot atunci, că vom reveni. Într-adevăr, corelaţia biserială
presupune analiza relaţiei existente între o variabilă scalară şi o variabilă nominală, de obicei dihotomică.
Metoda este frecvent folosită la validarea testelor psihologice. De exemplu, construim un test de inteligenţă
pe care îl administrăm unor candidaţi la şcoala de aviaţie militară. Evident, dintre aceşti candidaţi, unii vor
fi admişi, iar alţii respinşi. Ne interesează să ştim dacă există vreo legătură între admiterea sau respingerea
candidaţilor şi rezultatele la test. Cu alte cuvinte, dacă testul construit poate sau nu poate prezice admiterea
la şcoala de aviaţie. Desigur, „a prezice” este grosier folosit, mai degrabă preferăm termenul „a diferenția”.
Pentru predicţii, avem tehnici diferite şi mult mai sensibile, pe care le vom studia în alt volum. De fapt,
această corelaţie seamănă mai mult cu un test statistic decât cu o corelaţie reală.
Încă de la început, menţionăm faptul că acest coeficient de corelaţie (biserial) are un „frate” geamăn.
Este vorba despre coeficientul de corelaţie punct biserial care face exact acelaşi lucru, diferenţa dintre ele
fiind una de nuanţă subtilă şi ţinând de variabila dihotomică. În cazul coeficientului de corelaţie punct
biserial, variabila dihotomică are o aşa numită dihotomie discretă, în timp ce coeficientul de corelaţie
biserial prezintă o variabilă cu o dihotomie continuă (Field, 2000). Ce înseamnă acest lucru?
Reluând exemplul candidaţilor la şcoala de aviaţie, statutul de admis şi respins reprezintă o dihotomie
continuă. De ce? Foarte simplu, deoarece variabila dihotomică provine dintr-o variabilă continuă (media de
admitere). În definitiv, există o „continuitate” în categoria admişilor şi a respinşilor, aceştia având medii
diferite. Eşecul unui candidat poate fi la câteva sutimi de ultima medie de admitere sau la câteva puncte. Un
alt exemplu ar fi dihotomia bătrâni-tineri sau dihotomia gras-slab. Toate aceste variabile, deşi evident
dihotomice şi nominale, provin din variabile continui, de aceea se foloseşte termenul de dihotomie
continuă.
În cazul dihotomiei discrete, această continuitate nu mai este prezentă. Dihotomia bărbat-femeie este
o dihotomie discretă, deoarece între bărbaţi nu se poate spune că unii sunt mai mult bărbaţi, iar alţii mai
puţin, unii sunt mai „bărbaţi”, iar alţii mai „femei” (decât, eventual, din punct de vedere comportamental, ar
spune unii mai mucaliţi). Deşi transsexualul X se dă femeie, într-o asemenea clasificare, strict pe criterii
biologice, X este în definitiv bărbat. Alte exemple ar fi: dihotomia viu-mort, nu poţi fi mai mort sau mai
puţin mort, dihotomia însărcinată-neînsărcinată şi lista poate continua.
Sper că aţi înţeles aceste două tipuri de dihotomii. În condiţiile în care avem o dihotomie continuă, se
foloseşte coeficientul de corelaţie biserial, iar pentru variabila cu o dihotomie discretă, utilizăm coeficientul
de corelaţie punct biserial. Aceasta este diferenţa subtilă dintre cei doi coeficienţi de corelaţie.
Mă gândesc acum să compar statistica şi analiza datelor cu o pereche de pantofi noi şi foarte frumoşi.
Îi încalţi, te mândreşti cu ei, deşi de cele mai multe ori, la început, te rod teribil şi faci răni la picioare.
Comparaţia se potriveşte de minune cu aceşti doi coeficienţi. Ştii analiză de date, eşti invidiat de mulţi, se
uită la tine, te apreciază, deşi numai tu înţelegi câte răni ai făcut la creier să pricepi, de exemplu, dihotomia
continuă şi dihotomia discretă.
Din moment ce am clarificat aceste elemente, să mergem mai departe şi să vedem cum se calculează
coeficientul de corelaţie biserial, coeficientul de corelaţie punct biserial şi să discutăm câteva lucruri despre
coeficientul de corelaţie triserial care face parte din aceeaşi familie. Coeficientul de corelaţie biserial se
notează rbis şi se poate calcula după formula:

în care cu x barat s-au notat mediile valorilor variabilei continui în situaţia de prezenţă a caracteristicii
dihotomice, respectiv în situaţia de absenţă a acestei caracteristici, cu p s-a notat proporţia subiecţilor
care prezintă caracteristica, cu q proporţia subiecţilor care nu prezintă caracteristica, iar z reprezintă
ordonata punctului de separaţie. Sigma se referă la abaterea standard a datelor variabilei continui.
Să considerăm că testul
de inteligenţă are un număr de
10 itemi. Un item primeşte 1
punct dacă subiectul răspunde
corect şi 0 puncte dacă
răspunde greşit. Prin urmare,
amplitudinea teoretică este
cuprinsă între 0 şi 10 puncte. Rezultatele obţinute de candidaţi la acest test, grupate după calitatea lor de
admişi ori respinşi, gasiți în tabelul 1.26.
Structura tabelului este clară. Un punctaj de 0 puncte şi de 1 punct nu a fost realizat de niciun
candidat. 2 puncte au făcut 3 candidaţi respinşi şi 1 singur candidat admis, 3 puncte au avut 2 candidaţi
admişi şi 5 candidaţi respinşi şi aşa mai departe. În total, avem 80 de candidaţi, dintre care 43 de candidaţi
admişi şi 37 respinşi.
Vom stabili acum proporţiile candidaţilor admişi şi respinşi raportând numărul de candidaţi admişi,
43 37
respectiv numărul de candidaţi respinşi, la numărul total de candidaţi. Astfel, p = 80 = 0.537 şi p = 80 =
0.463.
În realitate, avem 53,7% candidaţi admişi şi 46,3% candidaţi respinşi. Adunând procentele
(53,7+46,3=100%), obţinem expresia întregului volum de subiecţi studiat.
Singurul lucru care ne lipseşte este ordonata punctului de separaţie (z). De fapt nici nu avem nevoie
𝑝𝑞
de această valoare, deoarece raportul 𝑧 se citeşte dintr-un tabel special (tabel prezentat în anexa 7), luând
ca referinţă valoarea p sau valoarea q. Nu contează dacă ne raportăm la proporţia candidaţilor admişi sau la
proporţia candidaţilor respinşi, deoarece întotdeauna p=1-q şi q=1-p, fapt evident. De obicei se ia în
considerare valoarea cea mai mică, tabelul fiind conceput până la o proporţie de 0,500, altminteri ar fi fost
redundant.
În tabelul din anexa 7, luând ca referinţă q=0,463, obţinem valoarea raportului 0,6259. Urmează
calculul mediilor pentru subiecţii admişi şi pentru subiecţii respinşi. Media se calculează însumând
produsele obţinute prin înmulţirea numărului de subiecţi cu scorul fiecărei categorii şi împărţind la numărul
total al subiecţilor admişi, respectiv respinşi. În cazul subiecţilor admişi vom avea
(1x2)+(2x3)+(4x4)+(6x5)+(9x7)+(7x8)+(6x9)+(8x10)=307. Împărţind suma la 43, rezultă media admişilor
de 7,139. Procedăm similar şi în cazul respinşilor. Suma rezultată va fi 199, împărţită la 37, ne dă media
respinşilor, care are valoarea 5,378. Nu ne trebuie acum decât abaterea standard a întregului lot de cercetare
pentru a putea calcula coeficientul de corelaţie biserial. Nu intrăm în amănunte referitoare la calculul
abaterii standard, aceste elemente fiind tratate în lucrarea anterioară. Revedeţi capitolul referitor la calculul
abaterii standard pentru date grupate pe interval. Abaterea standard pentru întregul set de date (variabila test
de inteligenţă) este 2,0.
Având acum toate informaţiile necesare, putem cu uşurinţă completa formula de calcul şi obţinem
valoarea coeficientului de corelaţie biserial:

Coeficientul de corelaţie biserial are valoarea 0,55, lucru care ne indică posibilitatea ca testul de
inteligenţă să prevadă succesul sau eşecul la examenul de admitere. Urmează doar să verificăm semnificaţia
acestui coeficient de corelaţie.
În cazul unei variabile dihotomice discrete, coeficientul de corelaţie biserial devine inadecvat. Situaţia
impune calculul coeficientului de corelaţie punct biserial după relaţia:

în care cu x barat s-au notat mediile valorilor variabilei continui în situaţia de prezenţă a caracteristicii
dihotomice, respectiv în situaţia de absenţă a acestei caracteristici, cu n1 și n0 s-au notat frecvenţele
absolute în cele două situaţii, iar sigma se referă la abaterea standard a datelor variabilei continui.
Formula nu se mai bazează pe
proporţii, ci pe frecvenţe absolute, fiind
mai uşor de calculat în comparaţie cu
coeficientul biserial. Vom relua exemplul
anterior, considerând de data aceasta că
testul de inteligenţă doreşte să prezică
diferenţa, sub acest aspect, dintre bărbaţi
şi femei.
Variabila dihotomică are acum o
dihotomie discretă, calculul coeficientului biserial nu mai are sens, prin urmare vom aplica formula
coeficientului de corelaţie punct biserial.
În mod absolut evident, există o diferenţă între cei doi coeficienţi de corelaţie, cel punct biserial fiind
întotdeauna mai mic în comparaţie cu varianta biserial. Dacă nu sunteţi sigur de natura variabilei
dihotomice, vă învăţ un truc. Luaţi-vă o măsură de precauţie, calculând întotdeauna coeficientul de corelaţie
punct biserial. Dacă, ulterior, vă daţi seama că aveţi de a face cu o variabilă cu dihotomie continuă, puteţi
transforma uşor coeficientul de corelaţie punct biserial în coeficient de corelaţie biserial, după formula:

𝑝𝑞 𝑝𝑞
Valoarea raportului √𝑧 se citeşte în acelaşi tabel ca şi raportul , luându-se ca referinţă proporţia cea
𝑧
𝑝𝑞
mai mică. În exemplul nostru, am luat ca referinţă q=0,463. Găsisem, anterior, că raportul = 0.6259. În
𝑧
√𝑝𝑞
acelaşi tabel, raportul 𝑧 = 1.225. Obţinând coeficientul de corelaţie punct biserial de 0,438, putem deduce
coeficientul de corelaţie biserial.

Valoarea obţinută se apropie foarte mult de cea rezultată prin calcul direct, diferenţele fiind datorate
rotunjirilor.
S-ar putea să întâlniţi în practică situaţii în care va trebui să puneţi în relaţie o variabilă continuă cu o
variabilă trihotomică, de tipul aceleia care împarte un grup de subiecţi în slabi, medii şi buni. În acest caz,
se foloseşte un alt coeficient de corelaţie, numit coeficientul de corelaţie triserial, care ţine cont doar de
extremele variabilei trihotomice, nu şi de clasa din mijloc. Este, dacă doriţi, o variantă a coeficientului de
corelaţie biserial, având aproximativ aceeaşi structură.
Relaţia de calcul a acestui coeficient este dată de următoarea formulă:

Expresia de mai sus nu presupune un tratament special, semnificaţia acesteia fiind deja cunoscută.
𝑧
Menţionăm doar că raportul 𝑝 se citeşte din acelaşi tabel, conţinut în anexa 7, pentru proporţia clasei
inferioare, respectiv superioare.
Am reluat exemplul
anterior, modificând puţin datele,
astfel încât să păstrăm acelaşi
număr de subiecţi şi aceeaşi
abatere standard. De data
aceasta, avem o variabilă
trihotomică derivată dintr-o
variabilă continuă (vârsta), care împarte subiecţii în subiecţi tineri, maturi şi vârstnici.
Abaterea standard are tot valoarea 2, media scorurilor obţinute de tineri este 6,82, media scorurilor
obţinute de vârstnici este de 5,80, proporţia clasei tineri este de 0,362 (36,2%) iar proporţia clasei vârstnice
este de 0,312 (31,2%). Nu am intrat în detalii legate de calculul acestor valori, noţiunile fiind bine
cunoscute.
𝑧
În tabelul din anexă, pentru proporţia clasei tinere (0,362) găsim raportul 𝑝 = 1.0354, iar pentru
proporţia clasei vârstnice (0,312) găsim raportul 1,0583, primul raport întâlnit, corespunzător proporţiei de
0,350, deoarece tabelul nu furnizează o valoare explicită pentru proporţia calculată de 0,312.
Având acum toate aceste informaţii, să calculăm coeficientul de corelaţie triserial.

Obţinem o corelaţie slabă între cele două variabile. Desigur, se pune, şi în acest caz, problema
semnificaţiei acestei corelaţii, aspecte pe care le vom trata în continuare.
Semnificaţia coeficienţilor de tip serial
Coeficienţii studiaţi în acest capitol sunt de tip direcţional, luând valori cuprinse între -1 şi +1.
Semnificaţia interpretativă a acestora o ştiţi deja, însă va trebui să facem menţiunea că lotul de cercetare
trebuie că aibă un volum de minim 50 de cazuri pentru ca aceste statistici să poată fi calculate.
Fiind coeficienţi de corelaţie parametrici, pragul de semnificaţie se obţine, după cum v-aţi obişnuit
deja, prin raportarea la distribuţia t pentru un număr de ninf+nsup-2 grade de libertate. Testul t de
semnificaţie poate fi calculat după formula:

unde r reprezintă coeficientul de corelaţie (biserial, punct biserial, triserial, iar ninf și nsup frecvenţele
absolute ale celor două categorii, inferioară și superioară.
Să verificăm acum dacă acei coeficienţi obţinuţi mai sus sunt sau nu semnificativi. Am obţinut un
coeficient de corelaţie biserial de 0,55 şi un coeficient de corelaţie punct biserial de 0,43, pe un lot de
cercetare de 80 de subiecţi, precum şi un coeficient de corelaţie triserial de 0,24, pe un volum de 54 de
subiecţi. Înlocuind în formulă, vom obţine:

Valorile testului t vor fi verificate în tabelul din anexa 4, la pragul de semnificaţie de 0,05 şi 0,01,
pentru un număr de 78 grade de libertate în cazul coeficienţilor biserial şi punct biserial şi 52 de grade de
libertate pentru coeficientul triserial.
Nu avem o valoare exactă pentru 78 de grade de libertate şi vom lua valoarea imediat inferioară, cea
de 60 de grade de libertate. Pentru a fi semnificativ la un prag de semnificaţie mai mic de 0,05, testul t
trebuie să fie mai mare de 2,00, iar pentru a fi semnificativ la un prag de semnificaţie mai mic de 0,01, va fi
mai mare de 2,66. Valorile testului t pentru coeficienţii biserial şi punct biserial sunt mai mari decât această
valoare, prin urmare corelaţia este semnificativă la un prag de semnificaţie mai mic de 0,01.
Pragurile critice pentru 52 de grade de libertate le găsim, analog, la 50 de grade de libertate.
Semnificaţia pentru un p<0,05 este de 2,00, iar pentru un p<0,01 este de 2,67. Valoarea testului t în cazul
coeficientului de corelaţie triserial este de 1,78, valoare situată sub valoarea prag, aşadar coeficientul de
corelaţie triserial nu este semnificativ.
2.3. Coeficientul de corelaţie eneahoric
Ultima situaţie discutată în acest subcapitol este aceea în care veţi dori să asociaţi două variabile, cel
puţin trihotomice, trihotomia fiind una continuă. Acest coeficient, propus de Coumetou (Radu, și alții,
1993), reprezintă o extensie a coeficientului r Bravais-Pearson, mai exact a coeficientului triserial, singura
excepţie constând în faptul că nu mai avem de-a face cu variabile continui, ci cu o variabile continui reduse
la forma lor continuu-categorială.
Să clarificăm puţin lucrurile printr-un exemplu. Ne interesează să stabilim relaţia dintre vârsta
subiecţilor şi coeficientul de inteligenţă, variabilele fiind categorizate în patru grupe: inteligenţă foarte
slabă, slabă, bună şi foarte bună, respectiv
foarte tineri, tineri, vârstnici şi foarte vârstnici.
Nu am folosit o clasificare trihotomică,
deoarece am vrut să vă prezint posibilităţile
acestui coeficient de a se extinde la un număr
oricât de mare de clase. Singura condiţie este
aceea a provenienţei variabilelor din variabile
continui. După colectarea datelor, rezultă
următorul table 1.29:
Datele indică un total de 20 de persoane foarte tinere, 25 de persoane tinere, 21 de persoane vârstnice
şi 22 de persoane foarte vârstnice. În acelaşi timp, avem 8 persoane cu un intelect foarte slab, 18 persoane
cu intelect slab, 42 de persoane cu un nivel bun al inteligenţei şi 20 de persoane cu inteligenţă superioară.
Întregul lot de cercetare (n) este format din 88 de persoane.
Nu suntem interesaţi de toate datele din tabel. Referitor la cele două variabile, vom avea în vedere
totalurile marginale ale grupelor extreme. Mai precis, grupa celor foarte tineri cu inteligenţă foarte slabă şi
foarte bună (TD=8 subiecţi), grupa celor foarte vârstnici cu o inteligenţă foarte slabă şi foarte bună (TC=5
subiecţi), respectiv grupa celor cu inteligenţă foarte slabă, foarte tineri şi foarte vârstnici (TB=5 subiecţi) şi
grupa celor cu inteligenţă foarte bună, foarte tineri şi foarte vârstnici (TA=8 cazuri).
Un alt element este reprezentat de frecvenţa extremelor. Subiecţii foarte tineri cu inteligenţă foarte
slabă (T4=1 subiect), subiecţii foarte tineri cu o inteligenţă foarte bună (T1=7 subiecţi), subiecţii foarte
vârstnici cu o inteligenţă foarte slabă (T3=4 subiecţi) şi subiecţii foarte vârstnici cu o inteligenţă foarte bună
(T2=1 subiect). Bineînţeles, ultimul aspect considerat are în vedere volumul lotului de cercetare (n=88
subiecţi).
Toate aceste informaţii rezultă din tabelul de distribuţie în baza unor simple adunări. Calculul
coeficientului eneahoric nu mai presupune decât aplicarea formulei:

Se poate constata cu uşurinţă că absolut toate informaţiile se regăsesc în tabel. Nu va trebui decât să
înlocuim în formulă şi vom obţine un coefici-ent de corelaţie de 0,689.

Semnificaţia coeficientului eneahoric


Coeficientul eneahoric este un coeficient direcţional, iar analiza semnificaţiei acestuia se face în mod
analog analizei coeficientului de corelaţie r Bravais-Pearson, motiv pentru care nu vom detalia, lăsându-vă
dumneavoastră, ca exerciţiu, stabilirea semnificaţiei coeficientului de corelaţie eneahoric.
3. Corelaţii parţiale
Corelaţiile parţiale reprezintă un tip particular de analiză a
relaţiilor dintre două variabile, în condiţiile în care ambele variabile
sunt influenţate de o a treia variabilă, iar efectul acesteia este menţinut
constant. Generalizând, o corelaţie între două variabile în care
efectul posibil al altor variabile este menţinut constant, poartă
numele de corelaţie parţială. (Field, 2000).
Fiecare dintre dum-
neavoastră a susţinut cel puţin un
examen. Chiar dacă unii vor spune
că niciodată nu au avut emoţii, eu
consider că la unele examene, emoţiile sunt inevitabile. În acest
moment, am şi eu emoţii, gândindu-mă la modul în care veţi citi şi
interpreta această carte. Fiind, de acum, „cercetători” cu experienţă, ne şi
vine ideea studierii relaţiei dintre notele obţinute la examen şi emoţiile
din timpul acestuia. Excelent, vom spune! Efectuăm rapid un studiu
corelaţional şi obţinem o corelaţie negativă între emoţiile din timpul
examenului şi performanţă, fapt absolut normal. Mândri de realizare, ne
şi grăbim să publicăm rezultatele, ba chiar desenăm şi grafic relaţia găsită.
Ştiu că v-aţi fi aşteptat la un tip de grafic mai serios. Conţinutul figurii 1.2, explică, de fapt, printr-un
coeficient de corelaţie, cantitatea de varianţă din nota obţinută la examen, care se poate regăsi în
emotivitate. Grosier vorbind (Varianţa se calculează ridicând la pătrat coeficientul de corelaţie. În acest caz,
varianţa ar fi 0,3422, adică 0,116 sau 11,6%. Despre coeficientul de corelaţie multiplă şi varianţă explicată
vom discuta într-un alt volum. Unii autori numesc această varianţă
prin termenul de varianţă comună), dacă am fi obţinut un coeficient
de corelaţie de – 0,342 între nota obţinută la examen şi emoţiile din
timpul acestuia, practic 11,6% din varianța contra-performanţei de la
examen se poate explica prin varianța emotivității (zona de intersecţie
a celor două figuri). Suntem, aşadar, în pragul unei descoperiri
epocale: 11,6% din varianța notelor la examen este reprezentată, de
fapt, de varianța emotivităţii. În sfârşit am găsit – şi demonstrat
statistic – motivul pentru care se obţin note proaste. Iată-l! Emoţiile
de la examen.
Când credeaţi şi dumneavoastră că veţi obţine premiul Nobel,
iată că apare cineva şi face o afirmaţie: „Excelent, însă aţi luat în
calcul relaţia dintre timpul de studiu la o disciplină şi performanţa la examen?”. Ce-aţi mai putea spune?
„Nu, însă promitem că vom efectua o altă cercetare.”. Pentru că sunteţi oameni de cuvânt, aţi şi demarat un
studiu analog. De această dată obţineţi o corelaţie pozitivă între timpul de studiu şi nota de la examen,
coeficientul de corelaţie fiind de 0,651. Desigur că veţi ilustra acest lucru folosind un grafic asemănător
celui din figura 1.3. Am răspuns, iată, la întrebarea anterioară. Tipul de studiu explică 42,3% din varianţa
notei obţinute la examen. Mult mai mult în comparaţie cu emotivitatea. Dorind să fim şi mai riguroşi,
putem acum asocia chiar timpul de studiu cu emoţiile din timpul examenului. Desigur, surpriza nu va
întârzia să apară. Obţinem un coeficient de corelaţie negativ, să spunem – 0,410. Iată că timpul de studiu se
regăseşte, şi el, în procent de 16,8%, în varianța emoţiilor din timpul examenului. Cu cât un student alocă
mai mult timp studiului unei discipline, cu atât performanţa
sa la examen va fi mai mare şi emoţiile din timpul
examenului mai mici. Nu prea vă convine. Când credeaţi şi
dumneavoastră că vă veţi putea justifica notele mici la
examene prin emoţii, iată că vi se spulberă teoria.
Cu un oarecare sentiment de tristeţe, veţi reprezenta
acest lucru în figura 1.4.
Problema, totuşi, nu s-a rezolvat. Nu am arătat decât că
timpul de studiu contribuie la scăderea emoţiilor din timpul
examenelor şi la creşterea notelor obţinute la examene. După
o logică simplă, emoţiile duc la scăderea notei obţinute la
examen, iar timpul de studiu determină creşterea acestora.
Totuşi, cum arătăm relaţia dintre emoţii şi performanţa în timpul examenului? Lucrurile ar fi simple în
condiţiile în care varianţele explicate de timpul de studiu şi de emoţiile din timpul examenului ar fi
independente. Am arătat că, totuşi, o parte din varianţa emoţiilor din timpul examenului este explicată şi de
timpul de studiu. Logic, această varianţă comună va influenţa performanţa de la examene. De fapt, ne
interesează cât din varianţa pură a performanţei de la examene poate fi regăsită în emoţiile din timpul
acestora. Răspunsul poate fi găsit intuitiv în figura 1.5. Practic, dacă menţinem constant timpul de studiu,
putem stabili care este legătura „pură” dintre nota obţinută la un examen şi emoţiile din timpul examenului.
Observaţi deja că varianţa acoperită este mult mai mică, cea mai mare parte fiind explicată prin intermediul
timpului de studiu. Soluţia unui asemenea design de cercetare poate să rezulte numai în baza corelaţiilor
parţiale.
Am prezentat acest exemplu, pe care l-am dezvoltat după A. Fields (Field, 2000), din două motive. Pe
de o parte, am dorit să aveţi o imagine clară asupra corelaţiilor parţiale şi să vă introduc în problema
complexă a corelaţiilor multiple, iar pe de altă parte, să înţelegeţi la ce poate duce un plan de cercetare
greşit conceput. De cele mai multe ori, o asemenea eroare se plăteşte destul de scump, cu invalidarea
întregii cercetări.
Coeficientul de corelaţie parţială nu este altceva decât o variantă a coeficientului de corelaţie r
Bravais-Pearson şi poate fi obţinut după formula:

unde r12.3 este coeficientul de corelaţie parţială între variabilele 1 şi 2, cu menţinerea constantă
(controlând) variabila 3, r12 este coeficientul de corelaţie r Bravais-Pearson între variabilele 1 şi 2, r13 este
coeficientul de corelaţie r Bravais-Pearson între variabilele 1 şi 3, iar r23 se referă la acelaşi coeficient,
între variabilele 2 şi 3.
Nu cred că mai rămâne ceva de explicat în această formulă. Tot calculul se rezumă la aflarea unui
număr de 3 coeficienţi de corelaţie r Bravais-Pearson. Modalitatea de realizare efectivă a acestui lucru a fost
tratată pe larg anterior şi nu vom reveni.
Având datele fictive din exemplul de mai sus, să procedăm la aflarea corelaţiei dintre performanţa la
examen şi emoţiile din timpul examenului, în condiţiile în care ţinem sub control timpul alocat studiului.
Prima variabilă va fi performanţa la examen, a doua variabilă emoţiile din timpul examenului, iar variabila
controlată, timpul alocat examenului. Coeficientul de corelaţie dintre performanţa la examen şi emoţiile în
timpului examenului (r12) este de – 0,342. Coeficientul de corelaţie dintre performanţa la examen şi timpul
alo-cat studiului (r13) este de 0,651 iar coeficientul de corelaţie dintre emoţiile din timpul examenului şi
timpul alocat studiului este de – 0,410 (r23). Coeficientul de corelaţie parţială r12.3 va fi – 0,109.

Iată că, menţinând sub control timpul de studiu, corelaţia dintre performanţa la examen şi emoţiile din
timpul examenului este una negativă, de doar 0,109. Varianţa performanţei la examen nu este acoperită în
procent de 11,6%, cum credeam iniţial, ci într-un procent de doar 1,18%.
Un asemenea tip de corelaţie parţială poartă numele de corelaţie parţială de rang I, deoarece există
o singură variabilă pe care dorim să o controlăm din punctul de vedere al efectului. Putem să controlăm
efectul unui număr de două variabile, caz în care vorbim despre corelaţie parţială de rang II, efectul a trei
variabile – corelaţie parţială de rang III şi aşa mai departe. Coeficientul de corelaţie se va scrie r12.3 în
cazul unei corelaţii parţiale de ordin I, r12.34 pentru o corelaţie parţială de rang II, r12.345 pentru corelaţiile
parţiale de ordin III şi aşa mai departe.
Algoritmul de lucru este unul analog, bazat pe formula anterioară, extinsă pentru un ordin mai mare.
Calculele pot deveni însă laborioase, de aceea pentru corelaţii parţiale de ranguri mari se preferă utilizarea
unui computer şi a unui program specializat.
3.1. Corelaţii semi-parţiale
Atunci când calculăm coeficientul de corelaţie parţială între două variabile, controlăm efectul
exercitat de o a treia variabilă asupra ambelor variabile. În exemplul de mai sus, se controlează efectul
exercitat de variabila timp de studiu atât asupra variabilei performanţă la examen, cât şi asupra variabilei
emoţii din timpul examenului. Sunt cazuri în care dorim să controlăm efectul exercitat de a treia variabilă
doar asupra unei variabile, în timp ce vom ignora efectul exercitat asupra celeilalte. De exemplu, dorim să
controlăm efectul exercitat de variabila timp de studiu doar asupra emoţiilor din timpul examenului, şi să-l
ignorăm în cazul variabilei performanţă la examen. O astfel de corelaţie poartă numele de corelaţie semi-
parţială.
Formulele de calcul, derivate din cea a corelaţiilor parţiale, vor fi:
În primul caz avem de a face cu o corelaţie semi-parţială în care controlăm doar efectul exercitat de a
treia variabilă asupra primei variabile, în timp ce efectul exercitat asupra celei de-a doua variabile este
ignorat, iar în al doilea caz, controlăm efectul exercitat de a treia variabilă asupra celei de-a doua, ignorând
efectul asupra primei.
Pentru a fixa cunoştinţele, vă invit să aplicaţi dumneavoastră cele două formule, folosind datele din
exemplul anterior, şi să calculaţi cei doi coeficienţi de corelaţie semi-parţială.
3.2. Corelaţii parţiale pentru date neparametrice
Conceptul de corelaţie parţială este
mai uşor de înţeles în cazul în care
utilizăm date parametrice. Pentru date
neparametrice, situate la un nivel ordinal,
se poate calcula coeficientul de corelaţie
parţială, în baza coeficientului de corelaţie
τ Kendall. Logica analizei ţine atât de modalitatea de calcul a coeficientului τ Kendall, cât şi de specificul
corelaţiilor parţiale.
În tabelul 1.30, am reprezentat modalitatea de lucru. Ne interesează corelaţia parţială între două
variabile, X şi Y, în condiţiile în care menţinem sub control variabila Z. Pentru a putea calcula acest
coeficient de corelaţie, trebuie să analizăm numărul perechilor concordante şi discordante, între X şi Y pe
de o parte, între Y şi variabila Z pe de altă parte, apoi putem utiliza formula:

Se poate observa că acest coeficient de corelaţie nu face decât diferenţa dintre perechile concordante
şi cele discordante, în condiţiile în care se elimină orice influenţă a celei de-a treia variabile. Similar datelor
parametrice, şi acest coeficient se rezumă la calcului unui număr de coeficienţi de corelaţie τ Kendall, aşa
cum rezultă şi din formula detaliată:

Să presupunem că la un examen
psihologic, un număr de 10 subiecţi au
fost evaluaţi cu trei teste: un test de
atenţie, unul de inteligenţă şi unul de
memorie. Problema care se pune este
aceea a calculării coeficientului de co-
relaţie parţială între inteligenţă şi
memorie, în condiţiile în care menţinem
constantă influenţa atenţiei.
În mod absolut evident, chiar dacă
datele sunt la un nivel parametric, numărul mic de cazuri nu permite utilizarea coeficientului de corelaţie
parţială r şi va trebui să folosim corelaţia parţială pentru date neparametrice. Trebuie, întâi, să calculăm trei
coeficienţi de corelaţie: τxy, τxz şi τyz, după metoda expusă anterior în acest capitol.
Vă lăsăm pe dumneavoastră să faceţi calculele şi sperăm că veţi ajunge la următoarele rezultate:
τxy=0,155, τxz=0,200 iar τyz=0,866. Înlocuind în formulă, se obţine:

Pentru corelaţii parţiale de ordin doi, folosindu-se date neparametrice, există o formulă derivată din
coeficientul de corelaţie parţială Kendall, pe care ne vom rezuma doar să o prezentăm, fără vreun exemplu,
deoarece calculul se realizează identic, lăsându-vă dumneavoastră plăcerea găsirii şi rezolvării unui
exerciţiu în baza acestei relaţii.
Un alt coeficient de corelaţie
parţială a rangurilor, din păcate
foarte puţin folosit, este
coeficientul φ12.3 Johnson.
Coeficientul a fost lansat în anul
1966, se bazează tot pe ranguri, ca
şi coeficientul τxy.z, însă nu mai
presupune ordonarea rangurilor, ca în cazul coeficientului Kendall.
Relaţia de calcul a coeficientului de corelaţie parţială a rangurilor Johnson este următoarea:

Formula 1.50 nu mai presupune lucrul efectiv cu ranguri, ci vizează compararea acestora, prin
includerea numărului de cazuri care satisfac inecuaţiile de mai sus. În plus, nu se mai compară rangurile
variabilei 1 cu rangurile variabile 2. Ce ne facem însă dacă rangul variabilei 1 este egal cu rangul variabilei
3, sau în cazuri asemănătoare? Regula este foarte simplă - elementele respective se exclud din calcul.
Am reluat exemplul celor 10 subiecţi de
mai sus, în acest caz inclu-zând, alături de
scoruri, şi rangurile (cele scrise îngroşat în
tabelul 1.33). Modalitatea de calcul este de o
simplitate uluitoare. Ne interesează corelaţia
parţială între inteligenţă şi memorie, în
condiţiile în care menţinem constant efectul
atenţiei. Prima variabilă este „inteligenţa” iar a
doua variabilă este „memoria”. Comparând
scorurile la probele de inteligență și memorie,
pentru primul subiect, observăm că au ranguri
egale, deci cazul va fi exclus din analiză. Şi al doilea subiect va fi exclus din analiză, deoarece rangul
scorului la proba de memorie este egal cu rangul scorului la atenţiei. Pentru al treilea subiect, rangul
scorului la proba de inteligenţă este mai mare decât rangul scorului la proba de atenţiei (X1>X3) şi rangul
scorului la proba de memorie este mai mic decât rangul scorului la proba de atenţie (X2<X3), fiind inclus în
categoria A. Al patrulea subiect prezintă ambele variabile – memoria şi inteligenţa – la un rang mai mare
decât atenţia şi va fi inclus în categoria B. Al cincilea subiect este inclus tot în categoria B, în timp ce toţi
ceilalţi subiecţi sunt excluşi din cauza egalităţii. În final, avem un singur caz în categoria A şi 2 cazuri în
categoria B, restul categoriilor neavând nicio valoare.

Iată un caz în care obţinem coeficientul de corelaţie al rangurilor nedefinit. Desigur, nici coeficientul
τxy.z Kendall nu a indicat o corelaţie parţială între cele două variabile, însă… chiar să nu obținem nimic?
Care ar fi explicaţia? Nu este greu să vă daţi seama că acest coeficient se bazează pe un număr de doar trei
cazuri din zece, un volum de date extrem de mic. Poate şi acesta este un motiv pentru care popularitatea
coeficientului Johnson este atât de redusă. Dacă volumul de date este mare iar numărul de ranguri egale
relativ mic, se poate apela cu încredere la indicatorul de mai sus.
3.3. Semnificaţia corelaţiilor parţiale
Corelaţiile parţiale derivă din coeficientul de corelaţie r Bravais-Pearson, ori din coeficientul τ
Kendall, pe care se şi bazează. Ele sunt, aşadar, corelaţii direcţionale şi pot lua valori cuprinse între -1 şi +1,
ca orice alt coeficient de corelaţie direcţional.
Verificarea semnificaţiei corelaţiilor parţiale se poate face în baza testului t, rezultatul fiind raportat la
distribuţia t, folosindu-se formula:

unde rjk.x este coeficientul de corelaţie parţială, k reprezintă numărul de variabile corelate, iar n se referă
la numărul de cazuri.
Valoarea testului t se raportează la distribuţia t din anexa 4 pentru un număr de n-2-k grade de
libertate.
În cazul nostru, am obţinut un coeficient de corelaţie parţială între performanţa la examen şi emoţiile
din timpul examenului, în condiţii de control al timpului de examen de r12.3=-0,109, studiind un lot de
cercetare de 103 persoane. Avem două variabile corelate – performanţa la examen şi emoţiile din timpul
examenului. Valoarea testului t va fi de – 1,09.

Raportând valoarea testului t (- 1,09) la un număr de 103-2-2=99 grade de libertate, observăm că acest
coeficient de corelaţie obţinut nu este semnificativ (pentru a fi semnificativ la un prag de semnificaţie mai
mare de 0,05, testul t trebuie să depăşească valoarea 1,990). Aşadar, nu există nicio legătură între
performanţa la examen şi emotivitatea din timpul examenului. V-aţi făcut iluzii degeaba.
Pentru a vă veni în ajutor, am furnizat în anexa 9 tabelul pragurilor de semnificaţie pentru coeficientul
de corelaţie parţială τ Kendall, în cazul în care vă este mai comod să priviţi un tabel decât să efectuaţi
propriile calcule.
În privinţa coeficientului de corelaţie parţială Johnson, analiza semnificaţiei se face în funcţie de
estimatorul χ2, după relaţia următoare:

În această situaţie, semnificaţia coeficientului de corelaţie este dată de semnificaţia lui χ2. Acest
estimator poate fi folosit numai dacă numărul total de cazuri este mai mare de 40, iar frecvenţa minimă într-
o categorie (A, B, C sau D) este de 10.
Cea de-a treia variabilă, variabila controlată, o veţi putea întâlni în literatura de specialitate şi sub
numele de variabilă supresoare deoarece efectul controlului acesteia determină, după cum aţi văzut deja,
reducerea coeficientului de corelaţie bivariată între cele două variabile (numit, în general, coeficient de
corelaţie de rang zero). Din aceleaşi motive – rezultate în urma faptului că a treia variabilă mediază
coeficientul de corelaţie de rang zero –, această variabilă se mai poate numi şi variabilă mediatoare. Totuşi,
cel mai frecvent, această variabilă se numeşte variabilă de control.
Capitolul referitor la corelaţiile parţiale încheie secţiunea referitoare la analiza relaţiilor dintre două
variabile şi deschide drumul către studiul corelaţiilor multiple şi al regresiilor.
4. Interpretarea coeficienţilor de corelaţie
Îmi veţi pune întrebarea dacă trebuie sau nu trebuie memorate toate aceste relaţii. Formulele, desigur,
nu trebuie memorate, iar la examen este prea puţin probabil să vi se dea un subiect de genul: „Explicaţi
coeficientul de corelaţie tetrachoric”. S-ar putea, însă, ca la „examenul profesional al vieţii”, să vă
confruntaţi cu o problemă de cercetare. În funcţie de tipurile de variabile cuprinse în planul de cercetare, va
fi nevoie să calculaţi un anumit coeficient. Alegerea unui coeficient de corelaţie inadecvat vă poate crea
mari probleme la interpretarea rezultatelor.
Pentru a vă veni în ajutor, aveţi mai jos un tabel (tabelul 1.34) care vă indică ce coeficienţi de
corelaţie puteţi folosi pentru analiza corelaţională bivariată, în funcţie de nivelul de măsură al variabilelor.
Referitor la corelaţii, există trei elemente esenţiale în interpretarea unui coeficient de corelaţie, şi
anume: sensul, valoarea şi semnificaţia.
Sensul unei corelaţii este dat de semnul coeficientului de corelaţie în cazul coeficienţilor de corelaţie
direcţionali. O corelaţie pozitivă arată că direcţia în care evoluează o variabilă este şi direcţia de evoluţie a
celeilalte variabile.
Dacă rezultă o corelaţie pozitivă între notele obţinute la matematică şi notele obţinute la fizică,
înseamnă că, elevii care au note mari la matematică, au note mari şi la fizică. Cei cu note mici la
matematică, obţin note mici şi la fizică. Corelaţiile negative sunt cele ale căror coeficienţi de corelaţie au
semnul minus, şi indică faptul că, direcţia de evoluţie a unei variabile reprezintă evoluţia inversă a celeilalte
variabile. O corelaţie negativă între vârstă şi capacitatea de asimilare a cunoştinţelor indică faptul că
subiecţii tineri pot asimila mai multe cunoştinţe, în timp ce subiecţii în vârstă vor asimila cunoştinţe mai
puţine.
Sensul unei corelaţii nu contează în cazul coeficienţilor de corelaţie nedirecţionali. În această situaţie,
accentul cade doar pe interpretarea semnificaţiei şi a valorii.

Faptul că o corelaţie poate fi sau nu poate fi semnificativă este determinat de raportarea la pragul de
semnificaţie. Nu intrăm în amănunte, deoarece analiza semnificaţiei s-a realizat la fiecare coeficient de
corelaţie studiat. Precizăm doar că, în domeniul ştiinţelor socio-umane, limita maximă a pragului de
semnificaţie este de 0,05. Cu alte cuvinte, putem accepta ca cel mult 5% dintre rezultatele obţinute să se
datoreze unei erori de eşantionare. În 95% din cazuri relaţia există, cu adevărat, la nivelul populaţiei.
Desigur, pragul de semnificaţie nu garantează reprezentativitatea eşantionului, aceasta fiind o altă
problemă. Probabil că, vă veţi întreba, în ce bază stabilim pragul de semnificaţie. Ideea este că, pe măsură
ce pragul de semnificaţie este mai mic, rezultatele sunt mai precise, mai valoroase. Stabilirea pragului se
face în funcţie de importanţa cercetării. În domeniul ştiinţelor sociale, putem accepta faptul că 5% dintre
rezultate se pot datora erorilor de eşantionare. Dacă însă desfăşurăm un studiu în industria farmaceutică, la
lansarea unui nou medicament, s-ar putea ca acest prag să fie mult prea mare, preferându-se un prag de
semnificaţie de 0,01 sau chiar mai mic. Oricum, alegerea pragului de semnificaţie influenţează
probabilitatea de producere a erorilor de tip I sau a erorilor de tip II – respingerea ipotezei nule în condiţiile
în care nu ar trebui respinsă sau, din contra, acceptarea ipotezei nule în condiţiile în care ar trebui respinsă.
Pentru detalii suplimentare, consultaţi lucrarea anterioară.
Valoarea coeficientului de corelaţie indică puterea corelaţiei. Fie că vorbim despre coeficienţi de
corelaţie direcţionali sau nedirecţionali, analiza valorii acestora se supune unor repere, după cum urmează:
 Coeficienţii de corelaţie cu valori absolute situate între 0,00 şi 0,20 indică absenţa unei corelaţii reale
sau o corelaţie foarte slabă;
 Valorile absolute situate între 0,21 şi 0,40 arată o corelaţie slabă între cele două variabile;
 O corelaţie moderată se obţine atunci când valorile absolute sunt cuprinse între 0,41 şi 0,60;
 Dacă un coeficient de corelaţie are valoarea absolută cuprinsă între 0,61 şi 0,80, vorbim despre o
corelaţie puternică;
 În sfârşit, coeficienţi de corelaţie cu valori absolute situate între 0,81 şi 1,00 arată existenţa unei
legături foarte puternice între cele două variabile;
Desigur, aceste repere sunt orientative. Coeficienţii de corelaţie depind de volumul eşantionului sau a
lotului de cercetare studiat, dar şi de alţi factori, după cum vom vedea în continuare. Este mult mai uşor să
obţinem coeficienţi de corelaţie ridicaţi atunci când studiem 10 persoane, în comparaţie cu situaţia analizei
unui număr de 1000 de persoane.
Trebuie, de asemenea, să ştiţi că, nu întotdeauna valoarea unei cercetări este dată de respingerea
ipotezei nule. Există o tendinţă printre studenţi, şi chiar printre anumiţi cercetători, de a respinge, prin orice
mijloace, ipoteza nulă. Unii merg până acolo încât afirmă că dacă un studiu nu respinge ipoteza nulă, şi
dacă nu se acceptă una dintre ipotezele alternative, acel studiu nu are valoare. Complet fals! Aceasta este o
stereotipie a cercetării ştiinţifice, întâlnită frecvent printre debutanţi. De multe ori, lipsa de respingere a
ipotezei nule are o valoare la fel de mare ca şi respingerea acesteia. Dacă, de exemplu, se realizează un
studiu în care se verifică relaţia dintre puterea maşinii şi riscul de accident, credeţi că lipsa de respingere a
ipotezei nule înseamnă un studiu invalid? În nici un caz. Faptul că nu există nicio legătură între puterea
maşinii şi riscul de accident nu reprezintă o invalidare a studiului, din contra, oferă informaţii preţioase.
Probabil că nu maşina puternică creşte riscul accidentului de circulaţie, ci lipsa de experienţă sau
teribilismul şoferului. Se creează astfel premisele unei noi cercetări pe alte teme. Să nu vă mai fie frică,
aşadar, de nerespingerea ipotezei nule. Valoarea unui studiu ştiinţific nu este dată de respingerea sau nu a
ipotezei nule, ci de informaţiile noi pe care le aduce cercetarea. Am făcut această menţiune, deoarece mi s-a
întâmplat să cunosc studenţi în licenţă, disperaţi că nu obţineau corelaţii semnificative, şi cărora profesorii
coordonatori le spuneau că dacă nu se obţine o corelaţie semnificativă, lucrarea de licenţă nu este bună.
Dincolo de tragicomicul situaţiei, a trebuit să petrec ceva timp lămurind persoanele în cauză că lucrurile nu
stau chiar aşa.
4.1. Grade de libertate
Am întâlnit, deseori, expresia „grade de libertate”. Cred că aveţi deja o imagine asupra semnificaţiei
acestui termen. În principiu, gradele de libetate arată numărul valorilor (al cazurilor) luate în calcul pentru
un indicator statistic, şi diferă de numărul total (n) al lotului de cercetare. Dacă efectuăm un studiu
corelaţional simplu, bazat pe 137 de subiecţi, coeficientul de corelaţie obţinut se raportează la un număr de
136 (n-1) grade de libertate. Prin urmare, se pierde un subiect. De ce se întâmplă acest lucru? Care este
motivul pentru care nu lucrăm cu întregul efectiv, ci cu efectivul minus un subiect? Pentru a înţelege logica,
vom considera un exemplu.
Să presupunem că lucraţi la o fabrică de confecţii, iar pentru a stimula angajaţii unui birou, aveţi la
dispoziţie un număr de zece premii, în obiecte de îmbrăcăminte, dintre care aceştia vor putea să aleagă
obiectul de îmbrăcăminte dorit. Dacă biroul are exact 10 angajaţi, primul angajat poate alege un premiu
dintre cele zece expuse. Al doilea angajat alege un premiu dintre cele nouă rămase, al treilea unul dintre
cele opt şi aşa mai departe. Cel din urmă angajat mai alege? Evident că nu. El trebuie să se mulţumească
luând ultimul obiect rămas. Ultima persoană mai face vreo alegere? Ei bine, nu. În această situaţie, nu mai
putem vorbi de probabilităţi, nu există nicio posibilitate de alegere. Ca să putem folosi principii statistice,
trebuie să existe cel puţin o şansă de a alege. În cazul ultimului angajat, această şansă nu mai există. Care a
fi, aşadar, soluţia? Fie mărim numărul de premii (11), caz în care şi cel de-al zecelea angajat poate alege
între două obiecte de îmbrăcăminte, fie renunţăm la al zecelea angajat şi ne limităm la ultimul care a putut
să facă o alegere (al nouălea, care a ales unul dintre cele două obiecte rămase). Această ultimă situaţie
reflectă exact principiul gradelor de libertate.
Să nuanţăm puţin lucrurile. Presupunem că cele 10 articole de îmbrăcăminte sunt formate din 5 rochii
şi 5 costume bărbăteşti. Întrebarea care se pune este câte persoane pot accesa aceste articole, în condiţia în
care fiecare persoană va trebui să aibă o şansă de a alege? Probabil că cele 5 rochii vor fi alese de femei. Ca
să poată alege, vom avea nevoie de cel mult 4 femei. Similar, cele 5 costume bărbăteşti pot fi alese de
maximum 4 bărbaţi, ultimul având posibilitatea de a alege între două costume. Aşadar, putem lua în calcul
maximum 8 persoane, şi nu 10 câte aveam iniţial.
În orice analiză multivariată, numărul total de subiecţi se reduce în funcţie de nivelurile unei variabile.
Gradele de libertate exprimă numărul de cazuri luat în calcul pentru a obţine indicatorul statistic dorit, în
condiţiile în care se poate vorbi de probabilităţi.
4.2. Efecte exercitate şi varianţă
Mulţi începători consideră că un coeficient de corelaţie poate să exprime şi procentual puterea
legăturii dintre două variabile. Dacă obţinem un coeficient de corelaţie de 0,34, acesta ar exprima faptul că
34% din varianţa unei variabile se regăseşte (poate fi explicată) prin varianţa celeilalte variabile (vezi
figurile 1.2 – 1.5). În realitate nu este chiar aşa.
Mărimea efectului reprezintă o măsură obiectivă şi standardizată a magnitudinii relaţiei dintre două
variabile, şi se obţine, foarte simplu, prin ridicarea la pătrat a coeficientului de corelaţie. La un coeficient de
corelaţie de 0,34, mărimea defectului va fi de 0,129, adică varianţa explicată este de 12,9% şi nu de 34%
aşa cum am crezut iniţial. Motivele care stau în spatele acestei operaţii se regăsesc în suportul teoretic al
varianţei şi nu le vom mai trata aici. Alături de coeficientul de corelaţie, mărimea efectului este o altă
măsură, mai versatilă, mai intuitivă, a puterii statistice a unei cercetări. Exprimarea procentuală este mai
uşor de înţeles în comparaţie cu expresia simplă a unui coeficient de corelaţie. Este bine ca în orice studiu
de acest tip, alături de coeficientul de corelaţie, să indicaţi şi mărimea efectului pe care îl generează, în
termeni de varianţă explicată.
Strict orientativ, Andy Fields (Field, 2000) oferă o serie de repere în interpretarea mărimii efectului,
în funcție de valorile absolute ale coeficientului de corelație liniară (notat generic cu r):
 0,00 < r < 0,10 – efecte reduse, explicând până la 1% din varianţa totală;
 0,11 < r < 0,30 – efecte medii, explicând între 1% şi 9% din varianţa totală;
 0,31 < r < 0,50 – efecte mari, explicând între 9% şi 25% din varianţa totală;
 r > 0,51 – efecte foarte mari, explicând peste 25% din varianţa totală.
Ar fi destul de multe lucruri de discutat aici, inclusiv aspecte referitoare la puterea indicatorilor
statistici. Nu le vom aborda acum. Acestea vor fi tratate pe larg în capitolul dedicat statisticilor inferenţiale.
Cunoştinţele dumneavoastră în domeniul planurilor de cercetare de tip corelaţional sunt, deocamdată,
suficiente.
4.3. Strategii de analiză şi interpretare a corelaţiilor
Înainte de a începe un studiu corelaţional, de a ne apuca de calculat şi de interpretat coeficienţi, este
bine să ne punem o serie de întrebări, pentru a evita eventualele surprize neplăcute.
1. Ce fel de date vom colecta?
Aceasta este o întrebare pe cât de evidentă, pe atât de mult ignorată. Dacă datele colectate sunt situate
la un nivel nominal, evident, nu există nicio posibilitate de ierarhizare, ca să nu mai vorbim de medii şi de
abateri standard. În acest caz, utilizarea unor metode care implică ordinea (cum ar fi coeficienţii Spearman
sau Kendall) ori, mai grav, a coeficienţilor parametrici (r Pearson) pot duce la erori serioase de interpretare
şi riscaţi să vă faceţi de râs. În acest caz, puteţi folosi χ2 şi coeficienţii derivaţi din acesta.
Datele ordinale sunt ceva mai flexibile. Dacă se pot ierarhiza categoriile variabilei, pe lângă metodele
specific nominale (pe care nu are sens să le mai utilizaţi acum, fiind prea slabe), putem aborda corelaţii
bazate pe ranguri. Măsurarea datelor la nivel ordinal depinde de ordinea categoriilor, ignorarea acestui lucru
ducând la pierderi semnificative de informaţie. Dacă folosim corelaţii pentru date nominale, evident că vom
pierde informaţie. Unii cercetători proiectează cercetarea în aşa fel încât grupează, de la început, subiecţii în
categorii. Un exemplu excelent în acest sens este variabila „vârsta”. Sunt unii care în loc să solicite
subiecţilor vârsta în ani, realizează, pentru acest lucru, categorii de vârstă (între 20 şi 25 de ani, peste 40 de
ani şi aşa mai departe). Iată că, la proiectarea cercetării, această variabilă, în mod natural continuă, este
transformată într-o variabilă ordinală. Se pierde, prin urmare, foarte multă informaţie. Nu mai putem vorbi
de media de vârstă, nu mai putem efectua corelaţii parametrice cu această variabilă şi va trebui să ne
rezumăm doar la analize de date neparametrice. În mod evident, pierderea informaţiilor este cu atât mai
mare, cu cât numărul categoriilor este mai mic.
Cea mai fericită situaţie este aceea în care colectăm date aflate la un nivel scalar (sau asimilate unui
nivel scalar). Dar, şi în acest caz, se pun anumite probleme. În primul rând, existenţa unui număr suficient
de cazuri. Nu are sens că calculăm coeficientul de corelaţie r Pearson sau corelaţii seriale ori parţiale dacă
numărul de cazuri este foarte mic, în general sub 50 de scoruri. În această situaţie, o măsură mai stabilă ar fi
calculul coeficientului de corelaţie ρ Spearman. În al doilea rând, datele sunt distribuite normal? Iată un
motiv foarte serios pentru a proceda la analiza normalităţii distribuţiei. Dacă numărul de subiecţi este mare,
iar datele nu se distribuie normal, nu putem lucra cu un coeficient de corelaţie bazat pe medii, cum este r
Pearson. Se pre-feră, în acest caz, ρ Spearman sau τ Kendall. Unii autori (Liebetrau, 1983) interzic chiar
utilizarea coeficientului ρ Spearman în aceste situaţii, recomandând doar analizele bazate pe τ Kendall.
2. Ce tip de ipoteze au fost formulate?
Tipul ipotezei formulate are o mare importanţă, îndeosebi sub aspectul distincţiei între ipotezele
unilaterale şi bilaterale. Stabilirea semnificaţiei unui coeficient se va face doar în strictă concordanţă cu
acest aspect. Raportarea pragului de semnificaţie bilateral în condiţiile unei ipoteze unilaterale şi invers,
constituie o eroare. Din fericire, acest lucru poate fi uşor remediat.
3. Care este motivul pentru care s-a analizat relaţia dintre două variabile?
Iată o întrebare care, la prima vedere, s-ar putea să vă surprindă. Desigur, răspunsul îl puteţi găsi
studiind obiectivele şi ipotezele cercetării. Cercetarea urmăreşte analiza legăturii (corelaţiei) dintre două
variabile? Ori, poate, doreşte să precizeze gradul de acord între mai multe persoane referitor la o anumită
problemă sau la un anumit grup de subiecţi. Sau, de ce nu, pentru a efectua o predicţie şi a stabili o relaţie
cauzală.
Datele nu pot fi tratate „mecanic”, fără referire la scopul cercetării. Dacă se urmăreşte simpla legătură
între variabile (măsurători numite şi analize simetrice), se pot folosi coeficienţi de corelaţie cum ar fi r
Pearson, ρ Spearman, τ Kendall şi alţii. Gradul de acord între mai multe persoane (analize asimetrice) se
poate investiga, mai curând, prin coeficienţi de concordanţă. Predicţiile sunt mai adecvate pentru
coeficienţii de asociere, cum ar fi cei Goodman-Kruskal ori coeficientul d Somers.
4. Dorim să facem inferenţe pe baza datelor analizate?
Desigur! Altfel pentru ce mai cercetăm ceva, dacă nu pentru a extinde cunoştinţele la nivelul
populaţiei. Doar că, acest lucru nu este chiar atât de simplu cum pare la prima vedere. Ne-ar interesa, în
acest sens, să ştim cum se distribuie parametrul la nivelul populaţiei. Din fericire, majoritatea parametrilor
se distribuie normal la nivelul unei populaţii (sau cel puțin așa se presupune matematic), însă, şi în acest
caz, se pune problema unei corecte estimări a varianţei. Nu ne mai putem rezuma doar la analiza
coeficientului şi a pragului de semnificaţie. Suntem obligaţi să furnizăm intervalele de încredere ale
estimărilor, erorile de estimare şi alte date care pot da valoare şi pertinenţă inferenţei.
Tehnic, în analiza şi interpretarea corelaţiilor sunt importante trei aspecte (Urdan, 2005):
 Analiza grafică a legăturii dintre două variabile;
 Calculul coeficientului de corelaţie, a semnificaţiei acestuia şi a mărimii efectului determinat;
 Calculul intervalelor de încredere
Analiza grafică a relaţiei dintre două variabile
Ştiţi, probabil, că nu agreez, în mod deosebit, analizele statistice fundamentate pe poze şi pe alte
elemente grafice, deoarece consider că statistica se bazează pe cifre. Iată, însă, un domeniu în care fac
excepţie de la regulă, şi recomand începerea analizei corelaţionale prin inspectarea grafică a legăturii dintre
două variabile.
Asocierea dintre două variabile măsurate pe o scală parametrică se reprezintă grafic printr-o diagramă
numită „nor de puncte” (scatterplot în limba engleză) sau diagramă de corelaţie. Aceasta se prezintă sub
forma unui grafic cu două axe, pe fiecare dintre ele regăsindu-se o variabilă. Nu există nicio regulă după
care reprezentăm variabilele, pe abscisă sau pe ordonată. (Sava, 2004).
Orice corelaţie presupune existenţa unei relaţii între cele două
variabile, fie pozitivă, fie negativă, monotonă, liniară, etc.
În figura 1.6 este reprezentată diagrama de corelaţie în cazul unei
corelaţii pozitive între variabilele X şi Y. Observăm liniaritatea relaţiei şi
traseul ascendent (pozitiv) al acesteia. Subiecţii cu scoruri mici la
variabila X, au scoruri mici şi la variabila Y. Pe măsură ce scorurile
subiecţilor cresc la variabila X, cresc şi la variabila Y. Intuiţi deja
existenţa unui coeficient de corelaţie ridicat între cele două variabile,
corelaţia fiind, de asemenea, semnificativă.
În figura 1.7 aveţi norul de puncte în cazul unei corelaţii negative
între variabilele X şi Y. Asocierea dintre variabile este, de asemenea, liniară, însă subiecţii care au scoruri
mici la variabila X, au scoruri mari la variabila Y. Pe măsură ce scorurile subiecţilor cresc la variabila X,
scad la variabila Y.
În acest caz, putem anticipa existenţa unui coeficient de corelaţie
ridicat, semnificativ şi negativ.
Figura 1.8 indică lipsa legăturii dintre cele două variabile, X şi
Y. După cum se poate observa, nu există nicio relaţie liniară între cele
două variabile. Nu putem afirma că scorurile sunt legate în vreun fel.
În acest caz, valoarea unui eventual coeficient de corelaţie va fi foarte
mică, şi, în mod cert, corelaţia nu este semnificativă. Spunem, în
această situaţie, că cele două variabile nu sunt relaționate.
Analiza norului de puncte, ne permite să apreciem forma relaţiei
dintre două variabile (relaţia liniară, neliniară sau absenţa relaţiei),
direcţia acestei relaţii (ascendentă sau pozitivă, ori descendentă,
negativă) şi intensitatea legăturii dintre variabile (legătură puternică,
punctele fiind apropiate de dreapta de evoluţie liniară sau legătură
slabă, punctele fiind mai depărtate de această dreaptă).
Analiza formei norului de
puncte poate releva aspecte
importante, îndeosebi în situaţia în
care coeficientul de corelaţie are
valori mici. Să nu ne grăbim să
afirmăm că nu există nicio
legătură între variabile, ci să
analizăm grafic semnificaţia
acestei valori. Să presupunem că,
într-un studiu, am obţinut un
coeficient de corelaţie r Bravais-Pearson de 0,15, corelaţia nefiind
semnificativă. Cei mai mulţi se vor grăbi să afirme că nu există nicio
legătură între cele două variabile. Desigur, acest lucru poate fi valabil dacă norul de puncte arată ca în
figura 1.8.
Acelaşi coeficient de corelaţie se poate obţine şi în cazul datelor reprezentate în figura 1.9. Putem
spune că nu există nicio legătură între cele două variabile? Sigur că nu. Legătura există, este pozitivă şi
puternică. Elementul care conduce la scăderea valorii coeficientului de corelaţie este tocmai scorul extrem,
pe care îl puteţi remarca foarte uşor. Iată că, în absenţa analizei grafice, ne putem păcăli. Nu ne rămâne
decât să eliminăm acel scor extrem, şi vom observa modificarea radicală a coeficientului de corelaţie.
Un alt element important, se referă la constanţa grosimii norului de
puncte. În studiile de tip corelaţional, plecăm de la presupunerea că
norul de puncte are o grosime constantă pe întreaga distribuţie. Această
grosime constantă poartă numele de homoscedasticitate, şi se poate
observa în figura 1.10.
Într-o corelaţie homoscedastică, un coeficient de corelaţie are
valori mari. Semnificaţia este aceea că, pe întreaga amplitudine a
distribuţiei celor două variabile, relaţia liniară se păstrează.
Un coeficient de corelaţie
mic, poate fi obţinut şi pe baza
unei relaţii heteroscedastice, ca în
figura 1.11. Acest caz ne poate
induce în eroare, ne poate face să
considerăm că nu există nicio legătură între cele două variabile. În
realitate, legătura există, însă norul de puncte nu mai este omogen, ca
în primul caz, ci eterogen. În figura 1.11 observăm existenţa unei
corelaţii pozitive între cele două variabile. Corelaţia este, însă, mai
puternică în cazul scorurilor mici, şi mai slabă sau inexistentă la
scorurile mari. Per ansamblu, coeficientul de corelaţie va avea valori
mici, fapt care nu reflectă nici pe departe realitatea. De exemplu
(Sava, 2004), dacă vom studia relaţia dintre coeficientul de inteligenţă şi creativitate, vom obţine un nor de
puncte heteroscedastic. Corelaţia dintre aceste două dimensiuni este puternică la valori mici ale inteligenţei
şi creativităţii. Pe măsură ce coeficientul de inteligenţă creşte, intensitatea legăturii scade, datorită
intervenţiei unor factori intelectuali şi non-intelectuali. Problema care se
pune este aceea a stabilirii punctului până la care relaţia se păs-trează, iar
interpretarea va ţine seama de aceste aspecte.
Dacă vom studia relaţia dintre venituri şi cheltuieli pe articole de
îmbrăcăminte, s-ar putea să aveţi surpriza obţinerii unui coeficient de
corelaţie mic. Acceptarea ipotezei conform căreia nu există nicio
legătură între venituri şi cheltuieli pe articole de îmbrăcăminte s-ar putea
să fie eronată, în condiţiile în care norul de puncte arată ca în figura
1.12.
Remarcăm, în acest caz,
existenţa a două seturi distincte de
date. Putem suspecta existenţa unei
variabile moderatoare, în acest caz
genul biologic al persoanei. Relaţia poate exista în cazul femeilor (norul
de puncte compact din partea de stânga-sus a graficului), pentru bărbaţi
nefiind semnificativă (norul de puncte din dreapta-jos). Dacă vom trata
compact lotul de cercetare, sigur că vom obţine un coeficient de corelaţie
foarte mic. În acest caz, analiza se realizează separat pentru bărbaţi şi
pentru femei, rezultatele raportându-se în consecinţă.
Ultimul element pe care îl remarcăm, din punctul de vedere al
formei distribuţiei, se referă la relaţiile neliniare. Cei dintre
dumneavoastră care au studiat psihologie, cunosc relaţia dintre motivaţie şi performanţă. Performanţa creşte
pe măsură ce creşte motivaţia, însă doar până la un punct, numit optim motivaţional. Dincolo de acest
punct, supra-motivarea conduce la scăderea performanţei.
Norul de puncte, într-o asemenea situaţie, ar arăta ca în figura 1.13. Desigur, studiind legătura dintre
motivaţie şi performanţă, am obţine un coeficient de corelaţie foarte mic. Să ne rezumăm la interpretarea
strictă a acestui coeficient, ar fi o eroare. În realitate, există o corelaţie pozitivă puternică pentru prima
jumătate a graficului şi o corelaţie negativă puternică pentru a doua jumătate. Nici vorbă de absenţa
corelaţiei. Lucrurile se rezolvă simplu, prin depistarea punctului de optim motivaţional, şi prin tratarea
datelor ca două seturi distincte de date. Cercetarea devine valoroasă tocmai prin această particularitate.
Puterea legăturii dintre două variabile este dată, evident, de coeficientul de corelaţie. Cu cât acesta se
apropie de valoarea ±1, în cazul unei corelații liniare, cu atât legătura este mai puternică, datele sunt mai
grupate în jurul unei drepte de evoluţie imaginare. Valorile apropiate de zero conduc la un nor de puncte
împrăştiat în jurul acestei drepte imaginare.
În figura 1.14 este reprezentat norul de puncte al unui coeficient de
corelaţie pozitivă de 0,91. Observaţi modul în care se grupează datele. Este
cazul unui studiu referitor la vârsta soţului şi a soţiei. Desigur, în condiţii
normale, vârsta soţilor este apropiată, legătura dintre cele două variabile
fiind puternică (excepţiile de la această regulă le puteţi găsi şi singuri
studiind viaţa mondenă din România).
Figura 1.15 arată norul de puncte
al unei corelaţii negative slabe de 0,28.
Putem intui dreapta de evoluţie a celor
două variabile, însă observaţi că datele
sunt mult mai împrăştiate în jurul
acesteia. Legătura, evident, există, însă nu are puterea celeia din figura
1.14. Variabilitatea datelor în acest caz este mult mai mare.
Făcând această incursiune prin analiza graficelor, am dorit să
subliniem importanţa studiului diagramei de corelaţie. Interpretarea
exclusivă pe baza coeficientului de corelaţie nu se recomandă, deoarece,
foarte uşor putem cădea în capcana unei relaţii neliniare sau specifice.
Primul pas în interpretarea coeficientului de corelaţie este analiza diagramei de corelaţie. În funcţie de
aspectul datelor, se ajustează procedurile de calcul şi de raportare.
Analiza datelor prin utilizarea creionului şi a hârtiei reprezintă un proces laborios, care presupune o
importantă investiţie de timp şi este susceptibil de a genera erori. Din fericire, programele specializate de
analiză statistică pot face aceste operaţii în câteva fracţiuni de secundă. Iată că a venit timpul să studiem
corelaţiile folosind cunoscutul pachet de programe, SPSS for Windows.
5. Obţinerea coeficienţilor de corelaţie în SPSS
Nu-i aşa că v-aţi săturat de atâtea calcule? Aşa-i că vă este dor de câteva clicuri? Sigur că vorbim
despre o diferenţă enormă. Pe un lot de cercetare de 200 de persoane, pentru a calcula pe hârtie coeficientul
de corelaţie r Bravais-Pearson, probabil că vă va lua jumătate de zi. Folosind SPSS for Windows şi
presupunând că aveţi deja datele introduse, vă va lua sub un mi-nut.
5.1. Coeficienţi de corelaţie bazaţi pe date parametrice
SPSS for Windows, în acest moment, a ajuns la versiunea 17, versiune cu multe îmbunătăţiri şi
facilităţi în comparaţie cu variantele anterioare. Înainte de a începe, vom crea o bază de date nouă, reluând
exemplul din capitolul destinat studiului corelaţiilor parţiale. Vă reamintesc faptul că am dorit, atunci, să
aflăm legătura dintre performanţa la examen şi emoţiile din timpul examenului. Realizăm, prin urmare, o
bază de date cu următoarea structură:
Probabil că vă mai amintiţi cum se creează o bază de date în SPSS. Detalii despre aceste procedee
puteţi găsi în lucrarea anterioară sau în alte cărţi de specialitate. Observăm că avem un număr de patru
variabile, toate elementele necesare realizării bazei de date găsindu-se în tabelul 1.29. Variabila „Gen” este
o variabilă nominală, cu asocierile din tabelul alăturat.
După realizarea structurii bazei de date, în fereastra principală SPSS, secţiunea „Data view” veţi avea
următoarea structură, prezentată în figura 1.16.
Această bază de date o vom folosi doar pentru studiul coeficienţilor de corelaţie
parametrici, aprofundarea corelaţiilor neparametrice
făcându-se pe baza altor date.
Pentru acest studiu, am investigat un număr de
103 subiecţi, înregistrând timpul de studiu (în ore) necesar susţinerii
examenului de statistică, media obţinută la examenul de statistică (nota la
examen şi activitatea de seminar), genul biologic şi scorul obţinut la un
instrument de evaluare a emotivităţii în condiţii de examen.
Nu este cazul să vă mai explic modul în care veţi introduce datele în
SPSS. Mai jos aveţi întreaga bază de date, pe care vă invit să o realizaţi (создать файл из таблицы 1.36).
Nu vă speriaţi, nu vă ia mai mult de 10 minute. După ce aţi introdus datele, salvaţi fişierul sub numele de
„Corelaţii parametrice”.
În primul rând, să
începem cu începutul.
Dorim să aflăm dacă
există vreo legătură între
nota obţinută la examen
şi emoţiile din timpul
examenului. Înainte de a
ne grăbi să calculăm
coeficientul de corelaţie r
Bravais-Pearson, trebuie
să ne asigurăm că cele
două variabile
îndeplinesc condiţiile de calcul ale statisticilor
parametrice. Vom presupune că ambele variabile au o
distribuţie normală, deoarece este evident faptul că se
situează la un nivel scalar de măsură.
Lansarea procedurilor de calcul ale corelaţiilor se
realizează prin accesarea meniului „Analyze”, apoi din
submeniul „Correlate” vom alege opţiunea „Bivariate…”. Imediat se va deschide o fereastră similară celei
din figura 1.18.
Formularul conţine două liste, separate prin butonul de transfer în formă de săgeată. Cu ajutorul
acestuia, putem transfera variabilele din baza de date (fereastra din stânga) în lista variabilelor supuse
analizei (fereastra din dreapta). În cazul nostru, am inclus spre analiză, variabilele „Nota examen” şi
„Emoţii examen”, în conformitate cu planul de cercetare.
Sub aceste două liste se află secţiunea „Correlation Coefficients”, care conţine trei casete de bifare,
corespunzătoare celor trei coeficienţi de corelaţie ce pot fi calculaţi: coeficientul de corelaţie r Bravais-
Pearson (Pearson), coeficientul de corelaţie τ Kendall (Kendall’s tau-b) şi coeficientul de corelaţie a
rangurilor ρ Spearman (Spearman). Situaţia noastră este clară; vom calcula coeficientul de corelaţie r
Bravais-Pearson.
Următoarea secţiune, „Test of Significance” are în vedere stabilirea
tipului de ipoteză cu care lucrăm. Putem alege între o ipoteză nedirecţională
(Two-tailed) şi o ipoteză direcţională (One-tailed). Presupunem că ipoteza
noastră vizează stabilirea unei relaţii între performanţa la examen şi emoţiile din
timpul examenului. Ştiţi deja că aceasta este o ipoteză nedirecţională, corelaţia
fiind semnificativă atât în cazul unei legături pozitive, cât şi în cazul unei
legături negative.
Întrebare
Cum aţi formula o ipoteză direcţională în acest design de cercetare? Ce
opţiune aţi alege în secţiunea testelor de semnificaţie?
Caseta de bifare „Flag significant correlations” comunică programului SPSS să marcheze, în mod
distinct, corelaţiile semnificative. Aplicaţia va marca, folosind un asterisc pentru corelaţiile semnificative la
un prag de semnificaţie mai mic de 0,05, şi două asteriscuri în cazul corelaţiilor semnificative la un prag de
semnificaţie mai mic de 0,01.
Butonul „Options…” vă permite configurarea opţiunilor avansate referitoare la calculul coeficientului
de corelaţie. Secţiunea „Statistics” oferă posibilitatea calculului a două elemente: mediile şi abaterile
standard pentru fiecare dintre variabilele analizate (Means and standard deviation) şi covarianţele,
respectiv produsului încrucişat al abaterilor (Cross-product deviations and covariances). Acest din urmă
element se afişează pentru fiecare pereche de variabile supuse analizei. Produsul încrucişat al abaterilor
reprezintă suma produselor mediilor corectate ale variabilelor. Acest indicator reprezintă, de fapt, valoarea
numărătorului din formula de calcul a coeficientului de corelaţie r Bravais-Pearson. Covarianţa, ca măsură
nestandardizată a relaţiei dintre cele două variabile – studiată la începutul acestui capitol – nu este altceva
decât produsul încrucişat, împărţit la numărul gradelor de libertate (în cazul nostru, n-1).
Secţiunea „Missing values” cuprinde două opţiuni reciproc exclusive şi se referă la tratarea cazurilor
lipsă. În situaţia „Exclude cases pairwise”, SPSS nu va lua în calcul înregistrările în care lipsesc date din
ambele variabile. Dacă o variabilă conţine date iar cealaltă nu conţine date, SPSS va calcula totuşi
coeficientul de corelaţie, considerând valoarea lipsă ca fiind valoare nulă. În acest fel se asigură obţinerea
unui maximum de informaţii din datele introduse, deşi există riscul unor erori statistice. Situaţia „Exclude
cases list-wise” exclude din analiză cazurile în care una dintre variabile nu are date. Aceasta este o opţiune
mai riguroasă, însă este posibil să se
piardă un volum important de informaţie.
În general se utilizează prima opţiune.
Părăsirea ferestrei se face prin acţionarea
butonului „Continue”, caz în care se
revine la formularul iniţial.
Celelalte butoane vă sunt cunoscute
şi nu comportă explicaţii suplimentare.
Lansarea procedurilor de calcul se face
prin acţionarea butonului „OK”. În câteva
fracţiuni de secundă, rezultatele analizei vor fi afişate în fereastra de rezultate (Output).
Tabelul 1.37 prezintă rezultatele acestei analize. Atât pe linii, cât şi pe coloane, sunt afişate cele două
variabile analizate („Nota examen” şi Emoţii examen”). Linia „Pearson Correlation” conţine valoarea
coeficientului de corelaţie între cele două variabile. Evident, corelând variabila cu ea însăşi, coeficientul de
corelaţie va fi 1,00. Pe noi ne interesează coeficientul de corelaţie dintre cele două variabile. Iată că am
obţinut –0,441, corelaţie semnificativă la un prag de semnificaţie mai mic de 0,01, aşa cum rezultă şi din
subsolul tabelului. Linia „Sig. (2-tailed)” exprimă în mod precis pragul de semnificaţie. Acesta este 0,00,
valoare rotunjită. În realitate, valoarea exactă este de 0,000003, în mod evident mai mică de 0,01. În sfârşit,
ultima linie, N, arată numărul de cazuri. Cercetarea a fost realizată pe un număr de 103 subiecţi. Ce
concluzii putem extrage de aici? Desigur, avem de a face cu o corelaţie semnificativă, deoarece pragul de
semnificaţie este mai mic de 0,01. Totodată, corelaţia este negativă şi
moderată, aspecte rezultate din semnul coeficientului de corelaţie şi
din valoarea acestuia. Mărimea efectului acestei relaţii este de 0,194,
sau 19,4% din varianţa unei variabile poate fi explicată prin cealaltă
variabilă, intensitatea efectului fiind una medie. Putem, aşadar, afirma
că există o corelaţie moderată, negativă şi semnificativă între
performanţa la examen şi emoţiile din timpul examenului; persoanele
cu note slabe la examen prezintă şi un nivel semnificativ mai mare al
emoţiilor.
Nu ne-ar mai rămâne decât să facem o „poză” a acestei
corelaţii; cu alte cuvinte să realizăm norul de puncte pentru a vedea
dacă apar situaţii atipice.
Iată, în figura 1.20,
diagrama de corelaţie. Se observă clar sensul negativ al legăturii, precum
şi intensitatea acesteia. În acelaşi timp, putem suspecta o relaţie
heteroscedastică. Corelaţia pare puternică doar în situaţia notelor mici
obţinute la examen. Pentru notele mari, este posibil să nu existe nici-un
fel de legătură între cele două variabile (vedeţi grosimea norului de
puncte în cele două cazuri. De asemenea, ar fi posibilă existenţa unei alte
variabile care să modereze această corelaţie (cred că ştiţi deja despre ce
variabilă este vorba).
Întrebarea pe care mi-o veţi pune acum va fi una referitoare la
modul în care am ajuns la acest grafic. Puţină răbdare.
Toate elementele grafice din SPSS se regăsesc în meniul „Graphs”.
Există, aici, două posibilităţi: fie utilizarea unui expert de creare a
graficelor (opţiunea „Chart Builder…”, fie crearea manuală a acestora
(opţiunea „Legacy Dialogs”). Pentru moment, vom avea în vedere a
doua situaţie, urmând ca pe parcursul acestui volum să detaliem şi
expertul în grafice SPSS.
Graficul care ne interesează este „Scatter/Dot…”. Accesarea
acestui meniu permite lansarea unei
ferestre simple, de selecţie a tipului
de grafic, aşa cum se poate observa
în figura 1.22.
Există, în acest formular, un
număr de 5 variante de grafice.
Varianta „Simple Scatter” este
opţiunea care ne interesează pe noi.
În acest caz, graficul va desena cele
două variabile pe ordonată şi abscisă,
permiţând eventual intervenţia unei a
treia variabila categoriale (de exemplu
sexul). „Overlay Scatter” este o versiune
a graficului simplu, permiţând afişarea,
pe aceeaşi diagramă, a mai multor
perechi de variabile, fiecare variabilă
fiind indicată printr-un element de marcaj distinct. Vom folosi acest grafic
dacă, de exemplu, intenţionăm să reprezentăm pe acelaşi grafic corelaţia
dintre performanţa la examen şi emoţiile din timpul examenului (nor de
puncte reprezentat prin cercuri) şi corelaţia dintre timpul de studiu şi perfor-
manţa la examen (nor de puncte reprezentat prin pătrate).
A treia formă, „Matrix Scatter”, se foloseşte în momentul în care avem de reprezentat mai mult de o
pereche de variabile. Dacă, de exemplu, am include în analiză şi timpul de studiu, SPSS ar efectua un
număr de 3 corelaţii, corespunzătoare perechilor de variabile. Pentru a nu desena mai multe grafice, se
poate folosi această formă.
Observăm în figura 1.24 reprezentarea tuturor celor trei diagrame de corelaţie. Pe ambele axe sunt
incluse variabilele. La intersecţia a două variabile se afişează norul de puncte corespunzător. Puteţi remarca,
pe al doilea rând, ultimul cadran, graficul din figura 1.20. Aceasta este o modalitate ideală de a vizualiza an-
samblul legăturilor dintre variabile.
Graficul „3-D Scatter” este util în reprezentarea tridimensională a
corelaţiilor între mai multe perechi de variabile. Este o diagramă de
corelaţie mai dificil de analizat şi presupune o oarecare experienţă în
analiza datelor, folosindu-se frecvent în analiza factorială şi în corelaţii
parţiale. În figura 1.25, reprezentând tridimensional cele trei variabile,
putem observa uşor lipsa efectului emoţiilor din timpul examenului. Norul
de puncte este concentrat preponderent în zona variabilelor „nota examen”
şi „timp de studiu”, cu orientare către scoruri mici ale dimensiunii „emoţiei
din timpul examenelor”.
Graficul de tip „Simple dot” nu-l vom discuta. Acesta nu reprezintă
un nor de puncte propriu-zis ci o variantă a graficului cu bare, prin care
reprezentăm observaţiile individuale ale unei singure variabile.
Acum să trecem la treabă. Am ales norul
de puncte simplu, am apăsat butonul „Define”
pentru a intra în modul de definiţie a graficului,
acum pri-vim la noua fereastră care ne ocupă
ecranul.
În partea stângă, avem de acum obişnuita
listă a variabilelor din baza de date. În partea
dreaptă regăsim butoanele de transfer,
corespunzătoare sec-ţiunilor care trebuie
definite. Secţiunea „Y-Axis” permite includerea
variabilei ce va fi reprezentată pe abscisă (axa
OY). În cazul nostru, am inclus emoţiile din
timpul examenului. „X-Axis” va conţine
variabila reprezentată pe ordonată (axa OX).
Nota obţinută la examen a fost selectată în
vederea reprezentării pe această axă. Caseta
„Set Markers by” se foloseşte în cazul în care
dorim să includem o variabilă categorială, ce va
diferenţia datele. De exemplu, dacă dorim să
reprezentăm diferit norul de puncte al bărbaţilor
în comparaţie cu cel al femeilor, vom include
variabila „Gen biologic” în această secţiune.
Graficul va reprezenta datele femeilor cu cercuri
şi datele bărbaţilor cu pătrate. Secţiunea „Label
cases by” reprezintă un alt element deosebit de util în condiţiile în care dorim să identificăm fiecare element
din grafic. De exemplu, dacă am include genul biologic în această casetă, deasupra fiecărui cerc de pe
grafic, se va afişa genul biologic al subiectului respectiv. Desigur, dacă am dori să reprezentăm datele
separat pentru bărbaţi şi pentru femei, vom prefera varianta „Set Markers by”, deoarece „Label Cases by”
poate duce la o supraaglomerare a graficului. Alternativ, am putea include în această casetă variabila „timp
de studiu”. Într-o asemenea situaţie, deasupra fiecărui cerc de pe grafic, va fi afişată valoarea timpului
petrecut de către fiecare subiect în vederea pregătirii pentru examen.
Secţiunea „Panel by” permite separarea graficului în funcţie de o variabilă categorială. Dacă dorim să
afişăm separat norul de puncte pentru bărbaţi şi pentru femei, putem include în această secţiune variabila
„gen biologic”. În funcţie de dorinţă, graficul va fi separat pe orizontală dacă variabila se include în caseta
„Rows” sau pe verticală dacă o includem în caseta „Columns”.
Secţiunea „Template” permite încărcarea unui şablon grafic dintr-un fişier. Colecţii de şabloane
grafice pentru SPSS pot fi găsite pe Internet, în galeria aplicaţiei sau pot fi comandate la compania
producătoare.
Butonul „Titles…” este destinat denumirii graficului. Putem include două linii de text în antetul
graficului (partea superioară) şi două linii de text în subsolul graficului (partea inferioară). Opţiunea se
foloseşte pentru denu-mirea graficului şi pentru eventualele explicaţii suplimentare referitoare la
semnificaţia acestuia, ori la drepturile de autor.
Nu mai intrăm în detalii referitoare la butonul „Options…” deoarece nu cred că v-ar putea interesa în
mod deosebit. Oricum, acest buton are câteva variante de configurare avansată, de natură grafică şi
statistică. Dacă doriţi să aflaţi mai multe, consultaţi excelentul sistem de asistenţă al programului SPSS,
prin apăsarea butonului „Help”. Sistemul de asistenţă este furnizat în limba engleză şi reprezintă o
adevărată enciclopedie statistică. Finalizarea definirii graficului şi lansarea opţiunii de desenare se poate
face prin apăsarea butonului OK. În câteva momente, în fereastra de rezultate, veţi obţine desenul solicitat.
Excelent! În acest moment, avem toate datele necesare elaborării unui raport, privind studiul acestei
corelaţii. Mai jos, veţi găsi o analiză completă a studiului propus. Vă voi ruga să comparaţi cele expuse cu
activităţile dumneavoastră de cercetare. Dacă veți considera că studiile dumneavoastră sunt mai complexe,
vă rog să-mi scrieţi. Dacă nu, vă rog ca de acum înainte să abordaţi cel puţin acest nivel.
Studiul efectuat pe un lot de cercetare de 103 studenţi, în baza ipotezei nedirecţionale conform căreia
există o legătură semnificativă între performanţa studenţilor la examen şi emoţiile acestora în timpul
examenului, s-a bazat pe un plan corelaţional. Cele două variabile („Nota examen” şi „Emoţii examen”)
se situează la un nivel de măsură scalar, analiza distribuţiei acestora permiţând utilizarea statisticilor
parametrice. În consecinţă, a fost folosit coeficientul de corelaţie r Bravais-Pearson, rezultând o valoare a
corelaţiei de r=-0,441, la un prag de semnificaţie p<0,01. Într-o primă etapă, putem respinge ipoteza nulă
şi putem afirma că există o corelaţie medie, negativă şi semnificativă între cele două variabile. Astfel,
studenţii cu note mici la examen sunt caracterizaţi prin niveluri ridicate ale emoţiilor în timpul examenului.
Cei care obţin performanţe la acest examen, pot fi consideraţi ca fiind puţin emotivi. Mărimea efectului
acestei corelaţii este de 0,194, corespunzătoare unei varianţe explicate de 19,4%. Putem considera că,
lipsa de performanţă în condiţii de examen, se datorează, în
procent de 19,4%, emoţiilor din timpul examenului. Totuşi,
studiind diagrama de corelaţie, se remarcă imediat existenţa
unei legături heteroscedastice. Asocierea negativă între cele
două variabile pare a exista doar în cazul notelor mici la
examen, corespunzătoare scorurilor mari la emoţii în timpul
examenului. Pentru studenţii cu note mari, relaţia nu se mai
respectă. Se poate suspecta existenţa unei variabile
moderatoare, care să influenţeze atât performanţa la examen,
cât şi emoţiile din timpul examenului, ori existenţa unui optim
emoţional până la care această atitudine poate corela cu o
contraperformanţă, în situaţii de evaluare. În mod cert, planul
de cercetare este incomplet şi urmează a fi optimizat.
Iată cam cum puteţi prezenta rezultatele unui studiu de acest tip. În mod cert vor exista diferenţe între
ceea ce ştiaţi până acum şi ceea ce aţi găsit mai sus. Aţi observat că nu m-am hazardat să ofer vreo
explicaţie psihologică, sociologică sau economică a faptelor constatate. Nici nu este cazul. Statistica se
bazează pe datele existente şi oferă un raport constatativ şi nu explicativ a fenomenelor. Interpretarea
statistică nu se poate confunda cu un alt tip de interpretare. Deşi sunt psiholog de profesie, nu m-aş hazarda
să fac aprecieri asupra acestor fapte, în condiţiile unei lucrări destinate însuşirii tehnicilor de analiză a
datelor. Având la dispoziţie aceste date, un sociolog îşi poate exprima punctul de vedere, un psiholog poate
avea viziune proprie, la fel şi un economist sau un medic psihiatru. Reţineţi că metodele de analiză a date-
lor oferă fapte. Interpretarea faptelor cade în sarcina analistului.
Exerciţii: Studiaţi legătura care există între performanţa la examen şi timpul alocat studiului, precum
şi între emoţiile din timpul examenului şi timpul alocat studiului. Stabiliţi ipotezele, precizaţi tipul acestora,
analizaţi cifric şi grafic coeficienţii de corelaţiei, elaboraţi raportul.
Presupunând existenţa unei a treia variabile, care să modereze atât
performanţa la examen, cât şi emoţiile din timpul examenului, ne gândim la
timpul de studiu. Automat, vom avea în vedere o corelaţie parţială. Meniul din
care putem lansa calculul corelaţiilor parţiale îl regăsim în aceeaşi locaţie. De
data aceasta, nu mai apelăm opţiunea „Bivariate…” ci vom folosi „Par-
„Partial…”.
Fereastra se aseamănă foarte mult cu cea întâlnită la corelaţiile bivariate.
Singura diferenţă constă în locaţia de includere a variabilelor spre analiză. În
acest caz, lista „Variables” conţine variabilele ce urmează a fi corelate, iar
lista „Controlling for” se referă
la variabilele de control. Analiza
noastră urmăreşte corelarea notei obţinute la examen cu
emoţiile din timpul examenului, în condiţiile controlului
asupra variabilei „tipul alocat studiului”, astfel încât fe-
reastra dumneavoastră va trebui să arate ca în figura 1.28.
Butonul „Options” va
deschide o altă fereastră, de
configurare a opţiunilor
avansate. Formularul este
asemă-nător cu cel de la
corelaţiile bivariate. Singura
diferenţă constă în dispariţia
produsului încrucişat al
abaterilor şi apariţia casetei de bifare „Zero-order correlations”, a cărei
selectare comunică programului calcularea corelaţiilor r Bravais-Pearson,
între perechile formate din cele trei variabile, fără moderare. Facilitatea este
foarte utilă, scutindu-ne de a efectua corelaţii repetate, prin urmare am bifat-
o şi noi. Apăsarea butonului „Continue” închide această fereastră şi se revine în primul formular.
După ce am introdus cu atenţie variabile care urmează a fi calculate, putem lansa operaţiunea prin
apăsarea butonului OK. În scurt timp, veţi obţine, în fereastra de rezultate, tabelul 1.38.
Vi se pare un tabel complicat? Nu este cazul să vă speriaţi. În partea de sus, sunt afişate cele trei
variabile analizate şi corelaţiile de rang zero între ele. Ştim deja, între notele obţinute la examen şi emoţiile
din timpul examenului, avem un coeficient de corelaţie semnificativ de r=-0,441, p<0,01. Între nota la
examen şi timpul alocat studiului, corelaţia este semnificativă şi pozitivă, r=0,397, p<0,01; similar, între
timpul de studiu şi emoţiile din timpul examenului există o core-laţie negativă, r=-0,709, p<0,01. Aţi
observat că aceste corelaţii de ordin zero nu reprezintă altceva decât coeficienţii de corelaţie r Bravais-
Pearson între cele trei variabile, luate două câte două. În loc să efectuăm trei corelaţii bivariate, bifăm caseta
„Zero-order correlations” iar SPSS le va calcula automat, realizând astfel o importantă economie de timp.
În partea de jos a tabelului regăsim corelaţia parţială solicitată. Observăm că între nota obţinută de
către studenţi la examen şi emoţiile din timpul examenului, în condiţiile în care controlăm efectul timpului
alocat pentru studiu, există o corelaţie parţială negativă şi semnificativă r12.3=-0,247; p<0,05, la un număr de
100 de grade de libertate. Efectul acestei corelaţii este de 0,06, adică doar 6% din varianţa notei obţinute la
examen poate fi regăsită în emoţiile din timpul examenului.
Reprezentarea grafică adecvată acestei corelaţii este graficul tridimensional „3-D Scatter”. Pe axele
OX şi OY se reprezintă cele două variabile corelate, iar pe axa OZ
vom afişa variabila de control. Se remarcă foarte uşor intensitatea
slabă a corelaţiei dintre nota obţinută şi emoţiile din timpul exa-
menului, în condiţiile controlului exercitat de timpul de studiu,
precum şi traseul descendent al norului de puncte.
Interpretarea corelaţiei parţiale se realizează similar
corelaţiei bivariate simple, la care se adaugă elemente ce ţin de
variabila de control.
S-ar putea să fim interesaţi, la un moment dat, de relaţia
existentă între genul biologic şi timpul alocat studiului, pentru a
vedea în ce măsură sexul subiecţilor determină efecte asupra
timpului de studiu. Suntem în situaţia asocierii unei variabile
dihotomice cu o dihotomie discretă, reală, cu o variabilă continuă.
Ce tip de corelaţie folosim? Aţi ghicit, corelaţie punct biserială. În
SPSS, coeficientul de corelaţie punct biserial nu este altceva decât coeficientul de corelaţie r Bravais-
Pearson, în condiţiile în care una dintre variabile este dihotomică. Unii autori (Field, 2000), (Bakeman, și
alții, 2004), (Swinscow, și alții, 2002) recomandă codarea variabilei dihotomice cu valorile zero şi unu
pentru a nu exista niciun fel de dubiu referitor la calculul acestui coeficient. În realitate, SPSS realizează
automat conversia. În cazul nostru, variabila „gen biologic” este o variabilă dihotomică codată cu unu şi
doi, iar calculul coeficientului de corelaţie punct biserial nu pune probleme.
Calculaţi coeficientul de corelaţie r Bravais-Pearson între genul biologic şi timpul de studiu.
În tabelul 1.39, puteţi observa lipsa oricărei asocieri între cele două variabile. Putem afirma că cele
două variabile nu sunt corelate liniar, genul biologic nu determină niciun efect asupra timpului de studiu.
SPSS nu dispune de proceduri distincte de calcul a coeficientului de corelaţie biserial. În cazul în care
variabila dihotomică are o dihotomie continuă şi se impune calculul acestui coeficient, puteţi calcula întâi
coeficientul de corelaţie punct biserial şi apoi puteţi aplica formula de transformare în coeficient biserial,
aşa cum s-a arătat în capitolul dedicat acestor coeficienţi.
5.2. Coeficienţi de corelaţie bazaţi pe date neparametrice

Pentru a studia, utilizând SPSS, legătura dintre variabilele situate la un nivel de măsură neparametric,
baza de date creată mai sus nu ne este de prea mare ajutor. Vom realiza o nouă bază de date, având o
structură diferită.
Această bază de date corespunde unei cercetări imaginare, efectuată la nivelul unei unităţi militare,
cercetare în care ne interesează să înregistrăm variabilele prezente în tabelul 1.40. Se observă existenţa unui
număr de 2 variabile de nivel nominal, două variabile ordinale şi două
variabile scalare, structură suficientă îndeplinirii scopurilor noastre. Etichetele
variabilelor neparametrice sunt prezentate în tabelul 1.41 şi nu necesită
explicaţii.
Cunoscând toate aceste elemente, nu vă rămâne decât să proiectaţi baza
de date şi să o salvaţi sub un nume, să spunem, „Corelaţii
neparametrice.sav”.
Desigur, toate valorile sunt fictive şi nu corespund unei cercetări reale.
Înarmaţi-vă aşadar cu multă răbdare şi completaţi cele 50 de cazuri pentru a
putea demara apoi analiza. Desigur, la final nu veţi uita să salvaţi din nou
baza de date, sub acelaşi nume, pentru a evita surprizele provocate de o
eventuală blocare a computerului.
Pentru început ne propunem să analizăm relaţia dintre înălţimea şi
greutatea celor 50 de subiecţi. Teoretic ambele variabile sunt de tip scalar,
putându-se folosi coeficientul de corelaţie r Bravais-Pearson. Să presupunem,
însă, că înălţimea subiecţilor nu are o distribuţie normală, ci una puternic
asimetrică la stânga, arătând faptul că tendinţa în grupul de studiu este către
subiecţii înalţi. Media nu mai este un indi-cator reprezentativ pentru tendinţa
centrală, şi, prin urmare, nu vom putea folosi coeficientul de corelaţie
menţionat mai sus. Următoarea alternativă este aceea a coeficienţilor de
corelaţie ρ Spearman şi τ Kendall. Pentru a începe calculul acestor doi
coeficienţi, veţi proceda exact la fel ca mai sus, la calculul coeficientului de
corelaţie r Bravais-Pearson. Veţi accesa meniul „Analyze”, apoi submeniul
„Correlate” şi, în final, opţiunea „Bivariate…”. Se va deschide cunoscuta
fereastră din figura 1.32.
Atunci când aţi calculat coeficientul de corelaţie r Bravais-Pearson, vă
amintiţi, aţi inclus cele două variabile în lista variabilelor supuse analizei, apoi aţi bifat caseta „Pearson”. În
cazul nostru, lucrurile stau la fel, cu o singură excepţie. Nu vom
mai bifa caseta „Pearson” din cadrul secţiunii „Correlation
Coefficients”, ci casetele „Kendall’s tau-b” pentru a calcula
coeficientul de corelaţie τ Kendall şi „Spearman” pentru a calcula
coeficientul de corelaţie ρ Spearman. Alte explicaţii, la acest nivel,
nu sunt necesare, toate aspectele fiind lămurite anterior. Nu
rămâne decât să apăsaţi butonul „OK” pentru ca programul să
iniţieze calculul acestor date.
Fereastra de rezultate va afişa un tabel, la fel cu tabelul 1.43,
în care sunt prezentate cele două analize bazate pe coeficientul de
corelaţie τ Kendall şi pe coeficientul de corelaţie ρ Spearman,
ambii fiind, vă reamintim, coeficienţi de corelaţie ai rangurilor.
La fel ca în cazul coeficientului de corelaţie r Pearson,
tabelul conţine trei elemente: valoarea coeficientului de corelaţie,
pragul de semnificaţie pentru o ipoteză bilaterală (sau unilaterală
dacă am specificat acest lucru în fereastra de configurare a analizei) şi numărul de subiecţi investigaţi (n).
Situaţia noastră ar trebui să bucure sau să supere cercetătorul, în funcţie de modul în care şi-a
formulat obiectivele. Se poate observa
existenţa unor coeficienţi de corelaţie
nesemnificativi, foarte mici (τ=0,069,
ρ=0,097) între înălţimea şi greutatea
subiecţilor.
În concordanţă cu datele cercetării,
nu există nicio legătură între înălţimea şi
greutatea subiecţilor, cele două variabile
fiind independente, iar noi putem să nu
respingem ipoteza nulă. O asemenea
cercetare, presupunând că am fi lucrat cu
date reale, poate fi lipsită de valoare?
Depinde de modul în care explicăm
rezultatele.
Privind figura 1.33, în care am
reprezentat grafic această relaţie, putem observa câteva lucruri
interesante. Există, într-adevăr, o tendinţă către un tip de corelaţie
pozitivă, tendinţă anulată însă de două situaţii particulare: de
existenţa unui grup de persoane foarte înalte şi foarte slabe şi de
existenţa unui alt grup de
persoane – ceva mai numeros –
scunde şi supraponderale. Lipsa
unui coeficient de corelaţie
semnificativ se poate datora
tocmai acestui lucru şi, putem
suspecta, influenţa unei variabile
de grup – probabil tipul
constituţional – pe care nu am
luat-o în considerare.
Analiza coeficientului de corelaţie τ Kendall ori a coeficientului de
corelaţie ρ Spearman se realizează la fel ca şi cea a coeficientului de
corelaţie r Bravais-Pearson, drept pentru care nu vom intra în amănunte
referitoare la acest lucru.
Cum vom proceda în condiţiile în care dorim să aflăm dacă există vreo legătură între genul biologic al
subiecţilor şi culoarea ochilor? Ambele variabile sunt la un nivel de măsură nominal, iar singura posibilitate
pe care o avem este aceea de a utiliza tabelele de contingenţă.
În SPSS for Windows, construcţia şi analiza tabelelor de contingenţă se află în cadrul meniului
„Analyze” la „Descriptive Statistics” şi apoi opţiunea „Crosstabs…”. Termenul semnifică ideea de „tabele
încrucişate”, de fapt chiar ideea conceptului menţionat mai sus, cea de tabel de contingenţă.
La accesarea acestei opţiuni se va deschide o fereastră nouă, fereastra de configurare şi de analiză a
tabelului de contingenţă. Fiind un element nou, ne vom concentra
atenţia asupra formularului. Se observă câteva elemente comune:
lista variabilelor din baza de date, butonul de lansare a analizei
„OK”, de copiere a codului „Paste”, de reiniţializare a formularului
„Reset”, de anulare „Cancel” şi de asistenţă „Help”, alături de
butoanele-săgeată de transfer. Celelalte elemente sunt, în marea lor
majoritate, controale noi, astfel încât le vom trata în detaliu.
Listele „Row(s):” şi „Column(s):” se referă la variabilele ce
vor fi reprezentate pe liniile, respectiv pe coloanele tabelului de
contingenţă. SPSS permite atât analiza tabelelor de contingenţă
bidimensionale, cât şi a celor multidimensionale. Rezultă că putem
include mai multe variabile în listele „Row(s)” ori „Column(s)”, în
vederea construcţiei unor tabele multidimensionale.
Secţiunea „Layer” vizează includerea în analiză a uneia sau a
mai multor variabile de control, variabile care presupunem că ar putea influenţa tabelul de contingenţă. De
exemplu, dacă am studia relaţia dintre „culoarea ochilor” şi „culoarea părului” şi am presupune că această
relaţie este influenţată de „genul biologic”, atunci am include variabila „gen biologic” în lista „Layer”,
aceasta funcţionând ca variabilă de control. Mai mult, SPSS ne permite construcţia de modele ierarhice
folosind variabile de control pentru a vedea efectul exercitat de introducerea succesivă a acestora.
La includerea uneia sau a mai multor variabile în această listă,
programul efectuează analize separate pentru fiecare categorie a
fiecărei variabile de control introduse. Vom obţine, aşadar, o analiză a
relaţiei dintre culoarea ochilor şi culoarea părului pentru bărbaţi şi o
altă analiză, separată, pentru femei. Butoanele „Previous” şi „Next”
permit navigarea prin modelele de variabile de control în vederea
adăugării sau în vederea modificării acestora.
Dacă bifaţi caseta „Display clustered bar charts”, comunicaţi
programului SPSS să construiască un grafic cu bare, grupat după o
variabilă, fiecare grup conţinând categoriile celeilalte variabile. În
cazul nostru, SPSS ar construi două grupuri de grafice cu bare – pentru
femei şi pentru bărbaţi – fiecare grup conţinând graficul cu bare pentru
culoarea ochilor.
Bifarea casetei ”Suppress tables” are ca efect includerea tuturor
tabelelor de contingenţă într-unul singur (dezactivându-se şi butoanele
„Cells…” şi „Format…”). Personal nu recomand bifarea acestei
opţiuni deoarece rezultatele pot să piardă foarte mult din lizibilitate.
Caseta are efect numai asupra modului de prezentare al datelor, nu şi asupra procedurilor de calcul.
Apăsarea butonului „Exact…” determină deschiderea formularului de configurare a testelor de
semnificaţie, furnizând o serie de metode adiţionale.
Varianta „Asymptotic only” este metoda implicită, bazată pe calculul nivelului de semnificaţie în
funcţie de tipul distribuţiei teoretice. Este, dacă doriţi, metoda clasică de calcul a semnificaţiei, aşa cum a
fost ea descrisă până acum, în acest volum. O valoare este considerată semnificativă dacă pragul de
semnificaţie este mai mic de 0,05. Totuşi, varianta pleacă de la premisa că setul de date este suficient de
mare şi eterogen distribuit. Pentru un număr redus de cazuri sau în condiţiile în care omogenitatea
distribuţiei pune probleme, această metodă poate să nu reprezinte un bun indicator al pragului de
semnificaţie.
Celelalte metode, „Monte Carlo” şi „Exact”, se vor folosi în condiţiile în care distribuţia datelor nu
permite utilizarea metodei clasice.
Metoda „Monte Carlo” reprezintă o formă precisă de analiză a nivelului de semnificaţie, bazată pe
simulare, derivată din calculul repetat, efectuat pe mai multe eşantioane de tabele de contingenţă de aceleaşi
dimensiuni şi cu aceleaşi totaluri marginale ca şi tabelul analizat. Metoda „Monte Carlo” permite estimarea
precisă a pragului de semnificaţie, chiar în condiţiile în care nu se poate aplica metoda clasică, asimptotică.
Se poate folosi în cazul în care numărul subiecţilor este suficient de mare, însă avem de a face cu o
distribuţie problematică. Singurele elemente care trebuie configurate se referă la nivelul de încredere
(„Confidence level”), care poate fi 95% pentru un prag de semnificaţie de 0,05 sau 99% pentru un prag de
semnificaţie de 0,01 şi numărul de eşantioane pe baza cărora se va face simularea („Number of samples”).
Valoarea implicită, 10.000, este suficientă. O valoarea mai mare determină şi un nivel de precizie mai mare,
însă consumă foarte mult din puterea de calcul a procesorului.
Metoda „Exact” permite calcularea precisă a probabilităţii de apariţie
a unui răspuns. În mod normal, un nivel de semnificaţie mai mic de 0,05
este considerat, şi aici, suficient, indicând existenţa unei relaţii între
variabile. Deoarece este o operaţiune de durată, poate fi configurată limita
de timp per fiecare test. Bifând caseta „Time limit per test” puteţi
comunica programului să nu execute teste care depăşesc durata menţionată.
În general nu prea avem motive să folosim altă metodă decât cea
clasică, asimptotică. Dacă totuşi doriţi să fiţi extrem de precişi, puteţi folosi
metoda „Monte Carlo”. Utilizarea metodei „Exact” presupune un computer
foarte puternic şi multă răbdare, analiza fiind de lungă durată. Uneori s-ar
putea să aveţi surpriza că vă îngheaţă calculatorul şi singura variantă va fi
să-l scoateţi din priză. Să nu spuneţi că nu v-am avertizat!
Apăsarea butonului „Continue” permite revenirea în formularul
iniţial, cu memorarea testului de semnificaţie dorit.
Butonul „Statistics…” ne interesează în mod deosebit, deoarece din
această fereastră putem alege indicatorii care ne interesează. Formularul
este foarte intuitiv, grupat pe secţiuni, conţine doar casete de bifare. Remarcaţi o serie de indicatori pe care-i
cunoaşteţi, dar şi indicatori de care probabil nu aţi auzit. Haideţi să-i luăm pe fiecare în parte.
Caseta „Chi-square” se referă exact la coeficientul de contingenţă χ2. Bifaţi această casetă pentru a
calcula coeficientul de contingenţă Pearson χ2, coeficientul de contingenţă probabilistic-proporţională χ2,
testul de semnificaţie Fisher şi coeficientul de contingenţă Yate χ2 corectat pentru continuitate. Ştiu că nu
aţi auzit de aceşti coeficienţi. În esenţă sunt forme derivate din χ2, pentru a răspunde unor necesităţi
specifice de cercetare. Spre exemplu, χ2 corectat pentru continuitate se foloseşte strict pentru tabele de
continuitate bidimensionale de tip 2x2, aşa cum am văzut deja. Pentru tabele bidimensionale cu mai multe
linii şi coloane, reperul este χ2 Pearson sau χ2 probabilistic proporţional. Dacă cele două variabile nu sunt
nominale sau ordinale, ci se situează la un nivel scalar, cel mai bun indicator va fi coeficientul de asociere
liniară χ2. Testul de semnificaţie Fisher se foloseşte doar pentru tabele 2x2, în cazul în care frecvenţa
aşteptată la nivelul unei celule este mai mică de 5. Nu vă impacientaţi. Toate aceste elemente le vom discuta
în momentul în care vom analiza rezultatele.
Caseta „Correlations” o puteţi folosi în condiţiile în care tabelul de contingenţă conţine date aflate la
un nivel ordinal sau scalar. Se va calcula coeficientul de corelaţie ρ Spearman dacă datele se află la un nivel
ordinal sau/şi coeficientul de corelaţie r Pearson dacă datele se află la un nivel scalar. Iată cel puţin un
motiv pentru care este important să definim corect nivelul de măsură atunci când proiectăm baza de date.
Secţiunea „Nominal” se referă la coeficienţi de asociere pentru date nominale. Puteţi bifa caseta
„Contingency coefficient” pentru a calcula coeficientul de contingenţă, caseta „Phi and Cramer’s V”
pentru a calcula coeficienţii de contingenţă φ Pearson şi v Cramer, caseta „Lambda” pentru coeficientul de
asociere λ Goodman şi Kruskal, acela care permite realizarea unui fel de predicţii şi caseta „Uncertainty
coefficient”, cu ajutorul căreia calculaţi coeficientul de incertitudine. Acesta din urmă nu a fost studiat, însă
seamănă mult cu coeficientul λ Goodman şi Kruskal. Măsoară, de asemenea, reducerea proporţională a
erorilor atunci când o variabilă este folosită pentru a prezice o altă variabilă.
Secţiunea „Ordinal” permite calculul coeficienţilor de corelaţie în situaţia în care variabilele se află la
un nivel ordinal. Bifarea casetei „Gamma” permite calculul coeficientului de corelaţie γ, pe care l-am
studiat. Casetele „Kendall’s tau-b” şi „Kendall’s tau-c” permit calculul variantelor b şi c ale coeficientului
de corelaţie al rangurilor τ Kendall. Singura diferenţă dintre cei doi coeficienţi este aceea că τb ţine seama
de rangurile egale iar τc nu ţine seama de aceste ranguri. Caseta „Somer’s d” oferă posibilitatea calculului
coeficientului de corelaţie d Somers. Acest indicator nu a fost studiat, însă se foloseşte ca şi coeficientul ce
corelaţie ρ Spearman sau τ Kendall
Secţiunea „Nominal by Interval” se referă la cazul în care o variabilă se află la un nivel de măsură de
interval iar o altă variabilă este nominală. Singurul coeficient pus la dispoziţie de SPSS este coeficientul η
(eta), pe care nu l-am analizat în detaliu în această lucrare. Coeficientul este unul nedirecţional, ia valori
între 0 şi 1 şi exprimă intensitatea legăturii dintre o variabilă nominală şi una ordinală sau scalară.
În „imensa lor generozitate”, plătită, desigur, cu bani grei, programatorii de la SPSS Inc. ne oferă o
serie de indicatori suplimentari, astfel:
Caseta „Kappa” ne oferă o măsură a acordului. De fapt calculează coeficientul Cohen κ, un coeficient
asemănător coeficientului de concordanţă W Kendall. SPSS nu oferă o modalitate directă de calcul a
coeficientului de concordanţă W Kendall, deşi include această procedură în anumite teste statistice. Oricum,
coeficientul κ Cohen se poate folosi ca o alternativă la coeficientul W Kendall în situaţia în care ambele
variabile au acelaşi număr de categorii şi aceleaşi valori ale categoriilor.
Caseta „Risk” nu se referă la riscul de a vă pierde buna dispoziţie citind această carte, ci reprezintă un
coeficient care măsoară puterea legăturii dintre prezenţa unui factor şi apariţia unui eveniment. Dacă doriţi
să studiaţi relaţia dintre prezenţa soacrei şi apariţia unui conflict în familie, acesta este coeficientul care vi
se potriveşte cel mai bine.
Coeficientul „McNemar” studiază legătura dintre două variabile dihotomice şi se bazează tot pe χ2.
Se foloseşte, de obicei, în cercetări de tipul „înainte şi după”, pentru a se identifica modificarea
răspunsurilor în urma apariţiei unei situaţii experimentale.
Celălalt element din această fereastră nu prezintă un interes
deosebit pentru subiectul nostru, referindu-se mai mult la studiul
diferenţelor decât la studiul corelaţiilor, motiv pentru care îl vom discuta
cu altă ocazie.
Butonul „Cells…” permite configurarea datelor ce vor fi prezentate
în tabelele de contingenţă.
Secţiunea „Counts” are două casete de bifare: „Observed” şi
„Expected”. Ele permit afişarea în tabelul de contingenţă a frecvenţelor
actuale (observate) şi/sau a frecvenţelor estimate (teoretice) în condiţiile
în care se lucrează cu χ2.
Secţiunea „Percentages” permite adăugarea şi a frecvenţelor
relative (procente) pentru variabilele situate pe linii („Row”) şi/sau
pentru variabilele situate pe coloane („Column”) ori la nivelul
rezultatelor marginale („Total”).
Reziduurile nu reprezintă altceva decât diferenţa dintre scorul
observat şi cel estimat. Controlul afişării acestor elemente se realizează
prin intermediul secţiunii „Residuals”. Acestea se pot afişa în formă brută, nestandardizată
(„Unstandardized”), ca diferenţă între numărul de cazuri observate şi numărul de cazuri estimate. Ca să vă
reamintiţi, numărul de cazuri observate reprezintă numărul de subiecţi din baza de date care au acea
caracteristică, iar numărul de cazuri estimate (teoretice) se referă la numărul de cazuri care ar trebui să
existe în celula respectivă dacă nu ar exista nicio relaţie între cele două variabile. Dacă rezultatul acestui
reziduu este pozitiv, atunci înseamnă că numărul de cazuri din acea celulă este mai mare în comparaţie cu
situaţia în care cele două variabile ar fi independente.
Forma standardizată se poate afişa prin bifarea opţiunii „Standardized”. SPSS va calcula raportul
dintre valoarea reziduală brută şi abaterea standard a acestei estimări. Aceste date sunt reprezentate pe o
distribuţie z cu media 0 şi abaterea standard 1, având aceeaşi semnificaţie ca şi scorurile z. Din acest motiv
se mai numesc şi reziduuri Pearson.
Bifarea casetei „Adjusted standardized” permite afişarea reziduurilor în formă standardizată,
exprimate însă ca abateri standard în jurul mediei. Este, dacă doriţi, un fel de „etalonare” în unităţi sigma a
reziduurilor.
Secţiunea „Noninteger Weights” are în vedere modul de reprezentare a rezultatelor în celulele
tabelului de contingenţă. În mod normal, celulele tabelului de contingenţă conţin numere întregi. Sunt însă
situaţii în care se pot opera deplasări ori ponderări. O deplasare cu o valoare fracţionară (spre exemplu o
multiplicare a tuturor datelor cu o constantă de tipul 1,19) va determina afişarea în celulele tabelului a unor
numere zecimale. Aceste valori pot fi rotunjite sau trunchiate folosindu-se opţiunile acestei secţiuni.
Opţiunea „Round cell counts” are ca efect rotunjirea valorilor din baza de date înainte de a se efectua
calculele statistice.
Opţiunea „Truncate cell counts” are ca efect trunchierea valorilor din baza de date înainte de a se
efectua calculele statistice. Diferenţa dintre rotunjire şi trunchiere constă în faptul că la rotunjire valorile
zecimale se transformă în întregi în sensul superior (de exemplu 1,39 va fi rotunjit la 2), iar la trunchiere
valorile zecimale se transformă în întregi, în sensul inferior (1,39 va fi trunchiat la 1). Operaţiunile nu
afectează datele din baza de date, ci doar rezultatele calculelor statistice.
Opţiunea „Round case weights” are ca efect rotunjirea datelor direct în baza de date înaintea
efectuării oricăror calcule statistice.
Opţiunea „Truncate case weights” are ca efect trunchierea datelor direct în baza de date înaintea
efectuării oricăror calcule statistice.
Desigur, opţiunea „No adjustments” nu efectuează nicio ajustare, datele fiind folosite aşa cum sunt.
Ultimul buton rămas este butonul „Format…” care controlează ordinea de
sortare a variabilei reprezentate pe linii.
Putem opta pentru o sortare ascendentă a categoriilor variabilei
reprezentată pe linii (alegând opţiunea „Ascending”) sau pentru o sortare
descendentă, de la mare la mic, a aceleiaşi variabile (alegând opţiunea
„Descending”).
Acestea sunt, în mare, opţiunile referitoare la construcţia şi analiza
tabelelor de contingenţă. Acum să revenim la problemele noastre. Ne-am propus
să studiem relaţia existentă între genul biologic al persoanelor şi culoarea ochilor. Ambele sunt variabile
situate la nivel nominal, singurele statistici ce pot fi calculate sunt cele bazate pe date nominale.
În lista „Row(s)” vom include genul biologic iar în lista „Column(s)” includem culoare ochilor. Vom
bifa şi caseta „Display clustered bar charts” pentru a forţa SPSS să reprezinte graficul cu bare al acestor
variabile şi…cam atât. Opţiunea de calcul a testelor de semnificaţie va rămâne cea implicită – opţiunea
asimptotică, astfel încât putem ignora butonul „Exact…”. Butonul „Statistics…” ne interesează ceva mai
mult. Aici vom bifa caseta „Chi-Square”, pentru a calcula coeficienţii χ2. De asemenea, în secţiunea
„Nominal” vom calcula coeficientul de contingenţă şi coeficienţii φ şi v Cramer. Celelalte casete nu le vom
bifa deoarece nu suntem în situaţia de a încerca predicţii şi nici nu avem variabile situate la vreun nivel
superior de măsură.
Apăsând butonul „Cells…” vom comunica programului
modalitatea de afişare a rezultatelor. Dorim să prezentăm atât
frecvenţele aşteptate cât şi cele observate, ne interesează şi toate
reziduurile. După bifarea opţiunilor respective, putem apăsa
butonul „Continue” pentru a reveni la formularul iniţial şi apoi
butonul „OK” în vederea lansării analizei.
Acum, dacă veţi privi în fereastra de afişare a rezultatelor,
veţi rămâne surprinşi. SPSS a generat nu mai puţin de patru tabele şi un grafic.
Primul tabel (1.44) se referă la sumarul analizei. Se poate observa că toţi cei 50 de subiecţi au scoruri
la cele două variabile, nu există cazuri lipsă, datele sunt utilizabile 100%.
Al doilea tabel (1.45) nu este altceva decât tabelul încrucişat de contingenţă. Se poate observa
reprezentarea pe coloane a variabilei „culoarea ochilor”, în timp ce pe linii este reprezentată variabila „gen
biologic”. Datele din acest tabel ne oferă informaţii valoroase referitoare la structura internă a analizei şi
vor trebui incluse în orice raport de cercetare. Iată o primă situaţie în care ar fi trebuit să folosim opţiunile
de rotunjire sau trunchiere fără afectarea bazei de date. Veţi vedea imediat de ce.
Ce ne spune acest tabel? În primul rând avem un număr de 34 de bărbaţi. Dintre aceştia, 5 au ochi
albaştri, 5 au ochi verzi, 16 au
ochi căprui şi 8 au ochi negri.
Similar, am investigat 16 femei:
3 cu ochi albaştri, 3 cu ochi
verzi, 7 cu ochi căprui şi 3 cu
ochi negri. Frecvenţele
estimate, pentru bărbaţi, sunt:
5,4 pentru ochi albaştri, 5,4
pentru ochi verzi, 15,6 pentru
ochi căprui, 7,5 pentru ochi
negri. Situaţia este redată în
mod analog şi pentru femei.
Totuşi, ce înseamnă, spre
exemplu, 5,4? Înseamnă cumva
cinci bărbaţi şi jumătate? La
acest nivel de măsură ar fi fost
mai bine să folosim opţiunile de
rotunjire pentru a evita
asemenea exprimări zecimale.
Când folosim însă trunchierea,
şi când folosim rotunjirea? În general,
dacă baza de date conţine un număr mare
de cazuri vom folosi trunchierea. Chiar
dacă pierdem informaţie, câştigăm
precizie. Dacă numărul de cazuri este
relativ mic, este de preferat să utilizăm
rotunjirea. Beneficiem de mai multă
informaţie în detrimentul preciziei.
Următoarele linii din tabel se referă
la reziduuri. Observăm că pentru culorile
deschise (albaştri şi verzi) bărbaţii se
situează sub frecvenţa aşteptată, în timp
ce femeile se situează sub frecvenţa
aşteptată la culorile închise (căprui şi
negri). Ne-am putea gândi la o
predominanţă a culorilor închise pentru
bărbaţi şi a culorilor deschise pentru femei, deşi forma standardizată a reziduurilor arată abateri mici de la
situaţia în care nu ar exista nici o relaţie între cele două variabile.
Presupunerile anterioare se confirmă în tabelul 1.46. Observăm că nu există nicio legătură între cele
două variabile. Nu se poate stabili nicio relaţie între culoarea ochilor şi genul biologic al subiecţilor.
Absenţa legăturii este confirmată şi de coeficienţii de asociere derivaţi din χ2. Într-adevăr, putem să
nu respingem ipoteza nulă conform căreia nu există nicio legătură între culoarea ochilor şi genul biologic al
subiecţilor.
Reprezentarea grafică a datelor vine în sprijinul
demonstraţiei cifrice. Genul persoanelor investigate nu
are nicio legătură cu culoarea ochilor acestora. Graficul
arată doar o preponderenţă a ochilor căprui la ambele
sexe şi o oarecare frecvenţă mai ridicată a ochilor negri
la bărbaţi. Culorile deschise au în continuare o frecvenţă
scăzută, atât la bărbaţi cât şi la femei. Iată că prin
procedee neparametrice, situate chiar la un nivel
nominal, s-a putut demonstra o ipoteză de cercetare.
Înainte de a încheia, vom furniza câteva exemple,
fără a intra în detalii, pentru a vă putea familiariza cu
procedurile de lucru.
Să presupunem că dorim să aflăm relaţia dintre
culoarea ochilor şi gradul militar, adică să vedem dacă,
într-adevăr, coloneii au „ochi albaştri”. Suntem în
situaţia analizei legăturii între o variabilă nominală
(culoarea ochilor) şi o variabilă
ordinală (gradul militar). În acest caz
avem două posibilităţi. Fie abordăm
analiza la nivel nominal, la fel cum
am procedat anterior, deoarece una
dintre variabile se află la acest nivel
şi aplicăm principiul „analizei bazate
pe variabila cea mai slabă”, fie
folosim coeficientul η, coeficient
care relaţionează o variabilă
nominală cu una ordinală sau
scalară. Noi vom aborda ambele
situaţii. Prin urmare, includem pe
linii variabila „culoarea ochilor” şi
pe coloane „gradul militar”. Bifăm şi caseta „Display clustered bar charts” pentru a putea afişa grafic
variabilele, apoi alegem opţiunile „Chi-square”, „Contingency coefficient”, „Phi and Cramer’s V”, dar şi
opţiunea „Eta” din fereastra de
configurare a statisticilor. Vom
considera că una dintre variabile nu
îndeplineşte condiţiile testării
asimptotice şi vom alege metoda
„Monte Carlo” din fereastra de
configurare a testelor de semnificaţie.
În final, apăsăm butonul „OK” pentru a
lansa analiza.
Nu vom furniza toate tabelele,
majoritatea fiind identice cu cele din analiza de mai sus.
Constatăm că statisticile bazate pe χ2 sunt mult mai elaborate la utilizarea metodei Monte Carlo.
Avem pragurile de semnificaţie atât pentru metoda clasică, asimptotică, dar şi pentru metoda Monte Carlo,
alături de intervalele de încredere.
Desigur, nu există nicio legătură între
cele două variabile, aşa cum reiese şi
din tabelul 1.49, tabelul coeficienţilor
de asociere derivaţi din χ2.
Toţi cei trei coeficienţi de
asociere calculaţi arată, din nou, lipsa corelației între cele două variabile. Oricum, se poate observa
creşterea preciziei pragului de semnificaţie la utilizarea metodei Monte Carlo în comparaţie cu testul clasic.
Ultimul tabel analizat este cel al coeficientului de asociere η. Aici va trebui să facem câteva precizări,
deoarece asocierea se tratează direcţional. Acest lucru înseamnă că avem o variabilă dependentă (variabila
situată la nivel scalar) şi o variabilă independentă (variabila situată la nivel nominal). SPSS nu are de unde
să ştie care este variabila dependentă şi care este variabila independentă, prin urmare furnizează ambele
valori. În cazul nostru, variabila dependentă este „gradul militar” iar cea independentă „culoarea ochilor”.
Coeficientul care ne interesează este aşadar situat pe a doua linie – linia care tratează gradul militar
(η=0,184).
Remarcăm valoarea mică a acestei legături şi, de asemenea, lipsa pragului de semnificaţie. SPSS nu
furnizează valoarea semnificaţiei pentru acest coeficient, ea fiind tratată la analizele folosind date nominale.
De aceea coeficientul η va fi întotdeauna însoţit de analize bazate pe χ2.
Un ultim exemplu îşi propune
analiza relaţiei dintre ultima şcoală
absolvită şi gradul militar. Ambele
variabile se află la nivel ordinal,
astfel încât putem bifa şi caseta
„Correlations”, dar şi ceilalţi
coeficienţi de corelaţie pentru date
ordinale: „Gamma”, „Sommers’ d”,
Kendall’s tau-b” şi „Kendall’s tau-
c”. Dacă aveţi curaj, alegeţi
opţiunea „Exact” cu limitare la 5
minute, pentru a vedea cum
funcţionează şi acest element. Apoi salvaţi dacă aţi lucrat ceva, lansaţi analiza şi luaţi-vă o mică pauză.
Glumeam! Numărul mic de date permite analiza rapidă a acestora.
Observăm că legătura dintre cele două variabile este semnificativă la un prag de semnificaţie mai mic
de 0,01, prag furnizat atât de testul clasic de semnificaţie, cât şi de testul exact. Coeficienţii au valori
ridicate, fapt care indică existenţa unei legături pozitive, semnificative şi puternice între gradul militar şi
ultima şcoală absolvită. Desigur, gradele militare înalte presupun şi studii pe măsură, relaţia nefiind un fapt
surprinzător.
Exerciţii: Analizaţi şi interpretaţi legăturile dintre: „gen biologic” şi „grad militar”, „culoarea
ochilor” şi „ultima şcoală absolvită”, „gen biologic” şi „greutate”. Explicaţi şi argumentaţi utilizarea
coeficienţilor.
Vă voi lăsa acum în compania SPSS să vă jucaţi cu opţiunile şi cu indicatorii corelaţiilor, să
experimentaţi mai multe variante, deoarece numai aşa veţi putea să vă perfecţionaţi. Nu vom încheia însă
acest capitol, decât după ce vom realiza câteva referiri generale la modul de raportare al studiilor core-
laţionale.
5.3. Raportarea studiilor corelaţionale
Pe parcursul acestui capitol am făcut deseori referire la stilul, modul în care se pot raporta studiile de
tip corelaţional. Desigur, nu există un şablon standard de raportare, acest lucru rămânând la latitudinea,
experienţa şi talentul cercetătorului. Există însă o serie de principii generale a căror respectare vă poate
scuti de surpriza neplăcută a respingerii vreunei lucrări.
Am menţionat deja că la raportarea unei corelaţii sunt importante trei elemente: intensitatea
corelaţiei, dată de valoarea coeficientului de corelaţie, sensul corelaţiei, doar pentru coeficienţii
direcţionali, dat de semnul coeficientului de corelaţie şi pragul de semnificaţie. Unii autori (Field, 2000)
afirmă că este importantă raportarea efectului, sub forma varianţei comune. Desigur, pot fi formulate şi o
serie de reguli, în general mai mult sau mai puţin acceptate şi respectate:
1. Nu se recomandă scrierea cifrei 0 înaintea punctului zecimal, deoarece reprezintă o exprimare
redundantă atâta timp cât şi coeficientul şi pragul de semnificaţie au o amplitudine cuprin-să între 0 şi 1.
Prin urmare, nu se recomandă publicarea unui coeficient de corelaţie r Bravais-Pearson sub forma r=0,57, ci
în forma r= ,57 sau r= .57. La fel raportăm şi pragul de semnificaţie. Nu vom scrie p<0,01 ci p< .01 sau p<
,05. Desigur, eu nu am respectat această regulă din considerente didactice. În mod normal o respect în
lucrările ştiinţifice şi vă recomand şi dumneavoastră să o faceţi.
2. Se recomandă precizarea situaţiei în care s-a utilizat o ipoteză unilaterală (unidirecţională).
Neprecizarea acestui lucru determină, implicit, considerarea ipotezei ca fiind bilaterală. În general, ipotezele
bilaterale nu se specifică, ci se specifică doar ipotezele unilaterale. Dacă aveţi o ipoteză de tipul „există o
legătură pozitivă între anxietate şi depresie”, aceasta este o ipoteză unilaterală. Regula impune o raportare
de genul r= ,87; p(unilateral) < ,01 sau, dacă publicaţi în străinătate, r= .87; p(one-tailed) < .01
3. Fiecare coeficient de corelaţie se exprimă printr-o anumită literă, în general acceptată în literatura
de specialitate. De exemplu, coeficientul de corelaţie Bravais-Pearson se reprezintă prin litera r, coeficientul
Spearman prin ρ şi aşa mai departe, după cum aţi observat. Va trebui să respectaţi această notaţie. Totuşi, în
situaţia în care folosiţi alte simboluri (repet, situaţie care trebuie evitată), sunteţi obligat să furnizaţi o
legendă explicativă a acestora, însoţită de formulele, expresiile de calcul.
4. În ştiinţele socio-umane, pragul de semnificaţie acceptat este de .05. Am susţinut deja că, în
general, o cercetare nu implică raportarea exactă a acestui prag ci raportarea sub forma unei inegalităţi.
Aşadar, nu folosiţi niciodată expresia p= .000 sau p= .003 ci expresii de forma p< .05, p< .01 sau p< .001,
acesta fiind şi standardul raportărilor ştiinţifice.
5. Un prag de semnificaţie p= .05 nu este semnificativ. Sunt semnificative doar pragurile mai mici de
.05, nu şi cele egale cu această valoare. În ştiinţele sociale, de obicei raportăm semnificaţii mai mici de .05
sau mai mici de .01. Foarte rar ajungem la niveluri mai mici de .001 şi în mod excepţional la praguri de
semnificaţie mai mici de .0001.
În sfârşit am ajuns şi la finalul acestui capitol. A fost, într-adevăr, un capitol destul de lung, însă şi
informaţia a fost consistentă. Acum sper că aveţi o idee precisă asupra semnificaţiei conceptului de
corelaţie, mai exact a celui de legătură între variabile. Puteţi să fiţi mândri şi să daţi lecţii colegilor în
domeniul studiilor corelaţionale, însă nu vă bucuraţi prea tare, deoarece avem de discutat lucruri cel puţin la
fel de interesante.
Luaţi-vă o pauză. Mergeţi la un grătar, la iarbă verde, relaxaţi-vă, deoarece imediat vom aborda un alt
capitol, şi anume cel al testelor statistice.
În concluzie:
Relaţiile stabilite în urma analizei a două variabile poartă numele de analize bivariate, spre
deosebire de analizele univariate care au în vedere doar o singură variabilă;
Gradul de asociere între două variabile se bazează pe conceptul ce covarianţă. Măsura
standardizată a covarianţei poartă numele de corelaţie;
Coeficienţii de corelaţie pot fi parametrici şi neparametrici, după cum cele două variabile
îndeplinesc sau nu condiţiile de aplicare ale statisticilor parametrice;
Coeficientul de corelaţie a rangurilor ρ Spearman se poate folosi, în general, pentru variabile
ordinale provenite din variabile continui sau pentru variabile continui care nu îndeplinesc condiţiile
necesare aplicării statisticilor parametrice;
Coeficientul de corelaţie a rangurilor τ Kendall are mai multe forme, se bazează pe calculul
inversiunilor şi al proversiunilor şi se foloseşte pentru variabile aflate natural la un nivel de măsură
ordinal sau pentru variabile cantitative care nu îndeplinesc condiţiile de aplicare a statisticilor
parametrice;
Coeficientul de contingenţă χ2 are mai multe forme şi se foloseşte în cazul variabilelor nominale, în
calcule bazate pe tabele de contingenţă. Este un coeficient nedirecţional şi nestandardizat;
Coeficientul de asociere φ este o formă standardizată a coeficientului χ2 şi se utilizează, în
general, pentru două variabile dihotomice. În cazul în care una dintre variabile nu mai este dihotomică,
acest coeficient nu are relevanţă;
Coeficientul de contingenţă Pearson (cc) este o variantă a coeficientului φ, care poate fi utilizată
pentru variabile cu mai multe categorii;
Coeficientul de contingenţă Tschuprow (t) se bazează tot pe coeficientul φ şi ţine seama de acesta
şi de numărul de categorii din cadrul fiecărei variabile, fiind o formă ajustată a coeficientului φ;
Coeficientul de asociere Cramer (V) se foloseşte dacă cel puţin una dintre variabile este
polihotomică, fiind bazat direct pe χ2;
Coeficientul de asociere Goodman şi Kruskal (λ) măsoară reducerea proporţională a erorilor într-
un tabel de contingenţă, fiind folosit pentru variabile strict ordinale în scop predictiv;
Coeficientul de asociere Goodman şi Kruskal (γ) are la bază variabile ordinale, este similar cu τ
Kendall şi se calculează ţinând cont de numărul perechilor concordante şi discordante;
Coeficienţii tetrachoric, polichoric şi poliserial se folosesc pentru variabile dihotomice provenind
din variabile continui sau pentru variabile ordinale, condiţia fiind aceea a provenienţei din variabile
continui;
Coeficientul de concordanţă Kendall (W) se bazează pe ranguri şi permite aprecierea gradului de
acord dintre evaluatori. Datele folosite sunt date ordinale;
Coeficientul de corelaţie rang biserială oferă expresia legăturii dintre o variabilă dihotomică şi o
variabilă ordinală;
Coeficientul de corelaţie r Bravais-Pearson este cel mai cunoscut coeficient de corelaţie pentru
date parametrice şi se foloseşte la analiza legăturilor dintre două variabile cantitative care îndeplinesc
toate condiţiile aplicării testelor parametrice;
Coeficienţii de corelaţie biserial, punct biserial şi triserial se folosesc pentru analiza asocierii
dintre o variabilă scalară şi o variabilă nominală, dihotomică sau polihotomică. Diferenţa dintre aceştia
este dată de natura dihotomiei – dihotomie discretă sau continuă;
Coeficientul de corelaţie eneahoric permite asocierea unor variabile polihotomice, polihotomia
fiind una continuă;
Corelaţiile parţiale, atât cele parametrice cât şi cele neparametrice, au în vedere analiza relaţiei
dintre două variabile în condiţiile în care se menţine controlul asupra unei a treia variabile, susceptibilă de
a influenţa comportamentul celorlalte două variabile analizate.
Raportarea corelaţiei presupune raportarea intensităţii acesteia, a sensului şi a pragului de
semnificaţie;
Gradele de libertate arată numărul de cazuri luate în calcul pentru un indicator statistic, în
condiţiile în care există cel puţin o şansă de alegere;
Mărimea efectului arată proporţia de varianţă comună a variabilelor şi se obţine prin ridicarea la
pătrat a coeficientului de corelaţie;
Analiza corelaţiei nu constă doar în interpretarea numerică, ci presupune obligatoriu şi analiza
grafică;

S-ar putea să vă placă și