Sunteți pe pagina 1din 372

STATISTICĂ APLICATĂ ÎN

ŞTIINŢELE SOCIO-UMANE
Analiza asocierilor şi a diferenţelor statistice

Cristian Opariuc-Dan

Constanţa, august 2011


Cristian Opariuc-Dan

Fiicei mele, Riana-Ingrid

3
Statistică aplicată în ştiinţele socio-umane

Cuprins

Cuprins ............................................................................................................. 4
Prefață .............................................................................................................. 7
Cuvântul autorului ......................................................................................... 11
I. Relaţii între variabile ............................................................................. 13
I.1 Coeficienţi de corelaţie neparametrici ............................................ 18
I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman ......... 19
I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall ............. 26
I.1.3 Coeficientul de contingenţă χ2 (chi pătrat) .............................. 36
I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer şi
coeficientul de contingenţă (cc), derivaţi din χ2 .................................... 42
I.1.5 Coeficientul de asociere λ (lambda) Goodman şi Kruskal ...... 48
I.1.6 Coeficientul de asociere γ (gamma) ........................................ 53
I.1.7 Coeficientul tetrachoric şi polichoric....................................... 56
I.1.8 Coeficientul de concordanţă W Kendall .................................. 58
I.1.9 Coeficientul de corelaţie rang biserială ................................... 62
I.2 Coeficienţi de corelaţie parametrici ................................................ 64
I.2.1 Coeficientul de corelaţie r Bravais-Pearson ............................ 64
I.2.2 Coeficientul de corelaţie biserial, punct biserial şi triserial ..... 78
I.2.3 Coeficientul de corelaţie eneahoric ......................................... 87
I.3 Corelaţii parţiale .............................................................................. 90
I.3.1 Corelaţii semi-parţiale ............................................................. 95
I.3.2 Corelaţii parţiale pentru date neparametrice ............................ 96
I.3.3 Semnificaţia corelaţiilor parţiale............................................ 100
I.4 Interpretarea coeficienţilor de corelaţie ........................................ 102

4
Cristian Opariuc-Dan

I.4.1 Grade de libertate ................................................................... 106


I.4.2 Efecte exercitate şi varianţă ................................................... 107
I.4.3 Strategii de analiză şi interpretare a corelaţiilor .................... 109
I.5 Obţinerea coeficienţilor de corelaţie în SPSS ............................... 117
I.5.1 Coeficienţi de corelaţie bazaţi pe date parametrice ............... 117
I.5.2 Coeficienţi de corelaţie bazaţi pe date neparametrice ........... 134
I.5.3 Raportarea studiilor corelaţionale .......................................... 155
II. Diferenţe statistice bivariate ................................................................ 160
II.1 Planuri de cercetare ....................................................................... 161
II.1.1 Planuri de cercetare de bază .................................................. 165
II.1.2 Planuri de cercetare complexe ............................................... 174
II.2 Teste statistice pentru date neparametrice .................................... 182
II.2.1 Diferența dintre frecvențe. Testul χ2 ...................................... 182
II.2.2 Teste pentru eșantioane independente ................................... 188
II.2.3 Teste pentru eșantioane dependente ...................................... 200
II.3 Teste statistice pentru date parametrice ........................................ 205
II.3.1 Teste pentru un singur eșantion ............................................. 206
II.3.2 Teste pentru două eșantioane independente .......................... 212
II.3.3 Teste pentru două eșantioane perechi .................................... 216
II.4 Teste statistice de normalitate și teste pentru valori aberante ....... 220
II.4.1 Teste pentru valori aberante................................................... 221
II.4.2 Teste de normalitate ............................................................... 226
II.5 Interpretarea testelor statistice ...................................................... 234
II.5.1 Puterea testului și mărimea efectului ..................................... 238
II.6 Realizarea testelor statistice în SPSS ............................................ 253
II.6.1 Procedee neparametrice ......................................................... 254

5
Statistică aplicată în ştiinţele socio-umane

II.6.2 Procedee parametrice ............................................................. 267


II.6.3 Analiza normalității și a scorurilor aberante .......................... 274
III. Analiza fidelităţii .............................................................................. 283
III.1 Metode de analiză a fidelităţii ................................................... 288
III.1.1 Metoda test-retest................................................................... 290
III.1.2 Metoda înjumătăţirii .............................................................. 291
III.1.3 Metoda consistenţei interne ................................................... 298
III.1.4 Metoda formelor paralele ...................................................... 306
III.1.5 Metoda acordului între evaluatori .......................................... 307
III.1.6 Interpretarea coeficienţilor de fidelitate................................. 310
III.2 Analiza fidelităţii în SPSS for Windows ................................... 312
III.2.1 Analiza consistenţei interne ................................................... 318
III.2.2 Analiza fidelităţii prin metoda înjumătăţirii .......................... 337
III.2.3 Analiza fidelităţii prin metoda formelor paralele .................. 341
III.2.4 Analiza fidelităţii inter-evaluatori.......................................... 343
III.2.5 Analiza fidelităţii test-retest (stabilităţii) ............................... 346
III.2.6 Consideraţii finale .................................................................. 347
Bibliografie .................................................................................................. 350
Anexe ........................................................................................................... 352

6
Cristian Opariuc-Dan

Prefață

Cartea domnului Cristian Opariuc-Dan, intitulată „Statistică aplicată


în ştiinţele socio-umane. Analiza asocierilor şi diferenţelor statistice” este o
continuare firească a primului volum apărut, nu cu mult timp în urmă, la edi-
tura ASCR din Cluj-Napoca. Continuarea realizată în lucrarea de faţă este
semnului unei perseverenţe lăudabile, dovadă a pasiunii domniei sale faţă de
conţinutul acestei onorabile discipline. Continuitatea se manifestă şi în partea
stilului năvalnic, care parcă vrea să spună totul dintr-o suflare, care vrea să
epuizeze ultimele rezerve faţă de disciplina statisticii din sufletul cititorului
dornic de iniţiere. Ca atare, exemplele sunt foarte numeroase şi cât se poate
de adecvate.
Nu sunt aşa de îndepărtate vremurile în care cunoştinţele statistice
erau o raritate în arealul specialiştilor din domeniul ştiinţelor socio-umane. În
rândul psihologilor, acestea erau păstrate şi răspândite de o elită intelectuală,
din care amintim numele lui Nicolae Mărgineanu ca fiind cel mai reprezenta-
tiv. Între 1950 şi 1989, pregătirea în sfera metodelor cantitative din domeniul
psihologiei era destul de sumară, delimitată strict la prezentarea câtorva noţi-
uni fundamentale şi, mai ales, a distribuţiei normale Gauss – Laplace, în as-
pectul figurativ, nu de conţinut. O bună parte dintre psihologii practicieni nu
au terminat sau aprofundat studii de psihologie, ca atare, chiar construcţia
etaloanelor li se părea o taină de nepătruns. Analizele multivariate păreau
realităţi galactice, greu accesibile pentru psihologul practician care nu avea o
ambianţă profesională de pregătire continuă. Încercarea de lichidare a psiho-
logiei din ultimii ani ai dictaturii comuniste părea să extindă ignoranţa în pri-
vinţa metodelor ştiinţifice de abordare a acestui domeniu.
După anul de cotitură 1989, învăţământul românesc de psihologie s-a
revigorat şi a evoluat rapid, cred eu mai mult extensiv, situaţie care s-a reper-

7
Statistică aplicată în ştiinţele socio-umane

cutat şi asupra domeniul statisticii aplicate. Au apărut o serie de autori com-


petenţi, cu deosebit potenţial, cu stagii de pregătire în străinătate, care au ela-
borat lucrări în domeniu comparabile cu cele din ţările cu tradiţie în cerceta-
rea psihologică. Dintre aceşti autori amintim pe Ilie Puiu Vasilescu, practic
un deschizător de drumuri în domeniu, după 1989, Florin Sava, Mihai Hohn,
Filaret Sîntion, regretatul coleg Horia Pitariu, Dragoş Iliescu, Marian Popa,
Adrian Vicenţiu Labăr, Monica Albu. În acest cerc select cred că a reuşit să
intre şi Cristian Opariuc-Dan.
Ne putem întreba: care este motivul pentru care autorul dă dovadă de
pedantism în cursul lucrării, care face conţinutul comprehensibil și pentru
persoane cu o slabă pregătire academică? Pentru cineva care nu lucrează în
domeniul pe care l-a îmbrăţişat autorul cărţii, suprasaturarea cu explicaţii
pare de neînţeles. Adevărul este că statistica se prezintă ca o disciplină greu
asimilabilă de către studenţii de la psihologie. Venind să studieze psihologia,
o disciplină prin excelenţă umanistă, o parte dintre ei cred că au scăpat defini-
tiv de tabelele, ecuaţiile şi demonstraţiile din anii de liceu, dar, constată că,
chiar din primul an, reîncep o disciplină matematizată pentru care nu au pasi-
une şi înclinaţii. În ţările cu tradiţie în studiul psihologiei au apărut articole
care explică de ce studenţii au aversiune faţă de statistică şi tratamente mate-
matice. Strict vorbind, statistica nu este chiar matematică, ci mai mult o co-
lecţie de metode şi teorii care vizează modul de gestionare a ansamblurilor
de date rezultate din cercetarea şi practica profesională, care implică parţial
tratament matematic. În plus, să nu uităm, există în psihologie şi în varii do-
menii un curent de gândire anti-statistic care exagerează în ideea inadecvării
metodelor cantitative în abordarea unor areale ale preocupărilor academice
caracterizate de hiper-complexitate structurală şi supleţe funcţională. Un ex-
ponent al unui astfel de mod de gândire este cuprins în bestsellerul libanezu-
lui Nassim Nicholas Taleb, intitulat „Lebăda Neagră. Impactul foarte puţin
probabilului”, apărut la Curtea Veche Publishing în 2010. La pagina 265 a
acestei cărţi, el spune: „Uitaţi tot ce aţi auzit în facultate despre statistică sau

8
Cristian Opariuc-Dan

teoria probabilităţilor. Dacă nu aţi urmat niciodată astfel de cursuri, e foarte


bine”. Ce putem să spunem despre astfel de reacţii? A constata inadecvarea
modelului gaussian, cum a făcut-o Taleb, nu îţi dă dreptul să negi importanţa
unei discipline ştiinţifice aflată în extindere rapidă în aproape toate îndeletni-
cirile omeneşti.
Pentru psihologi, absenţa disciplinei Statistică din programul de pre-
gătire universitară de bază ar înseamnă lipsirea de un instrument absolut ne-
cesar de comunicare şi de verificare a cercetărilor ştiinţifice. Conştientizând
importanţa predării acestei discipline pentru viitorul cercetător sau profesio-
nist practician, cei care au proiectat curriculumul facultăţilor de psihologie au
înregistrat statistica în rândul disciplinelor fundamentale, alături de introdu-
cere în psihologie, psihologia dezvoltării, psihologia socială, fundamentele
ştiinţifice ale psihoterapiei, psihodiagnostic, metodele de cercetare şi psiho-
logia diferenţială. O anchetă efectuată în Statele Unite ale Americii în rândul
foştilor absolvenţi de psihologie, referitoare la importanţa disciplinelor ştiin-
ţifice predate în facultate asupra succesului profesional, indică statistica pe
locul al treilea, după psihologia socială şi psihoterapie.
Lucrarea domnului Opariuc-Dan are ca bază de pornire dificultăţile
întâmpinate de studenţi în înţelegerea statisticii. Experienţa în predarea disci-
plinei Statistică aplicată în psihologie, m-a ajutat să detectez două puncte
esenţiale ale acestor dificultăţi: clara înţelegere a noţiunilor predate şi apli-
carea robotică a unor formule pentru a evidenţia semnificaţia rezultatelor
cercetării. Insuficienta insistare asupra acestor două aspecte duce la formarea
unor deprinderi procustiene, care vor avea drept consecinţă simplismul inter-
pretativ. La aceiaşi concluzie pare să fi ajuns şi autorul cărţii atunci când in-
sistă, precum Cato în senatul Romei, asupra combaterii proastelor deprinderi
în practicarea statisticii.
Imensa maşinărie statistică numită SPSS este o invenţie minunată, ca-
re ajută studenţii, cercetătorii şi practicienii să scurteze la minimum timpul

9
Statistică aplicată în ştiinţele socio-umane

acordat pentru realizarea unor activităţi rutiniere, însă care nu poate fi utiliza-
tă fără cunoaşterea suficientă specificului aplicativ al unor proceduri. Nu în-
tâmplător, autorul insistă atât de mult pe corectitudinea unor aplicaţii statisti-
ce şi pe oportunitatea lor. În aplicarea unor tipuri de analize factoriale, reali-
zatorii unor studii trebuie să cunoască bine exigenţe referitoare dimensiunea
scalară a datelor, la liniaritatea relaţiilor între variabile şi la numărul minim
de subiecţi care trebuie să fie prezenţi în cercetare. Dacă nu suntem atenţi la
astfel de aspecte, riscăm să fim catalogaţi drept creatori de artefacte în activi-
tatea ştiinţifică şi de folosire abuzivă, incompetentă a unor creaţii tehnice de
excepţie. Cristian Opariuc-Dan a relevat bine deficienţele de înţelegere ale
statisticii de către studenţi, şi ne oferă o lucrare de un impresionant efort ana-
litic şi sintetic.

Conf. univ. dr. Aurel Stan


Universitatea Al. I. Cuza Iași
Facultatea de Psihologie și Științe ale Educației

10
Cristian Opariuc-Dan

Cuvântul autorului

Bine v-am regăsit! După ce am aprofundat aspectele referitoare la


analiza unei singure variabile – statistici pe care le-am numit statistici
univariate –, a venit timpul să ne concentrăm asupra analizei relaţiilor dintre
două sau mai multe variabile. Lucrurile nu sunt deloc complicate, în compa-
raţie cu cele prezentate în prima lucrare. Avem şi aici algoritmi clari de lucru,
şi ne ajută acelaşi pachet binecunoscut de programe, SPSS.
De data aceasta, nu vom mai analiza în detaliu o singură variabilă, ci
ne vom concentra asupra legăturilor care există între variabile. Vom încerca
să aflăm care este legătura dintre lungimea părului şi coeficientul de inteli-
genţă, sau dacă pletoşii sunt, ori nu sunt, mai inteligenţi în comparaţie cu cei
care au părul scurt. De asemenea, vom încerca să vedem în ce mod o variabi-
lă poate fi influenţată de alte variabile; dacă inteligenţa unui copil poate fi
apreciată în baza notelor pe care acesta le are la matematică, fizică, chimie,
limba română ori alte discipline. Pornind tot de la relaţiile dintre variabile,
vom încerca să aflăm dacă din răspunsurile la întrebările unui chestionar pu-
tem afla un element comun, şi cât de precis este acesta.
În limbaj „tehnic”, vom studia elemente legate de corelaţii, diferenţe
şi studiul fidelităţii, toate cu referire la date parametrice şi neparametrice.
Unii vor spune că analiza fidelităţii prezintă un grad mai ridicat de di-
ficultate, iar aceste elemente nu trebuie tratate împreună. Să vedem dacă este
chiar aşa.
Nu-i voi uita pe cei care m-au ajutat să scriu acest volum și care au
contribuit, într-o formă sau alta, la apariția cărții.
Îi mulțumesc soției mele, Iulia-Laura, pentru răbdarea pe care a avut-o
cu mine, în lungile zile în care nu m-am despărțit de computer, scriind aceste

11
Statistică aplicată în ştiinţele socio-umane

rânduri. Scutindu-mă, de multe ori, de treburile casnice, încurajându-mă să


scriu, soția mea a accelerat în mod semnificativ apariția acestui volum.
Recunoștința mea se îndreaptă către profesorul universitar Ilie Puiu
Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale cărui
cărți am învățat statistică, și care a binevoit să analizeze critic documentul,
corectându-mă atunci când am greșit. De asemenea, profesorul universitar
Corneliu Eugen Havârneanu și-a adus o importantă contribuție, fiind atât cel
de la care am învățat elementele de bază ale analizei de date, cât și cel care a
avut răbdarea de a citi documentul, a-mi face observații pertinente și a furni-
za impresiile sale referitoare la carte.
Ca întotdeauna, profesorul Aurel Stan s-a ocupat și de această carte,
de la impresii și corectură la procesul redacțional, lucru pentru care îi sunt
profund recunoscător.
De asemenea, țin să aduc mulțumiri profesorului Filaret Sîntion, de la
universitatea Ovidius Constanța, pentru numeroasele seri petrecute împreună,
momente în care discuțiile noastre pe această temă au contribuit la consolida-
rea și sistematizarea acestui volum. Mulțumiri speciale aș dori să aduc doam-
nei profesor Monica Albu. Observațiile și criticile constructive aduse de
domnia sa au contribuit, sper, la o calitate superioară a acestei lucrări. Exi-
gența de care a dat dovadă mă ajută să mă perfecționez și să pot, la un mo-
ment dat, să ating standardele la care doamna profesor se raportează.
Nu în ultimul rând, vă mulțumesc dumneavoastră, celor care ați cum-
părat această carte, onorându-mă astfel cu dorința de a învăța.
V-am promis în primul volum că vă voi scoate la lumină, în ceea ce
priveşte metoda statistică, aplicată în ştiinţele socio-umane. Consider că am
făcut-o. Acum haideţi să schimbăm becul de 60 de waţi, pe care l-am aprins
în primul volum, cu un bec de 100 de waţi, şi să facem şi mai multă lumină…
Constanţa, 9 august 2011

12
Cristian Opariuc-Dan

I. RELAŢII ÎNTRE VARIABILE


În acest capitol se va discuta despre:
Conceptul de covarianţă şi corelaţie;
Calculul coeficienţilor de corelaţie parametrici
şi neparametrici;
 Analiza şi interpretarea coeficienţilor de corela-
ţie;
 Reprezentarea grafică şi analiza graficelor core-
laţiilor;
După parcurgerea capitolului, cititorii vor fi capabili să:
 Înţeleagă diferenţa dintre covarianţă şi corela-
ţie;
 Calculeze coeficienţii de corelaţie parametrici şi
neparametrici;
 Analizeze şi să interpreteze coeficienţii de core-
laţie;
 Utilizeze SPSS în calculul coeficienţilor de core-
laţie.

În general, într-o cercetare ştiinţifică, nu ne putem rezuma doar la stu-


diul unei singure variabile, deşi acest pas este important pentru stabilirea
normalităţii distribuţiei. Faptul că notele obţinute de către candidaţi la un
examen de admitere la facultate sunt sau nu sunt distribuite normal, este de
mare importanţă, atât pentru aflarea nivelului candidaţilor respectivi, cât şi în
vederea stabilirii procedurilor ulterioare de analiză. Nu ne putem, însă, rezu-
ma doar la acest lucru. Ne-ar interesa, poate, să aflăm dacă există vreo legătu-
ră între aceste note şi coeficientul de inteligenţă, să vedem dacă, într-adevăr,
cei cu medii mari la admitere au şi un coeficient de inteligenţă ridicat, sau din
contra.
Aceasta este o problemă specifică, ce poate fi abordată printr-un stu-
diu corelaţional. Ca în orice studiu ştiinţific, începem de la un fapt de obser-
vaţie. De exemplu, constatăm în ultimii ani o reducere a calităţii sistemului
de învăţământ universitar. Problema poate fi la nivelul cadrelor didactice, al

13
Statistică aplicată în ştiinţele socio-umane

studenţilor, sau poate reprezenta o combinaţie a acestor elemente. După ce


am citit „o sută” de articole referitoare la această temă, după ce am studiat
cercetările existente, putem ajunge la concluzia investigării relaţiei dintre
mediile anilor de studiu din liceu, media de la bacalaureat şi coeficientul de
inteligenţă. Putem, aşadar, formula obiectivul studiului: investigarea relaţiei
dintre media de admitere la universitate şi coeficientul de inteligenţă. În mod
cert, după stabilirea obiectivului, va trebui să formulăm ipoteza sau ipotezele
cercetării. În cazul nostru, ipoteza de cercetare devine:
H1: Există o relaţie între nivelul de inteligenţă şi media de admitere a
candidaţilor în învăţământul superior.
Această ipoteză este evident o ipoteză bidirecţională, şi ne duce cu
gândul la un studiu corelaţional. După cum ştim, ipoteza de cercetare nu poa-
te fi confirmată sau infirmată. Toate analizele se fac pe baza ipotezei nule. În
situaţia de faţă, ipoteza nulă va fi:
H0: Nu există nicio relaţie între nivelul de inteligenţă şi media de ad-
mitere a candidaţilor în învăţământul superior.
Din simpla parcurgere a ipotezei, putem identifica foarte uşor atât
planul de cercetare – evident un plan corelaţional cu două variabile continui –
cât şi variabilele – coeficientul de inteligenţă şi media de admitere. Nu ne
rămâne decât să colectăm datele prin administrarea unui test de inteligenţă şi
prin înregistrarea mediilor de admitere ale candidaţilor şi astfel obţinem baza
de date a cercetării noastre. Ambele variabile fiind scalare, în următoarea
etapă vom proceda la analiza normalităţii distribuţiei acestora. Dar după ace-
ea, ce facem? Bineînţeles, intenţionăm să studiem relaţia dintre aceste două
variabile.
Relaţiile stabilite din analiza a două variabile se numesc analize biva-
riate, deoarece este posibil să studiem relaţiile dintre mai multe variabile,

14
Cristian Opariuc-Dan

metode reunite sub numele de analize multivariate. Aţi observat că prefer


folosirea termenului de relaţie şi nu a celui de corelaţie. Care ar fi diferenţa?
Întregul concept al investigării gradului de asociere între două variabi-
le se bazează pe covarianţă. Ce este, însă, covarianţa? Vă mai amintiţi de
termenul de varianţă folosit în prima lucrare? Am definit atunci acest element
ca fiind media abaterilor scorurilor faţă de tendinţa centrală (Opariuc-Dan,
2009). Lucram atunci doar cu o singură variabilă. Dacă am include încă o
variabilă, am spune că cele două covariază dacă scorurile celei de-a doua se
abat în acelaşi sens de la medie, chiar dacă magnitudinile abaterilor pot fi
altele.

+1,4
+0,4 +0,4

Var. X

-0,6

-1,6

+0,8
+0,5 +2,3

Var Y

-0,2

-0,6

Figura 1.1 – Diferenţele dintre scorul observat şi


medie pentru două variabile, în cazul unui singur
subiect examinat

15
Statistică aplicată în ştiinţele socio-umane

Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi


variabila Y. Observăm că scorurile primei variabile se abat negativ faţă de
medie în primele două cazuri şi pozitiv faţă de medie în ultimele trei cazuri.
Acelaşi model este urmat şi de cea de-a doua variabilă, deşi magnitudinea
abaterilor este diferită. Putem suspecta faptul că cele două variabile
covariază, adică subiecţii care au scoruri mici la prima variabilă, au scoruri
mici şi la a doua variabilă. Cei care au scoruri mari la prima variabilă, au sco-
ruri mari şi la a doua variabilă. Acesta este principiul covarianţei. Problema
care se pune este să stabilim magnitudinea acestei covarianţe, în acelaşi mod
în care am aflat magnitudinea varianţei pentru fiecare variabilă luată separat.
Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianţei, în mod
similar coeficientului de varianţă (s2)? Răspunsul este, din fericire, pozitiv.
Vă aduceţi aminte că, în cazul calculării varianţei unei singure varia-
bile, am ridicat la pătrat fiecare abatere de la medie, pentru a compensa pro-
blemele legate de semn. Este necesar să facem acest lucru şi aici? Gândiţi-vă
înainte de a răspunde! Ei bine, nu. Fiind două variabile, înmulţind, pentru
fiecare subiect, abaterile de la medie ale fiecărei variabile, rezolvăm această
problemă. Dacă ambele abateri sunt ori pozitive, ori negative, vom obţine un
produs pozitiv, arătând faptul că variabilele covariază în acelaşi sens (se aba-
te pozitiv de la medie una, se abate pozitiv de la medie şi cealaltă; se abate
negativ una, se abate negativ şi cealaltă). Dacă o abatere este pozitivă şi cea-
laltă este negativă, vom obţine un produs negativ, arătând faptul că variabile-
le covariază invers (dacă una se abate pozitiv de la medie, cealaltă se abate
negativ). Mai simplu nici nu se putea.
Cum obţinem însă o valoare numerică unică a acestor abateri? Nu este
deloc complicat. Adunăm toate produsele şi împărţim la numărul de cazuri
minus unu (efectuând corecția cunoscută pentru lucrul cu eșantioane). Iată ce
greu e:

16
Cristian Opariuc-Dan

∑ ̅ ̅
(formula 1.1)

Am obţinut, astfel, formula covarianţei pe care o putem acum aplica


datelor noastre.

Cele două variabile din exemplul de mai sus covariază pozitiv (adică
dacă scorul la o variabilă se află peste medie, scorul la cealaltă variabilă se
află şi el peste medie şi invers), valoarea acestei covariaţii fiind de 1,20.
Marea problemă a covarianţei este aceea că relaţiile dintre cele două
variabile depind de scala de măsură. Dacă avem două instrumente ce măsoa-
ră, fiecare, o singură variabilă, unul cu 100 de itemi şi unul cu 10 itemi, în
condițiile în care itemii sunt cotați la fel, modul în care se vor abate scorurile
individuale de la medie diferă extrem de mult, coeficientul de covarianţă fi-
ind foarte mare în comparaţie cu situaţia analogă în care cele două instrumen-
te ar avea, fiecare, 10 itemi. În realitate acest coeficient nu ne spune, practic,
nimic. Avem nevoie, aşadar, de o măsură standardizată a covarianţei, iar
această măsură o regăsim sub denumirea de corelaţie.
Corelaţia exprimă, practic, sub formă numerică, gradul de asociere
dintre variabile. Două variabile sunt asociate, în situaţia în care comporta-
mentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dacă nu
sunt independente. Două variabile independente arată că modificarea valori-
lor într-o variabilă nu are niciun efect asupra valorilor din cealaltă variabilă.
(Gibbons, 1993).
În teorie e simplu. În practica ştiinţifică din domeniul socio-uman, am
arătat că variabilele pot fi dificil măsurate la un nivel de interval, majoritatea
lor fiind, strict vorbind, la o scală de măsură ordinală. Este greu să găsim o

17
Statistică aplicată în ştiinţele socio-umane

relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarianţe


decât de corelaţii.
Un alt aspect important, pe care mulţi îl ignoră, este acela că nu putem
stabili legături cauzale în urma studiilor corelaţionale. Din corelaţii nu se pot
face inferenţe cauzale, nu putem stabili care este cauza şi care este efectul.
Dacă în urma unui studiu ajungem la concluzia că există o legătură puternică
între anxietate şi depresie, care este cauza şi care este efectul? Anxietatea
determină depresia sau depresia produce anxietate? Studiile corelaţionale
permit stabilirea intensităţii şi a sensului unei legături între variabile, nu şi
stabilirea relaţiei cauză-efect. Accentuez asupra acestui aspect, deoarece am
întâlnit multe asemenea confuzii în care se vorbea despre relaţii cauzale, fapt
complet eronat din punct de vedere ştiinţific.
Relaţiile dintre două variabile se studiază în baza a două categorii de
indici de corelaţie. Vorbim de indici de corelaţie parametrici şi indici de
corelaţie neparametrici, în funcţie de condiţiile îndeplinite de variabile – şi
anume dacă îndeplinesc sau nu cerinţele de administrare ale statisticilor pa-
rametrice.

I.1 Coeficienţi de corelaţie neparametrici


Aceşti coeficienţi de corelaţie se utilizează în cazul în care cel puţin
una dintre cele două variabile nu îndeplineşte condiţiile unei distribuţii nor-
male, fie din cauza specificului datelor, fie din aceea a nivelului de măsură la
care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere,
coeficienţii de corelaţie neparametrici pot fi folosiţi atât în cazul în care dis-
tribuţia este cunoscută, de obicei normală, dar mai ales în cazul în care distri-
buţia nu se cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel
de măsură cel puţin de interval. Motivul este acela că, datele aflate la un nivel
de interval ori de raport, pot fi uşor convertite în ranguri sau în frecvenţe (la
nivel ordinal ori nominal). Invers nu este, însă, posibil.

18
Cristian Opariuc-Dan

În acest sens, există mai mulţi indici ai relaţiilor dintre variabile, utili-
zabili în funcţie de tipul variabilelor.

I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman


Este un coeficient bazat pe ranguri, nu este influenţat de reprezentati-
vitatea mediei şi se utilizează, în general,
Tabelul 1.1 – Rezultate obţinute
atunci când lotul de cercetare are dimensiuni
de 10 elevi la matematică şi fizică
mici (sub 30 de cazuri), sau când cel puţin Nr. Matematică Fizică
una dintre variabile nu îndeplineşte condiţiile 1 2 3
2 3 4
de administrare ale testelor parametrice. A
3 4 4
fost dezvoltat de psihologul englez Charles 4 5 5
Spearman şi, datorită similarităţii sale cu coe- 5 6 6
6 6 7
ficientul r Bravais-Pearson, acest indicator 7 7 7
este frecvent utilizat în ştiinţele socio-umane. 8 8 7
De fiecare dată când aveţi de calculat coefici- 9 9 8
10 10 9
entul de corelaţie bivariată, iar datele dum-
neavoastră nu se distribuie normal pentru cel puţin una dintre variabile, ape-
laţi cu încredere la acest coeficient.
Coeficientul nu face altceva decât să transforme scorurile originale în
ranguri şi să analizeze relaţia dintre acestea. Formula de calcul nu este com-
plicată şi poate fi rezumată la:

(formula 1.2)

unde d reprezintă diferenţa dintre rangurile valorilor măsurate la un


subiect, iar n se referă la numărul de subiecţi

Să considerăm un exemplu în care avem un număr de 10 elevi de cla-


sa a XI-a care obţin următoarele rezultate la matematică şi la fizică (tabelul
1.1).

19
Statistică aplicată în ştiinţele socio-umane

După cum observăm, cele două variabile se află la un nivel de măsură


scalar, însă numărul mic de subiecţi (n=10) nu permite analiza distribuţiei
rezultatelor, fiind sub 30 de cazuri. În această situaţie, nu putem folosi coefi-
cienţi de corelaţie parametrici. Pentru a uşura lucrurile, notele la matematică
şi la fizică au fost ordonate astfel încât să puteţi înţelege mai uşor algoritmul.
Vom decide să folosim coeficientul de corelaţie a rangurilor ρ Spearman.
Evident, primul pas este acela al calculării rangurilor. Nu intram în amănunte
asupra acestei proceduri, deoarece a fost tratată în lucrarea anterioară, capito-
lul referitor la mediană şi ranguri.
Tabelul 1.2 – Calculul coeficientului de corelaţie ρ Spearman
Nr. Matematică Fizică Rang Matematică Rang Fizică d d2
1 2 3 1 1 0 0
2 3 4 2 2,5 -0,5 0,25
3 4 4 3 2,5 0,5 0,25
4 5 5 4 4 0 0
5 6 6 5,5 5 0,5 0,25
6 6 7 5,5 6 -0,5 0,25
7 7 7 7 6 1 1
8 8 7 8 6 2 4
9 9 8 9 9 0 0
10 10 9 10 10 0 0
∑d2 6
După calculul rangurilor, facem diferenţa dintre rangul primei variabi-
le (matematică) şi rangul celei de-a doua variabile (fizică). Valoarea d va fi,
aşadar, d=RangMatematică – RangFizică.
În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a
elimina problemele generate de semnul diferenţelor, şi facem suma pătratelor
diferenţelor.
Rezultatele acestor etape sunt prezentate în tabelul 1.2. Avem acum
toate datele necesare înlocuirii în formulă.

20
Cristian Opariuc-Dan

Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am


obţinut o corelaţie pozitivă şi puternică între notele obţinute de către cei 10
elevi la matematică şi fizică. Putem spune că cei care obţin note mari la ma-
tematică, obţin note mari şi la fizică; cei cu note mici la matematică au note
mici şi la fizică.
Calculul după această formulă poate fi efectuat numai în situaţia în
care nu există ranguri egale. Atunci când apar ranguri egale (cum se poate
observa şi în cazul nostru), se foloseşte o formulă uşor diferită, formulă de
corecţie pentru ranguri egale. Această formulă se aplică în cazul în care am-
bele variabile au ranguri egale, sau atunci când întâlnim ranguri egale doar în
situația unei singure variabile.
(∑ ) ∑ ∑
(formula 1.3)
√ ∑ ∑ √ ∑ ∑

unde rx şi ry reprezintă rangurile celor două variabile

Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai
complex.
Tabelul 1.3 – Calculul coeficientului de corelaţie ρ Spearman
Nr. Mate Fizică Rang Mate Rang Fizică RMxRF R M2 R F2
1 2 3 1 1 1 1 1
2 3 4 2 2,5 5 4 6,25
3 4 4 3 2,5 7,5 9 6,25
4 5 5 4 4 16 16 16
5 6 6 5,5 5 27,5 30,25 25
6 6 7 5,5 6 33 30,25 36
7 7 7 7 6 42 49 36
8 8 7 8 6 48 64 36
9 9 8 9 9 81 81 81
10 10 9 10 10 100 100 100
∑=55 ∑=52 ∑=361 ∑=384,5 ∑=343,5

21
Statistică aplicată în ştiinţele socio-umane

După calculul rangurilor, am efectuat produsul rangurilor şi ridicarea


la pătrat a fiecărui rang. Apoi, am calculat sumele necesare. Nu rămâne, în
final, decât înlocuirea în formulă. Rezultatul va fi, în acest caz, foarte apropi-
at cu cel de mai sus. Evident, numărul foarte mic de cazuri, face ca efectul
corecţiei pentru ranguri egale să fie, și el, foarte mic.
(∑ ) ∑ ∑
√ ∑ ∑ √ ∑ ∑ √ √

√ √
Acest coeficient de corelaţie, foarte uşor de calculat, are, însă, o pro-
blemă. Aţi observat că cele două variabile utilizate se situează la un nivel
scalar de măsură. După unii autori (Vasilescu, 1992, apud Yule şi Kendall,
1969; Lohse, Kudwig şi Rohr, 1986), acest coeficient de corelaţie este ina-
decvat pentru ranguri, deoarece presupune că datele au, toate, proprietăţile
necesare pentru calcularea coeficienţilor parametrici. Indicatorul reduce, de
fapt, datele de la un nivel scalar la un nivel ordinal. În acest sens, mai adecva-
tă ar fi calcularea altor coeficienţi, specifici pentru rang (Vasilescu, 1992).
Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că
poate fi folosit pentru date parametrice care nu îndeplinesc condiţiile aplicării
de teste parametrice, coeficientul ρ Spearman are o largă utilizare. În general,
folosim acest coeficient de corelaţie atunci când ambele variabile se află la un
nivel de măsură ordinal, când o variabilă se află la un nivel ordinal, iar cealal-
tă la un nivel scalar, ori când ambele se află la nivel scalar, dar cel puţin una
dintre ele nu prezintă o distribuţie normală.

I.1.1.1 Semnificaţia coeficientului de corelaţie ρ Spearman


În cazul studiilor corelaţionale, şi nu numai, nu este suficientă obţine-
rea coeficientului de corelaţie pentru a respinge sau nu ipoteza nulă. Ştim
foarte bine că avem nevoie şi de pragul de semnificaţie care ne arată, practic,

22
Cristian Opariuc-Dan

ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantio-


nare. Putem accepta semnificaţia acestui indicator şi respinge ipoteza nulă,
doar dacă această şansă este mai mică de 5%, cu alte cuvinte, dacă ne situăm
la un prag de semnificaţie mai mic de 0,05.
Cea mai simplă metodă de a determina semnificaţia coeficientului de
corelaţie a rangurilor ρ este aceea în care putem compara valoarea acestuia cu
valoarea de referinţă pentru nivelul de semnificaţie dorit, valoare publicată în
tabele speciale. Stabilirea modului în care au fost construite aceste tabele nu
face obiectul prezentei lucrări, deoarece calculele sunt mai complicate şi s-au
realizat în decursul anilor pe eşantioane de diferite dimensiuni, folosindu-se
distribuţii teoretice de probabilităţi. În anexa 1 am furnizat un asemenea ta-
bel. Dacă reluăm exemplul nostru, am obţinut un coeficient de corelaţie a
rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. În prima coloană
avem mărimea eşantionului. Dacă nu găsim numărul exact de cazuri, vom lua
valoarea inferioară cea mai apropiată. În situaţia noastră, avem 10 subiecţi,
iar rândul care ne interesează este al şaselea rând din acel tabel, unde avem
numărul 10 pe coloana n. Observăm că pentru a fi semnificativ la un prag de
semnificaţie mai mic de 0,05, coeficientul ρ trebuie să aibă cel puţin valoarea
0,64. Dacă dorim să fim mai riguroşi, la un prag de semnificaţie mai mic de
0,02, valoarea acestui coeficient trebuie să fie mai mare de 0,74 iar la un prag
mai mic de 0,01, coeficientul trebuie să depăşească valoarea 0,794. Coefici-
entul nostru de corelaţie a rangurilor este de 0,96 şi constatăm că ne aflăm la
un prag de semnificaţie mai mic de 0,01. Putem spune că există o legătură
puternică între cele două variabile, la un prag de semnificaţie mai mic de
0,01.
În condiţiile în care numărul de subiecţi este mai mare de 10, putem
testa semnificaţia coeficientului de corelaţie a rangurilor ρ Spearman şi în alt
mod, folosind distribuţia t, deoarece am arătat faptul că acest coeficient nu

23
Statistică aplicată în ştiinţele socio-umane

este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, de-


spre care vom discuta mai târziu.

√ (formula 1.4)

În situaţia noastră, am obţinut un coeficient de corelaţie a rangurilor ρ


de 0,96 pentru un număr de 10 subiecţi. Valoarea testului t va fi:

√ √ √ √

În tabelul din anexa 4 referitor la distribuţia t, vom căuta semnificaţia


valorii testului t pentru un număr de 10-2=8 grade de libertate. La un număr
de 8 grade de libertate, pentru a fi semnificativă corelaţia, valoarea testului t
trebuie să depăşească 1,86 la un prag de semnificaţie mai mic de 0,05 şi 2,89
la un prag de semnificaţie mai mic de 0,01. Rezultatul obţinut, 9,60, este mai
mare de 2,89, rezultând că acest coeficient de corelaţie ρ = 0,96 este semnifi-
cativ la un prag de semnificaţie p < 0,01.
O altă variantă prin care putem testa semnificaţia acestui coeficient de
corelaţie, are în vedere faptul că pentru eşantioane mari, distribuţia se apropie
de o distribuţie normală şi putem calcula statistica z, după formula:

√ (formula 1.5)

În situaţia noastră, statistica z va fi 2,88. Raportat la distribuţia z, coe-


ficientul arată o valoare puternic semnificativă a corelaţiei, la un prag de
semnificaţie mai mic de 0,01.
√ √

Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de


corelaţie direcţional şi poate avea valori cuprinse între -1 şi +1. Valorile
apropiate de +1 indică existenţa unei asocieri directe (pozitive) între cele do-

24
Cristian Opariuc-Dan

uă variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri


inverse (negative). Cu cât valorile se apropie mai mult de 1 (indiferent de
semn), cu atât asocierea este mai puternică, variabilele fiind mai „legate”
între ele.
 Un coeficient de corelaţie care are exact valoarea +1 arată că
în cele două variabile există exact aceleaşi ranguri ale scoruri-
lor. Dacă Ionel obţine rangul 5 la matematică, obţine tot rangul
5 şi la fizică; Viorel are rangul 7 la matematică şi rangul 7 la
fizică; Viorica are rangul 3 la matematică şi rangul 3 la fizică
şi aşa mai departe.
 Un coeficient de corelaţie care are exact valoarea -1 arată că
rangurile dintr-o variabilă sunt inversul perfect al rangurilor
din cealaltă variabilă. Dacă Dan are rangul 8 la matematică,
are rangul 3 la fizică; Mioara are rangul 6 la matematică şi
rangul 4 la fizică; Costel are rangul 9 la matematică şi rangul 2
la fizică.
 Un coeficient de corelaţie cu valoarea 0 semnifică lipsa orică-
rei legături între cele două variabile şi spunem că cele două
variabile sunt necorelate liniar între ele.
În practică nu găsim aproape niciodată aceste extreme (-1; 0; +1), de-
cât în cazul în care copiem, pur şi simplu, datele dintr-o variabilă într-o altă
variabilă şi apoi calculăm coeficientul de corelaţie, ceea ce, fiind vorba între
noi, s-a mai văzut pe la unii studenţi în lucrările lor „ştiinţifice”. Cu cât valo-
rile coeficientului de corelaţie se apropie mai mult de zero, cu atât variabilele
sunt necorelate, fără legătură între ele; cu cât sunt mai apropiate de 1, cu atât
sunt mai asociate, mai strâns legate, au elemente comune. Între aceste două
extreme, independenţă şi covarianţă, se situează întreaga filozofie şi întrea-
ga putere a coeficienţilor de corelaţie.

25
Statistică aplicată în ştiinţele socio-umane

Există o legătură logică între mărimea coeficientului ce corelaţie şi


semnificaţia acestuia. Nu trebuie demonstrat faptul că în cazul în care coefi-
cienţii de corelaţie se apropie de valoarea ±1, deci variabilele sunt puternic
asociate, această asociere este şi semnificativă, pragul de semnificaţie
apropiindu-se de zero, în timp ce la apropierea coeficientului de corelaţie de
valoarea zero, pragul de semnificaţie se apropie şi el de 1, legătura nefiind
semnificativă.
Am făcut aceste precizări în cadrul primului coeficient de corelaţie
studiat, coeficientul de corelaţie ρ Spearman. Informaţiile prezentate mai sus
se aplică tuturor coeficienţilor direcţionali, astfel încât nu le vom mai repeta
în cazul altor coeficienţi de corelaţie, ci ne vom axa doar asupra posibilelor
completări şi proceduri speciale de calcul.
Un ultim aspect care merită a fi menţionat: coeficientul de corelaţie
al rangurilor ρ Spearman este, alături de marea majoritate a coeficienţilor de
acest tip, adimensional şi situat la un nivel ordinal. Adică nu are o unitate de
măsură şi permite comparaţii directe. Putem compara un coeficient ρ cu un
alt coeficient de corelaţie, putem lucra cu mediana coeficienţilor de corelaţie,
etc. Bineînţeles, fiind situat la un nivel de măsură ordinal, nu putem calcula
statistici metrice, nu putem vorbi de media coeficienţilor de corelaţie.

I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall


Tabelul 1.4 – Rezultate obţinute de 4 Este un alt coeficient de corelaţie
elevi la română şi chimie pentru date neparametrice, dezvoltat de
Nr. Română Chimie statisticianul englez Maurice Kendall în
1 Satisfăcător Nesatisfăcător
(2) (1) anul 1938, fiind mai precis decât ρ
2 Bine Foarte bine Spearman în cazul variabilelor ce se situ-
(3) (4)
ează într-un mod real la un nivel pur or-
3 Nesatisfăcător Bine
(1) (3) dinal. Procedurile de calcul ale acestui
4 Foarte bine Satisfăcător coeficient diferă între ele, însă toate se
(4) (2)

26
Cristian Opariuc-Dan

bazează pe numărarea inversiunilor (cazul în care un element care are un


rang mai mare pentru o variabilă, se situează în faţa unui element cu un rang
mai mic, datele fiind ordonate după cealaltă variabilă) şi a opusului acestora,
numit şi proversiuni (Vasilescu, 1992).
Ca să înţelegem mai bine cum stau lucrurile, să luăm un exemplu. Să
presupunem că într-o clasă au fost evaluaţi un număr de patru elevi la limba
română şi la chimie, obţinându-se rezultatele din tabelul 1.4. Aceste date nu
pot fi asociate unor date la un nivel scalar, fiind în mod cert date ordinale.
Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu
3, foarte bine cu 4 şi excepţional cu 5, putem obţine expresia numerică a
acestor evaluări. Vă reamintesc faptul că aceste cifre nu reprezintă decât nişte
coduri asociate calificativelor şi nu au valoare în sine. La acest nivel putem
doar ordona elevii în funcţie de calificative (de la nesatisfăcător la excepţio-
nal) şi nu putem preciza cu cât un elev este mai bun decât celălalt (vezi refe-
rinţele la scale de măsură din lucrarea anterioară).
Calcularea numărului de inversiuni se face prin ordonarea datelor du-
pă prima variabilă. Ordonând datele, tabelul se prezintă în felul următor (ta-
belul 1.5). Tabelul 1.5 – Ordonarea după variabi-
la Română
Inversiunile vor fi calculate în ba- Nr. Română Chimie
za celei de-a doua variabile (chimie) Nesatisfăcător Bine
3
(1) (3)
urmărindu-se, pe rând, ordinea naturală a Satisfăcător Nesatisfăcător
1
rangurilor. Pentru prima linie, subiectul (2) (1)
are rangul 3 la chimie. Acest rang este Bine Foarte bine
2
(3) (4)
mai mare decât rangul la chimie pentru a Foarte bine Satisfăcător
4
doua linie (1), deci avem de-a face cu o (4) (2)
inversiune. Prima inversiune găsită este (3 – 1). Comparând prima linie cu a
treia (rangul 3 cu rangul 4, tot pe coloana „chimie”), observăm că cele două
ranguri sunt în ordine naturală, deci nu apare o inversiune în acest caz. O altă
inversiune apare la compararea primei linii cu ultima (inversiunea 3 – 2).

27
Statistică aplicată în ştiinţele socio-umane

A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordi-


nea naturală (atât comparaţia rangului 1 cu rangului 4 cât şi comparaţia ran-
gului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 şi nu
există nici un rang mai mic decât 1. A treia linie presupune compararea ran-
gului 4 cu rangul 2 (liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune
sub forma perechii 4 – 2.
Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3
inversiuni (perechile 3 – 1, 3 – 2 şi 4 – 2) şi un număr de 3 proversiuni (pere-
chile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se face diferit, în
funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang. În cazul nos-
tru, observăm că nu există elemente cu acelaşi rang, situaţie în care putem
aplica prima formulă de calcul a coeficientului τ Kendall:

(formula 1.6)

unde I reprezintă numărul de inversiuni, iar n numărul de subiecţi


Înlocuind în formula noastră, un- Tabelul 1.6 – Ordonarea după variabi-
de au fost 3 inversiuni şi 4 subiecţi, obţi- la Română
Nr. Română Chimie
nem următorul coeficient de corelaţie a
1 Nesatisfăcător Bine
rangurilor: (1) (3)
2 Satisfăcător Nesatisfăcător
(2) (1)
3 Bine Foarte bine
(3) (4,5)
4 Foarte bine Satisfăcător
Iată o primă situaţie în care nu (4) (2)
există nici o legătură între cele două va- 5 Excepţional Foarte bine
(5) (4,5)
riabile. Acest lucru se datorează, evident,
numărului extrem de mic de subiecţi luaţi în calcul, faptului că informaţia
este insuficientă pentru a ne permite formularea unor concluzii utile. Acest
coeficient de corelaţie se mai numeşte coeficientul de corelaţie τa. Există şi
alte variante ale acestui coeficient, având exact aceeaşi semnificaţie, (τb şi τc),

28
Cristian Opariuc-Dan

pe care nu le vom discuta aici. Menţionăm numai ca τb se foloseşte în cazul


variabilelor cu un număr egal de modalităţi de realizare (tabele pătratice), iar
τc se foloseşte în cazul variabilelor cu un număr inegal de modalităţi de reali-
zare (tabele rectangulare).
Dacă există elemente cu acelaşi rang în cazul celei de-a doua variabi-
le, lucrurile se complică puţin. Vom relua exemplul anterior pentru 5 subiecţi,
la aceleaşi discipline (tabelul 1.6).
Observăm că în cazul primei variabile nu avem ranguri care se repetă,
în timp ce pentru variabila chimie avem două cazuri în care se repetă califica-
tivul foarte bine. În aceste situaţii, ordonăm datele după variabila care nu are
elemente cu acelaşi rang – în cazul nostru, după variabila română. Ştim că
dacă două sau mai multe elemente ocupă aceeaşi poziţie, rangul lor devine
media poziţiilor pe care se află. Cele două elemente cu calificativul foarte
bine ocupă poziţiile 4 şi 5, rangul lor fiind acelaşi, 4,5. Aceste elemente poar-
tă numele de ambiversiuni şi reprezintă un nou concept în calculul coefici-
entului de corelaţie, alături de inversiuni şi proversiuni.
În condiţiile în care nu sunt elemente cu ranguri egale, atunci putem
spune că numărul inversiunilor şi cel al proversiunilor este egal cu suma pri-
melor n-1 numere naturale. Adică . Din acest lucru putem de-
duce un alt element, numit suma lui Kendall şi notat cu S. Suma lui Kendall
se defineşte după formula . Dacă nu ar exista inversiuni,
adică I=0, atunci s-ar obţine valoarea maximă a acestei sume, astfel încât

În baza acestor sume, formula generalizată a coeficientului de corela-


ţie a rangurilor τ Kendall devine:

(formula 1.7)

29
Statistică aplicată în ştiinţele socio-umane

Practic nu am făcut decât să generalizăm formula anterioară de calcul


a acestui coeficient, pentru a include un alt element şi anume cel de corecţie
a ambiversiunilor. Dacă apar ambiversiuni, suma maximă se reduce cu acest
element de corecţie, după formula următoare:

∑ (formula 1.8)

unde fp este numărul de asocieri de p elemente şi p se referă la numă-


rul elementelor.

În exemplul nostru, avem o singură pereche de elemente, şi anume ce-


le cu rangurile 4,5. Astfel, valoarea A devine .
Pentru o clarificare mai bună a modalităţii de calcul al acestui element, să
luăm un alt exemplu de ranguri:

Note: 2; 3; 5; 5; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12


Poziţie: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14
Rang 1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14

Observăm că avem două perechi de elemente (7 cu rangurile 7,5 şi 10


cu rangurile 11,5) şi o asociere cu 3 elemente (5 cu rangurile 4). Aplicând
formula pentru ambiversiune, obţinem ( ) ( )
.
Existenţa acestor ambiversiuni reduce atât numărul maxim de legături
ierarhice, cât şi suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992).
Astfel, şi, de asemenea, ( ) . Cu-
noscând acum aceste date şi formula generalizată pentru coeficientul τ Ken-
dall de corelaţie a rangurilor, putem deduce cu uşurinţă noua formulă pentru
cazul în care una dintre variabile are elemente de acelaşi rang.

30
Cristian Opariuc-Dan

( )
(formula 1.9)

Reluând exemplul de mai sus, avem un număr de 3 inversiuni (3 – 1;


3 – 2; 4,5 – 2) şi o ambiversiune (4,5 – 4,5). Toate datele sunt cunoscute şi nu
ne rămâne decât să înlocuim în formulă, obţinând coeficientul τ Kendall de
0,55.

Deşi este puţin mai complicat şi


Tabelul 1.7 – Calificativele obţinute la
limba română şi la chimie presupune calculul unui indicator supli-
Nr. Română Chimie mentar, algoritmul nu pune probleme
1 Satisfăcător Bine
(2) (3)
deosebite.
2 Satisfăcător Nesatisfăcător Să vedem în continuare modul de
(2) (1)
3 Bine Bine calcul al acestui coeficient în condiţiile în
(3) (3) care ambele variabile au elemente de
4 Foarte bine Satisfăcător
(4) (2) acelaşi rang. De data aceasta, algoritmul
5 Excepţional Foarte bine implică mai multe etape, deoarece avem
(5) (4)
ambiversiuni atât în cazul primei variabi-
6 Foarte bine Bine
(4) (3) le, cât şi în cazul celei de-a doua variabi-
7 Nesatisfăcător Satisfăcător
(1) (2)
le. Suma Kendall va deveni
8 Bine Foarte bine iar suma maximă se calculează în baza
(3) (4)
formulei

√( )( ), unde Ax şi Ay sunt ambiversiunile din


cele două variabile, iar S- şi S+ sunt sumele calculate numai din rangurile ce-

31
Statistică aplicată în ştiinţele socio-umane

lei de-a doua variabile. Nu va speriaţi. Clarificăm imediat aceste concepte


abstracte.
Având în vedere formula generalizată pentru coeficientul de corelaţie
τ Kendall şi cunoscând sumele, putem da expresia formulei de calcul a coefi-
cientului, în condiţiile în care găsim ambiversiuni atât în prima, cât şi în a
doua variabilă:

(formula 1.10)
√( )( )

Pentru a nu intra în detalii teoretice inutile, să considerăm că un nu-


măr de 8 elevi au obţinut următoarele calificative la limba română şi la chi-
mie (tabelul 1.7).
Datele din tabelul 1.7 nu sunt ordonate după nicio variabilă şi putem
observa cu uşurinţă că atât calificativele la limba română, cât şi cele de la
chimie, vor conţine elemente cu ranguri egale.
Pentru a calcula S+, se ordonează crescător elementele după prima va-
riabilă (română). În cazul în care întâlnim ranguri egale ale primei variabile
(română), elementele vor fi aranjate crescător, în funcţie de a doua variabilă
(chimie). Obţinem, astfel, un nou şir numit în termeni de specialitate Y+, pe
baza căruia calculăm ambiversiunile Ay şi inversiunile, după care putem afla
suma S+, în mod similar sumei prezentate în capitolul anterior. Vom rearanja
tabelul de mai sus pentru a putea calcula mai uşor aceste elemente.
Tabelul 1.8 – Rearanjarea rangurilor în vederea calculului S+
Număr elev 7 2 1 3 8 4 6 5
Calificativ română 1 NS 2S 2S 3B 3B 4 FB 4 FB 5E
Poziţie 1 2 3 4 5 6 7 8
Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 8
Calificativ chimie 2S 1 NS 3B 3B 4 FB 2S 3B 4 FB
Rang chimie 2,5 1 5 5 7,5 2,5 5 7,5

32
Cristian Opariuc-Dan

Suma S+ se va calcula ţinând cont doar de rangurile celei de-a doua


variabile, în cazul nostru, chimia. Din tabelul 1.8 observăm că apare de două
ori rangul 2,5, de trei ori rangul 5 şi de 2 ori rangul 7,5. Numărul de legături
ambiverte (Ay) va fi, prin urmare, ∑ ( )

( ) , deoarece avem două legături cu 2 elemente şi o singură


legătură cu 3 elemente.
Perechile de inversiuni în variabila chimie vor fi (2,5 – 1), (5 – 2,5),
(5 – 2,5), (7,5 – 2,5), (7,5 – 5), (5 – 7,5), vorbind, astfel, de un număr de 6
inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicând
formula de mai sus şi obţinem valoarea 11.

( ) ( )

Tabelul 1.9 – Rearanjarea rangurilor în vederea calculului S-


Număr elev 7 1 2 8 3 6 7 5
Calificativ română 1 NS 2S 2S 3B 3B 4 FB 4 FB 5E
Poziţie 1 2 3 4 5 6 7 8
Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 8
Calificativ chimie 2S 3B 1 NS 4 FB 3B 3B 2S 4 FB
Rang chimie 2,5 5 1 7,5 5 5 2,5 7,5

Calcului sumei S- se face în mod similar, singura diferenţă este că la


ranguri egale ale primei variabile, elementele celei de-a doua variabile se
ordonează descrescător, obţinându-se şirul Y-, restul algoritmului rămânând
neschimbat.
Fiind acelaşi număr de ranguri egale în cea de-a doua variabilă, indi-
cele legăturilor ambiverte nu se schimbă. Se modifică doar numărul de inver-
siuni în acest caz, astfel (2,5 – 1), (5 – 1), (5 – 2,5), (7,5 – 5), (7,5 – 5), (7,5 –
2,5), (5 – 2,5), (5 – 2,5), rezultând un număr de 8 inversiuni. Înlocuind în
formulă, vom avea S- în valoare de 7.

33
Statistică aplicată în ştiinţele socio-umane

( ) ( )

Având valorile pentru S+ şi S-, putem acum calcula suma lui Kendall

Pentru a putea calcula Smax ,va trebui să aflăm doar numărul de legă-
turi ambiverte din prima variabilă (Ax), în cazul nostru limba română. Avem
trei legături de câte 2 elemente, 2,5 4,5 şi 6,5. Ştim acum formula de calcul şi
putem afla uşor această valoare. ∑ ( )
Nu ne rămâne decât să completăm formula de calcul şi obţinem valoarea
23,97.

√( )( ) √( )( )

√ √

Coeficientul de corelaţie τ Kendall, în acest caz ca raport al celor două


sume, devine .

Se pare că v-aţi obişnuit cu mai puţine calcule în lucrarea anterioară.


Aceasta este situaţia. În definitiv, am trecut la stabilirea relaţiilor dintre vari-
abile, nu mai lucrăm cu una, ci cu două variabile în acelaşi timp şi este nor-
mal să se complice puţin şi calculele. Din fericire, aveţi ceva mai mult de
adunat, scăzut sau înmulţit iar formulele vă pot speria doar la prima vedere.
În definitiv, algoritmii de calcul sunt destul de simpli. Singura problemă este
aceea că la un număr mare de subiecţi trebuie să fiţi extrem de atenţi, altfel vă
puteţi încurca uşor. Bine că avem, însă, computerele care ne scot din impas.
Imaginaţi-vă doar cum lucrau cercetătorii prin anii `30 ai secolului XX şi veţi
putea înţelege ce norocoşi suntem noi acum.

34
Cristian Opariuc-Dan

Acest coeficient de corelaţie se poate utiliza în condiţiile în care am-


bele variabile sunt ordinale sau o variabilă este ordinală, iar cealaltă este sca-
lară.

I.1.2.1 Semnificaţia coeficientului τ Kendall


Care este semnificaţia coeficientului de corelaţie τ Kendall? Deoarece
acest coeficient se bazează practic pe numărarea perechilor diferite provenite
din două şiruri ordonate de date, ea nu reprezintă altceva decât o diferenţă
dintre probabilitatea elementelor de a fi în aceeaşi ordine şi probabilitatea
elementelor de a fi într-o altă ordine (Kenny, 1987).
Coeficientul τ Kendall este un coeficient direcţional, având aceeaşi
semnificaţie interpretativă ca şi coeficientul ρ Spearman. În anexa 2 am fur-
nizat tabelele de referinţă ale valorilor acestui coeficient pentru diferite pra-
guri de semnificaţie.
Deoarece la valori mari ale numărului de subiecţi, distribuţia τ Ken-
dall se apropie de distribuţia normală, este posibil, atunci când numărul de
subiecţi este mai mare de 30, să se calculeze statistica z pentru coeficientul
de corelaţie τ Kendall, după formula următoare:

(formula 1.11)

Dacă am obţine un coeficient de corelaţie τ Kendall de 0,42 pe un


număr de 34 de subiecţi, atunci statistica z a acestui coeficient devine 5,25,
valoare puternic semnificativă ce indică legătura dintre cele două variabile
analizate.


√ √ √

35
Statistică aplicată în ştiinţele socio-umane

Statistica z a coeficientului de corelaţie τ Kendall se raportează la dis-


tribuţia z, pe baza tabelelor de distribuţie z prezentate în anexa 8.

I.1.3 Coeficientul de contingenţă χ2 (chi pătrat)


Este greu de definit χ2. A fost conceput de Pearson şi putem afirma,
fără să ne înşelăm prea tare, că statisticile neparametrice încep şi se termină
cu χ2, atât de mare este importanţa acestui indicator utilizat în studii corelaţi-
onale şi factoriale cu date nominale. Rolul său este esenţial în analiza datelor
nominale, coeficientul putând fi folosit în stabilirea relaţiilor dintre două va-
riabile dihotomice, ale unei variabile dihotomice cu una nominală, şi ale celor
în care intervin o variabilă nominală şi una ordinală, sau o variabilă nominală
şi una scalară. Practic, atunci când avem de a face cu o variabilă nominală,
cel mai pertinent indicator este acest χ2.
χ2 este un coeficient de asociere între două variabile nominale. El mă-
soară gradul de contingență al celor două variabile, verificând dacă sunt sau
nu sunt asociate în vreun fel. În realitate, acest coeficient pare mai degrabă un
test statistic decât un indicator al gradului de asociere. Spre exemplu, avem o
cercetare în care dorim să stabilim în ce măsură se asociază genul biologic al
unor subiecţi şi calitatea de fumător. Suntem în situaţia unei variabile nomi-
nale şi a unei variabile dihotomice. În acest caz vom utiliza aşa-numitele ta-
bele de contingenţă, pe baza cărora vom calcula χ2.
Tabelul 1.10 – Tabelul de contingenţă cu frecvenţele estimate pentru χ2
Calitate fumător
Da Nu
35 64 Bărbaţi
Bărbaţi
(27,87) (71,12) 99
Gen biologic
23 84 Femei
Femei
(30,12) (76,87) 107
Fumători Nefumători Total
58 148 206

36
Cristian Opariuc-Dan

La această cercetare au participat un număr de 206 persoane, 99 băr-


baţi şi 107 femei. Dintre aceştia, 58 sunt fumători, iar 148 nefumători.
Ipoteza nulă de la care pleacă χ2 este aceea conform căreia nu există
nicio asociere între aceste două variabile. Cu alte cuvinte, frecvenţele de apa-
riţie ale cazurilor nu sunt diferite de situaţia în care toate cele patru variante
ar avea o frecvenţă de apariţie teoretică (frecvența corespunzătoare situației
în care cele două variabile ar fi independente). Datorită acestui fapt, atunci
când lucrăm cu χ2, ne putem exprima în frecvenţe relative sau în frecvenţe
absolute. Ideea testului χ2 este aceea a comparării acestor frecvenţe observate
cu situaţia în care celulele ar avea frecvenţele teoretice estimate, prin frecven-
țe teoretice estimate înțelegând frecvențele pentru cazul în care cele două
variabile ar fi independente. Dacă diferenţele între frecvenţele observate şi
cele estimate (teoretice) sunt mari, atunci vorbim de un χ2 semnificativ, fapt
care indică existenţa unei asocieri între cele două variabile. Dar cum se obţi-
ne practic acest lucru? Primul pas este acela al calculării frecvenţelor estimate
pentru fiecare dintre cele patru celule care ne interesează. Acest lucru se face
foarte simplu pe baza formulei:

(formula 1.12)

Pentru prima coloană (bărbaţi fumători) vom avea o frecvenţă estima-


tă de . Pentru bărbaţi nefumători avem
, pentru femeile fumătoare frecvenţa aşteptată devine
, iar pentru femeile nefumătoare vom avea .

Odată stabilite frecvenţele teoretice (estimate), urmează calcularea


coeficientului χ2. La acest nivel putem distinge două situaţii.
 În cazul în care cel puţin una dintre cele două variabile are mai
mult de două categorii (de exemplu o variabilă de tipul ocupa-

37
Statistică aplicată în ştiinţele socio-umane

ţiei cu variantele muncitor, maistru şi inginer), se aplică for-


mula generală a coeficientului χ2.

∑ (formula 1.13)

 Dacă cele două variabile au exact câte două categorii fiecare,


atunci se aplică o formulă de corecţie pentru continuitate.
| |
∑ (formula 1.14)

Noi ne aflăm în cea de-a doua situaţie, astfel încât vom aplica, pentru
fiecare dintre cele patru celule, formula corectată şi vom obţine valoarea 4,2
pentru coeficientul de contingenţă χ2.
| |

| | | |

| | | |

Ce facem acum cu acest coeficient obţinut? Va trebui să-l verificăm la


un prag de semnificaţie stabilit, pentru a vedea dacă putem sau nu respinge
ipoteza nulă. Dar înainte de aceasta vom stabili gradele de libertate. Ştiu că
nu aveţi o idee prea clară referitoare la acest concept. Aveţi răbdare, o vom
discuta imediat. În cazul nostru, gradele de libertate se calculează înmulţind
numărul categoriilor fiecărei variabile din care se scade unu. Adică,
df=(CatX-1)(CatY-1). Noi avem două variabile cu două categorii şi rezultă (2-
1)(2-1)=1 grad de libertate. În acest moment avem toate informaţiile pentru a
stabili dacă acest coeficient de contingenţă este sau nu este semnificativ.

38
Cristian Opariuc-Dan

Coeficientul de contingenţă χ2, după cum aţi putut constata, este sim-
plu de înţeles şi de calculat. De aceea, voi „risca” să abordez, în cele ce ur-
mează, o perspectivă ceva mai „matematizată” asupra datelor neparametrice,
deoarece un stil asemănător îl puteţi întâlni în cele mai multe lucrări din acest
domeniu.
Tabelele de contingenţă (asociere) sunt intens folosite atunci când lu-
crăm cu date discrete. În momentul în care reprezentăm, folosind un aseme-
nea tabel, doar două variabile, vorbim de tabele de contingenţă bidimensio-
nale, deoarece există posibilitatea reprezentării mai multor variabile în ace-
laşi tabel, caz în care ne vom referi la tabele de contingenţă multidimensio-
nale.
În tabelul 1.11 v-am furnizat reprezentarea generală a unui tabel de
contingenţă bidimensional. Putem observa că variabila X are un număr de i
categorii (unde, spre exemplu, i poate fi 2, în cazul variabilei sex – masculin
şi feminin, ori 4 în cazul culorii ochilor – albastru, verde, negru, căprui), iar
variabila Y are un număr de j categorii. Prin însumarea datelor, la nivelul
fiecărei categorii, obţinem un nou tip de rubrică, numită secţiunea datelor
marginale. Coloana „Total X”, respectiv linia „Total Y” se referă exact la
acest tip de date.
Tabelul 1.11 – Reprezentarea generală a unui tabel de contingenţă bidimensional
Variabila Y
Categorie 1 Categorie 2 … Categorie j Total X
n11 n12 … n1j ∑nX1
Categorie 1
e11 e12 … e1j ∑eX1
n21 n22 … n2j ∑nX2
Categorie 2
e21 e22 … e2j ∑eX1
Variabila . . . … . .
X . . . … . .
ni1 ni2 … nij ∑nXi
Categorie i
ei1 ei2 … eij ∑eX1
∑nY1 ∑nY2 … ∑nYj n
Total Y
∑eY1 ∑eY2 … ∑eYj e

39
Statistică aplicată în ştiinţele socio-umane

Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja,
cu litera n, căreia i se adaugă indici arătând numărul liniei și numărul coloa-
nei. Astfel, subiecţii din categoria 1 pentru variabila X şi categoria 1 pentru
variabila Y, se notează cu n11 (spre exemplu, bărbaţii cu ochi albaştri). Sub-
iecţii din categoria 2 pentru variabila X şi din categoria 1 pentru variabila Y
se notează cu n21 (de exemplu femeile cu ochi albaştri) şi aşa mai departe.
Generalizând parţial, vom spune că subiecţii din categoria 1 pentru variabila
X şi din categoria j pentru variabila Y se notează n1j; similar, subiecţii din
categoria 1 pentru variabila Y şi din categoria i pentru variabila X se notează
ni1. Înţelegând acest stil de notare, vom spune că numărul de subiecţi din ca-
tegoria i în cazul variabilei X şi din categoria j în cazul variabilei Y se poate
nota nij.
Rezultatele marginale urmează aceeaşi logică. Toţi subiecţii aflaţi în
categoria 1 a variabilei X sunt reprezentaţi de ∑nX1 (de exemplu, toţi bărbaţii,
indiferent de culoarea ochilor). Toţi subiecţii aflaţi în categoria 1 a variabilei
Y sunt reprezentaţi de ∑nY1 (de exemplu, toţi subiecţii cu ochi albaştri, indi-
ferent de sex). În general, toţi subiecţii din categoria i a unei variabile şi din
categoria j a celeilalte variabile sunt reprezentaţi de ∑nij.
Referindu-de strict la χ2, putem raţiona în acelaşi mod atunci când
vorbim despre frecvenţele estimate, notate în cazul nostru cu e. Nu vom deta-
lia raţionamentul, vă lăsăm pe dumneavoastră să o faceţi.
Cunoscând toate aceste date, să revedem formula pentru χ2, în condiţii
de maximă generalitate. Vă reamintim formula iniţială, apoi vom proceda la
deducerea noii formule.

∑ ∑ ∑ (formula 1.15)

40
Cristian Opariuc-Dan

Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar


notaţia şi modul în care s-au abstractizat conceptele. Formula 1.15 este vala-
bilă doar dacă cel puțin una dintre variabile are mai mult de două categorii.
Desigur, intuiesc întrebarea care vă vine în minte în acest moment.
Probabil că vă gândiţi la ce foloseşte complicarea lucrurilor. Nu era suficientă
o singură formulă? Nu ajunge prezentarea modalităţii efective de calcul? De
ce avem nevoie de formule generalizate şi alte asemenea lucruri care ţin mai
mult de o abordare matematică? Răspunsul comportă o serie de aspecte. În
primul rând, formule de acest tip, şi altele, mult mai complexe, găsiţi în lu-
crări de specialitate, comunicări ştiinţifice şi articole. Este bine să le puteţi
înţelege şi să puteţi lucra cu ele. În al doilea rând, cel mai probabil că în cari-
eră veţi fi pus în situaţia de a redacta un articol ştiinţific. Normele de accepta-
re şi de publicare ale unor asemenea lucrări impun prezentarea formulelor
generalizate, folosindu-se notaţii universale. În al treilea rând, vă dezvoltaţi,
pas cu pas, gândirea matematică şi vă familiarizaţi cu limbajul. Vrem nu
vrem, statistica este totuşi o ramură a matematicii, iar noi nu putem face abs-
tracţie de acest lucru.

I.1.3.1 Semnificaţia coeficientului de contingenţă χ2


Acest coeficient este unul nedirecţional şi dimensional; nu putem
compara acest coeficient cu alţi coeficienţi de asociere. Această ultimă situa-
ţie creează probleme în interpretare, probleme legate de magnitudinea asocie-
rii dintre cele două variabile.
După stabilirea gradelor de libertate, comparăm coeficientul obţinut
cu valoarea de referinţă a distribuţiei χ2 pentru numărul de grade de libertate
găsit. Tabelul distribuţiei χ2 pentru diferite grade de libertate este prezentat în
anexa 3.
În cazul nostru, avem o valoare χ2 de 4,2 la un număr de 1 grade de li-
bertate. Parcurgând prima linie, corespunzătoare unui singur grad de libertate,

41
Statistică aplicată în ştiinţele socio-umane

observăm că acest coeficient este semnificativ la un prag de semnificaţie mai


mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de refe-
rinţă pentru acest prag. Coeficientul nu este semnificativ la un prag de semni-
ficaţie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obţi-
nut, este mai mic decât valoarea de referinţă pentru pragul de semnificaţie
0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdată spune care
este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus.
Coeficientul de contingenţă χ2 permite doar identificarea unei contingenţe
între variabile. Nu putem fi siguri, însă, de intensitatea acesteia.
Observăm că acest coeficient este sensibil la mărimea lotului de cer-
cetare. Dacă lotul de cercetare este prea mic, χ2 va fi supraestimat; dacă lotul
de cercetare este prea mare, χ2 poate fi subestimat. Va fi necesară, aşadar,
găsirea unei soluţii de standardizare, soluţie prin care să evităm aceste supra
sau subestimări şi să găsim magnitudinea contingenţei. Pentru a se elimina
aceste dezavantaje, au fost calculaţi alţi coeficienţi derivaţi din χ2, şi anume
coeficientul de asociere φ, coeficientul V Cramer, coeficientul de contingenţă
(cc) şi alţii.

I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer


şi coeficientul de contingenţă (cc), derivaţi din χ2
Coeficientul de asociere φ este un coeficient foarte simplu, derivat
2
din χ şi se calculează pentru două variabile dihotomice, care înregistrează, în
special, prezenţa sau absenţa unei caracteristici. Dacă ne interesează relaţia
dintre ochii albaştri şi părul blond, vom putea concepe două variabile prin
care să stocăm prezenţa şi absenţa ochilor albaştri, respectiv prezenţa şi ab-
senţa părului blond. Evident, ambele variabile sunt la un nivel nominal de
măsură, şi se bazează pe un tip special de distribuţie discretă, astfel încât coe-
ficientul φ este un coeficient ce lucrează cu frecvenţe absolute sau relative.
La modul general, tabelul de lucru se prezintă sub forma unei structuri
cu 4 celule.

42
Cristian Opariuc-Dan

Tabelul 1.12 – Schema generală de calcul a coeficientului φ


Variabila X
Prezenţă X Absenţă X
Prezent X Absent X
Prezenţă Y
Prezent Y Prezent Y
Variabila Y
Prezent X Absent X
Absenţă Y
Absent Y Absent Y

În calculul acestui coeficient suntem interesaţi doar de câteva cazuri:


cazul în care sunt prezente caracteristicile pentru ambele variabile (celula
Prezent X şi Prezent Y), cazul în care este prezentă doar variabila X (suma
celulelor Prezent X, Prezent Y şi Prezent X, Absent Y) şi cazul în care este
prezentă doar variabila Y (suma celulelor Prezent X, Prezent Y şi Absent X,
Prezent Y). Formula de calcul a acestui coeficient este:

(formula 1.16)

Această formulă nu este, practic, altceva decât rădăcina pătrată din ra-

portul dintre χ2 şi numărul de cazuri. Putem spune că √ .

Să reluăm exemplul legăturii dintre prezenţa părului blond şi prezenţa


ochilor albaştri.
Tabelul 1.13 – Coeficientul φ pentru relaţia dintre părul blond şi ochii
albaştri
Ochi albaştri
Da Nu
Blond cu ochi Blond fără ochi Total blonzi
Da albaştri albaştri (80+54)
(n=80) (n=54) (n=134)
Păr blond
Fără blond cu Fără blond, fără
Nu ochi albaştri ochi albaştri
(n=33) (n=48)
Total albaştri
(80+33)
(n=113)

43
Statistică aplicată în ştiinţele socio-umane

Avem următoarele date: un număr de 80 de blonzi cu ochi albaştri


(PXY), un număr total de 134 de blonzi (PX) şi un număr total de 113 persoane
cu ochi albaştri (PY). Sigur că posedăm toate datele necesare pentru a calcula
coeficientul φ. Putem înlocui în formulă aceste frecvenţe absolute sau putem
converti frecvenţele absolute în proporţii, pentru evitarea numerelor kilome-
trice. În definitiv, rezultatul va fi acelaşi. La cercetarea noastră au participat
un număr de 80+54+33+48=215 persoane. Proporţia blonzilor cu ochi albaş-
tri este PXY=80/215=0,37, proporţia blonzilor PX=134/215=0,62 şi proporţia
celor cu ochi albaştri este de PY=113/215=0,52. Aceste date pot fi acum in-
troduse în formulă, obţinându-se valoarea 0,21 pentru coeficientul de corela-
ţie φ.

√ √

Acest coeficient de corelaţie se foloseşte doar într-un singur caz, res-


pectiv cel în care ambele variabile sunt dihotomice. În cazul în care una din-
tre variabile nu mai este dihotomică, acest coeficient devine nerelevant.
Pearson, autorul acestui coeficient, a sesizat această dificultate în uti-
lizarea lui; dacă dimensiunea tabelului de contingenţă creşte (dacă una dintre
variabile nu mai este dihotomică), amplitudinea acestui coeficient creşte şi ea
(Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variantă ajus-
tată, numită ajustarea Sakoda, rezultând coeficientul de contingenţă Pearson.
Coeficientul de contingenţă Pearson reprezintă o altă variantă deri-
vată din χ2, de fapt fiind vorba despre coeficientul φ ajustat, şi se calculează
în baza formulei următoare:

√ (formula 1.17)

44
Cristian Opariuc-Dan

Nu intrăm în detalii legate de acest coeficient, simplitatea lui exclu-


zând orice fel de comentarii. Vom înlocui doar în formulă datele utilizate în
exemplul anterior.

√ √ √ √

Coeficientul de contingenţă nu este altceva decât o formă ajustată a


coeficientului de asociere φ, putând fi utilizat pentru orice tip de variabile
neparametrice. Dacă nu mă credeţi, aplicaţi a doua formulă a coeficientului
de asociere φ, bazată pe valoarea lui χ2, şi veţi obţine acelaşi rezultat.
Coeficientul de contingenţă Tschuprow se notează cu t (nu este ace-
laşi lucru cu testul de diferenţă semnificativă între mediile eșantioanelor,
Student t) şi are, la bază, de această dată, coeficientul φ.
A fost propus în anul 1919 de către matematicianul rus Alexander
Alexandrovici Tschuprow, formula de calcul fiind:

√√ (formula 1.18)

Acest coeficient ţine seama doar de numărul de categorii din cadrul


fiecărei variabile şi de valoarea lui φ, fiind vorba, de fapt, de o ajustare a
acestui coeficient, similară celei efectuate de Pearson.
Dacă reluăm exemplul relaţiei dintre ochii albaştri şi părul blond, în
care am obţinut φ=0,21, observăm că fiecare variabilă are doar două catego-
rii. În acest caz, coeficientul de contingenţă Tschuprow devine:

√ √ √ √ √
√ √ √

Desigur, am obţinut valoarea iniţială a coeficientului φ. În realitate,


acest coeficient ajustează valoarea lui φ în condiţiile în care cel puţin una

45
Statistică aplicată în ştiinţele socio-umane

dintre variabile prezintă mai mult de două categorii, fiind o versiune mai pre-
cisă a coeficientului de contingenţă Pearson.
Coeficientul de asociere v Cramer se foloseşte în cazul în care cel
puţin una dintre variabile are mai mult de două modalităţi de realizare şi poa-
te fi definit după formula următoare:

√ (formula 1.19)

unde l reprezintă minimum dintre numărul liniilor şi numărul coloa-


nelor, iar n numărul subiecților.
Dacă o variabilă are 3 categorii şi una 2 categorii, atunci l va lua va-
loarea 2, valoarea variabilei cu cele mai puţine categorii.
Reluând exemplul utilizat la analiza coeficientului ce contingenţă χ2,
am avut fumătorii şi genul biologic, variabile cu două categorii fiecare, deci l
va avea valoarea 2. În acelaşi timp, numărul total a fost de 206 subiecţi pen-
tru care am obţinut valoarea 4,2 pentru χ2. Înlocuind în formulă, obţinem 0,14
valoarea coeficientului de asociere v Cramer.

√ √ √ √

I.1.4.1 Semnificaţia coeficienţilor de asociere


Aceşti coeficienţi de asociere au fost stabiliţi în ideea compensării
dezavantajelor coeficientului de contingenţă χ2. Prin urmare, toate interpretă-
rile legate de semnificaţia acestora se bazează pe interpretarea coeficientului
χ2, de aceea nu vom intra în detalii. Practic, întâi se interpretează semnificaţia
lui χ2 la un prag de semnificaţie stabilit şi apoi intensitatea asocierii în baza
unuia dintre coeficienţi.

46
Cristian Opariuc-Dan

Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea


0,14. Am arătat deja că această valoare este semnificativă la un prag de sem-
nificaţie mai mic de 0,05 (χ2 avea valoarea 4,2; pragul de semnificaţie la un
număr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de con-
tingenţă putem deduce faptul că asocierea dintre cele două variabile este sla-
bă (vom vedea imediat ce înseamnă acest lucru), însă semnificativă. Iată că
pe baza acestor coeficienţi derivaţi, putem stabili acum şi intensitatea contin-
genţei.
Toţi coeficienţii sunt nedirecţionali. Aceasta înseamnă că pot lua va-
lori cuprinse între 0 şi 1, unde apropierea de zero indică lipsa asocierii dintre
variabile, iar valorile apropiate de 1 arată puterea asocierii acestora.
O singură observaţie se mai impune la acest capitol. Mă veţi întreba,
desigur, cum stabilesc semnificaţia pentru coeficientul φ, dacă aplic direct
prima formulă de calcul, fără să mai ajung la χ2? Nu întâmplător am dat a
doua formulă. Dacă ştiţi puţină matematică, veţi descoperi că:

√ ⇔ ⇔

Putem, practic, extrage valoarea lui χ2, dacă ştim numărul de subiecţi
şi valoarea lui φ. În exemplul nostru, φ avea valoarea 0,21, cercetare realizată
pe 215 persoane. Atunci . Fiind un
singur grad de libertate, observăm că această valoare este semnificativă, la un
prag de semnificaţie mai mic de 0,01. Putem spune că există o asociere slabă
între părul blond şi ochii albaştri. Adică, în majoritatea cazurilor, persoanele
cu păr blond au şi ochii albaştri, restul situaţiilor fiind excepţii.

47
Statistică aplicată în ştiinţele socio-umane

I.1.5 Coeficientul de asociere λ (lambda) Goodman şi


Kruskal
Coeficientul λ a fost stabilit de Goodman şi Kruskal, prin anul 1980,
alături de un alt coeficient similar, coeficientul de asociere τ Goodman şi
Kruskal, pe care nu-l vom aborda în această lucrare, deoarece se referă apro-
ximativ la acelaşi lucru. Se calculează în situaţia asocierii unei variabile no-
minale cu o variabilă dihotomică, cu o altă variabilă nominală, cu o variabilă
ordinală sau cu o variabilă scalară, în condiţiile în care aceasta este grupată în
clase.
Practic, acest coeficient se referă la cantitatea de cunoştinţe cuprinsă
într-o variabilă, ce poate acoperi informaţiile din cealaltă variabilă. Sau, cu
alte cuvinte, având o anumită cantitate de informaţie în variabila X, cât din
variabila Y putem prezice? Formula de calcul este următoarea:
∑ ( )
( )
(formula 1.20)

unde nMi este cea mai mare frecvenţă de pe rândul i şi Max(Cj) este
frecvența cea mai mare dintre frecvențele coloanelor, iar n se referă la nu-
mărul subiecților.
Ştiţi ce mă bucură acum cel mai tare? Faptul că nu vă mai speriaţi de
formule. Aţi observat că ele devin din ce în ce mai stufoase şi, totuşi, în reali-
tate, aplicarea lor este foarte simplă. Să luăm un nou exemplu. Presupunem
că am desfăşurat o cercetare în cadrul căreia dorim să studiem asocierea între
două variabile: preferinţa pentru un partid politic (1 – PSD; 2 – PNL; 3 –
PDL; 4 – PC şi 5 – PRM) şi nivelul de stres al subiecţilor pe o scală Likert de
la 1 la 5 (1 – Foarte slab; 2 – Slab; 3 – Mediu; 4 – Ridicat; 5 – Foarte ridicat).
Suntem în situaţia asocierii dintre o variabilă nominală (preferinţa pentru
partide) şi o variabilă ordinală (nivelul de stres). Vom construi tabelul de
contingenţă pentru cele două variabile.

48
Cristian Opariuc-Dan

Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoa-
ne au un nivel de stres foarte scăzut, 9 un nivel de stres scăzut, 7 un nivel de
stres mediu, 4 ridicat şi o persoană prezintă nivelul stresului foarte ridicat.
Situaţia este analogă în cazul celorlalte partide.
Avem partidele afişate pe linii şi nivelul de stres pe coloane. În primul
rând, va trebui să stabilim, pentru fiecare linie, celula cu frecvenţa cea mai
mare. Pentru PSD, categoria cu frecvenţa cea mai mare este reprezentată de
nivelul de stres foarte scăzut (12 persoane). Pentru PNL întâlnim categoria cu
nivelul de stres scăzut (45 de persoane), pentru PDL nivelul de stres mediu
(42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pen-
tru PRM nivelul de stres scăzut (5 persoane).
Tabelul 1.14 – Tabelul de contingenţă pentru calculul coeficientului λ
Nivelul de stres
1 2 3 4 5
Foarte Scăzut Mediu Ridicat Foarte
scăzut ridicat
1 – PSD 12 9 7 4 1
2 – PNL 8 45 21 6 5
Partidul 3 – PDL 7 19 42 13 1
4 – PC 8 4 10 7 3
5 - PRM 1 5 1 3 2
Total coloane 36 82 81 33 12
Efectuăm acum totalul pe coloane. În mod clar, categoria cu frecvenţa
cea mai mare este cea a stresului scăzut (82 de persoane), în timp ce numărul
total de participanţi la studiu a fost de 244 de persoane. În acest moment,
informaţiile sunt suficiente pentru a putea completa formula.
∑ ( )
( )

Am obţinut acum valoarea 0,19 pentru acest coeficient, valoare pe ca-


re o vom analiza din punctul de vedere al semnificaţiei.

49
Statistică aplicată în ştiinţele socio-umane

I.1.5.1 Semnificaţia coeficientului λ


Coeficientul λ este un alt coeficient nedirecţional. Aceasta înseamnă
că poate lua valori între 0 şi 1, unde apropierile de zero ne arată că informaţii-
le conţinute într-o variabilă nu pot prezice cealaltă variabilă, variabilele nea-
vând nimic în comun, iar apropierile de 1 sunt semnificative pentru gradul de
predicţie a evoluţiei unei variabile, în baza informaţiilor conţinute în cealaltă
variabilă.
Analiza semnificaţiei acestui coeficient se face în baza statisticilor z,
iar valorile vor fi raportate la distribuţia z. Prin urmare, va trebui să definim
formula de calcul pentru statistica z a coeficientului λ şi apoi să comparăm
această valoare cu valorile de referinţă z la diferite praguri de semnificaţie.
Pentru a vă reaminti de semnificaţia notelor z, parcurgeţi capitolul referitor la
distribuţia normală din lucrarea anterioară. Formula de transformare a coefi-
cientului λ în statistica z este următoarea:

(formula 1.21)

unde λref înseamnă valoarea de referinţă λ, iar sλ reprezintă valoarea


varianţei acestui coeficient.

Deoarece acest coeficient măsoară cât dintr-o variabilă se poate găsi


într-o altă variabilă, valoarea de referinţă se exprimă sub formă de proporţii.
Dacă presupunem că nivelul de stres influenţează preferinţele pentru partide-
le politice, sau cu alte cuvinte putem prezice preferinţa pentru partide în baza
analizei nivelului de stres, atunci plecăm de la o bază, de la o referinţă, în
care presupunem, de exemplu, că 10% din nivelul de stres poate prezice pre-
ferinţa pentru partide. Această valoare de referinţă este aleasă în funcţie de
necesităţile cercetării. Soluţia pesimistă este aceea conform căreia valoarea
de referinţă se apropie de zero. Altfel spus, nu avem niciun motiv să presu-
punem că cele două variabile sunt legate în vreun fel. În acest caz, vom alege

50
Cristian Opariuc-Dan

valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de
proporţii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru λref.
Dacă avem motive suficiente să credem că există legături între cele
două variabile, atunci putem aborda soluţii optimiste, în sensul că vom consi-
dera o mare parte dintre informaţiile unei variabile ca fiind dependente de
informaţiile din cealaltă variabilă. În acest sens, putem alege valori de 50%,
60%, 70% pentru λref.
Nu există o regulă de atribuire în acest sens. Personal, vă recomand să
fiţi sceptici şi să nu consideraţi valori mai mari de 0,10 – 0,15 pentru λref.
Evident, cu cât valorile lui λref se apropie cu zero, cu atât legătura trebuie să
fie mai puternică pentru a fi semnificativă.
În exemplul nostru, am plecat de la presupunerea că doar 10% din ni-
velul de stres poate determina preferinţe pentru un anumit partid politic. Va-
loarea pentru λref va fi, aşadar, 0,10 şi vom analiza dacă la acest nivel putem
vorbi despre o legătură semnificativă.
Următorul aspect din formula 1.21 se referă la varianţa coeficientului
λ. Această varianţă poate fi calculată în baza relației următoare:

( ∑ )(∑ ( ) ∑ )
(formula 1.22)
( ( ))

unde nMi este cea mai mare frecvenţă de pe rândul i, Max(Cj) cea mai
mare frecvență dintre frecvențele calculate pe coloane şi ∑ este suma
tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare, m
reprezentând numărul de rânduri.

Aceasta este chiar complicată, nu-i aşa? Oare cum o calculăm? Poate
vă gândiţi să o învăţaţi pe de rost pentru examene. Sau poate o memoraţi să
impresionaţi prietenul ori prietena. Nu are rost. În condiţii de examen, ar tre-
bui să vi se dea formula, iar dumneavoastră să ştiţi să o aplicaţi. Pentru prie-

51
Statistică aplicată în ştiinţele socio-umane

ten ori prietenă, cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie formu-
la asta într-o scrisoare de amor, în mod sigur nu veţi reuşi decât să îndepărtaţi
partenerul. Haideţi totuşi să vedem ce ne cere formula şi dacă e atât de com-
plicat calculul. Vom relua tabelul de contingenţă.
Numărul total de persoane este 244. Îl avem, aşadar, pe n. Suma celor
mai mari frecvenţe de pe rânduri o ştim deja. Este 114 şi nu reprezintă altce-
va decât valoarea ∑ . Cea mai mare frecvență dintre frecvențele calcu-
late pe coloane este situată în a doua coloană şi are valoarea 82. Iată că avem
şi rezultatul pentru ( ).
Tabelul 1.15 – Tabelul de contingenţă pentru calculul coeficientului λ
Nivelul de stres
1 2 3 4 5
Foarte Scăzut Mediu Ridicat Foarte
scăzut ridicat
1 – PSD 12 9 7 4 1
2 – PNL 8 45 21 6 5
Partidul 3 – PDL 7 19 42 13 1
4 – PC 8 4 10 7 3
5 - PRM 1 5 1 3 2
Total coloane 36 82 81 33 12
Ce trebuie să mai facem? Trebuie să calculăm suma tuturor frecvenţe-
lor maxime asociate coloanei cu frecvenţa cea mai mare. Am stabilit deja
care este aceasta. Este a doua coloană. Care sunt frecvenţele maxime din
această coloană? Pe primul rând avem frecvenţa 9, pe al doilea rând frecvenţa
45, pe al treilea rând frecvenţa 19, pe al patrulea rând frecvenţa 4 şi pe al cin-
cilea rând frecvenţa 5. Care este frecvenţa cea mai mare? Evident, cea de pe
al doilea rând, frecvenţa 45. Mai vedeţi şi alte cifre de 45 acolo? Nu. Ei bine,
aceasta este şi suma mult căutată. Dacă aveaţi 45 pe rândul 2 şi 45 pe rândul
4, atunci suma frecvenţelor maxime ar fi fost 90 (45+45). În cazul nostru,
avem o singură frecvenţă maximă, 45, şi aceea reprezintă valoarea pentru
∑ . Relaxaţi-vă. V-am spus că formulele mai mult sperie prin aspect

52
Cristian Opariuc-Dan

decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim vari-


anţa coeficientului λ.
( ∑ )(∑ ( ) ∑ )

( ( ))

Am găsit varianţa coeficientului. Nu trebuie decât să calculăm statisti-


ca z după formula de mai sus şi obţinem scorul z de 1,5.

√ √

Acest scor îl vom compara cu valoarea de referinţă z pentru pragul de


semnificaţie ales. Pentru un prag de semnificaţie de 0,05, valoarea z este de
1,96. Valoarea noastră (1,5) este mai mică decât valoarea prag. Prin urmare,
nu există nicio legătură între nivelul de stres şi preferinţa pentru partide poli-
tice, în condiţiile în care 10% dintr-o variabilă ar explica cealaltă variabilă.

Drept exerciţiu, calculaţi valoarea z pentru situaţia în care presupu-


nem că 50% din preferinţa pentru partide politice este influenţată de nivelul
de stres. Este această legătură semnificativă sau nu? Argumentaţi.

I.1.6 Coeficientul de asociere γ (gamma)


Un alt coeficient de asociere este coeficientul de asociere γ Goodman
– Kruskal. La fel ca şi coeficientul de corelaţie a rangurilor τ Kendall, şi acest
coeficient se bazează pe numărul de inversiuni şi proversiuni, adică pe numă-
rul de perechi concordante şi discordante. Coeficientul se calculează foarte
simplu pe baza formulei:

53
Statistică aplicată în ştiinţele socio-umane

(formula 1.23)

în care Pc reprezintă numărul perechilor concordante, iar Pd numărul


perechilor discordante.
Vom considera un exemplu, astfel încât să lămurim rapid bazele aces-
tui coeficient. Să presupunem că efectuăm un studiu în mai multe oraşe, pen-
tru a vedea dacă există o legătură între nivelul intelectual al primarilor şi mă-
rimea oraşelor. Cele două variabile au fost operaţionalizate astfel: oraşele pot
fi considerate oraşe mici, medii şi mari – în funcţie de numărul de locuitori,
iar nivelul intelectual al primarilor poate fi considerat superior sau inferior.
Ambele variabile se află la un nivel ordinal de măsură şi pot fi ierarhizate.
Menţionez faptul că toate datele din lucrări sunt date fictive şi nu au
nicio legătură cu fapte sau persoane reale. De aceea, nimeni nu are niciun
motiv să se simtă lezat în vreun fel. Exemplele au fost alese astfel încât să se
refere la fapte sociale de actualitate, în vederea unei însuşiri mai bune a in-
formaţiei. Fac această precizare deoarece mi s-a sugerat că prin demersul
meu îmi exprim preferinţe politice sau de altă natură. Departe de mine acest
gând. Nu intenţionez decât să redactez o lucrare pe înţelesul tuturor, indife-
rent de specificul formării iniţiale – umanist sau realist. Şi, ca să folosesc un
stereotip verbal, orice asemănare cu realitatea este pur întâmplătoare. Cine se
simte lezat de aceste exemple, îl asigur că nu a fost intenţia mea, iar concluzi-
ile care decurg sunt rezultatul unor date absolut fictive şi nu au nicio legătură
cu vreo realitate politică, economică sau socială.
Tabelul 1.16 – Tabelul de contingenţă pentru calculul coeficientului γ
Dimensiune oraş
Mic Mediu Mare
A B C
Superior
Intelect 10 15 20
primari D E F
Inferior
10 5 3

54
Cristian Opariuc-Dan

Acum să revenim. Convenim să reprezentăm rezultatul acestei cerce-


tări sub forma unui nou tabel de contingenţă.
Avem 10 primari cu un intelect superior în oraşele mici, 15 în oraşele
medii şi 20 în oraşele mari. De asemenea, avem 10 primari cu un intelect
inferior în oraşele mici, 5 în oraşele medii şi 3 în oraşele mari. În total cerce-
tarea a cuprins un număr de 63 de oraşe. Cum calculăm perechile? Vă voi
prezenta o procedură foarte simplă, fără a mai intra în detalii matematice,
deoarece acestea implică anumite cunoştinţe de combinatorică. În cazul nos-
tru, perechile reprezintă suma produselor înmulţirii frecvenței unei celule de
la un nivel superior cu suma frecvențelor celulelor succesive de la un nivel
inferior, datele fiind ordonate ascendent pentru perechile concordante şi des-
cendent pentru perechile discordante. Aşa-i că nu aţi înţeles nimic? Iată, poa-
te, prima situaţie în care lucrurile transpar mult mai clar din formule.
Pc=A(E+F)+BF; Pd=C(D+E)+BD
Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aşa că
acum lucrurile sunt clare? Avem toate datele necesare. Să le înlocuim în for-
mulă.
[ ] [ ]
[ ] [ ]

Am obţinut valoarea -0,56 pentru coeficientul de asociere γ. Această


valoare va trebui să o analizăm apoi din punctul de vedere al semnificaţiei.

I.1.6.1 Semnificaţia coeficientului γ


Coeficientul γ reprezintă un raport al diferenţelor dintre perechile
concordante şi cele discordante, bazat pe numărul total de perechi, fără a se
lua în calcul perechile cu rangurile egale. Coeficientul γ este un coeficient
direcţional şi poate lua valori cuprinse între -1 şi +1, la fel ca şi coeficientul ρ
Spearman sau τ Kendall, având aceeaşi semnificaţie. În termenii coeficientu-

55
Statistică aplicată în ştiinţele socio-umane

lui anterior (şi aici vorbim de coeficientul λ propus de aceiaşi savanţi), un


coeficient λ de 0,56 înseamnă că avem 56% şanse să prezicem o variabilă,
cunoscând rangul (nu valoarea) celeilalte variabile. Analiza semnificaţiei
acestui coeficient se face similar coeficientului τ Kendall.

I.1.7 Coeficientul tetrachoric şi polichoric


Coeficientul de corelaţie tetrachoric este notat, în general, sub forma
rtet , fiind definit de Pearson în anul 1901 şi se foloseşte atunci când ambele
variabile sunt dihotomice, la fel ca şi coeficientul φ, însă aceste variabile tre-
buie să provină din variabile continui şi normal distribuite (spre exemplu,
prin gruparea vârstei subiecţilor în subiecţi tineri şi vârstnici). Dacă variabile-
le sunt situate la un nivel ordinal, au mai multe grade de intensitate şi pot
respecta caracteristica provenienţei din variabile continui, se foloseşte un alt
coeficient de corelaţie, şi anume coeficientul polichoric. Ambii coeficienţi se
bazează pe acelaşi principiu. Vom relua tabelul explicativ al coeficientului φ
pentru a stabili formula de calcul în cazul coeficientului de corelaţie
tetrachoric.
Tabelul 1.17 – Schema generală de calcul a coeficientului tetrachoric
Variabila X
Absent X Prezent X
Absent X Prezent X
Prezenţă Y Prezent Y Prezent Y
A B
Variabila Y
Absent X Prezent X
Absenţă Y Absent Y Absent Y
C D
Formula coeficientului de corelaţie tetrachoric se bazează pe calculul
cosinusului, după următoarea expresie:

( ) (formula 1.24)

56
Cristian Opariuc-Dan

În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi


nu frecvenţe absolute. Coeficientul este folosit mai ales în situaţiile în care se
doreşte măsurarea gradului de acord între doi evaluatori. Să presupunem că
doi psihologi evaluează un lot de subiecţi în vederea depistării prezenţei sau
absenţei anxietăţii. Rezultatele pot fi sistematizate în tabelul de mai jos:
Tabelul 1.18 – Tabelul de calcul a coeficientului tetrachoric
Psiholog X
Absentă Prezentă
A B
Prezentă
40% 10%
Psiholog Y
C D
Absentă
20% 30%

Analizând acest tabel, constatăm că 40% dintre subiecţi (în proporţie


de 0,4) au fost consideraţi non-anxioşi de psihologul X şi anxioşi de psiholo-
gul Y – situaţie de dezacord între cei doi -, 20% dintre subiecţi (în proporţie
de 0,2) au fost consideraţi non-anxioşi de ambii psihologi – situaţie de acord
pe non-anxietate -, 10% dintre subiecţi (proporţie de 0,10) sunt consideraţi
anxioşi de ambii psihologi – situaţie de acord pe anxietate - şi 30% dintre
subiecţi sunt consideraţi anxioşi de psihologul X şi non-anxioşi de psihologul
Y – din nou situaţie de dezacord. Se pune acum problema în ce măsură cei
doi psihologi au căzut sau nu de acord în privinţa anxietăţii subiecţilor evalu-
aţi. Iată o situaţie tipică în care vom folosi coeficientul tetrachoric.

( )
√ √ √
( ) ( ) ( )

Observăm, în primul rând, o corelaţie negativă, ceea ce ne duce cu


gândul la un dezacord puternic între cei doi psihologi, fapt indicat de valoa-
rea ridicată a coeficientului de corelaţie.

57
Statistică aplicată în ştiinţele socio-umane

În cazul în care anxietatea ar fi fost evaluată, să presupunem, pe o sca-


lă de la 1 la 5, unde 1 ar însemna foarte puţin anxios iar 5 foarte anxios, coe-
ficientul tetrachoric nu poate fi folosit. În acest scop se utilizează coeficientul
polichoric, bazat pe acelaşi principiu. Din nefericire, algoritmul de calcul este
unul iterativ, presupune mai multe etape şi are un grad ridicat de complexita-
te, motiv pentru care nu-l vom prezenta aici. Pachetul de programe SPSS for
Windows nu conţine aceşti doi coeficienţi. Dacă doriţi să efectuaţi analize
bazate pe coeficienţii de corelaţie tetrachoric, polichoric sau poliserial (o va-
riantă a coeficientului polichoric în care se asociază o variabilă scalară şi o
variabilă ordinală), vă recomand utilizarea pachetului LISREL şi a compo-
nentei PRELIS, pachet software produs de SSI – Scientific Software Interna-
ţional (http://www.ssicentral.com).
În general, analizele bazate pe aceşti coeficienţi intră în componenţa
ecuaţiilor structurale şi a modelelor de ecuaţii structurale (SEM).

I.1.8 Coeficientul de concordanţă W Kendall


Coeficientul de concordanţă W Kendall se bazează pe ranguri, fiind
folosit, de obicei, la stabilirea acordului dintre evaluatori. Fiind mult mai
simplu de calculat în
Tabelul 1.19 – Notele obţinute de 6 studenţi evaluaţi de 3 comparaţie cu procedeul
profesori
Evaluator 1 Evaluator 2 Evaluator 3 tetrachoric sau
Student 1 7 8 7 polichoric, tehnica este
Student 2 6 5 8 larg răspândită printre
Student 3 9 10 8
Student 4 8 8 7 specialişti. Pentru a înţe-
Student 5 6 7 6 lege exact semnificaţia
Student 6 7 8 9
acestui coeficient, să
presupunem că un număr de 6 studenţi sunt evaluaţi de către o comisie de
licenţă formată din trei evaluatori. Rezultatele vor fi trecute într-un tabel si-
milar tabelului 1.19.

58
Cristian Opariuc-Dan

Nu putem lucra direct cu aceste note, fiind necesare, pentru calculul


acordului dintre evaluatori, rangurile la care se situează notările fiecărui eva-
luator. Notele acordate de către fiecare evaluator vor fi transformate în ran-
guri şi introduse într-un
Tabelul 1.20 – Rangurile acordate celor 6 studenţi de tabel asemănător cu tabe-
către fiecare evaluator
Evaluator 1 Evaluator 2 Evaluator 3
lul 1.20. Nu trebuie să
Student 1 3,5 4 2,5 uităm faptul că ne refe-
Student 2 1,5 1 4,5 rim la evaluatori şi nu la
Student 3 6 6 4,5
Student 4 5 4 2,5 studenţi.
Student 5 1,5 2 1
Despre modul în
Student 6 3,5 4 6
care putem calcula ran-
gurile nu mai discutăm, subiectul fiind epuizat cu altă ocazie. În urma stabili-
rii rangurilor, vom obţine tabelul 1.20. Se poate observa că profesorii au
acordat aceeaşi notă mai multor studenţi, fapt obişnuit. Ne amintim că rangul
pe care îl ocupă două scoruri identice este reprezentat de media poziţiilor pe
care se află scorurile respective.
În următoarea etapă vom calcula suma rangurilor pentru fiecare dintre
cei şase studenţi şi vom ridica la pătrat fiecare sumă.
Tabelul 1.21 – Calculul coeficientului de concordanţă W Kendall
Evaluator 1 Evaluator 2 Evaluator 3 ∑rang SR2
Student 1 3,5 4 2,5 10 100
Student 2 1,5 1 4,5 7 49
Student 3 6 6 4,5 16,5 272,25
Student 4 5 4 2,5 11,5 132,25
Student 5 1,5 2 1 4,5 20,25
Student 6 3,5 4 6 13,5 182,25
63 ∑SR2=756
Operaţiile finale impun calculul totalului atât pentru suma rangurilor,
cât şi pentru pătratul acesteia. În final, pentru calculul coeficientului de con-
cordanţă W Kendall, va trebui să avem un tabel similar tabelului 1.21

59
Statistică aplicată în ştiinţele socio-umane

Coeficientul de concordanţă W Kendall poate fi obţinut prin aplicarea


formulei:

(formula 1.25)

unde k reprezintă numărul de evaluatori, n numărul de persoane eva-


luate, iar S reprezintă suma pătratelor abaterilor dintre suma rangurilor
relative la fiecare subiect şi media acestor sume.
În situaţia de faţă, avem majoritatea elementelor. Numărul de evalua-
tori este 3 (k=3), numărul de studenţi este 6 (n=6), singurul lucru care ne
lipseşte este suma pătratelor abaterilor, S. Din fericire, există o formulă de
calcul şi pentru acest coeficient, astfel:

∑ ( ) (formula 1.22)

unde SR2 se referă la totalul pătratelor sumelor rangurilor, toate ce-


lelalte elemente fiind cunoscute.
De fapt, am putea scrie cel mai simplu formula coeficientului de con-
cordanţă W Kendall astfel:

∑ ( )
(formula 1.26)

De data aceasta avem toate elementele şi putem înlocui în formulă,


obţinând coeficientul de concordanţă W Kendall, în valoare de 0,60.

∑ ( ) ( )

60
Cristian Opariuc-Dan

I.1.8.1 Semnificaţia coeficientului de concordanţă W Kendall


Coeficientul de concordanţă W Kendall verifică gradul de acord din-
tre evaluatori şi poate lua valori cuprinse între 0 şi 1, fiind un coeficient nedi-
recţional. Valorile apropiate de 0 indică lipsa acordului, în timp ce valorile
apropiate de 1 arată acordul perfect. Între cei trei profesori evaluatori din
exemplul precedent am obţinut un acord de 0,60, sub forma coeficientului de
concordanţă W Kendall. Putem suspecta existenţa unui acord destul de ridicat
între cei 3 evaluatori. Problema care se pune este aceea a semnificaţiei acestui
acord. Putem spune că acordul dintre cei trei evaluatori este semnificativ sau
nu? În acest sens, există două cazuri speciale (Radu, și alții, 1993):
 Prima situaţie este aceea în care numărul de subiecţi evaluaţi
se situează între 3 şi 7, iar numărul de evaluatori între 3 şi 20.
Este exact situaţia de faţă;
 În al doilea caz se are în vedere un număr de subiecţi evaluaţi
peste 7, nefiind important numărul de evaluatori.
Pentru prima situaţie se poate folosi direct valoarea sumei pătratelor
abaterilor (S), ori coeficientul de concordanţă (W), utilizând tabelele propuse
de Kendall şi prezentate în anexa 5. Avem 3 evaluatori şi 6 subiecţi, s-a obţi-
nut un coeficient de concordanţă W de 0,60, iar suma pătratelor abaterilor
este de 94,5. Privind în tabel pe linia k=3 şi coloana n=6, obţinem valoarea
critică pentru S de 103,6 iar pentru W, de 0,66. În ambele cazuri, nu putem
vorbi despre un acord semnificativ între cei trei profesori. Suma pătratelor
(94,5) este mai mică decât valoarea de referinţă (103,6) la un prag de semni-
ficaţie p<0,05. La fel, coeficientul de concordanţă obţinut (0,60) este mai mic
decât valoarea de referinţă (0,66). Prin urmare, nu putem spune că cei trei
profesori au ajuns la un acord în privinţa celor şase studenţi evaluaţi.

61
Statistică aplicată în ştiinţele socio-umane

În cea de-a doua situaţie, se va transforma coeficientul de concordanţă


W Kendall în χ2 şi se vor folosi tabelele pentru χ2 la un număr de n-1 grade de
libertate. Transformarea în χ2 se face după formula următoare:

(formula 1.27)

Aplicând această formulă (deşi situaţia nu o impune pentru că avem


doar şase subiecţi), putem obţine
. Folosind tabelul χ2 pentru un număr de 5 grade de libertate (anexa 3), vom
observa că valoarea de referinţă pentru un prag de semnificaţie mai mic de
0,05 este de 11,07. Cum valoarea noastră este 9, inferioară lui 11,7, gradul de
acord între cei trei profesori nu este semnificativ. Se acceptă, aşadar, ipoteza
nulă.

I.1.9 Coeficientul de corelaţie rang biserială


Corelaţiile biseriale vor fi expuse pe larg în subcapitolul destinat date-
lor parametrice. Tot ceea ce trebuie să ştiţi dumneavoastră este că atunci când
vorbim de corelaţii biseriale, punem în legătură o variabilă dihotomică şi o
variabilă scalară ori ordinală. Coeficientul de corelaţie rang biserială ne dă
expresia numerică a legăturii dintre o variabilă dihotomică şi o variabilă or-
dinală, calculându-se după formula următoare:

(formula 1.28)

unde mr1 reprezintă media rangurilor pentru situaţia prezenţei carac-


teristicii la nivelul variabilei dihotomice, mr0 se referă la media rangurilor în
cazul absenţei acestei caracteristici, iar n reprezintă numărul de cazuri ana-
lizate.
Să presupunem că suntem interesaţi de relaţia care există între genul
biologic (0 – femeie și 1 – bărbat) şi gradele militare la nivelul cadrelor dintr-
o unitate a ministerului apărării. Suntem în situaţia unei variabile nominale ce

62
Cristian Opariuc-Dan

poate fi asociată unei variabile dihotomice (este sau nu este bărbat), în relaţie
cu o variabilă ordinală (gradele militare cu valorile 1 – locotenent; 2 – căpi-
tan; 3 – maior; 4 – locotenent colonel; 5 – colonel; 6 – general). Colectăm
datele de la un număr de 15 persoane din unitatea militară respectivă,
centralizându-le într-un tabel.
Tabelul 1.22 – Calculul coeficientului rang biserial
Cadre militare
mr
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 3 4 2 2 4 1 2,42
Sex
1 1 5 4 1 6 3 1 5 3,25

Observăm că primul subiect este femeie locotenent, al doilea subiect


bărbat locotenent, al treilea femeie maior, al patrulea femeie locotenent colo-
nel, al cincilea femeie căpitan, al şaselea bărbat colonel şi aşa mai departe.
Avem un număr de 15 perechi (n=15). Ne interesează media valorilor pentru
femei şi pentru bărbaţi, date pe care le includem în ultima coloană. Media
pentru femei este de 2,42, iar pentru bărbaţi 3,25. Avem acum toate datele
pentru a înlocui în formulă.

Am obţinut un coeficient de corelaţie rang biserial de 0,11, ceea ce


indică o corelaţie slabă sau inexistentă între cele două variabile. Despre pro-
blema semnificaţiei acestui coeficient vom discuta la corelaţiile biseriale şi
punct biseriale, deoarece situaţiile sunt analoage.
Ne vom opri aici cu prezentarea coeficienţilor de corelaţie pentru date
neparametrice. Desigur, nu am epuizat subiectul, ar fi încă multe de spus.
Considerăm, totuşi, că aveţi deja suficiente informaţii pentru a face faţă soli-
citărilor din cadrul studiilor corelaţionale care implică date neparametrice.
Puteţi găsi în literatura de specialitate descrieri complexe ale acestor tehnici.
Probabil că v-am sufocat prezentându-vă o mulţime de coeficienţi de corela-

63
Statistică aplicată în ştiinţele socio-umane

ţie pentru asemenea date. Credeţi-mă, toţi sunt importanţi şi se folosesc în


situaţii bine precizate. Când şi cum îi folosiţi, sunt aspecte ce nu pot fi tratate
aici, deoarece se referă la metodologia cercetării pe care o vom aborda în alte
lucrări. Nu vă panicaţi. Cu răbdare şi puţin exerciţiu veţi reuşi să stăpâniţi
toate aceste informaţii şi să decideţi metoda statistică adecvată fiecărui caz
particular.

I.2 Coeficienţi de corelaţie parametrici


Coeficienţii de corelaţie parametrici se calculează, cu unele excepţii,
într-o singură situaţie şi anume atunci când cele două variabile respectă cerin-
ţele parametrice de calcul. Adică, în situaţia în care se află la un nivel de mă-
sură cel puţin de interval şi prezintă o distribuţie normală. Bazându-se pe
medie ca indicator al tendinţei centrale, coeficienţii de corelaţie parametrici
trebuie să îndeplinească, aşadar, condiţiile de reprezentativitate a mediei.

I.2.1 Coeficientul de corelaţie r Bravais-Pearson


Iată tartorul studiilor corelaţionale, Zeus al relaţiilor dintre două vari-
abile, dictatorul absolut şi incontestabil. Coeficientul de corelaţie r Bravais-
Pearson reprezintă dezideratul ştiinţific al oricărui cercetător. Se mai numeşte
coeficientul de corelaţie „produs-moment”, una dintre cele mai reprezentative
măsuri ale relaţiei dintre două variabile.
Am să încep descrierea acestui coeficient prin a vă povesti o serie de
întâmplări. Două dintre multele mele defecte, care cred că sunt şi cele mai
importante, se referă la faptul că nu pot sta prea mult într-un loc şi că am
probleme cu subordonarea faţă de şefi. Acestea cred că sunt şi motivele pen-
tru care am schimbat până acum mai multe locuri de muncă, îndeosebi uni-
versităţi. Oricum, m-am trezit, la un moment dat, într-o universitate, predând
statistică şi analiza datelor, psihodiagnostic şi cam atât. Ei bine, chiar de la
început am rămas oarecum surprins să aflu că acolo, toată lumea, profesori,
studenţi, toţi, ştiau una şi bună. Coeficientul de corelaţie r Bravais-Pearson.

64
Cristian Opariuc-Dan

Nu conta că variabilele erau la nivel ordinal, uneori chiar nominal, sau că


analiza univariată scotea în evidenţă asimetrii evidente. Se aplica, peste tot,
coeficientul de corelaţie r Bravais-Pearson. Când, timid şi cu prietenie, am
încercat să explic că acest coeficient se foloseşte numai în anumite condiţii,
că există şi alţi coeficienţi ce pot fi utilizaţi, că statisticile neparametrice sunt
şi ele, acolo, un capitol de studiu, am fost privit cu neîncredere, cu ostilitate
chiar. Deşi majoritatea cărţilor de statistică încep studiul corelaţiilor cu acest
coeficient, eu am preferat să nu procedez aşa. Nu de alta, dar poate dacă scriu
la început despre statistici neparametrice, vor înţelege unii că şi acestea au un
rol. Dacă prezenta carte va ajunge în mâinile profesorilor şi ale foştilor stu-
denţi la care mă refer, sper că vor şti să se identifice perfect cu situaţia. Aveţi
dreptate, am fost rău aici şi am profitat de situaţie pentru a plăti o poliţă. Vă
rog să nu mă judecaţi prea aspru, însă diletantismul nu cred că are ce căuta în
lumea ştiinţifică şi universitară. Acum, să trecem la treabă.
Având două variabile, X şi Y, distribuite normal şi, evident, aflate cel
puţin la un nivel de interval, putem analiza relaţia dintre ele pe baza coefici-
entului de corelaţie r Bravais-Pearson, după formula:
∑ ̅ ̅
(formula 1.29)
√∑ ̅ ∑ ̅

unde x barat reprezintă media scorurilor pentru variabila X, iar y ba-


rat reprezintă media scorurilor pentru variabila y.

Sunt deja convins că formula nu vă mai sperie deloc. Acum priviţi la


ea ca la un tablou de Picasso şi aşteptaţi cu mult drag exemplele concrete de
calcul. Vom prezenta, în cele ce urmează, câteva modalităţi de calcul ale
acestui coeficient, pentru date luate ca atare sau grupate în interval, folosind
atât formula de definiţie (formula 1.29), cât şi alte formule derivate.
Să considerăm că un psiholog a evaluat un număr de 10 subiecţi cu
două inventare de personalitate, reţinând scorurile pentru scala anxietate şi

65
Statistică aplicată în ştiinţele socio-umane

pentru scala depresie. Menţionăm că întotdeauna veţi lucra cu note brute şi


nu cu notele standard obţinute după raportarea la etalon. Spun acest lucru,
deoarece la aceeaşi instituţie la care am activat o perioadă a vieţii mele mi s-a
întâmplat să văd şi o asemenea minunăţie. Rezultatele obţinute de către cei
10 subiecţi au fost trecute într-un tabel prezentat în continuare.
Tabelul 1.23 – Calculul coeficientului de corelaţie r după formula de definiţie
Subiect Anxietate Depresie xanx-manx xdep-mdep (xanx-manx)( xdep-mdep) (xanx-manx)2 (xdep-mdep)2
DD 22 24 8,5 10,3 87,55 72,25 106,09
AS 12 9 -1,5 -4,7 7,05 2,25 22,09
BS 6 5 -7,5 -8,7 65,25 56,25 75,69
EA 21 18 7,5 4,3 32,25 56,25 18,49
FS 16 20 2,5 6,3 15,75 6,25 39,69
AZ 15 16 1,5 2,3 3,45 2,25 5,29
MN 13 11 -0,5 -2,7 1,35 0,25 7,29
TG 10 10 -3,5 -3,7 12,95 12,25 13,69
RM 6 7 -7,5 -6,7 50,25 56,25 44,89
MA 14 17 0,5 3,3 1,65 0,25 10,89
∑=277,5 ∑=264,5 ∑=344,1

Dacă vă uitaţi cu atenţie la formula de definiţie, ce observaţi? Nu


cumva ceva asemănător cu „scorul minus media supra abaterea standard”?
Chiar aşa şi este. În realitate, coeficientul de corelaţie r Bravais-Pearson asta
şi face. Transformă totul în scoruri z şi stabileşte relaţia dintre două variabile
care conțin scoruri z. Iată de ce putem analiza liniştiţi relația liniară dintre
rezultatele obţinute în urma administrării a două instrumente complet diferite.
Nu contează că un instrument are 20 de itemi şi altul are 2000 de itemi, că o
scală are o amplitudine teoretică între 0 şi 20 de puncte, iar alta între 23 şi
190 de puncte. Ştim deja că statisticile z reprezintă numitorul comun ce per-
mite analiza relațiilor dintre două variabile.
Desigur, prima etapă o reprezintă verificarea normalităţii distribuţiei
celor două variabile; să presupunem că cele două variabile se distribuie nor-
mal. Urmează să calculăm mediile celor zece scoruri la anxietate şi depresie
şi obţinem manxietate=13,5 şi mdepresie=13,7. Ce ne spune formula? În primul
rând, să scădem fiecare scor din medie, apoi să facem produsul acestor dife-

66
Cristian Opariuc-Dan

renţe şi în final să le adunăm. Numărătorul fracţiei din formulă va avea valoa-


rea 277,5. Pentru numitor, va trebui să ridicăm diferenţele la pătrat, să facem
suma acestor pătrate pentru fiecare variabilă, să înmulţim aceste sume şi apoi
să extragem radicalul din rezultat. Cele două sume sunt de 264,5 pentru anxi-
etate şi 344,1 pentru depresie. Produsul lor este 91014,45 iar rădăcina pătrată
din acest produs devine 301,68, valoarea numitorului. Nu avem acum decât
să calculăm fracţia pentru a obţine coeficientul de corelaţie r Bravais-
Pearson. Prin urmare, r=277,5/301,68=0,91, un coeficient de corelaţie ridicat,
care indică o relaţie puternică şi pozitivă între cele două variabile. Dacă este
sau nu semnificativă, vom vedea imediat.
Dacă avem un volum mare de date, formula de definiţie devine inefi-
cientă. Ne-a fost destul de dificil să lucrăm cu 10 subiecţi, darămite cu 100
sau 1000. Pentru volume mari de date, lucrurile sunt mai simple decât credeţi
şi se rezumă la a efectua 3-4 clicuri de maus în SPSS for Windows. Dar pro-
babil că sunteţi, totuşi, curioşi să aflaţi cum am face pe hârtie o asemenea
corelaţie. Sper că vă mai aduceţi aminte de datele grupate în interval. Vom
relua exemplul, de data aceasta cu intervale de grupare.
Metoda se bazează pe aşa-numita operaţie de codare, fiind descrisă de
Ioan Radu şi colaboratorii (Radu, și alții, 1993), drept pentru care o vom pre-
lua cu adăugirile noastre. Cele două variabile vor fi grupate în intervale, fiind
prezentate simultan în tabelul de analiză.
Prima etapă în operaţia de codare este stabilirea mediei de lucru, va-
loare situată de obicei în mijlocul şirului. Dacă numărul de clase este par (ca
în situaţia noastră), vom alege media de lucru din clasa cu frecvenţa cea mai
mare. În general, media de lucru o vom nota prin ml. Având două variabile,
evident, vom avea două medii de lucru: mla şi mld.

67
Statistică aplicată în ştiinţele socio-umane

Tabelul 1.24 – Calculul coeficientului de corelaţie r pentru variabile grupate pe intervale


Depresie Valori de calcul
Anx.
5-8 9-12 13-16 17-20 21-24 25-28 uanx fanx fanx uanx fanxxuanx2
8-11 - 2 - 3 - 7 -2 12 -24 48
12-15 - 5 8 3 3 9 -1 28 -28 28
16-19 - 10 3 17 2 9 0 41 0 0
20-23 3 11 2 5 2 6 1 29 29 29
24-27 1 13 1 1 1 3 2 20 40 80
28-31 2 12 1 2 7 1 3 25 75 225
udep -3 -2 -1 0 1 2
fdep 6 53 15 31 15 35 n=155
∑anx=92
fdep udep -18 -106 -15 0 15 70
∑dep=-54
∑fu2anx=410
fdepx udep2 54 212 15 0 15 280
∑fu2dep=576

G -33 -128 1 0 22 -16 ∑g -154

Concret, media de lucru pentru anxietate se poate situa undeva în cele


două intervale centrale, intervalele 16-19 sau 20-23. Vom alege media de
lucru din intervalul care are frecvenţa cea mai mare. Primul interval (16-19)
are valorile 10, 3, 17, 2 şi 9 pentru anxietate. Frecvenţa totală va fi aşadar 41.
Al doilea interval (23-23) are valorile 3, 11, 2, 5, 2, 6 cu frecvenţa totală 29.
Intervalul cu frecvenţa cea mai mare va fi intervalul 16-19, din care vom ex-
trage media de lucru. În mod analog, stabilim intervalul din care vom extrage
media de lucru pentru depresie. Avem de ales între intervalul 13-16 şi inter-
valul 17-20. Primul interval are o frecvenţă totală de 15 iar al doilea de 31.
Evident, media de lucru va fi aleasă din intervalul 17-20. Odată stabilite in-
tervalele, extragerea mediei de lucru este un fapt banal. În cazul variabilei
anxietate, media de lucru va fi în intervalul 16-19, adică media valorilor 16,
17, 18, 19 rezultând mla=17,5. Similar, pentru depresie rezultă mld=18,5. Va-
lorile codate sunt notate de către autorii mai sus menţionaţi, folosind litera u,
codarea făcându-se după formula:

68
Cristian Opariuc-Dan

(formula 1.30)

unde x reprezintă valoarea, ml se referă la media de lucru, iar i este


intervalul de clasă

Vom avea, în mod evident, două variabile codate: variabila anxietate


şi variabila depresie. Codarea este foarte simplă. Pentru fiecare dintre variabi-
le se acordă valoarea 0 în dreptul intervalului care conţine media de lucru.
Apoi, succesiv, se scade sau se adaugă o unitate pentru intervalele situate
sub, respectiv peste intervalul care conţine media de lucru. Intervalul care
conţine media de lucru în cazul variabilei „anxietate” este intervalul 16-19.
Acesta va primi valoarea 0 pentru coloana u. Intervalul 12-15 primeşte valoa-
rea -1 şi intervalul 8-11 primeşte valoarea -2. Similar, intervalul 20-23 pri-
meşte valoarea 1, intervalul 24-27 primeşte valoarea 2, iar intervalul 28-31
primeşte valoarea 3. Analog, se procedează şi în cazul celeilalte variabile.
Următorul pas este reprezentat de calculul frecvenţei absolute pentru
fiecare dintre cele două variabile. Pentru intervalul 8-11 al variabilei anxieta-
te, avem 2 subiecţi care au depresia în intervalul 9-12, 3 subiecţi cu depresia
în intervalul 17-20, 7 subiecţi cu depresia în intervalul 25-28. În total avem
12 subiecţi, noua valoare pentru frecvenţa absolută a acestui interval. Proce-
dăm similar pentru celelalte intervale ale anxietăţii şi pentru intervalele de-
presiei. În final, suma frecvenţelor absolute pentru variabila depresie trebuie
să fie egală cu suma frecvenţelor absolute pentru variabila anxietate şi repre-
zintă, practic, numărul total de subiecţi. Avem, în cazul nostru, un număr de
155 de subiecţi evaluaţi cu cele două probe (n=155).
Următorul pas este reprezentat de înmulţirea valorii codate u cu frec-
venţa absolută pentru fiecare dintre cele două variabile analizate şi efectuarea
sumelor acestor produse. Suma pentru anxietate va fi de 92, iar suma pentru
depresie va fi de -54.

69
Statistică aplicată în ştiinţele socio-umane

În continuare, vom face produsul dintre frecvenţa absolută a variabilei


şi pătratul codării acesteia. Atenţie, întâi ridicăm la pătrat valoarea codată şi
apoi înmulţim cu frecvenţa absolută. Sursa citată mai sus a fost folosită şi de
mine atunci când eram student. Îmi aduc aminte că nu înţelegeam deloc cum
au ieşit valorile de acolo. Bineînţeles că întâi făceam produsul frecvenţei ab-
solute cu valoarea codată şi apoi încercam să ridic la pătrat. M-am prins, până
la urmă, şi de aceea nu doresc să faceţi şi dumneavoastră aceeaşi eroare. Pen-
tru intervalul 8-11 al variabilei anxietate, avem frecvenţa absolută 12 şi va-
loarea codată -2. Întâi ridicăm la pătrat valoarea codată şi obţinem 4, apoi
înmulţim 4 cu 12 şi obţinem 48, cifră pe care o trecem în ultima coloană a
tabelului. Similar procedăm cu toate intervalele celor două variabile şi în fi-
nal însumăm rezultatele.
Ultimul lucru pe care îl mai avem de făcut este reprezentat de obţine-
rea valorii g, valoare al cărei calcul necesită puţină atenţie şi concentrare. Ea
rezultă din intersecţia celor două variabile, ţinându-se cont de numărul de
subiecţi şi de valoarea codată. Pentru intervalul 5-8 al variabilei depresie,
avem valoarea codată -3. Pe acest interval, găsim 3 subiecţi aflaţi în interva-
lul 20-23 pentru anxietate (cu valoarea codată 1), 1 subiect aflat în intervalul
24-27 pentru anxietate (cu valoarea codată 2) şi 2 subiecţi aflaţi în intervalul
28-31 pentru anxietate (cu valoarea codată 3). Valoarea g este dată de suma
produselor parţiale, astfel: (-3)x3x1=-9 pentru intervalul 20-23 anxietate şi 5-
8 depresie, (-3)x1x2=-6 pentru intervalul 24-27 anxietate şi 5-8 depresie şi, în
final, (-3)x2x3=-18 pentru intervalul 28-31 anxietate şi 5-8 depresie. Aşadar,
valoarea g pentru intervalul 5-8 depresie devine -9-6-18=-33, cifră pe care o
scriem în prima coloană. A doua coloană corespunde intervalului 9-12 pentru
depresie, iar algoritmul este asemănător. Avem 2 subiecţi la intersecţia inter-
valului 9-12 depresie cu 8-11 anxietate, prin urmare (-2)x2x(-2)=8; 5 subiecţi
la intersecţia intervalului 9-12 depresie cu 12-15 anxietate, atunci (-2)x5x(-1)
rezultă 10. Similar, 10 subiecţi la intersecţia intervalului 9-12 depresie cu 16-
19 anxietate şi, deci, (-2)x10x0=0, 11 subiecţi la intersecţia intervalului 9-12

70
Cristian Opariuc-Dan

depresie cu 20-23 anxietate generând (-2)x11x1=-22, 13 subiecţi la intersec-


ţia intervalului 9-12 depresie cu 24-27 anxietate şi (-2)x13x2=-52. În final, 12
subiecţi la intersecţia intervalului 9-12 depresie cu 28-31 anxietate, calculul
fiind (-2)x12x3=-72. Valoarea g pentru această coloană va deveni 8+10+0-
22-52-72=-128. Cred că aţi prins deja ideea. Desigur, intervalul în care varia-
bila codată are valoarea 0, va avea şi aici tot valoarea 0. În restul intervalelor,
vom proceda ca mai sus. La sfârşit, efectuăm suma acestor valori obţinute.
Finalizând tabelul necesar calculului coeficientului de corelaţie r
Bravais-Pearson, probabil că vă întrebaţi acum ce formulă aplicăm. Iată, mai
jos, formula necesară în acest caz:
∑ ∑

∑ ∑
(formula 1.31)
√(∑ )(∑ )

Toate datele sunt cunoscute şi au fost deja tratate. Nu rămâne decât să


înlocuim în formulă, obţinând un coeficient de corelaţie de -0,41.
∑ ∑

∑ ∑
√(∑ ) (∑ ) √( )( )

Constatăm că cele două variabile corelează negativ. Nimic mai firesc,


având în vedere faptul că am folosit date absolut fictive. Având coeficientul
de corelaţie, se pune din nou problema semnificaţiei acestuia.
Puteţi observa că acest calcul este, poate, cel mai elaborat de până
acum. Este şi normal să fie aşa, deoarece am lucrat cu o serie de convenţii şi
ne-am bazat pe câteva proprietăţi ale datelor grupate în intervale. După câte-
va exersări, procedura va deveni familiară. Nu este foarte greu, însă necesită

71
Statistică aplicată în ştiinţele socio-umane

ceva concentrare. Iată motivul pentru care s-au inventat programele de anali-
ză statistică.
În cazul în care doriţi să calculaţi direct coeficientul de corelaţie r
Bravais-Pearson, fără a mai calcula, în prealabil, mediile, puteţi aplica urmă-
toarea formulă:
∑ ∑ ∑
(formula 1.32)
√[ ∑ (∑ ) ][ ∑ (∑ ) ]

Formula este foarte simplă şi nu comportă explicaţii suplimentare.


Vom relua exemplul celor 10 subiecţi evaluaţi cu inventarele de anxietate şi
depresie pentru a verifica, prin această metodă, dacă ajungem la acelaşi rezul-
tat. În tabelul 1.25 am reluat
Tabelul 1.25 – Calculul coeficientului de corelaţie r exemplul.
Subiect Anxietate Depresie Anx2 Dep2 AnxDep
DD 22 24 484 576 Operaţiile nu sunt
528
AS 12 9 144 81 108
BS 6 5 36
complicate deloc. Trebuie
25 30
EA 21 18 441 să efectuăm ridicarea la
324 378
FS 16 20 256 400 320
AZ 15 16 225 pătrat a valorilor celor două
256 240
MN 13 11 169 121 143
TG 10 10 100 variabile şi apoi înmulţirea
100 100
RM 6 7 36 valorilor celor două variabi-
49 42
MA 14 17 196 289 238
Total 135 137 2087 le (nu a valorilor variabile-
2221 2127

lor ridicate la pătrat). În final, efectuăm suma scorurilor pentru valorile cele
două variabile, pentru pătratul acestora, şi suma produsului lor. Acestea sunt
toate datele necesare aplicării formulei.
∑ ∑ ∑
√[ ∑ ∑ ][ ∑ ∑ ]

√ √

72
Cristian Opariuc-Dan

Observăm că am obţinut exact acelaşi coeficient de corelaţie Bravais-


Pearson, 0,91, cele două formule fiind echivalente.
Vă lăsăm dumneavoastră plăcerea de a alege între cele trei metode de
calcul propuse. Metoda a doua, deşi mai complicată la prima vedere, vă asi-
gură posibilitatea calculării acestui coeficient pentru volume mari de date.
Aceasta este situaţia. Analiza statistică a datelor nu este complicată, însă pre-
supune calcule laborioase şi multă atenţie. Iar dacă acestea vi se par calcule
complexe, staţi să vedeţi analiza factorială cum se prezintă. Glumeam! Nu vă
speriaţi şi nu aruncaţi cartea din mână. Vom discuta acum despre semnificaţia
acestui coeficient.

I.2.1.1 Semnificaţia coeficientului de corelaţie r Bravais-


Pearson
Acest coeficient de corelaţie este un coeficient direcţional şi poate lua
valori între -1 şi +1, cu o semnificație analoagă coeficientului de corelaţie a
rangurilor ρ Spearman sau ca a oricărui coeficient direcţional.
Fiind bazat pe date scalare, pragul de semnificaţie se poate raporta la
distribuţia t, în funcţie de valoarea testului t pentru un număr de n-2 grade de
libertate, după relaţia:
| |

√ (formula 1.33)

În primul exemplu am obţinut un coeficient de corelaţie r Bravais-


Pearson de 0,91 pe un lot de 10 subiecţi. Valoarea testului de semnificaţie t
va fi de 6,198
| |
√ √ √
√ √ √

Vom compara această valoare cu valoarea critică a testului t din anexa


4 pentru un număr de 10-2=8 grade de liberate. Observăm că pentru a fi

73
Statistică aplicată în ştiinţele socio-umane

semnificativă la un prag de semnificaţie mai mic de 0,05, valoarea testului t


trebuie să fie mai mare de 1,860, şi la un prag de semnificaţie mai mic de
0,01 va trebui să fie mai mare de 2,89 (pentru o ipoteză bidirecţională). Va-
loarea noastră, 6,198, este mult mai mare decât aceste praguri critice, ceea ce
înseamnă că acest coeficient de corelaţie obţinut este semnificativ la un prag
de semnificaţie mai mic de 0,01.
Această analiză are doar un rol de exemplu. Numărul de subiecţi nu
permite generalizarea rezultatelor. În realitate, după cum ştim, valoarea unui
studiu efectuat pe doar 10 persoane este extrem de limitată, concluziile nepu-
tând fi extinse la nivelul populaţiei.
În al doilea exemplu, am obţinut un coeficient de corelaţie de -0,41,
studiind un număr de 155 de persoane. În mod cert, vom dori să ştim dacă
această corelaţie inversă este sau nu este semnificativă. Vom folosi din nou
testul t.

√ √ √
√ √ √

Nu suntem interesaţi de semnul testului t. Este normal să fie negativ,


deoarece şi corelaţia este negativă. Ne interesează doar să comparăm această
valoare (12,33) cu valoarea de referinţă pentru un prag de semnificaţie mai
mic de 0,05 sau mai mic de 0,01 la un număr de 155-2=153 grade de liberta-
te. În tabelul din anexa 4 nu avem exact valorile pentru 153 grade de liberta-
te. Valoarea inferioară cea mai apropiată este 150 de grade de libertate, va-
loare cu care vom efectua comparaţia. Pentru un prag de semnificaţie mai
mic de 0,05, valoarea de referinţă este 1,96 iar pentru un prag de semnificaţie
mai mic de 0,01 este 2,57. Încercaţi să memoraţi aceste valori deoarece le
veţi folosi frecvent. Ce constatăm? Ceea ce am obţinut (12,33) este mult mai
mare în comparaţie cu 2,57, valoarea de referinţă pentru un prag de semnifi-

74
Cristian Opariuc-Dan

caţie mai mic de 0,01. Aşadar, coeficientul de corelaţie este semnificativ la


un prag de semnificaţie mai mic de 0,01.
Sigur că cea mai simplă metodă este aceea de a compara valoarea coe-
ficientului de corelaţie Bravais-Pearson cu pragurile critice din tabelul special
(anexa 6). Coeficientul de corelaţie -0,41 obţinut în urma studiului unui eşan-
tion de 155 de subiecţi va fi comparat cu pragul critic pentru un număr de
155-2=153 grade de libertate. Tabelul conţine valori doar pentru 100 de grade
de libertate, acesta fiind şi rândul pe care-l vom lua în calcul. Pentru a fi
semnificativ la un prag de semnificaţie mai mic de 0,05, coeficientul de core-
laţie trebuie să depăşească valoarea 0,195, iar la un prag de semnificaţie mai
mic de 0,01 trebuie să depăşească valoarea 0,25. Desigur, valoarea noastră
(0,41) este mai mare decât aceste praguri critice, corelaţia fiind semnificativă.
M-am tot gândit dacă să mă opresc aici sau să vă mai prezint un ele-
ment important referitor la acest coeficient de corelaţie. Până la urmă am de-
cis să vă mai „bombardez” cu o informaţie. Ştim deja că scopul unei cercetări
efectuate pe un eşantion este acela de a extinde cunoştinţele dobândite la ni-
velul întregii populaţii. Stabilind că între anxietate şi depresie există un coefi-
cient de corelaţie de 0,411 şi observând că această corelaţie este semnificativă
lucrând pe un eşantion de 155 de persoane (presupunând că vorbim de un
eşantion şi nu de un lot de cercetare), am putea extinde această informaţie la
nivelul întregii populaţii, spunând că între nivelul de anxietate şi cel al depre-
siei există o corelaţie pozitivă, semnificativă şi de nivel mediu. Luând un alt
eşantion de 150 sau 200 de persoane, vom obţine cam aceleaşi rezultate, coe-
ficientul de corelaţie fiind, să spunem, de 0,51. Pe un alt eşantion am obţine
un coeficient de corelaţie de 0,38 şi aşa mai departe. Ideea este aceea dacă
putem găsi o măsură a acestei corelaţii la nivelul populaţiei. Care ar fi oare

1
Nu am mai menţionat că este negativă. În realitate corelaţia există, într-adevăr, şi este pozi-
tivă. Noi am obţinut o corelaţie negativă, deoarece am lucrat cu date la întâmplare care nu au
rezultat din cercetări. Mă şi mir că a rezultat o corelaţie semnificativă.

75
Statistică aplicată în ştiinţele socio-umane

coeficientul de corelaţie dacă, presupunând prin absurd, am investiga întreaga


populaţie a globului? În mod normal, acest parametru îl notăm cu litera gre-
cească ρ şi nu are nici o legătură cu notaţia folosită pentru a desemna coefici-
entul de corelaţie a rangurilor Spearman. Ei bine, valoarea exactă a acestui
parametru nu o vom putea şti niciodată. În mod sigur însă, valorile obţinute
prin studiul eşantionului se pot apropia mai mult sau mai puţin de acest pa-
rametru. În realitate, valoarea parametrului este situată într-un interval, numit
interval de încredere. Putem spune că [rinf < ρ < rsup], adică valoarea exactă
a parametrului la nivelul populaţiei este situată undeva între o limită inferioa-
ră şi o limită superioară a unui interval de încredere. Din fericire, deşi nu pu-
tem calcula valoarea exactă a parametrului, putem însă calcula, cu o anumită
probabilitate, acest interval de încredere.
Reluând exemplul cu cei 155 de subiecţi examinaţi, pentru care am
obţinut un coeficient de corelaţie de 0,41, demonstrând că această corelaţie
este semnificativă, să vedem care este intervalul de încredere, între ce limite
putem găsi valoarea reală a acestei corelaţii la nivelul întregii populaţii. În
acest sens, Fisher a introdus o variabilă teoretică, având o distribuţie aproxi-
mativ normală, numită variabila u (Vasilescu, 1992) şi calculată după formu-
la:

(formula 1.34)

unde prin ln am desemnat logaritmul natural, iar r reprezintă coefici-


entul de corelaţie care ia valori între -1 şi +1.
Cunoscând această relaţie generală, putem stabili variabilele u necesa-
re limitelor inferioare şi superioare ale intervalului de încredere, astfel:

ș (formula 1.35)
√ √

unde n este numărul de subiecţi, iar z1-α reprezintă valoarea distribu-


ţiei z la pragul 1-α ales.

76
Cristian Opariuc-Dan

În baza acestor formule putem acum stabili modalităţile de calcul ale


limitelor intervalului de încredere:

ș (formula 1.36)

unde e este o constantă matematică, numită şi numărul lui Euler, şi


are valoarea 2,71828. 
Nu vă speriaţi, că nu este greu deloc. Calculăm imediat intervalul de
încredere pentru coeficientul de corelaţie din exemplul de mai sus. Desigur,
întâi vom calcula variabila u.

Am obţinut valoarea 0,435 pentru variabila u. Obţinerea logaritmului


natural se face cu ajutorul unui calculator ştiinţific. Nu vă pune nimeni să-l
calculaţi cu creionul pe hârtie. Desigur, va trebui să stabilim acum probabili-
tatea intervalului de încredere. La o probabilitate de 95% (α=0,05), valoarea z
va fi de 1,645, valoare extrasă din tabele (tabelul distribuţiei t din anexa 4, în
general ultima linie a tabelului). Folosind aceste date, vom putea calcula va-
riabilele u pentru limitele inferioare şi superioare.

√ √

√ √

Putem acum stabili limitele inferioare şi superioare ale intervalului de


încredere, aplicând ultimele formule:

77
Statistică aplicată în ştiinţele socio-umane

Am obţinut, cu o probabilitate de 95%, intervalul în care se regăseşte


acest parametru la nivelul populaţiei. Coeficientul de corelaţie dintre anxieta-
te şi depresie se găseşte, la nivelul populaţiei, cu o probabilitate de 95%, între
un coeficient de corelaţie de 0,293 şi un coeficient de corelaţie 0,513.
Îmi exprim speranţa că acum aveţi o imagine clară asupra coeficientu-
lui de corelaţie r Bravais-Pearson şi veţi şti să-l folosiţi în mod corect. Indife-
rent dacă efectuaţi calculele manual sau folosind un program computer, este
absolut necesar să înţelegeţi semnificaţia acestui indicator şi condiţiile în care
îl puteţi folosi. Altminteri, riscaţi obţinerea de date şi interpretări incorecte.
Şi, ca să parafrazez un mare statistician, nu statistica minte ci oamenii mint
folosindu-se de statistică.

I.2.2 Coeficientul de corelaţie biserial, punct biserial şi


triserial
Avem deja o idee asupra corelaţiei biseriale din capitolul destinat co-
relaţiilor neparametrice, unde am vorbit despre corelaţia rang biserială şi am
promis, tot atunci, că vom reveni. Într-adevăr, corelaţia biserială presupune
analiza relaţiei existente între o variabilă scalară şi o variabilă nominală, de
obicei dihotomică. Metoda este frecvent folosită la validarea testelor psiholo-
gice. De exemplu, construim un test de inteligenţă pe care îl administrăm
unor candidaţi la şcoala de aviaţie militară. Evident, dintre aceşti candidaţi,
unii vor fi admişi, iar alţii respinşi. Ne interesează să ştim dacă există vreo
legătură între admiterea sau respingerea candidaţilor şi rezultatele la test. Cu
alte cuvinte, dacă testul construit poate sau nu poate prezice admiterea la
şcoala de aviaţie. Desigur, „a prezice” este grosier folosit, mai degrabă prefe-
răm termenul „a diferenția”. Pentru predicţii, avem tehnici diferite şi mult
mai sensibile, pe care le vom studia în alt volum. De fapt, această corelaţie
seamănă mai mult cu un test statistic decât cu o corelaţie reală.

78
Cristian Opariuc-Dan

Încă de la început, menţionăm faptul că acest coeficient de corelaţie


(biserial) are un „frate” geamăn. Este vorba despre coeficientul de corelaţie
punct biserial care face exact acelaşi lucru, diferenţa dintre ele fiind una de
nuanţă subtilă şi ţinând de variabila dihotomică. În cazul coeficientului de
corelaţie punct biserial, variabila dihotomică are o aşa numită dihotomie dis-
cretă, în timp ce coeficientul de corelaţie biserial prezintă o variabilă cu o
dihotomie continuă (Field, 2000). Ce înseamnă acest lucru?
Reluând exemplul candidaţilor la şcoala de aviaţie, statutul de admis
şi respins reprezintă o dihotomie continuă. De ce? Foarte simplu, deoarece
variabila dihotomică provine dintr-o variabilă continuă (media de admitere).
În definitiv, există o „continuitate” în categoria admişilor şi a respinşilor,
aceştia având medii diferite. Eşecul unui candidat poate fi la câteva sutimi de
ultima medie de admitere sau la câteva puncte. Un alt exemplu ar fi dihoto-
mia bătrâni-tineri sau dihotomia gras-slab. Toate aceste variabile, deşi evi-
dent dihotomice şi nominale, provin din variabile continui, de aceea se folo-
seşte termenul de dihotomie continuă.
În cazul dihotomiei discrete, această continuitate nu mai este prezentă.
Dihotomia bărbat-femeie este o dihotomie discretă, deoarece între bărbaţi nu
se poate spune că unii sunt mai mult bărbaţi, iar alţii mai puţin, unii sunt mai
„bărbaţi”, iar alţii mai „femei” (decât, eventual, din punct de vedere compor-
tamental, ar spune unii mai mucaliţi). Deşi transsexualul X se dă femeie, într-
o asemenea clasificare, strict pe criterii biologice, X este în definitiv bărbat.
Alte exemple ar fi: dihotomia viu-mort, nu poţi fi mai mort sau mai puţin
mort, dihotomia însărcinată-neînsărcinată şi lista poate continua.
Sper că aţi înţeles aceste două tipuri de dihotomii. În condiţiile în care
avem o dihotomie continuă, se foloseşte coeficientul de corelaţie biserial, iar
pentru variabila cu o dihotomie discretă, utilizăm coeficientul de corelaţie
punct biserial. Aceasta este diferenţa subtilă dintre cei doi coeficienţi de core-
laţie.

79
Statistică aplicată în ştiinţele socio-umane

Mă gândesc acum să compar statistica şi analiza datelor cu o pereche


de pantofi noi şi foarte frumoşi. Îi încalţi, te mândreşti cu ei, deşi de cele mai
multe ori, la început, te rod teribil şi faci răni la picioare. Comparaţia se po-
triveşte de minune cu aceşti doi coeficienţi. Ştii analiză de date, eşti invidiat
de mulţi, se uită la tine, te apreciază, deşi numai tu înţelegi câte răni ai făcut
la creier să pricepi, de exemplu, dihotomia continuă şi dihotomia discretă.
Din moment ce am clarificat aceste elemente, să mergem mai departe
şi să vedem cum se calculează coeficientul de corelaţie biserial, coeficientul
de corelaţie punct biserial şi să discutăm câteva lucruri despre coeficientul de
corelaţie triserial care face parte din aceeaşi familie.
Coeficientul de corelaţie biserial se notează rbis şi se poate calcula du-
pă formula:
̅ ̅
(formula 1.37)

în care cu x barat s-au notat mediile valorilor variabilei continui în


situaţia de prezenţă a caracteristicii dihotomice, respectiv în situaţia de ab-
senţă a acestei caracteristici, cu p s-a notat proporţia subiecţilor care prezin-
tă caracteristica, cu q proporţia subiecţilor care nu prezintă caracteristica,
iar z reprezintă ordonata punctului de separaţie. Sigma se referă la abaterea
standard a datelor variabilei continui.

Să considerăm că testul de inteligenţă are un număr de 10 itemi. Un


item primeşte 1 punct dacă subiectul răspunde corect şi 0 puncte dacă răs-
punde greşit. Prin urmare, amplitudinea teoretică este cuprinsă între 0 şi 10
puncte. Rezultatele obţinute de candidaţi la acest test, grupate după calitatea
lor de admişi ori respinşi, sunt următoarele:

80
Cristian Opariuc-Dan

Tabelul 1.26 – Calculul coeficientului de corelaţie biserial


Test inteligenţă (punctaj total)
Rezultat Total
0 1 2 3 4 5 6 7 8 9 10
Admis 0 0 1 2 4 6 0 9 7 6 8 43
Respins 0 0 3 5 8 5 4 5 2 4 1 37
Total 0 0 4 7 12 11 4 14 9 10 9 80

Structura tabelului este clară. Un punctaj de 0 puncte şi de 1 punct nu


a fost realizat de niciun candidat. 2 puncte au făcut 3 candidaţi respinşi şi 1
singur candidat admis, 3 puncte au avut 2 candidaţi admişi şi 5 candidaţi res-
pinşi şi aşa mai departe. În total, avem 80 de candidaţi, dintre care 43 de can-
didaţi admişi şi 37 respinşi.
Vom stabili acum proporţiile candidaţilor admişi şi respinşi raportând
numărul de candidaţi admişi, respectiv numărul de candidaţi respinşi, la nu-
mărul total de candidaţi. Astfel, şi . În reali-
tate, avem 53,7% candidaţi admişi şi 46,3% candidaţi respinşi. Adunând pro-
centele (53,7+46,3=100%), obţinem expresia întregului volum de subiecţi
studiat.
Singurul lucru care ne lipseşte este ordonata punctului de separaţie
(z). De fapt nici nu avem nevoie de această valoare, deoarece raportul se
citeşte dintr-un tabel special (tabel prezentat în anexa 7), luând ca referinţă
valoarea p sau valoarea q. Nu contează dacă ne raportăm la proporţia candi-
daţilor admişi sau la proporţia candidaţilor respinşi, deoarece întotdeauna
p=1-q şi q=1-p, fapt evident. De obicei se ia în considerare valoarea cea mai
mică, tabelul fiind conceput până la o proporţie de 0,500, altminteri ar fi fost
redundant.
În tabelul din anexa 7, luând ca referinţă q=0,463, obţinem valoarea
raportului 0,6259. Urmează calculul mediilor pentru subiecţii admişi şi pen-
tru subiecţii respinşi. Media se calculează însumând produsele obţinute prin

81
Statistică aplicată în ştiinţele socio-umane

înmulţirea numărului de subiecţi cu scorul fiecărei categorii şi împărţind la


numărul total al subiecţilor admişi, respectiv respinşi. În cazul subiecţilor
admişi vom avea (1x2)+(2x3)+(4x4)+(6x5)+(9x7)+(7x8)+(6x9)+(8x10)=307.
Împărţind suma la 43, rezultă media admişilor de 7,139. Procedăm similar şi
în cazul respinşilor. Suma rezultată va fi 199, împărţită la 37, ne dă media
respinşilor, care are valoarea 5,378. Nu ne trebuie acum decât abaterea stan-
dard a întregului lot de cercetare pentru a putea calcula coeficientul de corela-
ţie biserial. Nu intrăm în amănunte referitoare la calculul abaterii standard,
aceste elemente fiind tratate în lucrarea anterioară. Revedeţi capitolul referi-
tor la calculul abaterii standard pentru date grupate pe interval. Abaterea
standard pentru întregul set de date (variabila test de inteligenţă) este 2,0.
Având acum toate informaţiile necesare, putem cu uşurinţă completa
formula de calcul şi obţinem valoarea coeficientului de corelaţie biserial:
̅ ̅

Coeficientul de corelaţie biserial are valoarea 0,55, lucru care ne indi-


că posibilitatea ca testul de inteligenţă să prevadă succesul sau eşecul la exa-
menul de admitere. Urmează doar să verificăm semnificaţia acestui coeficient
de corelaţie.
În cazul unei variabile dihotomice discrete, coeficientul de corelaţie
biserial devine inadecvat. Situaţia impune calculul coeficientului de corelaţie
punct biserial după relaţia:

̅ ̅
√ (formula 1.38)

în care cu x barat s-au notat mediile valorilor variabilei continui în


situaţia de prezenţă a caracteristicii dihotomice, respectiv în situaţia de ab-
senţă a acestei caracteristici, cu n1 și n2 s-au notat frecvenţele absolute în

82
Cristian Opariuc-Dan

cele două situaţii, iar sigma se referă la abaterea standard a datelor variabi-
lei continui.
Formula nu se mai bazează pe proporţii, ci pe frecvenţe absolute, fiind
mai uşor de calculat în comparaţie cu coeficientul biserial. Vom relua exem-
plul anterior, considerând de data aceasta că testul de inteligenţă doreşte să
prezică diferenţa, sub acest aspect, dintre bărbaţi şi femei.
Variabila dihotomică are acum o dihotomie discretă, calculul coefici-
entului biserial nu mai are sens, prin urmare vom aplica formula coeficientu-
lui de corelaţie punct biserial.
Tabelul 1.27 – Calculul coeficientului de corelaţie punct biserial
Test inteligenţă (punctaj total)
Sex Total
0 1 2 3 4 5 6 7 8 9 10
Bărbaţi 0 0 1 2 4 6 0 9 7 6 8 43
Femei 0 0 3 5 8 5 4 5 2 4 1 37
Total 0 0 4 7 12 11 4 14 9 10 9 80

̅ ̅
√ √ √

În mod absolut evident, există o diferenţă între cei doi coeficienţi de


corelaţie, cel punct biserial fiind întotdeauna mai mic în comparaţie cu vari-
anta biserial. Dacă nu sunteţi sigur de natura variabilei dihotomice, vă învăţ
un truc. Luaţi-vă o măsură de precauţie, calculând întotdeauna coeficientul de
corelaţie punct biserial. Dacă, ulterior, vă daţi seama că aveţi de a face cu o
variabilă cu dihotomie continuă, puteţi transforma uşor coeficientul de core-
laţie punct biserial în coeficient de corelaţie biserial, după formula:

(formula 1.39)

83
Statistică aplicată în ştiinţele socio-umane


Valoarea raportului se citeşte în acelaşi tabel ca şi raportul ,
luându-se ca referinţă proporţia cea mai mică. În exemplul nostru, am luat ca
referinţă q=0,463. Găsisem, anterior, că raportul . În acelaşi ta-

bel, raportul √ . Obţinând coeficientul de corelaţie punct biserial de


0,438, putem deduce coeficientul de corelaţie biserial.

Valoarea obţinută se apropie foarte mult de cea rezultată prin calcul


direct, diferenţele fiind datorate rotunjirilor.
S-ar putea să întâlniţi în practică situaţii în care va trebui să puneţi în
relaţie o variabilă continuă cu o variabilă trihotomică, de tipul aceleia care
împarte un grup de subiecţi în slabi, medii şi buni. În acest caz, se foloseşte
un alt coeficient de corelaţie, numit coeficientul de corelaţie triserial, care
ţine cont doar de extremele variabilei trihotomice, nu şi de clasa din mijloc.
Este, dacă doriţi, o variantă a coeficientului de corelaţie biserial, având apro-
ximativ aceeaşi structură.
Relaţia de calcul a acestui coeficient este dată de următoarea formulă:
̅ ̅
(formula 1.40)

Expresia de mai sus nu presupune un tratament special, semnificaţia


acesteia fiind deja cunoscută. Menţionăm doar că raportul se citeşte din
acelaşi tabel, conţinut în anexa 7, pentru proporţia clasei inferioare, respectiv
superioare.
Am reluat exemplul anterior, modificând puţin datele, astfel încât să
păstrăm acelaşi număr de subiecţi şi aceeaşi abatere standard. De data aceas-

84
Cristian Opariuc-Dan

ta, avem o variabilă trihotomică derivată dintr-o variabilă continuă (vârsta),


care împarte subiecţii în subiecţi tineri, maturi şi vârstnici.
Tabelul 1.28 – Calculul coeficientului de corelaţie triserial
Test inteligenţă (punctaj total)
Vârsta Total
0 1 2 3 4 5 6 7 8 9 10
Tineri 0 0 1 2 4 3 0 7 3 4 5 29
Maturi 0 0 2 3 2 3 2 5 4 2 3 26
Vârstnici 0 0 1 2 6 5 2 2 2 4 1 25
Total 0 0 4 7 12 11 4 14 9 10 9 80

Abaterea standard are tot valoarea 2, media scorurilor obţinute de ti-


neri este 6,82, media scorurilor obţinute de vârstnici este de 5,80, proporţia
clasei tineri este de 0,362 (36,2%) iar proporţia clasei vârstnice este de 0,312
(31,2%). Nu am intrat în detalii legate de calculul acestor valori, noţiunile
fiind bine cunoscute.
În tabelul din anexă, pentru proporţia clasei tinere (0,362) găsim ra-
portul , iar pentru proporţia clasei vârstnice (0,312) găsim rapor-
tul 1,0583, primul raport întâlnit, corespunzător proporţiei de 0,350, deoarece
tabelul nu furnizează o valoare explicită pentru proporţia calculată de 0,312.
Având acum toate aceste informaţii, să calculăm coeficientul de core-
laţie triserial.
̅ ̅

Obţinem o corelaţie slabă între cele două variabile. Desigur, se pune,


şi în acest caz, problema semnificaţiei acestei corelaţii, aspecte pe care le
vom trata în continuare.

85
Statistică aplicată în ştiinţele socio-umane

I.2.2.1 Semnificaţia coeficienţilor de tip serial


Coeficienţii studiaţi în acest capitol sunt de tip direcţional, luând va-
lori cuprinse între -1 şi +1. Semnificaţia interpretativă a acestora o ştiţi deja,
însă va trebui să facem menţiunea că lotul de cercetare trebuie că aibă un
volum de minim 50 de cazuri pentru ca aceste statistici să poată fi calculate.
Fiind coeficienţi de corelaţie parametrici, pragul de semnificaţie se
obţine, după cum v-aţi obişnuit deja, prin raportarea la distribuţia t pentru un
număr de ninf+nsup-2 grade de libertate. Testul t de semnificaţie poate fi calcu-
lat după formula:

√ (formula 1.41)

unde r reprezintă coeficientul de corelaţie (biserial, punct biserial,


triserial, iar ninf și nsup frecvenţele absolute ale celor două categorii, inferioa-
ră și superioară.
Să verificăm acum dacă acei coeficienţi obţinuţi mai sus sunt sau nu
semnificativi. Am obţinut un coeficient de corelaţie biserial de 0,55 şi un
coeficient de corelaţie punct biserial de 0,43, pe un lot de cercetare de 80 de
subiecţi, precum şi un coeficient de corelaţie triserial de 0,24, pe un volum de
54 de subiecţi. Înlocuind în formulă, vom obţine:

√ √ √

√ √ √

√ √ √

86
Cristian Opariuc-Dan

Valorile testului t vor fi verificate în tabelul din anexa 4, la pragul de


semnificaţie de 0,05 şi 0,01, pentru un număr de 78 grade de libertate în cazul
coeficienţilor biserial şi punct biserial şi 52 de grade de libertate pentru coefi-
cientul triserial.
Nu avem o valoare exactă pentru 78 de grade de libertate şi vom lua
valoarea imediat inferioară, cea de 60 de grade de libertate. Pentru a fi semni-
ficativ la un prag de semnificaţie mai mic de 0,05, testul t trebuie să fie mai
mare de 2,00, iar pentru a fi semnificativ la un prag de semnificaţie mai mic
de 0,01, va fi mai mare de 2,66. Valorile testului t pentru coeficienţii biserial
şi punct biserial sunt mai mari decât această valoare, prin urmare corelaţia
este semnificativă la un prag de semnificaţie mai mic de 0,01.
Pragurile critice pentru 52 de grade de libertate le găsim, analog, la 50
de grade de libertate. Semnificaţia pentru un p<0,05 este de 2,00, iar pentru
un p<0,01 este de 2,67. Valoarea testului t în cazul coeficientului de corelaţie
triserial este de 1,78, valoare situată sub valoarea prag, aşadar coeficientul de
corelaţie triserial nu este semnificativ.

I.2.3 Coeficientul de corelaţie eneahoric


Ultima situaţie discutată în acest subcapitol este aceea în care veţi dori
să asociaţi două variabile, cel puţin trihotomice, trihotomia fiind una conti-
nuă. Acest coeficient, propus de Coumetou (Radu, și alții, 1993), reprezintă o
extensie a coeficientului r Bravais-Pearson, mai exact a coeficientului
triserial, singura excepţie constând în faptul că nu mai avem de-a face cu va-
riabile continui, ci cu o variabile continui reduse la forma lor continuu-
categorială.
Să clarificăm puţin lucrurile printr-un exemplu. Ne interesează să sta-
bilim relaţia dintre vârsta subiecţilor şi coeficientul de inteligenţă, variabilele
fiind categorizate în patru grupe: inteligenţă foarte slabă, slabă, bună şi foarte
bună, respectiv foarte tineri, tineri, vârstnici şi foarte vârstnici. Nu am folosit

87
Statistică aplicată în ştiinţele socio-umane

o clasificare trihotomică, deoarece am vrut să vă prezint posibilităţile acestui


coeficient de a se extinde la un număr oricât de mare de clase. Singura condi-
ţie este aceea a provenienţei variabilelor din variabile continui. După colecta-
rea datelor, rezultă următorul tabel:
Tabelul 1.29 – Calculul coeficientului de corelaţie eneahoric
Inteligenţă
Foarte Foarte
Slabă Bună
slabă bună TOTAL
1 7 8
Foarte tineri 2 10
T4 T1 TD
9
Tineri 1 3 12
Vârstă
3
Vârstnici 2 5 11
4 1 5
Foarte vârstnici 8 9
T3 T2 TC
5 8 88
TOTAL
TB TA n

Datele indică un total de 20 de persoane foarte tinere, 25 de persoane


tinere, 21 de persoane vârstnice şi 22 de persoane foarte vârstnice. În acelaşi
timp, avem 8 persoane cu un intelect foarte slab, 18 persoane cu intelect slab,
42 de persoane cu un nivel bun al inteligenţei şi 20 de persoane cu inteligenţă
superioară. Întregul lot de cercetare (n) este format din 88 de persoane.
Nu suntem interesaţi de toate datele din tabel. Referitor la cele două
variabile, vom avea în vedere totalurile marginale ale grupelor extreme. Mai
precis, grupa celor foarte tineri cu inteligenţă foarte slabă şi foarte bună
(TD=8 subiecţi), grupa celor foarte vârstnici cu o inteligenţă foarte slabă şi
foarte bună (TC=5 subiecţi), respectiv grupa celor cu inteligenţă foarte slabă,
foarte tineri şi foarte vârstnici (TB=5 subiecţi) şi grupa celor cu inteligenţă
foarte bună, foarte tineri şi foarte vârstnici (TA=8 cazuri).

88
Cristian Opariuc-Dan

Un alt element este reprezentat de frecvenţa extremelor. Subiecţii


foarte tineri cu inteligenţă foarte slabă (T4=1 subiect), subiecţii foarte tineri
cu o inteligenţă foarte bună (T1=7 subiecţi), subiecţii foarte vârstnici cu o
inteligenţă foarte slabă (T3=4 subiecţi) şi subiecţii foarte vârstnici cu o inteli-
genţă foarte bună (T2=1 subiect). Bineînţeles, ultimul aspect considerat are în
vedere volumul lotului de cercetare (n=88 subiecţi).
Toate aceste informaţii rezultă din tabelul de distribuţie în baza unor
simple adunări. Calculul coeficientului eneahoric nu mai presupune decât
aplicarea formulei:
( )( )

(formula 1.42)
( ) ( )
√( )( )

Se poate constata cu uşurinţă că absolut toate informaţiile se regăsesc


în tabel. Nu va trebui decât să înlocuim în formulă şi vom obţine un coefici-
ent de corelaţie de 0,689.

√( )( )

√( )( ) √( )( )

I.2.3.1 Semnificaţia coeficientului eneahoric


Coeficientul eneahoric este un coeficient direcţional, iar analiza sem-
nificaţiei acestuia se face în mod analog analizei coeficientului de corelaţie r
Bravais-Pearson, motiv pentru care nu vom detalia, lăsându-vă dumneavoas-
tră, ca exerciţiu, stabilirea semnificaţiei coeficientului de corelaţie eneahoric.

89
Statistică aplicată în ştiinţele socio-umane

I.3 Corelaţii parţiale


Corelaţiile parţiale reprezintă un tip particular de analiză a relaţiilor
dintre două variabile, în condiţiile în care ambele variabile sunt influenţate de
o a treia variabilă, iar efectul acesteia este menţinut constant. Generalizând, o
corelaţie între două varia-
Notă examen
bile în care efectul posibil
al altor variabile este men-
ţinut constant, poartă nu-
mele de corelaţie parţială.
(Field, 2000).
Fiecare dintre dum-
Varianţa expli-
Emoţii examen neavoastră a susţinut cel pu-
cată de emoţii
ţin un examen. Chiar dacă
unii vor spune că niciodată
Figura 1.2 – Varianţa din nota de examen explicată de
emoţii
nu au avut emoţii, eu consi-
der că la unele examene,
emoţiile sunt inevitabile. În acest moment, am şi eu emoţii, gândindu-mă la
modul în care veţi citi şi interpreta această carte. Fiind, de acum, „cercetă-
tori” cu experienţă, ne şi vine
ideea studierii relaţiei dintre Notă examen
notele obţinute la examen şi
emoţiile din timpul acestuia.
Excelent, vom spune! Efec-
tuăm rapid un studiu corela-
ţional şi obţinem o corelaţie Timp studiu
negativă între emoţiile din Varianţa explicată de
timpul examenului şi per- timpul de studiu

formanţă, fapt absolut nor-


Figura 1.3 – Varianţa din nota de examen explicată de
mal. Mândri de realizare, ne timpul de studiu

90
Cristian Opariuc-Dan

şi grăbim să publicăm rezultatele, ba chiar desenăm şi grafic relaţia găsită.


Ştiu că v-aţi fi aşteptat la un tip de grafic mai serios. Conţinutul figurii
1.2, explică, de fapt, printr-un coeficient de corelaţie, cantitatea de varianţă
din nota obţinută la examen, care se poate regăsi în emotivitate. Grosier vor-
bind2, dacă am fi obţinut un coeficient de corelaţie de – 0,342 între nota obţi-
nută la examen şi emoţiile din timpul acestuia, practic 11,6% din varianța
contra-performanţei de la examen se poate explica prin varianța emotivității
(zona de intersecţie a celor două figuri). Suntem, aşadar, în pragul unei de-
scoperiri epocale: 11,6% din varianța notelor la examen este reprezentată, de
fapt, de varianța emotivităţii. În sfârşit am găsit – şi demonstrat statistic –
motivul pentru care se obţin note proaste. Iată-l! Emoţiile de la examen.
Când credeaţi şi dumneavoastră că veţi obţine premiul Nobel, iată că
apare cineva şi face o afirmaţie: „Excelent, însă aţi luat în calcul relaţia dintre
timpul de studiu la o disciplină
şi performanţa la examen?”.
Timp studiu
Ce-aţi mai putea spune? „Nu,
însă promitem că vom efectua
o altă cercetare.”. Pentru că
Emoţii examen sunteţi oameni de cuvânt, aţi şi
demarat un studiu analog. De
această dată obţineţi o corela-
Varianţa explicată de ţie pozitivă între timpul de
timpul de studiu
studiu şi nota de la examen,
Figura 1.4 – Varianţa din emoţiile de examen explicată
coeficientul de corelaţie fiind
de timpul de studiu de 0,651. Desigur că veţi ilus-

2
Varianţa se calculează ridicând la pătrat coeficientul de corelaţie. În acest caz, varianţa ar fi
0,3422, adică 0,116 sau 11,6%. Despre coeficientul de corelaţie multiplă şi varianţă explicată
vom discuta într-un alt volum. Unii autori numesc această varianţă prin termenul de varianţă
comună.

91
Statistică aplicată în ştiinţele socio-umane

tra acest lucru folosind un grafic asemănător celui din figura 1.3. Am răs-
puns, iată, la întrebarea anterioară. Tipul de studiu explică 42,3% din varianţa
notei obţinute la examen. Mult mai mult în comparaţie cu emotivitatea. Do-
rind să fim şi mai riguroşi, putem acum asocia chiar timpul de studiu cu emo-
ţiile din timpul examenului. Desigur, surpriza nu va întârzia să apară. Obţi-
nem un coeficient de corelaţie negativ, să spunem – 0,410. Iată că timpul de
studiu se regăseşte, şi el, în procent de 16,8%, în varianța emoţiilor din tim-
pul examenului. Cu cât un student alocă mai mult timp studiului unei disci-
pline, cu atât performanţa sa la examen va fi mai mare şi emoţiile din timpul
examenului mai mici. Nu prea vă convine. Când credeaţi şi dumneavoastră că
vă veţi putea justifica notele mici la examene prin emoţii, iată că vi se spulbe-
ră teoria.
Cu un oarecare sentiment de tristeţe, veţi reprezenta acest lucru în fi-
gura 1.4.
Problema, totuşi, nu s-a rezolvat. Nu am arătat decât că timpul de stu-
diu contribuie la scăderea emoţiilor din timpul examenelor şi la creşterea no-
telor obţinute la
examene. După o
Varianţa „pură” explicată Notă examen
logică simplă, de timpul de studiu
emoţiile duc la
scăderea notei
obţinute la exa-
men, iar timpul de
Timp de studiu
studiu determină Emoţii examen
creşterea acestora.
Totuşi, cum ară-
Varianţa comună explicată de
tăm relaţia dintre Varianţa „pură”
timpul de studiu şi emoţii
explicată de emoţii
emoţii şi perfor-
manţa în timpul Figura 1.5 – Varianţa comună explicată de timpul de studiu şi emoţii

92
Cristian Opariuc-Dan

examenului? Lucrurile ar fi simple în condiţiile în care varianţele explicate de


timpul de studiu şi de emoţiile din timpul examenului ar fi independente. Am
arătat că, totuşi, o parte din varianţa emoţiilor din timpul examenului este
explicată şi de timpul de studiu. Logic, această varianţă comună va influenţa
performanţa de la examene. De fapt, ne interesează cât din varianţa pură a
performanţei de la examene poate fi regăsită în emoţiile din timpul acestora.
Răspunsul poate fi găsit intuitiv în figura 1.5. Practic, dacă menţinem con-
stant timpul de studiu, putem stabili care este legătura „pură” dintre nota ob-
ţinută la un examen şi emoţiile din timpul examenului. Observaţi deja că va-
rianţa acoperită este mult mai mică, cea mai mare parte fiind explicată prin
intermediul timpului de studiu. Soluţia unui asemenea design de cercetare
poate să rezulte numai în baza corelaţiilor parţiale.
Am prezentat acest exemplu, pe care l-am dezvoltat după A. Fields
(Field, 2000), din două motive. Pe de o parte, am dorit să aveţi o imagine
clară asupra corelaţiilor parţiale şi să vă introduc în problema complexă a
corelaţiilor multiple, iar pe de altă parte, să înţelegeţi la ce poate duce un plan
de cercetare greşit conceput. De cele mai multe ori, o asemenea eroare se
plăteşte destul de scump, cu invalidarea întregii cercetări.
Coeficientul de corelaţie parţială nu este altceva decât o variantă a co-
eficientului de corelaţie r Bravais-Pearson şi poate fi obţinut după formula:

(formula 1.43)
√( )( )

unde r12.3 este coeficientul de corelaţie parţială între variabilele 1 şi


2, cu menţinerea constantă (controlând) variabila 3, r12 este coeficientul de
corelaţie r Bravais-Pearson între variabilele 1 şi 2, r13 este coeficientul de
corelaţie r Bravais-Pearson între variabilele 1 şi 3, iar r23 se referă la ace-
laşi coeficient, între variabilele 2 şi 3.

93
Statistică aplicată în ştiinţele socio-umane

Nu cred că mai rămâne ceva de explicat în această formulă. Tot calcu-


lul se rezumă la aflarea unui număr de 3 coeficienţi de corelaţie r Bravais-
Pearson. Modalitatea de realizare efectivă a acestui lucru a fost tratată pe larg
anterior şi nu vom reveni.
Având datele fictive din exemplul de mai sus, să procedăm la aflarea
corelaţiei dintre performanţa la examen şi emoţiile din timpul examenului, în
condiţiile în care ţinem sub control timpul alocat studiului. Prima variabilă va
fi performanţa la examen, a doua variabilă emoţiile din timpul examenului,
iar variabila controlată, timpul alocat examenului. Coeficientul de corelaţie
dintre performanţa la examen şi emoţiile în timpului examenului (r12) este de
– 0,342. Coeficientul de corelaţie dintre performanţa la examen şi timpul alo-
cat studiului (r13) este de 0,651 iar coeficientul de corelaţie dintre emoţiile
din timpul examenului şi timpul alocat studiului este de – 0,410 (r23). Coefi-
cientul de corelaţie parţială r12.3 va fi – 0,109.

√ √ √

Iată că, menţinând sub control timpul de studiu, corelaţia dintre per-
formanţa la examen şi emoţiile din timpul examenului este una negativă, de
doar 0,109. Varianţa performanţei la examen nu este acoperită în procent de
11,6%, cum credeam iniţial, ci într-un procent de doar 1,18%.
Un asemenea tip de corelaţie parţială poartă numele de corelaţie par-
ţială de rang I, deoarece există o singură variabilă pe care dorim să o contro-
lăm din punctul de vedere al efectului. Putem să controlăm efectul unui nu-
măr de două variabile, caz în care vorbim despre corelaţie parţială de rang
II, efectul a trei variabile – corelaţie parţială de rang III şi aşa mai departe.
Coeficientul de corelaţie se va scrie r12.3 în cazul unei corelaţii parţiale de

94
Cristian Opariuc-Dan

ordin I, r12.34 pentru o corelaţie parţială de rang II, r12.345 pentru corelaţiile
parţiale de ordin III şi aşa mai departe.
Algoritmul de lucru este unul analog, bazat pe formula anterioară, ex-
tinsă pentru un ordin mai mare. Calculele pot deveni însă laborioase, de aceea
pentru corelaţii parţiale de ranguri mari se preferă utilizarea unui computer şi
a unui program specializat.

I.3.1 Corelaţii semi-parţiale


Atunci când calculăm coeficientul de corelaţie parţială între două va-
riabile, controlăm efectul exercitat de o a treia variabilă asupra ambelor vari-
abile. În exemplul de mai sus, se controlează efectul exercitat de variabila
timp de studiu atât asupra variabilei performanţă la examen, cât şi asupra
variabilei emoţii din timpul examenului. Sunt cazuri în care dorim să contro-
lăm efectul exercitat de a treia variabilă doar asupra unei variabile, în timp ce
vom ignora efectul exercitat asupra celeilalte. De exemplu, dorim să contro-
lăm efectul exercitat de variabila timp de studiu doar asupra emoţiilor din
timpul examenului, şi să-l ignorăm în cazul variabilei performanţă la examen.
O astfel de corelaţie poartă numele de corelaţie semi-parţială.
Formulele de calcul, derivate din cea a corelaţiilor parţiale, vor fi:

(formula 1.44) sau


(formula 1.45)

În primul caz avem de a face cu o corelaţie semi-parţială în care con-


trolăm doar efectul exercitat de a treia variabilă asupra primei variabile, în
timp ce efectul exercitat asupra celei de-a doua variabile este ignorat, iar în al
doilea caz, controlăm efectul exercitat de a treia variabilă asupra celei de-a
doua, ignorând efectul asupra primei.

95
Statistică aplicată în ştiinţele socio-umane

Pentru a fixa cunoştinţele, vă invit să aplicaţi dumneavoastră cele do-


uă formule, folosind datele din exemplul anterior, şi să calculaţi cei doi coefi-
cienţi de corelaţie semi-parţială.

I.3.2 Corelaţii parţiale pentru date neparametrice


Conceptul de corelaţie parţială este mai uşor de înţeles în cazul în care
utilizăm date parametrice. Pentru date neparametrice, situate la un nivel ordi-
nal, se poate calcula coeficientul de corelaţie parţială, în baza coeficientului
de corelaţie τ Kendall. Logica analizei ţine atât de modalitatea de calcul a
coeficientului τ Kendall, cât şi de specificul corelaţiilor parţiale.
Tabelul 1.30 – Logica de calcul a coeficientului de corelaţie parţială pentru date neparame-
trice
Perechi concordante între Perechi discordante între
variabila Y şi variabila Z variabila Y şi variabila Z
Perechi concordante între
A B
variabila X şi variabila Z
Perechi discordante între
C D
variabila X şi variabila Z
În tabelul 1.30, am reprezentat modalitatea de lucru. Ne interesează
corelaţia parţială între două variabile, X şi Y, în condiţiile în care menţinem
sub control variabila Z. Pentru a putea calcula acest coeficient de corelaţie,
trebuie să analizăm numărul perechilor concordante şi discordante, între X şi
Y pe de o parte, între Y şi variabila Z pe de altă parte, apoi putem utiliza
formula:

(formula 1.47)

Se poate observa că acest coeficient de corelaţie nu face decât diferen-


ţa dintre perechile concordante şi cele discordante, în condiţiile în care se
elimină orice influenţă a celei de-a treia variabile. Similar datelor parametri-
ce, şi acest coeficient se rezumă la calcului unui număr de coeficienţi de core-
laţie τ Kendall, aşa cum rezultă şi din formula detaliată:

96
Cristian Opariuc-Dan

(formula 1.48)
√ √

Să presupunem că la un examen psihologic, un număr de 10 subiecţi


au fost evaluaţi cu trei teste: un test de atenţie, unul de inteligenţă şi unul de
memorie. Problema care se pune este aceea a calculării coeficientului de co-
relaţie parţială între inteligenţă şi memorie, în condiţiile în care menţinem
constantă influenţa atenţiei.
Tabelul 1.31 – Scoruri obţinute de subiecţi
Atenţie (Z) Inteligenţă (X) Memorie (Y)
1 7 0
3 15 1
7 25 2
4 26 3
5 20 4
6 19 4,1
8 22 4,5
8,5 17 5
8,8 10 7
9 27 8
În mod absolut evident, chiar dacă datele sunt la un nivel parametric,
numărul mic de cazuri nu permite utilizarea coeficientului de corelaţie parţia-
lă r şi va trebui să folosim corelaţia parţială pentru date neparametrice. Tre-
buie, întâi, să calculăm trei coeficienţi de corelaţie: τxy, τxz şi τyz, după metoda
expusă anterior în acest capitol.
Vă lăsăm pe dumneavoastră să faceţi calculele şi sperăm că veţi ajun-
ge la următoarele rezultate: τxy=0,155, τxz=0,200 iar τyz=0,866. Înlocuind în
formulă, se obţine:

√ √ √ √

Pentru corelaţii parţiale de ordin doi, folosindu-se date neparametrice,


există o formulă derivată din coeficientul de corelaţie parţială Kendall, pe

97
Statistică aplicată în ştiinţele socio-umane

care ne vom rezuma doar să o prezentăm, fără vreun exemplu, deoarece cal-
culul se realizează identic, lăsându-vă dumneavoastră plăcerea găsirii şi re-
zolvării unui exerciţiu în baza acestei relaţii.

(formula 1.49)
( )( )

Un alt coeficient de corelaţie parţială a rangurilor, din păcate foarte


puţin folosit, este coeficientul φ12.3 Johnson. Coeficientul a fost lansat în anul
1966, se bazează tot pe ranguri, ca şi coeficientul τxy.z, însă nu mai presupune
ordonarea rangurilor, ca în cazul coeficientului Kendall.
Tabelul 1.32 – Scoruri obţinute de subiecţi
Rang
Rang Var. 2 < Rang Var. 3 ∑
Var. 2 > Rang Var. 3
Rang
A B ∑AB
Var. 1 > Rang Var. 3
Rang
C D ∑CD
Var. 1 < Rang Var. 3
∑ ∑AC ∑BD
Relaţia de calcul a coeficientului de corelaţie parţială a rangurilor
Johnson este următoarea:

(formula 1.50)

Formula 1.50 nu mai presupune lucrul efectiv cu ranguri, ci vizează


compararea acestora, prin includerea numărului de cazuri care satisfac inecu-
aţiile de mai sus. În plus, nu se mai compară rangurile variabilei 1 cu ranguri-
le variabile 2. Ce ne facem însă dacă rangul variabilei 1 este egal cu rangul
variabilei 3, sau în cazuri asemănătoare? Regula este foarte simplă - elemen-
tele respective se exclud din calcul.

98
Cristian Opariuc-Dan

Tabelul 1.33 – Scorurile şi rangurile obţinute de subiecţi


Atenţie (Z) Inteligenţă (X) Memorie (Y) Clasa
1-1 7 -1 0 -1 -
3-2 15 - 3 1-2 -
7-6 25 - 8 2-3 A
4-3 26 - 9 3-4 B
5-4 20 - 6 4-5 B
6-5 19 - 5 4,1 - 6 -
8-7 22 - 7 4,5 - 7 -
8,5 - 8 17 - 4 5-8 -
8,8 - 9 10 – 2 7-9 -
9 - 10 27 - 10 8 - 10 -

Am reluat exemplul celor 10 subiecţi de mai sus, în acest caz inclu-


zând, alături de scoruri, şi rangurile (cele scrise îngroşat în tabelul 1.33). Mo-
dalitatea de calcul este de o simplitate uluitoare. Ne interesează corelaţia par-
ţială între inteligenţă şi memorie, în condiţiile în care menţinem constant
efectul atenţiei. Prima variabilă este „inteligenţa” iar a doua variabilă este
„memoria”. Comparând scorurile la probele de inteligență și memorie, pentru
primul subiect, observăm că au ranguri egale, deci cazul va fi exclus din ana-
liză. Şi al doilea subiect va fi exclus din analiză, deoarece rangul scorului la
proba de memorie este egal cu rangul scorului la atenţiei. Pentru al treilea
subiect, rangul scorului la proba de inteligenţă este mai mare decât rangul
scorului la proba de atenţiei (X1>X3) şi rangul scorului la proba de memorie
este mai mic decât rangul scorului la proba de atenţie (X2<X3), fiind inclus în
categoria A. Al patrulea subiect prezintă ambele variabile – memoria şi inte-
ligenţa – la un rang mai mare decât atenţia şi va fi inclus în categoria B. Al
cincilea subiect este inclus tot în categoria B, în timp ce toţi ceilalţi subiecţi
sunt excluşi din cauza egalităţii. În final, avem un singur caz în categoria A şi
2 cazuri în categoria B, restul categoriilor neavând nicio valoare.

√ √

99
Statistică aplicată în ştiinţele socio-umane

Iată un caz în care obţinem coeficientul de corelaţie al rangurilor ne-


definit. Desigur, nici coeficientul τxy.z Kendall nu a indicat o corelaţie parţială
între cele două variabile, însă… chiar să nu obținem nimic? Care ar fi expli-
caţia? Nu este greu să vă daţi seama că acest coeficient se bazează pe un nu-
măr de doar trei cazuri din zece, un volum de date extrem de mic. Poate şi
acesta este un motiv pentru care popularitatea coeficientului Johnson este atât
de redusă. Dacă volumul de date este mare iar numărul de ranguri egale rela-
tiv mic, se poate apela cu încredere la indicatorul de mai sus.

I.3.3 Semnificaţia corelaţiilor parţiale


Corelaţiile parţiale derivă din coeficientul de corelaţie r Bravais-
Pearson, ori din coeficientul τ Kendall, pe care se şi bazează. Ele sunt, aşadar,
corelaţii direcţionale şi pot lua valori cuprinse între -1 şi +1, ca orice alt coe-
ficient de corelaţie direcţional.
Verificarea semnificaţiei corelaţiilor parţiale se poate face în baza tes-
tului t, rezultatul fiind raportat la distribuţia t, folosindu-se formula:

√ (formula 1.51)

unde rjk.x este coeficientul de corelaţie parţială, k reprezintă numărul


de variabile corelate, iar n se referă la numărul de cazuri.

Valoarea testului t se raportează la distribuţia t din anexa 4 pentru un


număr de n-2-k grade de libertate.
În cazul nostru, am obţinut un coeficient de corelaţie parţială între
performanţa la examen şi emoţiile din timpul examenului, în condiţii de con-
trol al timpului de examen de r12.3=-0,109, studiind un lot de cercetare de 103
persoane. Avem două variabile corelate – performanţa la examen şi emoţiile
din timpul examenului. Valoarea testului t va fi de – 1,09.

100
Cristian Opariuc-Dan

√ √ √

Raportând valoarea testului t (- 1,09) la un număr de 103-2-2=99 gra-


de de libertate, observăm că acest coeficient de corelaţie obţinut nu este sem-
nificativ (pentru a fi semnificativ la un prag de semnificaţie mai mare de
0,05, testul t trebuie să depăşească valoarea 1,990). Aşadar, nu există nicio
legătură între performanţa la examen şi emotivitatea din timpul examenului.
V-aţi făcut iluzii degeaba.
Pentru a vă veni în ajutor, am furnizat în anexa 9 tabelul pragurilor de
semnificaţie pentru coeficientul de corelaţie parţială τ Kendall, în cazul în
care vă este mai comod să priviţi un tabel decât să efectuaţi propriile calcule.
În privinţa coeficientului de corelaţie parţială Johnson, analiza semni-
ficaţiei se face în funcţie de estimatorul χ2, după relaţia următoare:

(formula 1.52)

În această situaţie, semnificaţia coeficientului de corelaţie este dată de


semnificaţia lui χ2. Acest estimator poate fi folosit numai dacă numărul total
de cazuri este mai mare de 40, iar frecvenţa minimă într-o categorie (A, B, C
sau D) este de 10.
Cea de-a treia variabilă, variabila controlată, o veţi putea întâlni în li-
teratura de specialitate şi sub numele de variabilă supresoare deoarece efec-
tul controlului acesteia determină, după cum aţi văzut deja, reducerea coefici-
entului de corelaţie bivariată între cele două variabile (numit, în general, coe-
ficient de corelaţie de rang zero). Din aceleaşi motive – rezultate în urma
faptului că a treia variabilă mediază coeficientul de corelaţie de rang zero –,
această variabilă se mai poate numi şi variabilă mediatoare. Totuşi, cel mai
frecvent, această variabilă se numeşte variabilă de control.

101
Statistică aplicată în ştiinţele socio-umane

Capitolul referitor la corelaţiile parţiale încheie secţiunea referitoare la


analiza relaţiilor dintre două variabile şi deschide drumul către studiul corela-
ţiilor multiple şi al regresiilor.

I.4 Interpretarea coeficienţilor de corelaţie


Îmi veţi pune întrebarea dacă trebuie sau nu trebuie memorate toate
aceste relaţii. Formulele, desigur, nu trebuie memorate, iar la examen este
prea puţin probabil să vi se dea un subiect de genul: „Explicaţi coeficientul
de corelaţie tetrachoric”. S-ar putea, însă, ca la „examenul profesional al vie-
ţii”, să vă confruntaţi cu o problemă de cercetare. În funcţie de tipurile de
variabile cuprinse în planul de cercetare, va fi nevoie să calculaţi un anumit
coeficient. Alegerea unui coeficient de corelaţie inadecvat vă poate crea mari
probleme la interpretarea rezultatelor.
Pentru a vă veni în ajutor, aveţi mai jos un tabel (tabelul 1.34) care vă
indică ce coeficienţi de corelaţie puteţi folosi pentru analiza corelaţională
bivariată, în funcţie de nivelul de măsură al variabilelor.
Referitor la corelaţii, există trei elemente esenţiale în interpretarea
unui coeficient de corelaţie, şi anume: sensul, valoarea şi semnificaţia.
Sensul unei corelaţii este dat de semnul coeficientului de corelaţie în
cazul coeficienţilor de corelaţie direcţionali. O corelaţie pozitivă arată că di-
recţia în care evoluează o variabilă este şi direcţia de evoluţie a celeilalte va-
riabile.
Dacă rezultă o corelaţie pozitivă între notele obţinute la matematică şi
notele obţinute la fizică, înseamnă că, elevii care au note mari la matematică,
au note mari şi la fizică. Cei cu note mici la matematică, obţin note mici şi la
fizică. Corelaţiile negative sunt cele ale căror coeficienţi de corelaţie au sem-
nul minus, şi indică faptul că, direcţia de evoluţie a unei variabile reprezintă
evoluţia inversă a celeilalte variabile. O corelaţie negativă între vârstă şi ca-
pacitatea de asimilare a cunoştinţelor indică faptul că subiecţii tineri pot asi-

102
Cristian Opariuc-Dan

mila mai multe cunoştinţe, în timp ce subiecţii în vârstă vor asimila cunoştin-
ţe mai puţine.
Tabelul 1.34 – Utilizarea coeficienţilor de corelaţie
Variabila Y
Dihotomic Nominal Ordinal Scalar
- χ2 - χ2
- poliserial
-φ - V Cramer - polichoric
Dihotomic - biserial
- cc - cc - rang biserial
- punct biserial
- tetrachoric -λ
- χ2
- V Cramer
- χ2 - χ2 - χ2 - cc
- V Cramer - V Cramer - V Cramer - λ (grupată în
Nominal
- cc - cc - cc clase)
-λ -λ -λ - triserial (provi-
ne din variabila
continuă)
- ρ Spearman
(dacă lotul este
mai mic de 30
sau dacă cel
puţin o variabilă
- ρ Spearman nu se distribuie
- χ2
- τ Kendall normal)
- polichoric - V Cramer
Ordinal -γ - τ Kendall (dacă
- rang biserial - cc
- polichoric cel puţin o una

- W Kendall dintre variabile
Variabila X
nu se distribuie
normal)
- γ (date grupate
în clase ierarhice)
- poliserial
- ρ Spearman
(dacă lotul este
mai mic de 30
sau dacă cel
puţin o variabilă
- χ2
nu se distribuie
- V Cramer
normal)
- cc - r Pearson
- poliserial - τ Kendall
- λ (grupată în - eneahoric (vari-
Scalar - biserial (dacă cel puţin
clase) abile categori-
- punct biserial o una dintre
- triserial (provine zate)
variabile nu se
din variabila
distribuie
continuă)
normal)
- γ (date grupate
în clase ierarhi-
ce)
- poliserial

103
Statistică aplicată în ştiinţele socio-umane

Sensul unei corelaţii nu contează în cazul coeficienţilor de corelaţie


nedirecţionali. În această situaţie, accentul cade doar pe interpretarea semni-
ficaţiei şi a valorii.
Faptul că o corelaţie poate fi sau nu poate fi semnificativă este deter-
minat de raportarea la pragul de semnificaţie. Nu intrăm în amănunte, deoa-
rece analiza semnificaţiei s-a realizat la fiecare coeficient de corelaţie studi-
at. Precizăm doar că, în domeniul ştiinţelor socio-umane, limita maximă a
pragului de semnificaţie este de 0,05. Cu alte cuvinte, putem accepta ca cel
mult 5% dintre rezultatele obţinute să se datoreze unei erori de eşantionare.
În 95% din cazuri relaţia există, cu adevărat, la nivelul populaţiei. Desigur,
pragul de semnificaţie nu garantează reprezentativitatea eşantionului, aceasta
fiind o altă problemă. Probabil că, vă veţi întreba, în ce bază stabilim pragul
de semnificaţie. Ideea este că, pe măsură ce pragul de semnificaţie este mai
mic, rezultatele sunt mai precise, mai valoroase. Stabilirea pragului se face în
funcţie de importanţa cercetării. În domeniul ştiinţelor sociale, putem accepta
faptul că 5% dintre rezultate se pot datora erorilor de eşantionare. Dacă însă
desfăşurăm un studiu în industria farmaceutică, la lansarea unui nou medica-
ment, s-ar putea ca acest prag să fie mult prea mare, preferându-se un prag de
semnificaţie de 0,01 sau chiar mai mic. Oricum, alegerea pragului de semni-
ficaţie influenţează probabilitatea de producere a erorilor de tip I sau a erori-
lor de tip II – respingerea ipotezei nule în condiţiile în care nu ar trebui res-
pinsă sau, din contra, acceptarea ipotezei nule în condiţiile în care ar trebui
respinsă. Pentru detalii suplimentare, consultaţi lucrarea anterioară.
Valoarea coeficientului de corelaţie indică puterea corelaţiei. Fie că
vorbim despre coeficienţi de corelaţie direcţionali sau nedirecţionali, analiza
valorii acestora se supune unor repere, după cum urmează:
 Coeficienţii de corelaţie cu valori absolute situate între 0,00 şi
0,20 indică absenţa unei corelaţii reale sau o corelaţie foarte
slabă;

104
Cristian Opariuc-Dan

 Valorile absolute situate între 0,21 şi 0,40 arată o corelaţie sla-


bă între cele două variabile;
 O corelaţie moderată se obţine atunci când valorile absolute
sunt cuprinse între 0,41 şi 0,60;
 Dacă un coeficient de corelaţie are valoarea absolută cuprinsă
între 0,61 şi 0,80, vorbim despre o corelaţie puternică;
 În sfârşit, coeficienţi de corelaţie cu valori absolute situate în-
tre 0,81 şi 1,00 arată existenţa unei legături foarte puternice în-
tre cele două variabile;
Desigur, aceste repere sunt orientative. Coeficienţii de corelaţie de-
pind de volumul eşantionului sau a lotului de cercetare studiat, dar şi de alţi
factori, după cum vom vedea în continuare. Este mult mai uşor să obţinem
coeficienţi de corelaţie ridicaţi atunci când studiem 10 persoane, în compara-
ţie cu situaţia analizei unui număr de 1000 de persoane.
Trebuie, de asemenea, să ştiţi că, nu întotdeauna valoarea unei cerce-
tări este dată de respingerea ipotezei nule. Există o tendinţă printre studenţi,
şi chiar printre anumiţi cercetători, de a respinge, prin orice mijloace, ipoteza
nulă. Unii merg până acolo încât afirmă că dacă un studiu nu respinge ipoteza
nulă, şi dacă nu se acceptă una dintre ipotezele alternative, acel studiu nu are
valoare. Complet fals! Aceasta este o stereotipie a cercetării ştiinţifice, întâl-
nită frecvent printre debutanţi. De multe ori, lipsa de respingere a ipotezei
nule are o valoare la fel de mare ca şi respingerea acesteia. Dacă, de exemplu,
se realizează un studiu în care se verifică relaţia dintre puterea maşinii şi ris-
cul de accident, credeţi că lipsa de respingere a ipotezei nule înseamnă un
studiu invalid? În nici un caz. Faptul că nu există nicio legătură între puterea
maşinii şi riscul de accident nu reprezintă o invalidare a studiului, din contra,
oferă informaţii preţioase. Probabil că nu maşina puternică creşte riscul acci-
dentului de circulaţie, ci lipsa de experienţă sau teribilismul şoferului. Se cre-

105
Statistică aplicată în ştiinţele socio-umane

ează astfel premisele unei noi cercetări pe alte teme. Să nu vă mai fie frică,
aşadar, de ne-respingerea ipotezei nule. Valoarea unui studiu ştiinţific nu este
dată de respingerea sau nu a ipotezei nule, ci de informaţiile noi pe care le
aduce cercetarea. Am făcut această menţiune, deoarece mi s-a întâmplat să
cunosc studenţi în licenţă, disperaţi că nu obţineau corelaţii semnificative, şi
cărora profesorii coordonatori le spuneau că dacă nu se obţine o corelaţie
semnificativă, lucrarea de licenţă nu este bună. Dincolo de tragi-comicul situ-
aţiei, a trebuit să petrec ceva timp lămurind persoanele în cauză că lucrurile
nu stau chiar aşa.

I.4.1 Grade de libertate


Am întâlnit, deseori, expresia „grade de libertate”. Cred că aveţi deja
o imagine asupra semnificaţiei acestui termen. În principiu, gradele de liber-
tate arată numărul valorilor (al cazurilor) luate în calcul pentru un indicator
statistic, şi diferă de numărul total (n) al lotului de cercetare. Dacă efectuăm
un studiu corelaţional simplu, bazat pe 137 de subiecţi, coeficientul de core-
laţie obţinut se raportează la un număr de 136 (n-1) grade de libertate. Prin
urmare, se pierde un subiect. De ce se întâmplă acest lucru? Care este moti-
vul pentru care nu lucrăm cu întregul efectiv, ci cu efectivul minus un sub-
iect? Pentru a înţelege logica, vom considera un exemplu.
Să presupunem că lucraţi la o fabrică de confecţii, iar pentru a stimula
angajaţii unui birou, aveţi la dispoziţie un număr de zece premii, în obiecte de
îmbrăcăminte, dintre care aceştia vor putea să aleagă obiectul de îmbrăcămin-
te dorit. Dacă biroul are exact 10 angajaţi, primul angajat poate alege un
premiu dintre cele zece expuse. Al doilea angajat alege un premiu dintre cele
nouă rămase, al treilea unul dintre cele opt şi aşa mai departe. Cel din urmă
angajat mai alege? Evident că nu. El trebuie să se mulţumească luând ultimul
obiect rămas. Ultima persoană mai face vreo alegere? Ei bine, nu. În această
situaţie, nu mai putem vorbi de probabilităţi, nu există nicio posibilitate de
alegere. Ca să putem folosi principii statistice, trebuie să existe cel puţin o

106
Cristian Opariuc-Dan

şansă de a alege. În cazul ultimului angajat, această şansă nu mai există. Care
a fi, aşadar, soluţia? Fie mărim numărul de premii (11), caz în care şi cel de-
al zecelea angajat poate alege între două obiecte de îmbrăcăminte, fie renun-
ţăm la al zecelea angajat şi ne limităm la ultimul care a putut să facă o alegere
(al nouălea, care a ales unul dintre cele două obiecte rămase). Această ultimă
situaţie reflectă exact principiul gradelor de libertate.
Să nuanţăm puţin lucrurile. Presupunem că cele 10 articole de îmbră-
căminte sunt formate din 5 rochii şi 5 costume bărbăteşti. Întrebarea care se
pune este câte persoane pot accesa aceste articole, în condiţia în care fiecare
persoană va trebui să aibă o şansă de a alege? Probabil că cele 5 rochii vor fi
alese de femei. Ca să poată alege, vom avea nevoie de cel mult 4 femei. Simi-
lar, cele 5 costume bărbăteşti pot fi alese de maximum 4 bărbaţi, ultimul
având posibilitatea de a alege între două costume. Aşadar, putem lua în calcul
maximum 8 persoane, şi nu 10 câte aveam iniţial.
În orice analiză multivariată, numărul total de subiecţi se reduce în
funcţie de nivelurile unei variabile. Gradele de libertate exprimă numărul de
cazuri luat în calcul pentru a obţine indicatorul statistic dorit, în condiţiile în
care se poate vorbi de probabilităţi.

I.4.2 Efecte exercitate şi varianţă


Mulţi începători consideră că un coeficient de corelaţie poate să ex-
prime şi procentual puterea legăturii dintre două variabile. Dacă obţinem un
coeficient de corelaţie de 0,34, acesta ar exprima faptul că 34% din varianţa
unei variabile se regăseşte (poate fi explicată) prin varianţa celeilalte variabi-
le (vezi figurile 1.2 – 1.5). În realitate nu este chiar aşa.
Mărimea efectului reprezintă o măsură obiectivă şi standardizată a
magnitudinii relaţiei dintre două variabile, şi se obţine, foarte simplu, prin
ridicarea la pătrat a coeficientului de corelaţie. La un coeficient de corelaţie
de 0,34, mărimea defectului va fi de 0,129, adică varianţa explicată este de

107
Statistică aplicată în ştiinţele socio-umane

12,9% şi nu de 34% aşa cum am crezut iniţial. Motivele care stau în spatele
acestei operaţii se regăsesc în suportul teoretic al varianţei şi nu le vom mai
trata aici. Alături de coeficientul de corelaţie, mărimea efectului este o altă
măsură, mai versatilă, mai intuitivă, a puterii statistice a unei cercetări. Ex-
primarea procentuală este mai uşor de înţeles în comparaţie cu expresia sim-
plă a unui coeficient de corelaţie. Este bine ca în orice studiu de acest tip,
alături de coeficientul de corelaţie, să indicaţi şi mărimea efectului pe care îl
generează, în termeni de varianţă explicată.
Strict orientativ, Andy Fields (Field, 2000) oferă o serie de repere în
interpretarea mărimii efectului, în funcție de valorile absolute ale coeficientu-
lui de corelație liniară (notat generic cu r):
 0,00 < r < 0,10 – efecte reduse, explicând până la 1% din vari-
anţa totală;
 0,11 < r < 0,30 – efecte medii, explicând între 1% şi 9% din
varianţa totală;
 0,31 < r < 0,50 – efecte mari, explicând între 9% şi 25% din
varianţa totală;
 r > 0,51 – efecte foarte mari, explicând peste 25% din varianţa
totală.
Ar fi destul de multe lucruri de discutat aici, inclusiv aspecte referi-
toare la puterea indicatorilor statistici. Nu le vom aborda acum. Acestea vor fi
tratate pe larg în capitolul dedicat statisticilor inferenţiale. Cunoştinţele dum-
neavoastră în domeniul planurilor de cercetare de tip corelaţional sunt, deo-
camdată, suficiente.

108
Cristian Opariuc-Dan

I.4.3 Strategii de analiză şi interpretare a corelaţiilor


Înainte de a începe un studiu corelaţional, de a ne apuca de calculat şi
de interpretat coeficienţi, este bine să ne punem o serie de întrebări, pentru a
evita eventualele surprize neplăcute.
1. Ce fel de date vom colecta?
Aceasta este o întrebare pe cât de evidentă, pe atât de mult ignorată.
Dacă datele colectate sunt situate la un nivel nominal, evident, nu există nicio
posibilitate de ierarhizare, ca să nu mai vorbim de medii şi de abateri stan-
dard. În acest caz, utilizarea unor metode care implică ordinea (cum ar fi coe-
ficienţii Spearman sau Kendall) ori, mai grav, a coeficienţilor parametrici (r
Pearson) pot duce la erori serioase de interpretare şi riscaţi să vă faceţi de râs.
În acest caz, puteţi folosi χ2 şi coeficienţii derivaţi din acesta.
Datele ordinale sunt ceva mai flexibile. Dacă se pot ierarhiza categori-
ile variabilei, pe lângă metodele specific nominale (pe care nu are sens să le
mai utilizaţi acum, fiind prea slabe), putem aborda corelaţii bazate pe ranguri.
Măsurarea datelor la nivel ordinal depinde de ordinea categoriilor, ignorarea
acestui lucru ducând la pierderi semnificative de informaţie. Dacă folosim
corelaţii pentru date nominale, evident că vom pierde informaţie. Unii cerce-
tători proiectează cercetarea în aşa fel încât grupează, de la început, subiecţii
în categorii. Un exemplu excelent în acest sens este variabila „vârsta”. Sunt
unii care în loc să solicite subiecţilor vârsta în ani, realizează, pentru acest
lucru, categorii de vârstă (între 20 şi 25 de ani, peste 40 de ani şi aşa mai de-
parte). Iată că, la proiectarea cercetării, această variabilă, în mod natural con-
tinuă, este transformată într-o variabilă ordinală. Se pierde, prin urmare, foar-
te multă informaţie. Nu mai putem vorbi de media de vârstă, nu mai putem
efectua corelaţii parametrice cu această variabilă şi va trebui să ne rezumăm
doar la analize de date neparametrice. În mod evident, pierderea informaţiilor
este cu atât mai mare, cu cât numărul categoriilor este mai mic.

109
Statistică aplicată în ştiinţele socio-umane

Cea mai fericită situaţie este aceea în care colectăm date aflate la un
nivel scalar (sau asimilate unui nivel scalar). Dar, şi în acest caz, se pun anu-
mite probleme. În primul rând, existenţa unui număr suficient de cazuri. Nu
are sens că calculăm coeficientul de corelaţie r Pearson sau corelaţii seriale
ori parţiale dacă numărul de cazuri este foarte mic, în general sub 50 de sco-
ruri. În această situaţie, o măsură mai stabilă ar fi calculul coeficientului de
corelaţie ρ Spearman. În al doilea rând, datele sunt distribuite normal? Iată un
motiv foarte serios pentru a proceda la analiza normalităţii distribuţiei. Dacă
numărul de subiecţi este mare, iar datele nu se distribuie normal, nu putem
lucra cu un coeficient de corelaţie bazat pe medii, cum este r Pearson. Se pre-
feră, în acest caz, ρ Spearman sau τ Kendall. Unii autori (Liebetrau, 1983)
interzic chiar utilizarea coeficientului ρ Spearman în aceste situaţii, recoman-
dând doar analizele bazate pe τ Kendall.
2. Ce tip de ipoteze au fost formulate?
Tipul ipotezei formulate are o mare importanţă, îndeosebi sub aspec-
tul distincţiei între ipotezele unilaterale şi bilaterale. Stabilirea semnificaţiei
unui coeficient se va face doar în strictă concordanţă cu acest aspect. Rapor-
tarea pragului de semnificaţie bilateral în condiţiile unei ipoteze unilaterale şi
invers, constituie o eroare. Din fericire, acest lucru poate fi uşor remediat.
3. Care este motivul pentru care s-a analizat relaţia dintre două va-
riabile?
Iată o întrebare care, la prima vedere, s-ar putea să vă surprindă. De-
sigur, răspunsul îl puteţi găsi studiind obiectivele şi ipotezele cercetării. Cer-
cetarea urmăreşte analiza legăturii (corelaţiei) dintre două variabile? Ori, poa-
te, doreşte să precizeze gradul de acord între mai multe persoane referitor la o
anumită problemă sau la un anumit grup de subiecţi. Sau, de ce nu, pentru a
efectua o predicţie şi a stabili o relaţie cauzală.

110
Cristian Opariuc-Dan

Datele nu pot fi tratate „mecanic”, fără referire la scopul cercetării.


Dacă se urmăreşte simpla legătură între variabile (măsurători numite şi anali-
ze simetrice), se pot folosi coeficienţi de corelaţie cum ar fi r Pearson, ρ
Spearman, τ Kendall şi alţii. Gradul de acord între mai multe persoane (ana-
lize asimetrice) se poate investiga, mai curând, prin coeficienţi de concor-
danţă. Predicţiile sunt mai adecvate pentru coeficienţii de asociere, cum ar fi
cei Goodman-Kruskal ori coeficientul d Somers.
4. Dorim să facem inferenţe pe baza datelor analizate?
Desigur! Altfel pentru ce mai cercetăm ceva, dacă nu pentru a extinde
cunoştinţele la nivelul populaţiei. Doar că, acest lucru nu este chiar atât de
simplu cum pare la prima vedere. Ne-ar interesa, în acest sens, să ştim cum se
distribuie parametrul la nivelul populaţiei. Din fericire, majoritatea parametri-
lor se distribuie normal la nivelul unei populaţii (sau cel puțin așa se presu-
pune matematic), însă, şi în acest caz, se pune problema unei corecte estimări
a varianţei. Nu ne mai putem rezuma doar la analiza coeficientului şi a pragu-
lui de semnificaţie. Suntem obligaţi să furnizăm intervalele de încredere ale
estimărilor, erorile de estimare şi alte date care pot da valoare şi pertinenţă
inferenţei.
Tehnic, în analiza şi interpretarea corelaţiilor sunt importante trei as-
pecte (Urdan, 2005):
 Analiza grafică a legăturii dintre două variabile;
 Calculul coeficientului de corelaţie, a semnificaţiei acestuia şi
a mărimii efectului determinat;
 Calculul intervalelor de încredere

I.4.3.1 Analiza grafică a relaţiei dintre două variabile


Ştiţi, probabil, că nu agreez, în mod deosebit, analizele statistice fun-
damentate pe poze şi pe alte elemente grafice, deoarece consider că statistica

111
Statistică aplicată în ştiinţele socio-umane

se bazează pe cifre. Iată, însă, un domeniu în care fac excepţie de la regulă, şi


recomand începerea analizei corelaţionale prin inspectarea grafică a legăturii
dintre două variabile.
Asocierea dintre două variabile măsurate
pe o scală parametrică se reprezintă grafic
printr-o diagramă numită „nor de puncte” (scat-
terplot în limba engleză) sau diagramă de core-
laţie. Aceasta se prezintă sub forma unui grafic
cu două axe, pe fiecare dintre ele regăsindu-se o
variabilă. Nu există nicio regulă după care re-
Figura 1.6 – Corelaţie pozitivă
prezentăm variabilele, pe abscisă sau pe ordonată. puternică între două variabile
(Sava, 2004).
Orice corelaţie presupune existenţa unei relaţii între cele două varia-
bile, fie pozitivă, fie negativă, monotonă, liniară, etc.
În figura 1.6 este reprezentată diagrama
de corelaţie în cazul unei corelaţii pozitive
între variabilele X şi Y. Observăm liniaritatea
relaţiei şi traseul ascendent (pozitiv) al acesteia.
Subiecţii cu scoruri mici la variabila X, au sco-
ruri mici şi la variabila Y. Pe măsură ce scoru-
rile subiecţilor cresc la variabila X, cresc şi la
Figura 1.7 – Corelaţie negativă variabila Y. Intuiţi deja existenţa unui coefici-
puternică între două variabile
ent de corelaţie ridicat între cele două variabile,
corelaţia fiind, de asemenea, semnificativă.
În figura 1.7 aveţi norul de puncte în cazul unei corelaţii negative în-
tre variabilele X şi Y. Asocierea dintre variabile este, de asemenea, liniară,
însă subiecţii care au scoruri mici la variabila X, au scoruri mari la variabila
Y. Pe măsură ce scorurile subiecţilor cresc la variabila X, scad la variabila Y.

112
Cristian Opariuc-Dan

În acest caz, putem anticipa existenţa unui coeficient de corelaţie ridicat,


semnificativ şi negativ.
Figura 1.8 indică lipsa legăturii dintre
cele două variabile, X şi Y. După cum se poate
observa, nu există nicio relaţie liniară între cele
două variabile. Nu putem afirma că scorurile
sunt legate în vreun fel. În acest caz, valoarea
unui eventual coeficient de corelaţie va fi foarte
mică, şi, în mod cert, corelaţia nu este
Figura 1.8 – Lipsa legăturii semnificativă. Spunem, în această situaţie, că
dintre două variabile cele două variabile nu sunt relaționate.
Analiza norului de puncte, ne permite să apreciem forma relaţiei din-
tre două variabile (relaţia liniară, neliniară sau absenţa relaţiei), direcţia aces-
tei relaţii (ascendentă sau pozitivă, ori descendentă, negativă) şi intensitatea
legăturii dintre variabile (legătură puternică, punctele fiind apropiate de
dreapta de evoluţie liniară sau legătură slabă, punctele fiind mai depărtate de
această dreaptă).
Analiza formei norului de puncte poate
releva aspecte importante, îndeosebi în situaţia
în care coeficientul de corelaţie are valori mici.
Să nu ne grăbim să afirmăm că nu există nicio
legătură între variabile, ci să analizăm grafic
semnificaţia acestei valori. Să presupunem că,
Figura 1.9 – Existenţa unui scor
într-un studiu, am obţinut un coeficient de core- extrem
laţie r Bravais-Pearson de 0,15, corelaţia nefiind
semnificativă. Cei mai mulţi se vor grăbi să afirme că nu există nicio legătură
între cele două variabile. Desigur, acest lucru poate fi valabil dacă norul de
puncte arată ca în figura 1.8.

113
Statistică aplicată în ştiinţele socio-umane

Acelaşi coeficient de corelaţie se poate obţine şi în cazul datelor re-


prezentate în figura 1.9. Putem spune că nu există nicio legătură între cele
două variabile? Sigur că nu. Legătura există, este pozitivă şi puternică. Ele-
mentul care conduce la scăderea valorii coeficientului de corelaţie este toc-
mai scorul extrem, pe care îl puteţi remarca
foarte uşor. Iată că, în absenţa analizei grafice,
ne putem păcăli. Nu ne rămâne decât să elimi-
năm acel scor extrem, şi vom observa modifica-
rea radicală a coeficientului de corelaţie.
Un alt element important, se referă la
constanţa grosimii norului de puncte. În studiile
Figura 1.10 – Relaţie
homoscedastică între variabile de tip corelaţional, plecăm de la presupunerea că
norul de puncte are o grosime constantă pe în-
treaga distribuţie. Această grosime constantă poartă numele de
homoscedasticitate, şi se poate observa în figura 1.10.
Într-o corelaţie homoscedastică, un coe-
ficient de corelaţie are valori mari. Semnificaţia
este aceea că, pe întreaga amplitudine a distribu-
ţiei celor două variabile, relaţia liniară se păs-
trează.
Un coeficient de corelaţie mic, poate fi
Figura 1.11 – Relaţie obţinut şi pe baza unei relaţii heteroscedastice,
heteroscedastică între variabile ca în figura 1.11. Acest caz ne poate induce în
eroare, ne poate face să considerăm că nu există nicio legătură între cele două
variabile. În realitate, legătura există, însă norul de puncte nu mai este omo-
gen, ca în primul caz, ci eterogen. În figura 1.11 observăm existenţa unei co-
relaţii pozitive între cele două variabile. Corelaţia este, însă, mai puternică în
cazul scorurilor mici, şi mai slabă sau inexistentă la scorurile mari. Per an-
samblu, coeficientul de corelaţie va avea valori mici, fapt care nu reflectă nici

114
Cristian Opariuc-Dan

pe departe realitatea. De exemplu (Sava, 2004), dacă vom studia relaţia dintre
coeficientul de inteligenţă şi creativitate, vom obţine un nor de puncte
heteroscedastic. Corelaţia dintre aceste două dimensiuni este puternică la
valori mici ale inteligenţei şi creativităţii. Pe măsură ce coeficientul de inteli-
genţă creşte, intensitatea legăturii scade, datorită
intervenţiei unor factori intelectuali şi non-
intelectuali. Problema care se pune este aceea a
stabilirii punctului până la care relaţia se păs-
trează, iar interpretarea va ţine seama de aceste
aspecte.
Dacă vom studia relaţia dintre venituri şi Figura 1.12 – Existenţa seturi-
cheltuieli pe articole de îmbrăcăminte, s-ar putea lor de date
să aveţi surpriza obţinerii unui coeficient de core-
laţie mic. Acceptarea ipotezei conform căreia nu există nicio legătură între
venituri şi cheltuieli pe articole de îmbrăcăminte s-ar putea să fie eronată, în
condiţiile în care norul de puncte arată ca în figura 1.12.
Remarcăm, în acest caz, existenţa a două seturi distincte de date.
Putem suspecta existenţa unei variabile moderatoare, în acest caz genul bio-
logic al persoanei. Relaţia poate exista în cazul femeilor (norul de puncte
compact din partea de stânga-sus a graficului), pentru bărbaţi nefiind semni-
ficativă (norul de puncte din dreapta-jos). Dacă
vom trata compact lotul de cercetare, sigur că
vom obţine un coeficient de corelaţie foarte mic.
În acest caz, analiza se realizează separat pentru
bărbaţi şi pentru femei, rezultatele raportându-se
în consecinţă.
Figura 1.13 – Relaţiile nelinia-
re între variabile Ultimul element pe care îl remarcăm, din
punctul de vedere al formei distribuţiei, se referă
la relaţiile neliniare. Cei dintre dumneavoastră care au studiat psihologie,

115
Statistică aplicată în ştiinţele socio-umane

cunosc relaţia dintre motivaţie şi performanţă. Performanţa creşte pe măsură


ce creşte motivaţia, însă doar până la un punct, numit optim motivaţional.
Dincolo de acest punct, supra-motivarea conduce la scăderea performanţei.
Norul de puncte, într-o asemenea situaţie, ar arăta ca în figura 1.13.
Desigur, studiind legătura dintre motivaţie şi per-
formanţă, am obţine un coeficient de corelaţie foar-
te mic. Să ne rezumăm la interpretarea strictă a
acestui coeficient, ar fi o eroare. În realitate, există
o corelaţie pozitivă puternică pentru prima jumătate
a graficului şi o corelaţie negativă puternică pentru
a doua jumătate. Nici vorbă de absenţa corelaţiei.
Figura 1.14 – Corelaţie puter-
nică între două variabile Lucrurile se rezolvă simplu, prin depistarea punctu-
lui de optim motivaţional, şi prin tratarea datelor ca
două seturi distincte de date. Cercetarea devine valoroasă tocmai prin această
particularitate.
Puterea legăturii dintre două variabile este dată, evident, de coeficien-
tul de corelaţie. Cu cât acesta se apropie de valoarea ±1, în cazul unei corela-
ții liniare, cu atât legătura este mai puternică, da-
tele sunt mai grupate în jurul unei drepte de evo-
luţie imaginare. Valorile apropiate de zero conduc
la un nor de puncte împrăştiat în jurul acestei
drepte imaginare.
În figura 1.14 este reprezentat norul de
puncte al unui coeficient de corelaţie pozitivă de Figura 1.15 – Corelaţie slabă
între două variabile
0,91. Observaţi modul în care se grupează datele.
Este cazul unui studiu referitor la vârsta soţului şi a soţiei. Desigur, în condi-
ţii normale, vârsta soţilor este apropiată, legătura dintre cele două variabile
fiind puternică (excepţiile de la această regulă le puteţi găsi şi singuri studiind
viaţa mondenă din România).

116
Cristian Opariuc-Dan

Figura 1.15 arată norul de puncte al unei corelaţii negative slabe de


0,28. Putem intui dreapta de evoluţie a celor două variabile, însă observaţi că
datele sunt mult mai împrăştiate în jurul acesteia. Legătura, evident, există,
însă nu are puterea celeia din figura 1.14. Variabilitatea datelor în acest caz
este mult mai mare.
Făcând această incursiune prin analiza graficelor, am dorit să sublini-
em importanţa studiului diagramei de corelaţie. Interpretarea exclusivă pe
baza coeficientului de corelaţie nu se recomandă, deoarece, foarte uşor putem
cădea în capcana unei relaţii neliniare sau specifice. Primul pas în interpreta-
rea coeficientului de corelaţie este analiza diagramei de corelaţie. În funcţie
de aspectul datelor, se ajustează procedurile de calcul şi de raportare.
Analiza datelor prin utilizarea creionului şi a hârtiei reprezintă un pro-
ces laborios, care presupune o importantă investiţie de timp şi este susceptibil
de a genera erori. Din fericire, programele specializate de analiză statistică
pot face aceste operaţii în câteva fracţiuni de secundă. Iată că a venit timpul
să studiem corelaţiile folosind cunoscutul pachet de programe, SPSS for
Windows.

I.5 Obţinerea coeficienţilor de corelaţie în SPSS


Nu-i aşa că v-aţi săturat de atâtea calcule? Aşa-i că vă este dor de câ-
teva clicuri? Sigur că vorbim despre o diferenţă enormă. Pe un lot de cerceta-
re de 200 de persoane, pentru a calcula pe hârtie coeficientul de corelaţie r
Bravais-Pearson, probabil că vă va lua jumătate de zi. Folosind SPSS for
Windows şi presupunând că aveţi deja datele introduse, vă va lua sub un mi-
nut.

I.5.1 Coeficienţi de corelaţie bazaţi pe date parametrice


SPSS for Windows, în acest moment, a ajuns la versiunea 17, versiu-
ne cu multe îmbunătăţiri şi facilităţi în comparaţie cu variantele anterioare.
Înainte de a începe, vom crea o bază de date nouă, reluând exemplul din capi-

117
Statistică aplicată în ştiinţele socio-umane

tolul destinat studiului corelaţiilor parţiale. Vă reamintesc faptul că am dorit,


atunci, să aflăm legătura dintre performanţa la examen şi emoţiile din timpul
examenului. Realizăm, prin urmare, o bază de date cu următoarea structură:
Tabelul 1.35 – Structura bazei de date
Variabila Eticheta Nivel de măsură Tip Caractere
Timp Timp de studiu Scalar Numeric 2
Emotii Emotii examen Scalar Numeric 3.2
Gen Gen biologic Nominal Numeric 1
Nota Nota examen Scalar Numeric 3.2

Probabil că vă mai amintiţi cum se creează o bază de date în SPSS.


Detalii despre aceste procedee puteţi găsi în lucrarea anterioară sau în alte
cărţi de specialitate. Observăm că avem un număr de patru variabile, toate
Valoare Etichetă
elementele necesare realizării bazei de date găsindu-se în
Gen 1 Masculin tabelul 1.29. Variabila „Gen” este o variabilă nominală,
2 Feminin cu asocierile din tabelul alăturat.
După realizarea structurii bazei de date, în fereastra principală SPSS,
secţiunea „Data view” veţi avea următoarea structură, prezentată în figura
1.16.
Această bază de date o vom folosi doar pen-
tru studiul coeficienţilor de corelaţie parametrici,
aprofundarea corelaţiilor neparametrice făcându-
Figura 1.16 – Structura bazei
se pe baza altor date. de date

Pentru acest studiu, am investigat un număr de 103 subiecţi, înregis-


trând timpul de studiu (în ore) necesar susţinerii examenului de statistică,
media obţinută la examenul de statistică (nota la examen şi activitatea de se-

118
Cristian Opariuc-Dan

minar), genul biologic şi scorul obţinut la un instrument de evaluare a emoti-


vităţii în condiţii de examen3.
Nu este cazul să vă mai explic modul în care veţi introduce datele în
SPSS. Mai jos aveţi întreaga bază de date, pe care vă invit să o realizaţi. Nu
vă speriaţi, nu vă ia mai mult de 10 minute. După ce aţi introdus datele, sal-
vaţi fişierul sub numele de „Corelaţii parametrice”.
Tabelul 1.36 – Baza de date „Corelaţii parametrice”
Timp Emotii Gen Nota Timp Emotii Gen Nota
4 86,30 1 4,00 42 68,57 2 7,00
11 88,72 2 6,50 4 93,55 1 4,00
27 70,18 1 8,00 8 84,69 2 8,00
53 61,31 1 8,00 6 82,27 1 1,00
4 89,52 1 4,00 11 81,46 2 2,00
22 60,51 2 7,00 7 82,27 1 4,00
16 81,46 2 2,00 15 91,13 1 4,00
21 75,82 2 5,50 4 91,94 2 7,00
25 69,37 2 5,00 28 86,30 2 5,20
18 82,27 2 4,00 22 72,60 1 5,00
18 79,04 1 4,50 29 63,73 2 6,00
16 80,66 1 8,50 2 63,73 1 8,00
13 70,18 1 7,00 16 71,79 2 6,00
18 75,01 2 5,00 59 57,28 1 6,50
98 34,71 1 9,50 10 84,69 2 1,50
1 95,16 1 7,00 13 84,69 1 8,50
14 75,82 1 9,50 8 77,43 2 2,00
29 79,04 2 9,50 5 82,27 2 8,00
4 91,13 2 5,00 2 10,00 1 10,00
23 64,54 1 6,00 38 50,83 2 10,00
14 80,66 1 8,00 4 87,91 1 8,00
12 77,43 1 7,50 10 83,88 1 1,00
22 65,34 2 8,50 6 84,69 2 7,00
84 0,06 2 9,00 68 20,21 2 10,00
23 71,79 2 3,00 8 87,10 1 7,00
26 81,46 2 6,00 1 83,88 2 7,00
24 63,73 1 7,50 14 67,76 1 6,50
72 27,46 2 7,50 42 95,97 2 7,50
37 73,40 2 2,70 13 62,12 2 8,50
10 89,52 1 2,00 1 84,69 1 3,00
3 89,52 2 7,50 3 92,75 1 0,50
36 75,01 2 9,00 5 84,69 2 1,00
43 43,58 1 6,00 12 83,07 2 9,00

3
Datele sunt fictive şi nu corespund unui studiu real. Ele au fost manipulate în aşa fel încât
să corespundă necesităţilor didactice.

119
Statistică aplicată în ştiinţele socio-umane

19 82,27 1 3,00 19 73,40 1 7,00


12 79,04 1 8,00 2 87,91 2 2,00
9 79,04 2 1,00 19 71,79 1 8,50
72 37,13 1 8,50 11 86,30 1 3,50
10 81,46 1 0,70 15 84,69 2 3,00
12 83,07 2 0,50 23 75,82 1 7,00
30 50,83 1 8,50 13 70,98 2 5,50
15 82,27 1 2,00 14 78,24 2 7,50
8 78,24 2 4,50 1 82,27 1 0,20
34 72,60 1 6,00 9 79,04 1 4,00
22 74,21 2 7,00 20 91,13 2 5,00
21 75,82 2 5,00 0 93,55 2 3,50
27 70,98 1 2,50 52 58,89 2 8,00
6 97,58 1 5,00 38 53,25 2 5,00
18 67,76 1 4,00 19 84,69 1 4,90
8 75,01 1 8,00 23 89,52 2 7,50
19 73,40 2 5,00 11 71,79 2 2,50
13 62,12 1 27 82,27 1 6,50
17 69,37 1 8,00

În primul rând, să începem cu începutul. Dorim


să aflăm dacă există vreo legătură între nota obţinută la
examen şi emoţiile din timpul examenului. Înainte de a
ne grăbi să calculăm coeficientul de corelaţie r Bravais-
Pearson, trebuie să ne asigurăm că cele două variabile
Figura 1.17 – Lansarea
procedurii de calcul ale îndeplinesc condiţiile de calcul ale statisticilor parame-
corelaţiilor
trice. Vom presu-
pune că ambele variabile au o distribu-
ţie normală, deoarece este evident fap-
tul că se situează la un nivel scalar de
măsură.
Lansarea procedurilor de calcul
ale corelaţiilor se realizează prin acce-
sarea meniului „Analyze”, apoi din
submeniul „Correlate” vom alege op-
ţiunea „Bivariate…”. Imediat se va Figura 1.18 – Fereastra corelaţiilor
bivariate
deschide o fereastră similară celei din

120
Cristian Opariuc-Dan

figura 1.18.
Formularul conţine două liste, separate prin butonul de transfer în
formă de săgeată. Cu ajutorul acestuia, putem transfera variabilele din baza
de date (fereastra din stânga) în lista variabilelor supuse analizei (fereastra
din dreapta). În cazul nostru, am inclus spre analiză, variabilele „Nota exa-
men” şi „Emoţii examen”, în conformitate cu planul de cercetare.
Sub aceste două liste se află secţiunea „Correlation Coefficients”, ca-
re conţine trei casete de bifare, corespunzătoare celor trei coeficienţi de core-
laţie ce pot fi calculaţi: coeficientul de corelaţie r Bravais-Pearson (Pearson),
coeficientul de corelaţie τ Kendall (Kendall’s tau-b) şi coeficientul de corela-
ţie a rangurilor ρ Spearman (Spearman). Situaţia noastră este clară; vom cal-
cula coeficientul de corelaţie r Bravais-Pearson.
Următoarea secţiune, „Test of Significance” are în vedere stabilirea
tipului de ipoteză cu care lucrăm. Putem alege între o ipoteză nedirecţională
(Two-tailed) şi o ipoteză direcţională (One-tailed). Presupunem că ipoteza
noastră vizează stabilirea unei relaţii între performanţa la examen şi emoţiile
din timpul examenului. Ştiţi deja că aceasta este o ipoteză nedirecţională,
corelaţia fiind semnificativă atât în cazul unei legături pozitive, cât şi în cazul
unei legături negative.

Întrebare
Cum aţi formula o ipoteză direcţională în acest design de cercetare?
Ce opţiune aţi alege în secţiunea testelor de semnificaţie?

Caseta de bifare „Flag significant


correlations” comunică programului SPSS să marche-
ze, în mod distinct, corelaţiile semnificative. Aplicaţia
va marca, folosind un asterisc pentru corelaţiile semni-
ficative la un prag de semnificaţie mai mic de 0,05, şi
Figura 1.19 – Fereastra
opţiunilor avansate
121
Statistică aplicată în ştiinţele socio-umane

două asteriscuri în cazul corelaţiilor semnificative la un prag de semnificaţie


mai mic de 0,01.
Butonul „Options…” vă permite configurarea opţiunilor avansate re-
feritoare la calculul coeficientului de corelaţie. Secţiunea „Statistics” oferă
posibilitatea calculului a două elemente: mediile şi abaterile standard pentru
fiecare dintre variabilele analizate (Means and standard deviation) şi covari-
anţele, respectiv produsului încrucişat al abaterilor (Cross-product deviations
and covariances). Acest din urmă element se afişează pentru fiecare pereche
de variabile supuse analizei. Produsul încrucişat al abaterilor reprezintă suma
produselor mediilor corectate ale variabilelor. Acest indicator reprezintă, de
fapt, valoarea numărătorului din formula de calcul a coeficientului de corela-
ţie r Bravais-Pearson. Covarianţa, ca măsură nestandardizată a relaţiei dintre
cele două variabile – studiată la începutul acestui capitol – nu este altceva
decât produsul încrucişat, împărţit la numărul gradelor de libertate (în cazul
nostru, n-1).
Secţiunea „Missing values” cuprinde două opţiuni reciproc exclusive
şi se referă la tratarea cazurilor lipsă. În situaţia „Exclude cases pairwise”,
SPSS nu va lua în calcul înregistrările în care lipsesc date din ambele variabi-
le. Dacă o variabilă conţine date iar cealaltă nu conţine date, SPSS va calcula
totuşi coeficientul de corelaţie, considerând valoarea lipsă ca fiind valoare
nulă. În acest fel se asigură obţinerea unui maximum de informaţii din datele
introduse, deşi există riscul unor erori statistice. Situaţia „Exclude cases list-
wise” exclude din analiză cazurile în care una dintre variabile nu are date.
Aceasta este o opţiune mai riguroasă, însă este posibil să se piardă un volum
important de informaţie. În general se utilizează prima opţiune. Părăsirea
ferestrei se face prin acţionarea butonului „Continue”, caz în care se revine
la formularul iniţial.
Celelalte butoane vă sunt cunoscute şi nu comportă explicaţii supli-
mentare. Lansarea procedurilor de calcul se face prin acţionarea butonului

122
Cristian Opariuc-Dan

„OK”. În câteva fracţiuni de secundă, rezultatele analizei vor fi afişate în


fereastra de rezultate (Output).
Tabelul 1.37 – Rezultatele corelaţiei bivariate r Bravais-Pearson
Correlations
Nota examen Emotii examen
Pearson Correlation 1,000 -,441**
Nota examen Sig. (2-tailed) ,000
N 103,000 103
**
Pearson Correlation -,441 1,000
Emotii examen Sig. (2-tailed) ,000
N 103 103,000
**. Correlation is significant at the 0.01 level (2-tailed).

Tabelul 1.37 prezintă rezultatele acestei analize. Atât pe linii, cât şi pe


coloane, sunt afişate cele două variabile analizate („Nota examen” şi Emoţii
examen”). Linia „Pearson Correlation” conţine valoarea coeficientului de
corelaţie între cele două variabile. Evident, corelând variabila cu ea însăşi,
coeficientul de corelaţie va fi 1,00. Pe noi ne interesează coeficientul de core-
laţie dintre cele două variabile. Iată că am obţinut –0,441, corelaţie semnifi-
cativă la un prag de semnificaţie mai
mic de 0,01, aşa cum rezultă şi din
subsolul tabelului. Linia „Sig. (2-
tailed)” exprimă în mod precis pragul
de semnificaţie. Acesta este 0,00,
valoare rotunjită. În realitate, valoa-
rea exactă este de 0,000003, în mod
evident mai mică de 0,01. În sfârşit,
ultima linie, N, arată numărul de ca-
zuri. Cercetarea a fost realizată pe un Figura 1.20 – Diagrama de corelaţie
număr de 103 subiecţi. între cele două variabile

123
Statistică aplicată în ştiinţele socio-umane

Ce concluzii putem extrage de aici? Desigur, avem de a face cu o co-


relaţie semnificativă, deoarece pragul de semnificaţie este mai mic de 0,01.
Totodată, corelaţia este negativă şi moderată, aspecte rezultate din semnul
coeficientului de corelaţie şi din valoarea acestuia. Mărimea efectului acestei
relaţii este de 0,194, sau 19,4% din varianţa unei variabile poate fi explicată
prin cealaltă variabilă, intensitatea efectului fiind una
medie. Putem, aşadar, afirma că există o corelaţie
moderată, negativă şi semnificativă între performanţa
la examen şi emoţiile din timpul examenului; persoa-
nele cu note slabe la examen prezintă şi un nivel
semnificativ mai mare al emoţiilor.
Nu ne-ar mai rămâne decât să facem o „poză”
a acestei corelaţii; cu alte cuvinte să realizăm norul de
Figura 1.21 – Crearea
manuală a graficelor puncte pentru a vedea dacă apar situaţii atipice.
Iată, în figura 1.20, diagrama de corelaţie. Se observă clar sensul ne-
gativ al legăturii, precum şi intensitatea acesteia. În acelaşi timp, putem sus-
pecta o relaţie heteroscedastică. Corelaţia pare puternică doar în situaţia note-
lor mici obţinute la examen. Pentru notele mari, este posibil să nu existe nici-
un fel de legătură între cele două variabile (vedeţi grosimea norului de puncte
în cele două cazuri. De asemenea, ar fi posibilă existenţa unei alte variabile
care să modereze această corelaţie (cred că ştiţi deja despre ce variabilă este
vorba).
Întrebarea pe care mi-o veţi pune acum
va fi una referitoare la modul în care am ajuns la
acest grafic. Puţină răbdare.
Toate elementele grafice din SPSS se re-
găsesc în meniul „Graphs”. Există, aici, două
Figura 1.22 – Alegerea tipului
posibilităţi: fie utilizarea unui expert de creare a de diagramă de corelaţie

124
Cristian Opariuc-Dan

graficelor (opţiunea „Chart Builder…”, fie crearea manuală a acestora (opţi-


unea „Legacy Dialogs”). Pentru moment, vom avea în vedere a doua situaţie,
urmând ca pe parcursul acestui volum să detaliem şi expertul în grafice
SPSS.
Graficul care ne interesează este „Scatter/Dot…”. Accesarea acestui
meniu permite lansarea unei ferestre simple, de selecţie a tipului de grafic,
aşa cum se poate observa în figura 1.22.
Există, în acest formular, un număr de 5 variante de grafice. Varianta
„Simple Scatter” este opţiunea care ne intere-
sează pe noi. În acest caz, graficul va desena
cele două variabile pe ordonată şi abscisă, per-
miţând eventual intervenţia unei a treia variabila
categoriale (de exemplu sexul). „Overlay Scat-
ter” este o versiune a graficului simplu, permi-
ţând afişarea, pe aceeaşi diagramă, a mai multor
perechi de variabile, fiecare variabilă fiind indi- Figura 1.23 – Grafic tip Over-
cată printr-un element de marcaj distinct. Vom lay Scatter cu două perechi de
variabile
folosi acest grafic dacă, de exemplu, intenţionăm
să reprezentăm pe acelaşi grafic corelaţia dintre performanţa la examen şi
emoţiile din timpul examenului (nor de puncte reprezentat prin cercuri) şi
corelaţia dintre timpul de studiu şi perfor-
manţa la examen (nor de puncte reprezentat
prin pătrate).
A treia formă, „Matrix Scatter”, se
foloseşte în momentul în care avem de re-
prezentat mai mult de o pereche de variabile.
Dacă, de exemplu, am include în analiză şi
Figura 1.24 – Grafic tip
Matrix Scatter
timpul de studiu, SPSS ar efectua un număr de
3 corelaţii, corespunzătoare perechilor de varia-

125
Statistică aplicată în ştiinţele socio-umane

bile. Pentru a nu desena mai multe grafice, se poate folosi această formă.
Observăm în figura 1.24 reprezentarea tuturor celor trei diagrame de
corelaţie. Pe ambele axe sunt incluse variabilele. La
intersecţia a două variabile se afişează norul de
puncte corespunzător. Puteţi remarca, pe al doilea
rând, ultimul cadran, graficul din figura 1.20.
Aceasta este o modalitate ideală de a vizualiza an-
samblul legăturilor dintre variabile.

Figura 1.25 – Grafic tip 3- Graficul „3-D Scatter” este util în reprezen-
D Scatter tarea tridimensională a corelaţiilor între mai multe
perechi de variabile. Este o diagramă de corelaţie
mai dificil de analizat şi presupune o oarecare experienţă în analiza datelor,
folosindu-se frecvent în ana-
liza factorială şi în corelaţii
parţiale. În figura 1.25, re-
prezentând tridimensional
cele trei variabile, putem
observa uşor lipsa efectului
emoţiilor din timpul exame-
nului. Norul de puncte este
concentrat preponderent în
zona variabilelor „nota exa-
men” şi „timp de studiu”, cu
orientare către scoruri mici
ale dimensiunii „emoţiei din
timpul examenelor”.
Graficul de tip „Sim- Figura 1.26 – Formularul de definire a graficului de tip
ple dot” nu-l vom discuta. „nor de puncte”

Acesta nu reprezintă un nor

126
Cristian Opariuc-Dan

de puncte propriu-zis ci o variantă a graficului cu bare, prin care reprezentăm


observaţiile individuale ale unei singure variabile.
Acum să trecem la treabă. Am ales norul de puncte simplu, am apăsat
butonul „Define” pentru a intra în modul de definiţie a graficului, acum pri-
vim la noua fereastră care ne ocupă ecranul.
În partea stângă, avem de acum obişnuita listă a variabilelor din baza
de date. În partea dreaptă regăsim butoanele de transfer, corespunzătoare sec-
ţiunilor care trebuie definite. Secţiunea „Y-Axis” permite includerea variabi-
lei ce va fi reprezentată pe abscisă (axa OY). În cazul nostru, am inclus emoţi-
ile din timpul examenului. „X-Axis” va conţine variabila reprezentată pe or-
donată (axa OX). Nota obţinută la examen a fost selectată în vederea repre-
zentării pe această axă. Caseta „Set Markers by” se foloseşte în cazul în care
dorim să includem o variabilă categorială, ce va diferenţia datele. De exem-
plu, dacă dorim să reprezentăm diferit norul de puncte al bărbaţilor în compa-
raţie cu cel al femeilor, vom include variabila „Gen biologic” în această sec-
ţiune. Graficul va reprezenta datele femeilor cu cercuri şi datele bărbaţilor cu
pătrate. Secţiunea „Label cases by” reprezintă un alt element deosebit de util
în condiţiile în care dorim să identificăm fiecare element din grafic. De
exemplu, dacă am include genul biologic în această casetă, deasupra fiecărui
cerc de pe grafic, se va afişa genul biologic al subiectului respectiv. Desigur,
dacă am dori să reprezentăm datele separat pentru bărbaţi şi pentru femei,
vom prefera varianta „Set Markers by”, deoarece „Label Cases by” poate
duce la o supra-aglomerare a graficului. Alternativ, am putea include în
această casetă variabila „timp de studiu”. Într-o asemenea situaţie, deasupra
fiecărui cerc de pe grafic, va fi afişată valoarea timpului petrecut de către
fiecare subiect în vederea pregătirii pentru examen.
Secţiunea „Panel by” permite separarea graficului în funcţie de o va-
riabilă categorială. Dacă dorim să afişăm separat norul de puncte pentru băr-
baţi şi pentru femei, putem include în această secţiune variabila „gen biolo-

127
Statistică aplicată în ştiinţele socio-umane

gic”. În funcţie de dorinţă, graficul va fi separat pe orizontală dacă variabila


se include în caseta „Rows” sau pe verticală dacă o includem în caseta „Col-
umns”.
Secţiunea „Template” permite încărcarea unui şablon grafic dintr-un
fişier. Colecţii de şabloane grafice pentru SPSS pot fi găsite pe Internet, în
galeria aplicaţiei sau pot fi comandate la compania producătoare.
Butonul „Titles…” este destinat denumirii graficului. Putem include
două linii de text în antetul graficului (partea superioară) şi două linii de text
în subsolul graficului (partea inferioară). Opţiunea se foloseşte pentru denu-
mirea graficului şi pentru eventualele explicaţii suplimentare referitoare la
semnificaţia acestuia, ori la drepturile de autor.
Nu mai intrăm în detalii referitoare la butonul „Options…” deoarece
nu cred că v-ar putea interesa în mod deosebit. Oricum, acest buton are câte-
va variante de configurare avansată, de natură grafică şi statistică. Dacă doriţi
să aflaţi mai multe, consultaţi excelentul sistem de asistenţă al programului
SPSS, prin apăsarea butonului „Help”. Sistemul de asistenţă este furnizat în
limba engleză şi reprezintă o adevărată enciclopedie statistică. Finalizarea
definirii graficului şi lansarea opţiunii de desenare se poate face prin apăsarea
butonului OK. În câteva momente, în fereastra de rezultate, veţi obţine dese-
nul solicitat.
Excelent! În acest moment, avem toate datele necesare elaborării unui
raport, privind studiul acestei corelaţii. Mai jos, veţi găsi o analiză completă a
studiului propus. Vă voi ruga să comparaţi cele expuse cu activităţile dum-
neavoastră de cercetare. Dacă veți considera că studiile dumneavoastră sunt
mai complexe, vă rog să-mi scrieţi. Dacă nu, vă rog ca de acum înainte să
abordaţi cel puţin acest nivel.

Studiul efectuat pe un lot de cercetare de 103 studenţi, în baza ipote-


zei nedirecţionale conform căreia există o legătură semnificativă între per-

128
Cristian Opariuc-Dan

formanţa studenţilor la examen şi emoţiile acestora în timpul examenului, s-a


bazat pe un plan corelaţional. Cele două variabile („Nota examen” şi „Emo-
ţii examen”) se situează la un nivel de măsură scalar, analiza distribuţiei
acestora permiţând utilizarea statisticilor parametrice. În consecinţă, a fost
folosit coeficientul de corelaţie r Bravais-Pearson, rezultând o valoare a
corelaţiei de r=-0,441, la un prag de semnificaţie p<0,01. Într-o primă eta-
pă, putem respinge ipoteza nulă şi putem afirma că există o corelaţie medie,
negativă şi semnificativă între cele două variabile. Astfel, studenţii cu note
mici la examen sunt caracterizaţi prin niveluri ridicate ale emoţiilor în tim-
pul examenului. Cei care obţin performanţe la acest examen, pot fi conside-
raţi ca fiind puţin emotivi. Mărimea efectului acestei corelaţii este de 0,194,
corespunzătoare unei varianţe explicate de 19,4%. Putem considera că, lipsa
de performanţă în condiţii de examen, se datorează, în procent de 19,4%,
emoţiilor din timpul examenului. Totuşi, studiind diagrama de corelaţie, se
remarcă imediat existenţa unei legături heteroscedastice. Asocierea negativă
între cele două variabile pare a exista doar în cazul notelor mici la examen,
corespunzătoare scorurilor mari la emoţii în timpul examenului. Pentru stu-
denţii cu note mari, relaţia nu se mai respectă. Se poate suspecta existenţa
unei variabile moderatoare, care să influen-
ţeze atât performanţa la examen, cât şi emo-
ţiile din timpul examenului, ori existenţa
unui optim emoţional până la care această
atitudine poate corela cu o contraperfor-
manţă, în situaţii de evaluare. În mod cert,
planul de cercetare este incomplet şi urmea-
ză a fi optimizat.
Iată cam cum puteţi prezenta rezultatele unui studiu de acest tip. În
mod cert vor exista diferenţe între ceea ce ştiaţi până acum şi ceea ce aţi găsit
mai sus. Aţi observat că nu m-am hazardat să ofer vreo explicaţie psihologi-

129
Statistică aplicată în ştiinţele socio-umane

că, sociologică sau economică a faptelor constatate. Nici nu este cazul. Statis-
tica se bazează pe datele existente şi oferă un raport constatativ şi nu explica-
tiv a fenomenelor. Interpretarea statistică nu se poate confunda cu un alt tip
de interpretare. Deşi sunt psiholog de profesie, nu m-aş hazarda să fac apreci-
eri asupra acestor fapte, în condiţiile unei lucrări destinate însuşirii tehnicilor
de analiză a datelor. Având la dispoziţie aceste date, un sociolog îşi poate
exprima punctul de vedere, un psiholog poate avea viziune proprie, la fel şi
un economist sau un medic psihiatru. Reţineţi că metodele de analiză a date-
lor oferă fapte. Interpretarea faptelor cade în sarcina analistului.

Exerciţii:
Studiaţi legătura care există între performanţa la examen şi timpul
alocat studiului, precum şi între emoţiile din timpul examenului şi timpul
alocat studiului. Stabiliţi ipotezele, precizaţi tipul acestora, analizaţi cifric şi
grafic coeficienţii de corelaţiei, elaboraţi raportul.

Presupunând existenţa unei a treia variabile, care să modereze atât


performanţa la examen, cât şi emoţiile din timpul examenului, ne gândim la
timpul de studiu. Automat, vom avea în vedere o corelaţie
parţială. Meniul din care putem lansa calculul corelaţiilor
parţiale îl regăsim în aceeaşi locaţie. De data aceasta, nu
mai apelăm opţiunea „Bivariate…” ci vom folosi „Par-
Figura 1.27 –Lansarea „Partial…”.
corelaţiilor parţiale
Fereastra se aseamănă foarte mult cu cea întâlnită
la corelaţiile bivariate. Singura diferenţă constă în locaţia de includere a vari-
abilelor spre analiză. În acest caz, lista „Variables” conţine variabilele ce
urmează a fi corelate, iar lista „Controlling for” se referă la variabilele de
control. Analiza noastră urmăreşte corelarea notei obţinute la examen cu
emoţiile din timpul examenului, în condiţiile controlului asupra variabilei

130
Cristian Opariuc-Dan

„tipul alocat studiului”, astfel încât fe-


reastra dumneavoastră va trebui să arate
ca în figura 1.28.
Butonul „Options” va deschide
o altă fereastră, de configurare a opţiu-
nilor avansate. Formularul este asemă-
nător cu cel de la corelaţiile bivariate.
Singura diferenţă constă în dispariţia Figura 1.28 –Configurarea corelaţiilor
parţiale
produsului încrucişat al abaterilor şi
apariţia casetei de bifare „Zero-order correlations”, a cărei selectare comu-
nică programului calcularea corelaţiilor r Bravais-Pearson, între perechile
formate din cele trei variabile, fără moderare. Facilitatea este foarte utilă,
scutindu-ne de a efectua corelaţii repetate, prin urmare am bifat-o şi noi.
Apăsarea butonului „Continue” închide această fe-
reastră şi se revine în primul formular.
După ce am introdus cu atenţie variabile care
urmează a fi calculate, putem lansa operaţiunea prin
apăsarea butonului OK. În scurt timp, veţi obţine, în
fereastra de rezultate, tabelul 1.38.
Figura 1.29 –Opţiuni
avansate de configurare Vi se pare un tabel complicat? Nu este cazul
să vă speriaţi. În partea de sus, sunt afişate cele trei
variabile analizate şi corelaţiile de rang zero între ele. Ştim deja, între notele
obţinute la examen şi emoţiile din timpul examenului, avem un coeficient de
corelaţie semnificativ de r=-0,441, p<0,01. Între nota la examen şi timpul
alocat studiului, corelaţia este semnificativă şi pozitivă, r=0,397, p<0,01; si-
milar, între timpul de studiu şi emoţiile din timpul examenului există o core-
laţie negativă, r=-0,709, p<0,01. Aţi observat că aceste corelaţii de ordin zero
nu reprezintă altceva decât coeficienţii de corelaţie r Bravais-Pearson între
cele trei variabile, luate două câte două. În loc să efectuăm trei corelaţii biva-

131
Statistică aplicată în ştiinţele socio-umane

riate, bifăm caseta „Zero-order correlations” iar SPSS le va calcula automat,


realizând astfel o importantă economie de timp.
În partea de jos a tabelului regăsim corelaţia parţială solicitată. Obser-
văm că între nota obţinută de către studenţi la examen şi emoţiile din timpul

Tabelul 1.38 – Rezultatele corelaţiei parţiale


Correlations
Control Variables Nota examen Emotii examen Timp de studiu
-none-a Nota examen Correlation 1,000 -,441 ,397
Significance (2-tailed) . ,000 ,000
Df 0 101 101
Emotii examen Correlation -,441 1,000 -,709
Significance (2-tailed) ,000 . ,000
Df 101 0 101
Timp de studiu Correlation ,397 -,709 1,000
Significance (2-tailed) ,000 ,000 .
Df 101 101 0
Timp de studiu Nota examen Correlation 1,000 -,247
Significance (2-tailed) . ,012
Df 0 100
Emotii examen Correlation -,247 1,000
Significance (2-tailed) ,012 .
Df 100 0
a. Cells contain zero-order (Pearson) correlations.
examenului, în condiţiile în care controlăm efectul timpului alocat pentru
studiu, există o corelaţie parţială negativă şi semnificativă r12.3=-0,247;
p<0,05, la un număr de 100 de grade de libertate. Efectul acestei corelaţii este
de 0,06, adică doar 6% din varianţa notei obţinute la examen poate fi regăsită
în emoţiile din timpul examenului.
Reprezentarea grafică adecvată acestei corelaţii este graficul tridimen-
sional „3-D Scatter”. Pe axele OX şi OY se reprezintă cele două variabile co-
relate, iar pe axa OZ vom afişa variabila de control. Se remarcă foarte uşor
intensitatea slabă a corelaţiei dintre nota obţinută şi emoţiile din timpul exa-

132
Cristian Opariuc-Dan

menului, în condiţiile controlului exercitat de


timpul de studiu, precum şi traseul descen-
dent al norului de puncte.
Interpretarea corelaţiei parţiale se rea-
lizează similar corelaţiei bivariate simple, la
Figura 1.30 – Graficul corelaţiei
care se adaugă elemente ce ţin de variabila
parţiale de control.
S-ar putea să fim interesaţi, la un moment dat, de relaţia existentă în-
tre genul biologic şi timpul alocat studiului, pentru a vedea în ce măsură se-
xul subiecţilor determină efecte asupra timpului de studiu. Suntem în situaţia
asocierii unei variabile dihotomice cu o dihotomie discretă, reală, cu o varia-
bilă continuă. Ce tip de corelaţie folosim? Aţi ghicit, corelaţie punct biserială.
În SPSS, coeficientul de corelaţie punct biserial nu este altceva decât coefici-
entul de corelaţie r Bravais-Pearson, în condiţiile în care una dintre variabile
este dihotomică. Unii autori (Field, 2000), (Bakeman, și alții, 2004),
(Swinscow, și alții, 2002) recomandă codarea variabilei dihotomice cu valo-
rile zero şi unu pentru a nu exista niciun fel de dubiu referitor la calculul
acestui coeficient. În realitate, SPSS realizează automat conversia. În cazul
nostru, variabila „gen biologic” este o variabilă dihotomică codată cu unu şi
doi, iar calculul coeficientului de corelaţie punct biserial nu pune probleme.

Calculaţi coeficientul de corelaţie r Bravais-Pearson între genul bio-


logic şi timpul de studiu.

În tabelul 1.39, puteţi observa lipsa oricărei asocieri între cele două
variabile. Putem afirma că cele două variabile nu sunt corelate liniar, genul
biologic nu determină niciun efect asupra timpului de studiu.

133
Statistică aplicată în ştiinţele socio-umane

Tabelul 1.39 – Rezultatele corelaţiei punct biseriale


Correlations

Gen biologic Timp de studiu


Pearson Correlation 1,00 ,085
Gen biologic Sig. (2-tailed) ,391
N 103,00 103
Pearson Correlation ,085 1,00
Timp de studiu Sig. (2-tailed) ,391
N 103 103,00
SPSS nu dispune de proceduri distincte de calcul a coeficientului de
corelaţie biserial. În cazul în care variabila dihotomică are o dihotomie conti-
nuă şi se impune calculul acestui coeficient, puteţi calcula întâi coeficientul
de corelaţie punct biserial şi apoi puteţi aplica formula de transformare în
coeficient biserial, aşa cum s-a arătat în capitolul dedicat acestor coeficienţi.

I.5.2 Coeficienţi de corelaţie bazaţi pe date neparametrice


Tabelul 1.40 – Structura bazei de date
Variabila Eticheta Nivel de măsură Tip Caractere
sex Genul biologic Nominal Numeric 1
culoare_ochi Culoarea ochilor Nominal Numeric 1
educatie Ultima scoala Ordinal Numeric 1
grad Grad militar Ordinal Numeric 1
inaltime Inaltimea Scale Numeric 3
greutate Greutatea Scale Numeric 3

Pentru a studia, utilizând SPSS, legătura dintre variabilele situate la


un nivel de măsură neparametric, baza de date creată mai sus nu ne este de
prea mare ajutor. Vom realiza o nouă bază de date, având o structură diferită.
Această bază de date corespunde unei cercetări imaginare, efectuată la
nivelul unei unităţi militare, cercetare în care ne interesează să înregistrăm
variabilele prezente în tabelul 1.40. Se observă existenţa unui număr de 2
variabile de nivel nominal, două variabile ordinale şi două variabile scalare,

134
Cristian Opariuc-Dan

structură suficientă îndeplinirii scopurilor noastre. Etichetele variabilelor ne-


parametrice sunt prezentate în tabelul 1.41 şi nu necesită explicaţii.
Cunoscând toate aceste elemente, nu
Tabelul 1.41 – Valorile variabilelor
vă rămâne decât să proiectaţi baza de date şi
Valoare Etichetă
Sex 1 Masculin
să o salvaţi sub un nume, să spunem, „Core-
2 Feminin laţii neparametrice.sav”.
culoare_ochi 1 Albastri
2 Verzi
După salvare, următorul pas este re-
3 Caprui prezentat de popularea bazei de date. În tabe-
4 Negri lul 1.42 aveţi structura completă a acestor
Educatie 1 Liceul
2 Scoala postliceala informaţii. Desigur, toate valorile sunt fictive
3 Facultate şi nu corespund unei cercetări reale. Înar-
4 Postuniversitare
maţi-vă aşadar cu multă răbdare şi completaţi
Grad 1 Subofiter
2 Ofiter cu grad inferior cele 50 de cazuri pentru a putea demara apoi
3 Ofiter cu grad superior analiza. Desigur, la final nu veţi uita să sal-
4 General
vaţi din nou baza de date, sub acelaşi nume,
pentru a evita surprizele provocate de o eventuală blocare a computerului.
Tabelul 1.42 – Baza de date pentru corelaţii neparametrice

Sex Culoare Educatie Grad Inaltime Greutate Sex Culoare Educatie Grad Inaltime Greutate

1 3 4 4 172 87 2 3 2 2 193 94

2 2 4 4 180 102 1 1 2 2 175 96

2 1 4 3 184 79 1 4 2 2 177 92

2 3 4 3 176 86 1 4 2 2 170 69

1 1 3 3 173 85 2 2 2 2 188 81

1 3 3 3 187 77 2 2 2 2 172 76

1 4 3 4 178 80 1 2 2 1 170 93

1 3 3 4 180 100 1 3 2 1 173 98

2 1 3 4 170 82 1 4 2 1 171 74

1 1 3 3 171 71 2 3 2 1 186 77

1 3 3 3 172 79 2 1 2 1 187 92

135
Statistică aplicată în ştiinţele socio-umane

1 3 3 3 170 89 1 1 2 1 191 99

1 4 3 3 185 90 1 4 2 1 178 72

2 4 3 3 172 94 2 4 2 1 181 85

1 1 3 3 187 75 2 3 2 1 187 72

1 3 3 3 193 73 1 3 2 1 174 100

1 4 3 3 184 83 1 3 2 1 189 86

2 4 3 3 175 80 2 3 2 1 170 77

1 3 3 3 187 84 1 3 2 2 182 90

1 4 3 3 169 71 1 2 2 2 186 90

2 3 3 2 171 93 1 2 2 2 193 97

1 2 3 2 188 69 1 3 2 1 177 70

1 2 3 2 174 74 2 3 1 1 182 82

1 3 3 2 174 78 1 3 1 1 188 87

1 3 3 2 184 91 1 3 1 2 172 97

Pentru început ne propunem să analizăm rela-


ţia dintre înălţimea şi greutatea celor 50 de subiecţi.
Teoretic ambele variabile sunt de tip scalar, putându-
se folosi coeficientul de corelaţie r Bravais-Pearson.
Să presupunem, însă, că înălţimea subiecţilor nu are
o distribuţie normală, ci una puternic asimetrică la
Figura 1.31 – Meniul de stânga, arătând faptul că tendinţa în grupul de studiu
lansare a analizei este către subiecţii înalţi. Media nu mai este un indi-
cator reprezentativ pentru tendinţa centrală, şi, prin urmare, nu vom putea
folosi coeficientul de corelaţie menţionat mai sus. Următoarea alternativă este
aceea a coeficienţilor de corelaţie ρ Spearman şi τ Kendall. Pentru a începe
calculul acestor doi coeficienţi, veţi proceda exact la fel ca mai sus, la calcu-
lul coeficientului de corelaţie r Bravais-Pearson. Veţi accesa meniul „Ana-
lyze”, apoi submeniul „Correlate” şi, în final, opţiunea „Bivariate…”. Se va
deschide cunoscuta fereastră din figura 1.32.

136
Cristian Opariuc-Dan

Atunci când aţi calculat coeficientul


de corelaţie r Bravais-Pearson, vă amintiţi,
aţi inclus cele două variabile în lista varia-
bilelor supuse analizei, apoi aţi bifat caseta
„Pearson”. În cazul nostru, lucrurile stau la
fel, cu o singură excepţie. Nu vom mai bifa
caseta „Pearson” din cadrul secţiunii „Cor-
relation Coefficients”, ci casetele „Ken-
dall’s tau-b” pentru a calcula coeficientul
Figura 1.32 – Fereastra de analiză a
corelaţiilor de corelaţie τ Kendall şi „Spearman” pen-
tru a calcula coeficientul de corelaţie ρ
Spearman. Alte explicaţii, la acest nivel, nu sunt necesare, toate aspectele
fiind lămurite anterior. Nu rămâne decât să apăsaţi butonul „OK” pentru ca
programul să iniţieze calculul acestor date.
Fereastra de rezultate va afişa un tabel, la fel cu tabelul 1.43, în care
sunt prezentate cele două analize bazate pe coeficientul de corelaţie τ Kendall
şi pe coeficientul de corelaţie ρ Spearman, ambii fiind, vă reamintim, coefici-
enţi de corelaţie ai rangurilor.
La fel ca în cazul coeficientului de corelaţie r Pearson, tabelul conţine
trei elemente: valoarea coeficientului de corelaţie, pragul de semnificaţie pen-
tru o ipoteză bilaterală (sau unilaterală dacă am specificat acest lucru în fe-
reastra de configurare a analizei) şi numărul de subiecţi investigaţi (n).
Situaţia noastră ar trebui să bucure sau să supere cercetătorul, în func-
ţie de modul în care şi-a formulat obiectivele. Se poate observa existenţa unor
coeficienţi de corelaţie nesemnificativi, foarte mici (τ=0,069, ρ=0,097) între
înălţimea şi greutatea subiecţilor.

137
Statistică aplicată în ştiinţele socio-umane

Tabelul 1.43 – Rezultatul analizei legăturii dintre înălţime şi greutate


Correlations
Înălţimea Greutatea
Kendall's tau_b Înălţimea Correlation Coefficient 1,000 ,069
Sig. (2-tailed) . ,491
N 50 50
Greutatea Correlation Coefficient ,069 1,000
Sig. (2-tailed) ,491 .
N 50 50
Spearman's rho Înălţimea Correlation Coefficient 1,000 ,097
Sig. (2-tailed) . ,503
N 50 50
Greutatea Correlation Coefficient ,097 1,000
Sig. (2-tailed) ,503 .
N 50 50

În concordanţă cu datele cercetării, nu există nicio legătură între înăl-


ţimea şi greutatea subiecţilor, cele două variabile fiind independente, iar noi
putem să nu respingem ipoteza nulă. O asemenea cercetare, presupunând că
am fi lucrat cu date reale, poate fi lipsită de valoare? Depinde de modul în
care explicăm rezultatele.
Înalţi-Slabi
Privind figura 1.33, în care am repre-
zentat grafic această relaţie, putem observa
câteva lucruri interesante. Există, într-adevăr,
o tendinţă către un tip de corelaţie pozitivă,
tendinţă anulată însă de două situaţii particula-
re: de existenţa unui grup de persoane foarte
Scunzi-Graşi
înalte şi foarte slabe şi de existenţa unui alt
Figura 1.33 – Relaţia dintre grup de persoane – ceva mai numeros – scunde
înălţime şi greutate
şi supraponderale. Lipsa unui coeficient de
corelaţie semnificativ se poate datora tocmai acestui lucru şi, putem suspecta,

138
Cristian Opariuc-Dan

influenţa unei variabile de grup – probabil tipul constituţional – pe care nu


am luat-o în considerare.
Analiza coeficientului de corelaţie τ Kendall ori a coeficientului de
corelaţie ρ Spearman se realizează la fel ca şi cea a coeficientului de corelaţie
r Bravais-Pearson, drept pentru care nu vom intra
în amănunte referitoare la acest lucru.
Cum vom proceda în condiţiile în care do-
rim să aflăm dacă există vreo legătură între genul
biologic al subiecţilor şi culoarea ochilor? Ambele
Figura 1.34 – Meniul de variabile sunt la un nivel de măsură nominal, iar
accesare a tabelelor de singura posibilitate pe care o avem este aceea de a
contingenţă.
utiliza tabelele de contingenţă.
În SPSS for Windows, construcţia şi analiza tabelelor de contingenţă
se află în cadrul meniului „Analyze” la „Descriptive Statistics” şi apoi opţiu-
nea „Crosstabs…”. Termenul semnifică ideea de „tabele încrucişate”, de fapt
chiar ideea conceptului menţionat
mai sus, cea de tabel de contingen-
ţă.
La accesarea acestei opţiuni
se va deschide o fereastră nouă,
fereastra de configurare şi de anali-
ză a tabelului de contingenţă. Fiind
un element nou, ne vom concentra
atenţia asupra formularului. Se ob-
servă câteva elemente comune: lista
variabilelor din baza de date, buto- Figura 1.35 – Fereastra de configurare şi analiză
nul de lansare a analizei „OK”, de a tabelelor de contingenţă

copiere a codului „Paste”, de reiniţializare a formularului „Reset”, de anula-

139
Statistică aplicată în ştiinţele socio-umane

re „Cancel” şi de asistenţă „Help”, alături de butoanele-săgeată de transfer.


Celelalte elemente sunt, în marea lor majoritate, controale noi, astfel încât le
vom trata în detaliu.
Listele „Row(s):” şi „Column(s):” se referă la variabilele ce vor fi
reprezentate pe liniile, respectiv pe coloanele tabelului de contingenţă. SPSS
permite atât analiza tabelelor de contingenţă bidimensionale, cât şi a celor
multidimensionale. Rezultă că putem include mai multe variabile în listele
„Row(s)” ori „Column(s)”, în vederea construcţiei unor tabele multidimensi-
onale.
Secţiunea „Layer” vizează includerea în analiză a uneia sau a mai
multor variabile de control, variabile care presupunem că ar putea influenţa
tabelul de contingenţă. De exemplu, dacă am studia relaţia dintre „culoarea
ochilor” şi „culoarea părului” şi am presupune că această relaţie este influen-
ţată de „genul biologic”, atunci am include variabila „gen biologic” în lista
„Layer”, aceasta funcţionând ca variabilă de control. Mai mult, SPSS ne
permite construcţia de modele ierarhice folosind variabile de control pentru a
vedea efectul exercitat de introducerea succesivă a acestora.
La includerea uneia sau a mai multor variabile în această listă, pro-
gramul efectuează analize separate pentru fiecare categorie a fiecărei variabi-
le de control introduse. Vom obţine, aşadar, o analiză a relaţiei dintre culoa-
rea ochilor şi culoarea părului pentru bărbaţi şi o altă analiză, separată, pentru
femei. Butoanele „Previous” şi „Next” permit navigarea prin modelele de
variabile de control în vederea adăugării sau în vederea modificării acestora.
Dacă bifaţi caseta „Display clustered bar charts”, comunicaţi pro-
gramului SPSS să construiască un grafic cu bare, grupat după o variabilă,
fiecare grup conţinând categoriile celeilalte variabile. În cazul nostru, SPSS
ar construi două grupuri de grafice cu bare – pentru femei şi pentru bărbaţi –
fiecare grup conţinând graficul cu bare pentru culoarea ochilor.

140
Cristian Opariuc-Dan

Bifarea casetei ”Suppress tables” are ca efect includerea tuturor tabe-


lelor de contingenţă într-unul singur (dezactivându-se şi butoanele „Cells…”
şi „Format…”). Personal nu recomand bifarea acestei opţiuni deoarece re-
zultatele pot să piardă foarte mult din lizibilitate. Caseta are efect numai asu-
pra modului de prezentare al datelor, nu şi asupra
procedurilor de calcul.
Apăsarea butonului „Exact…” determină
deschiderea formularului de configurare a teste-
lor de semnificaţie, furnizând o serie de metode
adiţionale.
Varianta „Asymptotic only” este metoda
implicită, bazată pe calculul nivelului de semni-
ficaţie în funcţie de tipul distribuţiei teoretice.
Figura 1.36 – Configurarea
testelor de semnificaţie Este, dacă doriţi, metoda clasică de calcul a sem-
nificaţiei, aşa cum a fost ea descrisă până acum,
în acest volum. O valoare este considerată semnificativă dacă pragul de sem-
nificaţie este mai mic de 0,05. Totuşi, varianta pleacă de la premisa că setul
de date este suficient de mare şi eterogen distribuit. Pentru un număr redus de
cazuri sau în condiţiile în care omogenitatea distribuţiei pune probleme,
această metodă poate să nu reprezinte un bun indicator al pragului de semni-
ficaţie.
Celelalte metode, „Monte Carlo” şi „Exact”, se vor folosi în condiţii-
le în care distribuţia datelor nu permite utilizarea metodei clasice.
Metoda „Monte Carlo” reprezintă o formă precisă de analiză a nive-
lului de semnificaţie, bazată pe simulare, derivată din calculul repetat, efec-
tuat pe mai multe eşantioane de tabele de contingenţă de aceleaşi dimensiuni
şi cu aceleaşi totaluri marginale ca şi tabelul analizat. Metoda „Monte Carlo”
permite estimarea precisă a pragului de semnificaţie, chiar în condiţiile în
care nu se poate aplica metoda clasică, asimptotică. Se poate folosi în cazul

141
Statistică aplicată în ştiinţele socio-umane

în care numărul subiecţilor este suficient de mare, însă avem de a face cu o


distribuţie problematică. Singurele elemente care trebuie configurate se referă
la nivelul de încredere („Confidence level”), care poate fi 95% pentru un
prag de semnificaţie de 0,05 sau 99% pentru un prag de semnificaţie de 0,01
şi numărul de eşantioane pe baza cărora se va face simularea („Number of
samples”). Valoarea implicită, 10.000, este suficientă. O valoarea mai mare
determină şi un nivel de precizie mai mare, însă consumă foarte mult din pu-
terea de calcul a procesorului.
Metoda „Exact” permite calcularea precisă a probabilităţii de apariţie
a unui răspuns. În mod normal, un nivel de semnificaţie mai mic de 0,05 este
considerat, şi aici, suficient, indicând existenţa unei relaţii între variabile.
Deoarece este o operaţiune de durată, poate fi configurată limita de timp per
fiecare test. Bifând caseta „Time limit per test” puteţi comunica programului
să nu execute teste care depăşesc durata menţionată.
În general nu prea avem motive să folosim altă metodă decât cea cla-
sică, asimptotică. Dacă totuşi doriţi să fiţi ex-
trem de precişi, puteţi folosi metoda „Monte
Carlo”. Utilizarea metodei „Exact” presupune
un computer foarte puternic şi multă răbdare,
analiza fiind de lungă durată. Uneori s-ar putea
să aveţi surpriza că vă îngheaţă calculatorul şi
singura variantă va fi să-l scoateţi din priză. Să
nu spuneţi că nu v-am avertizat!
Apăsarea butonului „Continue” permite
revenirea în formularul iniţial, cu memorarea
testului de semnificaţie dorit. Figura 1.37 – Configurarea
coeficienţilor de corelaţie
Butonul „Statistics…” ne interesează în
mod deosebit, deoarece din această fereastră putem alege indicatorii care ne

142
Cristian Opariuc-Dan

interesează. Formularul este foarte intuitiv, grupat pe secţiuni, conţine doar


casete de bifare. Remarcaţi o serie de indicatori pe care-i cunoaşteţi, dar şi
indicatori de care probabil nu aţi auzit. Haideţi să-i luăm pe fiecare în parte.
Caseta „Chi-square” se referă exact la coeficientul de contingenţă χ2.
Bifaţi această casetă pentru a calcula coeficientul de contingenţă Pearson χ2,
coeficientul de contingenţă probabilistic-proporţională χ2, testul de semnifica-
ţie Fisher şi coeficientul de contingenţă Yate χ2 corectat pentru continuitate.
Ştiu că nu aţi auzit de aceşti coeficienţi. În esenţă sunt forme derivate din χ2,
pentru a răspunde unor necesităţi specifice de cercetare. Spre exemplu, χ2
corectat pentru continuitate se foloseşte strict pentru tabele de continuitate
bidimensionale de tip 2x2, aşa cum am văzut deja. Pentru tabele bidimensio-
nale cu mai multe linii şi coloane, reperul este χ2 Pearson sau χ2 probabilistic
proporţional. Dacă cele două variabile nu sunt nominale sau ordinale, ci se
situează la un nivel scalar, cel mai bun indicator va fi coeficientul de asociere
liniară χ2. Testul de semnificaţie Fisher se foloseşte doar pentru tabele 2x2, în
cazul în care frecvenţa aşteptată la nivelul unei celule este mai mică de 5. Nu
vă impacientaţi. Toate aceste elemente le vom discuta în momentul în care
vom analiza rezultatele.
Caseta „Correlations” o puteţi folosi în condiţiile în care tabelul de
contingenţă conţine date aflate la un nivel ordinal sau scalar. Se va calcula
coeficientul de corelaţie ρ Spearman dacă datele se află la un nivel ordinal
sau/şi coeficientul de corelaţie r Pearson dacă datele se află la un nivel scalar.
Iată cel puţin un motiv pentru care este important să definim corect nivelul de
măsură atunci când proiectăm baza de date.
Secţiunea „Nominal” se referă la coeficienţi de asociere pentru date
nominale. Puteţi bifa caseta „Contingency coefficient” pentru a calcula coe-
ficientul de contingenţă, caseta „Phi and Cramer’s V” pentru a calcula coe-
ficienţii de contingenţă φ Pearson şi v Cramer, caseta „Lambda” pentru coe-
ficientul de asociere λ Goodman şi Kruskal, acela care permite realizarea

143
Statistică aplicată în ştiinţele socio-umane

unui fel de predicţii şi caseta „Uncertainty coefficient”, cu ajutorul căreia


calculaţi coeficientul de incertitudine. Acesta din urmă nu a fost studiat, însă
seamănă mult cu coeficientul λ Goodman şi Kruskal. Măsoară, de asemenea,
reducerea proporţională a erorilor atunci când o variabilă este folosită pentru
a prezice o altă variabilă.
Secţiunea „Ordinal” permite calculul coeficienţilor de corelaţie în si-
tuaţia în care variabilele se află la un nivel ordinal. Bifarea casetei „Gamma”
permite calculul coeficientului de corelaţie γ, pe care l-am studiat. Casetele
„Kendall’s tau-b” şi „Kendall’s tau-c” permit calculul variantelor b şi c ale
coeficientului de corelaţie al rangurilor τ Kendall. Singura diferenţă dintre cei
doi coeficienţi este aceea că τb ţine seama de rangurile egale iar τc nu ţine
seama de aceste ranguri. Caseta „Somer’s d” oferă posibilitatea calculului
coeficientului de corelaţie d Somers. Acest indicator nu a fost studiat, însă se
foloseşte ca şi coeficientul ce corelaţie ρ Spearman sau τ Kendall
Secţiunea „Nominal by Interval” se referă la cazul în care o variabilă
se află la un nivel de măsură de interval iar o altă variabilă este nominală.
Singurul coeficient pus la dispoziţie de SPSS este coeficientul η (eta), pe care
nu l-am analizat în detaliu în această lucrare. Coeficientul este unul nedirecţi-
onal, ia valori între 0 şi 1 şi exprimă intensitatea legăturii dintre o variabilă
nominală şi una ordinală sau scalară.
În „imensa lor generozitate”, plătită, desigur, cu bani grei, programa-
torii de la SPSS Inc. ne oferă o serie de indicatori suplimentari, astfel:
Caseta „Kappa” ne oferă o măsură a acordului. De fapt calculează co-
eficientul Cohen κ, un coeficient asemănător coeficientului de concordanţă W
Kendall. SPSS nu oferă o modalitate directă de calcul a coeficientului de
concordanţă W Kendall, deşi include această procedură în anumite teste sta-
tistice. Oricum, coeficientul κ Cohen se poate folosi ca o alternativă la coefi-
cientul W Kendall în situaţia în care ambele variabile au acelaşi număr de
categorii şi aceleaşi valori ale categoriilor.

144
Cristian Opariuc-Dan

Caseta „Risk” nu se referă la riscul de a vă pierde buna dispoziţie ci-


tind această carte, ci reprezintă un coeficient care măsoară puterea legăturii
dintre prezenţa unui factor şi apariţia unui eveniment. Dacă doriţi să studiaţi
relaţia dintre prezenţa soacrei şi apariţia unui
conflict în familie, acesta este coeficientul care
vi se potriveşte cel mai bine.
Coeficientul „McNemar” studiază legă-
tura dintre două variabile dihotomice şi se ba-
zează tot pe χ2. Se foloseşte, de obicei, în cerce-
tări de tipul „înainte şi după”, pentru a se identi-
fica modificarea răspunsurilor în urma apariţiei
unei situaţii experimentale.
Celălalt element din această fereastră nu Figura 1.38 – Configurarea
prezintă un interes deosebit pentru subiectul datelor în tabele

nostru, referindu-se mai mult la studiul diferenţelor decât la studiul corelaţii-


lor, motiv pentru care îl vom discuta cu altă ocazie.
Butonul „Cells…” permite configurarea datelor ce vor fi prezentate în
tabelele de contingenţă.
Secţiunea „Counts” are două casete de bifare: „Observed” şi „Ex-
pected”. Ele permit afişarea în tabelul de contingenţă a frecvenţelor actuale
(observate) şi/sau a frecvenţelor estimate (teoretice) în condiţiile în care se
lucrează cu χ2.
Secţiunea „Percentages” permite adăugarea şi a frecvenţelor relative
(procente) pentru variabilele situate pe linii („Row”) şi/sau pentru variabilele
situate pe coloane („Column”) ori la nivelul rezultatelor marginale („Total”).
Reziduurile nu reprezintă altceva decât diferenţa dintre scorul obser-
vat şi cel estimat. Controlul afişării acestor elemente se realizează prin inter-
mediul secţiunii „Residuals”. Acestea se pot afişa în formă brută, nestandar-

145
Statistică aplicată în ştiinţele socio-umane

dizată („Unstandardized”), ca diferenţă între numărul de cazuri observate şi


numărul de cazuri estimate. Ca să vă reamintiţi, numărul de cazuri observate
reprezintă numărul de subiecţi din baza de date care au acea caracteristică, iar
numărul de cazuri estimate (teoretice) se referă la numărul de cazuri care ar
trebui să existe în celula respectivă dacă nu ar exista nicio relaţie între cele
două variabile. Dacă rezultatul acestui reziduu este pozitiv, atunci înseamnă
că numărul de cazuri din acea celulă este mai mare în comparaţie cu situaţia
în care cele două variabile ar fi independente.
Forma standardizată se poate afişa prin bifarea opţiunii „Standard-
ized”. SPSS va calcula raportul dintre valoarea reziduală brută şi abaterea
standard a acestei estimări. Aceste date sunt reprezentate pe o distribuţie z cu
media 0 şi abaterea standard 1, având aceeaşi semnificaţie ca şi scorurile z.
Din acest motiv se mai numesc şi reziduuri Pearson.
Bifarea casetei „Adjusted standardized” permite afişarea reziduurilor
în formă standardizată, exprimate însă ca abateri standard în jurul mediei.
Este, dacă doriţi, un fel de „etalonare” în unităţi sigma a reziduurilor.
Secţiunea „Noninteger Weights” are în vedere modul de reprezentare
a rezultatelor în celulele tabelului de contingenţă. În mod normal, celulele
tabelului de contingenţă conţin numere întregi. Sunt însă situaţii în care se
pot opera deplasări ori ponderări. O deplasare cu o valoare fracţionară (spre
exemplu o multiplicare a tuturor datelor cu o constantă de tipul 1,19) va de-
termina afişarea în celulele tabelului a unor numere zecimale. Aceste valori
pot fi rotunjite sau trunchiate folosindu-se opţiunile acestei secţiuni.
Opţiunea „Round cell counts” are ca efect rotunjirea valorilor din ba-
za de date înainte de a se efectua calculele statistice.
Opţiunea „Truncate cell counts” are ca efect trunchierea valorilor din
baza de date înainte de a se efectua calculele statistice. Diferenţa dintre rotun-
jire şi trunchiere constă în faptul că la rotunjire valorile zecimale se transfor-

146
Cristian Opariuc-Dan

mă în întregi în sensul superior (de exemplu 1,39 va fi rotunjit la 2), iar la


trunchiere valorile zecimale se transformă în întregi, în sensul inferior (1,39
va fi trunchiat la 1). Operaţiunile nu afectează datele din baza de date, ci doar
rezultatele calculelor statistice.
Opţiunea „Round case weights” are ca efect rotunjirea datelor direct
în baza de date înaintea efectuării oricăror calcule
statistice.
Opţiunea „Truncate case weights” are ca
efect trunchierea datelor direct în baza de date
înaintea efectuării oricăror calcule statistice.
Figura 1.39 – Configura-
Desigur, opţiunea „No adjustments” nu rea formatării datelor
efectuează nicio ajustare, datele fiind folosite aşa
cum sunt.
Ultimul buton rămas este butonul „Format…” care controlează ordi-
nea de sortare a variabilei reprezentate pe linii.
Putem opta pentru o sortare ascendentă a categoriilor variabilei repre-
zentată pe linii (alegând opţiunea „Ascending”) sau pentru o sortare descen-
dentă, de la mare la mic, a aceleiaşi variabile (alegând opţiunea
„Descending”).
Acestea sunt, în mare, opţiunile referitoare la construcţia şi analiza ta-
belelor de contingenţă. Acum să revenim la problemele noastre. Ne-am pro-
pus să studiem relaţia existentă între genul biologic al persoanelor şi culoarea
ochilor. Ambele sunt variabile situate la nivel nominal, singurele statistici ce
pot fi calculate sunt cele bazate pe date nominale.
În lista „Row(s)” vom include genul biologic iar în lista „Column(s)”
includem culoare ochilor. Vom bifa şi caseta „Display clustered bar charts”
pentru a forţa SPSS să reprezinte graficul cu bare al acestor variabile şi…

147
Statistică aplicată în ştiinţele socio-umane

cam atât. Opţiunea de calcul a testelor de semnificaţie va rămâne cea implici-


tă – opţiunea asimptotică, astfel încât putem ignora butonul „Exact…”. Buto-
nul „Statistics…” ne interesează ceva mai mult. Aici vom bifa caseta „Chi-
Square”, pentru a calcula coeficienţii χ2. De asemenea, în secţiunea „Nomi-
nal” vom calcula coeficientul de contingenţă şi coeficienţii φ şi v Cramer.
Celelalte casete nu le vom bifa deoarece nu suntem în situaţia de a încerca
predicţii şi nici nu avem variabile situate la vreun nivel superior de măsură.
Apăsând butonul „Cells…” vom comunica programului modalitatea
de afişare a rezultatelor. Dorim să prezentăm atât frecvenţele aşteptate cât şi
cele observate, ne interesează şi toate reziduurile. După bifarea opţiunilor
respective, putem apăsa butonul „Continue” pentru a reveni la formularul
iniţial şi apoi butonul „OK” în vederea lansării analizei.
Acum, dacă veţi privi în fereastra de afişare a rezultatelor, veţi rămâne
surprinşi. SPSS a generat nu mai puţin de patru tabele şi un grafic.
Tabelul 1.44– Sumarul analizei
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Genul biologic * 50 100,0% 0 ,0% 50 100,0%
Culoarea ochilor

Primul tabel se referă la sumarul analizei. Se poate observa că toţi cei


50 de subiecţi au scoruri la cele două variabile, nu există cazuri lipsă, datele
sunt utilizabile 100%.
Al doilea tabel nu este altceva decât tabelul încrucişat de contingenţă.
Se poate observa reprezentarea pe coloane a variabilei „culoarea ochilor”, în
timp ce pe linii este reprezentată variabila „gen biologic”. Datele din acest
tabel ne oferă informaţii valoroase referitoare la structura internă a analizei şi
vor trebui incluse în orice raport de cercetare. Iată o primă situaţie în care ar

148
Cristian Opariuc-Dan

fi trebuit să folosim opţiunile de rotunjire sau trunchiere fără afectarea bazei


de date. Veţi vedea imediat de ce.
Ce ne spune acest tabel? În primul rând avem un număr de 34 de băr-
baţi. Dintre aceştia, 5 au ochi albaştri, 5 au ochi verzi, 16 au ochi căprui şi 8
au ochi negri. Similar, am investigat 16 femei: 3 cu ochi albaştri, 3 cu ochi
verzi, 7 cu ochi căprui şi 3 cu ochi negri. Frecvenţele estimate, pentru bărbaţi,
sunt: 5,4 pentru ochi albaştri, 5,4 pentru ochi verzi, 15,6 pentru ochi căprui,
7,5 pentru ochi negri. Situaţia este redată în mod analog şi pentru femei. To-
tuşi, ce înseamnă, spre exemplu, 5,4? Înseamnă cumva cinci bărbaţi şi jumă-
tate? La acest nivel de măsură ar fi fost mai bine să folosim opţiunile de ro-
tunjire pentru a evita asemenea exprimări zecimale. Când folosim însă trun-
chierea, şi când folosim rotunjirea? În general, dacă baza de date conţine un
număr mare de cazuri vom folosi trunchierea. Chiar dacă pierdem informaţie,
câştigăm precizie. Dacă numărul de cazuri este relativ mic, este de preferat să
utilizăm rotunjirea. Beneficiem de mai multă informaţie în detrimentul preci-
ziei.
Următoarele linii din tabel se referă la reziduuri. Observăm că pentru
culorile deschise (albaştri şi verzi) bărbaţii se situează sub frecvenţa aştepta-
tă, în timp ce femeile se situează sub frecvenţa aşteptată la culorile închise
(căprui şi negri). Ne-am putea gândi la o predominanţă a culorilor închise
pentru bărbaţi şi a culorilor deschise pentru femei, deşi forma standardizată a
reziduurilor arată abateri mici de la situaţia în care nu ar exista nici o relaţie
între cele două variabile.

149
Statistică aplicată în ştiinţele socio-umane

Tabelul 1.45– Tabelul de contingenţă


Genul biologic * Culoarea ochilor Cross tabulation
Culoarea ochilor
Albastri Verzi Caprui Negri Total
Genul biologic Masculin Count 5 5 16 8 34
Expected Count 5,4 5,4 15,6 7,5 34,0
Residual -,4 -,4 ,4 ,5
Std. Residual -,2 -,2 ,1 ,2
Adjusted Residual -,4 -,4 ,2 ,4
Feminin Count 3 3 7 3 16
Expected Count 2,6 2,6 7,4 3,5 16,0
Residual ,4 ,4 -,4 -,5
Std. Residual ,3 ,3 -,1 -,3
Adjusted Residual ,4 ,4 -,2 -,4
Total Count 8 8 23 11 50
Expected Count 8,0 8,0 23,0 11,0 50,0

Presupunerile anterioare se confirmă în tabelul 1.46. Observăm că nu


există nicio legătură între cele două variabile. Nu se poate stabili nicio relaţie
între culoarea ochilor şi genul biologic al subiecţilor.
Tabelul 1.46– Coeficientul de contingență χ2
Chi-Square Tests
Asymp. Sig. (2-
Value df
sided)
Pearson Chi-Square ,361a 3 ,948
Likelihood Ratio ,359 3 ,949
Linear-by-Linear Association ,320 1 ,571
N of Valid Cases 50
a. 3 cells (37,5%) have expected count less than 5. The minimum expected count is 2,56.

Absenţa legăturii este confirmată şi de coeficienţii de asociere derivaţi


2
din χ . Într-adevăr, putem să nu respingem ipoteza nulă conform căreia nu
există nicio legătură între culoarea ochilor şi genul biologic al subiecţilor.

150
Cristian Opariuc-Dan

Tabelul 1.47– Coeficienţi de asociere derivaţi din χ2


Symmetric Measures
Value Approx. Sig.
Nominal by Nominal Phi ,085 ,948
Cramer's V ,085 ,948
Contingency Coefficient ,085 ,948
N of Valid Cases 50

Reprezentarea grafică
a datelor vine în sprijinul de-
monstraţiei cifrice. Genul
persoanelor investigate nu are
nicio legătură cu culoarea
ochilor acestora. Graficul ara-
tă doar o preponderenţă a
ochilor căprui la ambele sexe
şi o oarecare frecvenţă mai
ridicată a ochilor negri la băr-
baţi. Culorile deschise au în
Figura 1.40 – Reprezentarea grafică a relaţiei dintre
culoarea ochilor şi genul biologic. continuare o frecvenţă scăzută,
atât la bărbaţi cât şi la femei.
Iată că prin procedee neparametrice, situate chiar la un nivel nominal, s-a
putut demonstra o ipoteză de cercetare.
Înainte de a încheia, vom furniza câteva exemple, fără a intra în deta-
lii, pentru a vă putea familiariza cu procedurile de lucru.
Să presupunem că dorim să aflăm relaţia dintre culoarea ochilor şi
gradul militar, adică să vedem dacă, într-adevăr, coloneii au „ochi albaştri”.
Suntem în situaţia analizei legăturii între o variabilă nominală (culoarea ochi-
lor) şi o variabilă ordinală (gradul militar). În acest caz avem două posibili-
tăţi. Fie abordăm analiza la nivel nominal, la fel cum am procedat anterior,

151
Statistică aplicată în ştiinţele socio-umane

deoarece una dintre variabile se află la acest nivel şi aplicăm principiul „ana-
lizei bazate pe variabila cea mai slabă”, fie folosim coeficientul η, coeficient
care relaţionează o variabilă nominală cu una ordinală sau scalară. Noi vom
aborda ambele situaţii. Prin urmare, includem pe linii variabila „culoarea
ochilor” şi pe coloane „gradul militar”. Bifăm şi caseta „Display clustered bar
charts” pentru a putea afişa grafic variabilele, apoi alegem opţiunile „Chi-
square”, „Contingency coefficient”, „Phi and Cramer’s V”, dar şi opţiunea
„Eta” din fereastra de configurare a statisticilor. Vom considera că una dintre
variabile nu îndeplineşte condiţiile testării asimptotice şi vom alege metoda
„Monte Carlo” din fereastra de configurare a testelor de semnificaţie. În final,
apăsăm butonul „OK” pentru a lansa analiza.
Nu vom furniza toate tabelele, majoritatea fiind identice cu cele din
analiza de mai sus.
Tabelul 1.48– Coeficienţi de asociere χ2
Chi-Square Tests
Monte Carlo Sig. (2-sided) Monte Carlo Sig. (1-sided)
99% Confidence 99% Confidence
Interval Interval
Asymp. Sig. Lower Upper Lower Upper
Value df (2-sided) Sig. Bound Bound Sig. Bound Bound
Pearson Chi-Square 13,004a 9 ,162 ,158b ,149 ,168
Likelihood Ratio 14,002 9 ,122 ,210b ,200 ,220
Fisher's Exact Test 11,963 ,159b ,149 ,168
Linear-by-Linear ,123c 1 ,725 ,769b ,758 ,779 ,397b ,384 ,409
Association
N of Valid Cases 50
a. 13 cells (81,3%) have expected count less than 5. The minimum expected count is ,80.
b. Based on 10000 sampled tables with starting seed 2000000.
c. The standardized statistic is -,351.
Constatăm că statisticile bazate pe χ2 sunt mult mai elaborate la utili-
zarea metodei Monte Carlo. Avem pragurile de semnificaţie atât pentru me-
toda clasică, asimptotică, dar şi pentru metoda Monte Carlo, alături de inter-
valele de încredere. Desigur, nu există nicio legătură între cele două variabile,

152
Cristian Opariuc-Dan

aşa cum reiese şi din tabelul 1.49, tabelul coeficienţilor de asociere derivaţi
din χ2.
Toţi cei trei coeficienţi de asociere calculaţi arată, din nou, lipsa core-
lației între cele două variabile. Oricum, se poate observa creşterea preciziei
pragului de semnificaţie la utilizarea metodei Monte Carlo în comparaţie cu
testul clasic.
Tabelul 1.49– Coeficienţi de asociere derivaţi din χ2
Symmetric Measures
Monte Carlo Sig.
99% Confidence Interval
Value Approx. Sig. Sig. Lower Bound Upper Bound
Nominal by Nominal Phi ,510 ,162 ,158a ,149 ,168
a
Cramer's V ,294 ,162 ,158 ,149 ,168
Contingency Coefficient ,454 ,162 ,158a ,149 ,168
N of Valid Cases 50
a. Based on 10000 sampled tables with starting seed 2000000.

Ultimul tabel analizat este cel al coeficientului de asociere η. Aici va


trebui să facem câteva precizări, deoarece asocierea se tratează direcţional.
Acest lucru înseamnă că avem o variabilă dependentă (variabila situată la
nivel scalar) şi o variabilă independentă (variabila situată la nivel nominal).
SPSS nu are de unde să ştie care este variabila dependentă şi care este varia-
bila independentă, prin urmare furnizează ambele valori. În cazul nostru, va-
riabila dependentă este „gradul militar” iar cea independentă „culoarea ochi-
lor”. Coeficientul care ne interesează este aşadar situat pe a doua linie – linia
care tratează gradul militar (η=0,184).
Tabelul 1.50– Coeficientul de asociere nominal – ordinal η
Directional Measures
Value
Nominal by Interval Eta Culoarea ochilor Dependent ,120
Grad militar Dependent ,184

153
Statistică aplicată în ştiinţele socio-umane

Remarcăm valoarea mică a acestei legături şi, de asemenea, lipsa pra-


gului de semnificaţie. SPSS nu furnizează valoarea semnificaţiei pentru acest
coeficient, ea fiind tratată la analizele folosind date nominale. De aceea coe-
ficientul η va fi întotdeauna însoţit de analize bazate pe χ2.
Un ultim exemplu îşi propune analiza relaţiei dintre ultima şcoală ab-
solvită şi gradul militar. Ambele variabile se află la nivel ordinal, astfel încât
putem bifa şi caseta „Correlations”, dar şi ceilalţi coeficienţi de corelaţie pen-
tru date ordinale: „Gamma”, „Sommers’ d”, Kendall’s tau-b” şi „Kendall’s
tau-c”. Dacă aveţi curaj, alegeţi opţiunea „Exact” cu limitare la 5 minute,
pentru a vedea cum funcţionează şi acest element. Apoi salvaţi dacă aţi lucrat
ceva, lansaţi analiza şi luaţi-vă o mică pauză. Glumeam! Numărul mic de
date permite analiza rapidă a acestora.
Observăm că legătura dintre cele două variabile este semnificativă la
un prag de semnificaţie mai mic de 0,01, prag furnizat atât de testul clasic de
semnificaţie, cât şi de testul exact. Coeficienţii au valori ridicate, fapt care
indică existenţa unei legături pozitive, semnificative şi puternice între gradul
militar şi ultima şcoală absolvită. Desigur, gradele militare înalte presupun şi
studii pe măsură, relaţia nefiind un fapt surprinzător.
Tabelul 1.51– Coeficienţi de corelaţie pentru date aflate la nivel ordinal
Symmetric Measures
Asymp. Std.
Value Errora Approx. Tb Approx. Sig. Exact Sig.
Ordinal by Ordinal Kendall's tau-b ,742 ,040 16,127 ,000 ,000
Kendall's tau-c ,661 ,041 16,127 ,000 ,000
Gamma ,942 ,040 16,127 ,000 ,000
c
Spearman Correlation ,823 ,034 10,025 ,000 ,000
Interval by Interval Pearson's R ,780 ,041 8,629 ,000c ,000
N of Valid Cases 50
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on normal approximation.

154
Cristian Opariuc-Dan

Exerciţii:
Analizaţi şi interpretaţi legăturile dintre: „gen biologic” şi „grad mi-
litar”, „culoarea ochilor” şi „ultima şcoală absolvită”, „gen biologic” şi
„greutate”. Explicaţi şi argumentaţi utilizarea coeficienţilor.
Vă voi lăsa acum în compania SPSS să vă jucaţi cu opţiunile şi cu in-
dicatorii corelaţiilor, să experimentaţi mai multe variante, deoarece numai aşa
veţi putea să vă perfecţionaţi. Nu vom încheia însă acest capitol, decât după
ce vom realiza câteva referiri generale la modul de raportare al studiilor core-
laţionale.

I.5.3 Raportarea studiilor corelaţionale


Pe parcursul acestui capitol am făcut deseori referire la stilul, modul
în care se pot raporta studiile de tip corelaţional. Desigur, nu există un şablon
standard de raportare, acest lucru rămânând la latitudinea, experienţa şi talen-
tul cercetătorului. Există însă o serie de principii generale a căror respectare
vă poate scuti de surpriza neplăcută a respingerii vreunei lucrări.
Am menţionat deja că la raportarea unei corelaţii sunt importante trei
elemente: intensitatea corelaţiei, dată de valoarea coeficientului de corelaţie,
sensul corelaţiei, doar pentru coeficienţii direcţionali, dat de semnul coefici-
entului de corelaţie şi pragul de semnificaţie. Unii autori (Field, 2000) afir-
mă că este importantă raportarea efectului, sub forma varianţei comune. De-
sigur, pot fi formulate şi o serie de reguli, în general mai mult sau mai puţin
acceptate şi respectate:
1. Nu se recomandă scrierea cifrei 0 înaintea punctului zecimal,
deoarece reprezintă o exprimare redundantă atâta timp cât şi
coeficientul şi pragul de semnificaţie au o amplitudine cuprin-
să între 0 şi 1. Prin urmare, nu se recomandă publicarea unui

155
Statistică aplicată în ştiinţele socio-umane

coeficient de corelaţie r Bravais-Pearson sub forma r=0,57, ci


în forma r= ,57 sau r= .57. La fel raportăm şi pragul de semni-
ficaţie. Nu vom scrie p<0,01 ci p< .01 sau p< ,05. Desigur, eu
nu am respectat această regulă din considerente didactice. În
mod normal o respect în lucrările ştiinţifice şi vă recomand şi
dumneavoastră să o faceţi.
2. Se recomandă precizarea situaţiei în care s-a utilizat o ipoteză
unilaterală (unidirecţională). Neprecizarea acestui lucru
determină, implicit, considerarea ipotezei ca fiind bilaterală. În
general, ipotezele bilaterale nu se specifică, ci se specifică
doar ipotezele unilaterale. Dacă aveţi o ipoteză de tipul „există
o legătură pozitivă între anxietate şi depresie”, aceasta este o
ipoteză unilaterală. Regula impune o raportare de genul r= ,87;
p(unilateral) < ,01 sau, dacă publicaţi în străinătate, r= .87; p(one-
tailed) < .01

3. Fiecare coeficient de corelaţie se exprimă printr-o anumită


literă, în general acceptată în literatura de specialitate. De
exemplu, coeficientul de corelaţie Bravais-Pearson se
reprezintă prin litera r, coeficientul Spearman prin ρ şi aşa mai
departe, după cum aţi observat. Va trebui să respectaţi această
notaţie. Totuşi, în situaţia în care folosiţi alte simboluri (repet,
situaţie care trebuie evitată), sunteţi obligat să furnizaţi o
legendă explicativă a acestora, însoţită de formulele, expresiile
de calcul.
4. În ştiinţele socio-umane, pragul de semnificaţie acceptat este
de .05. Am susţinut deja că, în general, o cercetare nu implică
raportarea exactă a acestui prag ci raportarea sub forma unei
inegalităţi. Aşadar, nu folosiţi niciodată expresia p= .000 sau

156
Cristian Opariuc-Dan

p= .003 ci expresii de forma p< .05, p< .01 sau p< .001, acesta
fiind şi standardul raportărilor ştiinţifice.
5. Un prag de semnificaţie p= .05 nu este semnificativ. Sunt
semnificative doar pragurile mai mici de .05, nu şi cele egale
cu această valoare. În ştiinţele sociale, de obicei raportăm
semnificaţii mai mici de .05 sau mai mici de .01. Foarte rar
ajungem la niveluri mai mici de .001 şi în mod excepţional la
praguri de semnificaţie mai mici de .0001.
În sfârşit am ajuns şi la finalul acestui capitol. A fost, într-adevăr, un
capitol destul de lung, însă şi informaţia a fost consistentă. Acum sper că
aveţi o idee precisă asupra semnificaţiei conceptului de corelaţie, mai exact a
celui de legătură între variabile. Puteţi să fiţi mândri şi să daţi lecţii colegilor
în domeniul studiilor corelaţionale, însă nu vă bucuraţi prea tare, deoarece
avem de discutat lucruri cel puţin la fel de interesante.
Luaţi-vă o pauză. Mergeţi la un grătar, la iarbă verde, relaxaţi-vă, de-
oarece imediat vom aborda un alt capitol, şi anume cel al testelor statistice.

În concluzie:
 Relaţiile stabilite în urma analizei a două variabile poartă numele de analize biva-
riate, spre deosebire de analizele univariate care au în vedere doar o singură vari-
abilă;
 Gradul de asociere între două variabile se bazează pe conceptul ce covarianţă. Mă-
sura standardizată a covarianţei poartă numele de corelaţie;
 Coeficienţii de corelaţie pot fi parametrici şi neparametrici, după cum cele două
variabile îndeplinesc sau nu condiţiile de aplicare ale statisticilor parametrice;
 Coeficientul de corelaţie a rangurilor ρ Spearman se poate folosi, în general, pen-
tru variabile ordinale provenite din variabile continui sau pentru variabile continui
care nu îndeplinesc condiţiile necesare aplicării statisticilor parametrice;
 Coeficientul de corelaţie a rangurilor τ Kendall are mai multe forme, se bazează pe
calculul inversiunilor şi al proversiunilor şi se foloseşte pentru variabile aflate na-
tural la un nivel de măsură ordinal sau pentru variabile cantitative care nu îndepli-
nesc condiţiile de aplicare a statisticilor parametrice;

157
Statistică aplicată în ştiinţele socio-umane

 Coeficientul de contingenţă χ2 are mai multe forme şi se foloseşte în cazul variabile-


lor nominale, în calcule bazate pe tabele de contingenţă. Este un coeficient nedirec-
ţional şi nestandardizat;
 Coeficientul de asociere φ este o formă standardizată a coeficientului χ2 şi se utili-
zează, în general, pentru două variabile dihotomice. În cazul în care una dintre va-
riabile nu mai este dihotomică, acest coeficient nu are relevanţă;
 Coeficientul de contingenţă Pearson (cc) este o variantă a coeficientului φ, care
poate fi utilizată pentru variabile cu mai multe categorii;
 Coeficientul de contingenţă Tschuprow (t) se bazează tot pe coeficientul φ şi ţine
seama de acesta şi de numărul de categorii din cadrul fiecărei variabile, fiind o
formă ajustată a coeficientului φ;
 Coeficientul de asociere Cramer (V) se foloseşte dacă cel puţin una dintre variabile
este polihotomică, fiind bazat direct pe χ2;
 Coeficientul de asociere Goodman şi Kruskal (λ) măsoară reducerea proporţională
a erorilor într-un tabel de contingenţă, fiind folosit pentru variabile strict ordinale
în scop predictiv;
 Coeficientul de asociere Goodman şi Kruskal (γ) are la bază variabile ordinale, es-
te similar cu τ Kendall şi se calculează ţinând cont de numărul perechilor concor-
dante şi discordante;
 Coeficienţii tetrachoric, polichoric şi poliserial se folosesc pentru variabile dihoto-
mice provenind din variabile continui sau pentru variabile ordinale, condiţia fiind
aceea a provenienţei din variabile continui;
 Coeficientul de concordanţă Kendall (W) se bazează pe ranguri şi permite aprecie-
rea gradului de acord dintre evaluatori. Datele folosite sunt date ordinale;
 Coeficientul de corelaţie rang biserială oferă expresia legăturii dintre o variabilă
dihotomică şi o variabilă ordinală;
 Coeficientul de corelaţie r Bravais-Pearson este cel mai cunoscut coeficient de co-
relaţie pentru date parametrice şi se foloseşte la analiza legăturilor dintre două va-
riabile cantitative care îndeplinesc toate condiţiile aplicării testelor parametrice;
 Coeficienţii de corelaţie biserial, punct biserial şi triserial se folosesc pentru anali-
za asocierii dintre o variabilă scalară şi o variabilă nominală, dihotomică sau
polihotomică. Diferenţa dintre aceştia este dată de natura dihotomiei – dihotomie
discretă sau continuă;
 Coeficientul de corelaţie eneahoric permite asocierea unor variabile polihotomice,
polihotomia fiind una continuă;
 Corelaţiile parţiale, atât cele parametrice cât şi cele neparametrice, au în vedere
analiza relaţiei dintre două variabile în condiţiile în care se menţine controlul asu-
pra unei a treia variabile, susceptibilă de a influenţa comportamentul celorlalte do-
uă variabile analizate.
 Raportarea corelaţiei presupune raportarea intensităţii acesteia, a sensului şi a
pragului de semnificaţie;

158
Cristian Opariuc-Dan

 Gradele de libertate arată numărul de cazuri luate în calcul pentru un indicator


statistic, în condiţiile în care există cel puţin o şansă de alegere;
 Mărimea efectului arată proporţia de varianţă comună a variabilelor şi se obţine
prin ridicarea la pătrat a coeficientului de corelaţie;
 Analiza corelaţiei nu constă doar în interpretarea numerică, ci presupune obligato-
riu şi analiza grafică;

159
Statistică aplicată în ştiinţele socio-umane

II. DIFERENŢE STATISTICE BIVARIATE


În acest capitol se va discuta despre:

Planuri de cercetare;

Ipoteze şi variabile specifice statisticilor infe-
renţiale;
 Teste statistice pentru date parametrice şi pentru
date neparametrice;
 Relevanţa şi utilizarea testelor statistice;
După parcurgerea capitolului, cititorii vor fi capabili să:
 Înţeleagă rolul şi importanţa planurilor de cerce-
tare;
 Identifice şi să proiecteze cercetări bazate pe
planuri inferenţiale;
 Analizeze şi să interpreteze rezultatele testelor
statistice;
 Utilizeze SPSS în calculul testelor statistice.

Studiul relaţiilor între variabile reprezintă doar o mică parte din arse-
nalul analizei de date pe care îl are la dispoziţie specialistul în ştiinţe socio-
umane pentru a desfăşura o cercetare ştiinţifică. Desigur, cercetările corelaţi-
onale se folosesc atunci când dorim să investigăm legătura dintre două varia-
bile (de exemplu legătura dintre coeficientul de inteligenţă şi performanţa
şcolară) şi fac obiectul aşa-numitelor planuri de cercetare de tip corelaţional.
Cum procedăm, însă, atunci când suntem interesaţi de studiul diferenţelor
statistice? Care ar fi abordarea în situaţia unei întrebări de genul: „există dife-
renţe determinate de genul biologic sub aspectul performanţei la matemati-
că?”. În acest caz, un plan de cercetare corelaţional nu ne este de prea mare
folos. Suntem, din nou, în faţa unei provocări. Provocarea analizei inferenția-
le sub aspectelor diferențelor statistice bivariate.
Deşi îşi găseşte locul mai degrabă într-o lucrare din domeniul metodo-
logiei cercetării, următorul subcapitol nu poate fi trecut cu vederea. Vom dis-

160
Cristian Opariuc-Dan

cuta, aşadar, despre planurile de cercetare şi vom vedea o altă clasificare a


variabilelor.

II.1 Planuri de cercetare


Titlul nu ar trebui să vă sperie. Conceptul a fost deja folosit, numai că
a venit momentul să-l tratăm în detaliu. Un design de cercetare este un plan
care permite atribuirea subiecţilor în diferite condiţii experimentale,
împreună cu modalităţile de analiză a datelor rezultate (Kirk, 1995). Ace-
laşi autor stipulează o serie de etape care presupun crearea unui design de
cercetare (Kirk, 1995):
1. Formularea ipotezelor statistice derivate din ipotezele ştiinţifice;
2. Determinarea condiţiilor de cercetare;
3. Specificarea numărului de subiecţi care urmează să participe la cerce-
tare, precum şi populaţia din care vor fi extraşi;
4. Specificarea procedurii de atribuire a subiecţilor în diferitele condiţii
de cercetare;
5. Precizarea tehnicilor ce vor fi folosite pentru analiza datelor.
Până în acest moment, am lucrat cu mai multe clasificări ale variabile-
4
lor . Am văzut că acestea pot fi discrete şi continui, parametrice şi neparame-
trice sau, mai detaliat, variabile nominale, ordinale, de interval şi de raport.
Atunci când lucrăm cu planuri de cercetare, se impune o nouă distincţie la
acest nivel. Putem vorbi despre variabile independente – variabilele ce vor
fi manipulate de către cercetători, variabile dependente – variabilele ce vor
fi măsurate pentru a vedea efectul exercitat de variabilele independente şi
variabile confundate – variabile ce nu sunt luate iniţial în calcul, dar care
pot exercita efecte necontrolate asupra variabilelor dependente.

4
Desigur, ne referim la clasificările prezentate în lucrarea anterioară.

161
Statistică aplicată în ştiinţele socio-umane

În linii mari, un plan de cercetare identifică cele trei tipuri de variabile


enumerate mai sus, precum şi modul în care vor fi selectaţi şi distribuiţi parti-
cipanţii şi, de asemenea, metodele şi tehnicile statistice care vor fi folosite.
Să presupunem că doriţi să studiaţi posibilităţile de abandon a fumatu-
lui. Aveţi la dispoziţie un tratament medicamentos şi un tratament bazat pe
ceaiuri din plante. În acest caz, variabila independentă va fi: „tipul tratamen-
tului”, cu două grade de intensitate – medicamentos şi naturist. Aceasta este
variabila pe care o manipulaţi dumneavoastră. Veţi dori să ştiţi care dintre
cele două forme de tratament influenţează mai puternic abandonul fumatului.
Variabila dependentă poate fi operaţionalizată prin numărul de ţigări fumate
zilnic. Aceasta este măsura abandonului. Ca variabile confundate, putem găsi
o mulţime: vizualizarea unui clip publicitar, anturajul, preţul ţigărilor, chiar şi
genul biologic ori mediul de provenienţă. Toate aceste variabile pot influenţa
abandonul fumatului, însă cercetarea nu le-a izolat, efectele acestora rămâ-
nând necunoscute.
Părintele planurilor de cercetare a fost Sir Ronald A. Fisher, care în
anul 1935, a propus primul principiu al acestora – caracterul aleatoriu. Până
atunci, cercetătorii foloseau aşa-numitele scheme de cercetare sistematice, în
care subiecţii proveneau din loturi de cercetare selectate, neavând un caracter
aleatoriu (Fisher, 1971). Iniţial privit cu suspiciune şi ostilitate, acest princi-
piu a devenit, în timp, cheia de boltă a tuturor cercetărilor moderne. Prin atri-
buirea aleatorie a subiecţilor în condiţiile de cercetare, caracteristicile partici-
panţilor se distribuie uniform în toate aceste condiţii, astfel încât se pot mi-
nimaliza erorile determinate de atributele individuale, existând chiar posibili-
tatea măsurării efectului erorilor.
Un al doilea principiu formulat de Fisher se referă la posibilitatea re-
plicării. Replicarea este posibilitatea observării subiecţilor în condiţii de cer-
cetare identice. Prin aceste observări repetate se pot estima efectele erorilor,

162
Cristian Opariuc-Dan

cercetarea câştigând un plus de precizie sub aspectul efectelor generate de


variabila independentă.
Al treilea principiu este cel al controlului variabilelor confundate.
Prin aceste proceduri, un plan de cercetare va izola sursele de variaţie deter-
minate de alte variabile posibile şi va limita efectul acestora asupra variabile-
lor dependente. Există mai multe metode prin care se poate realiza acest lu-
cru. Una dintre acestea se referă la menţinerea constantă a variabilei confun-
date. De exemplu, dacă presupunem că genul biologic al subiecţilor poate
influenţa abandonul fumatului, vom efectua două cercetări, una pe bărbaţi şi
alta pe femei. O altă metodă se referă la tratarea variabilei confundate ca va-
riabilă de cercetare. Putem include, de exemplu, alături de variabila indepen-
dentă „tipul de tratament” şi variabila independentă „gen biologic”: Desigur,
cea mai bună metodă rămâne însă atribuirea aleatorie a subiecţilor în condiţii-
le de cercetare. În mod practic, procedura statistică de control a variabilelor
confundate poartă numele de analiză de covarianţă (ANCOVA) şi va fi expu-
să în cadrul aventurilor noastre în lumea statisticii.
Există un număr impresionant de planuri de cercetare, însă situaţiile
practice impun utilizarea doar a câtorva. În general, literatura de specialitate
distinge între (Kirk, 1995):
 Planuri de cercetare sistematice – rar folosite în prezent, deoa-
rece presupun existenţa unor loturi de cercetare selectate, iar lipsa
caracterului aleatoriu induce erori foarte mari. Dintre cele mai cu-
noscute planuri de cercetare de acest tip, menţionăm planurile de
tip „tablă de şah” sau „half-drill strip” ale lui Beavan, planul dia-
gonală de pătrat sau planul în pătrate al lui Knut Vik;
 Planuri aleatorii cu o singură variabilă independentă – repre-
zintă modele în care există o singură variabilă independentă, iar
subiecţii sunt atribuiţi aleatoriu în cadrul categoriilor determinate

163
Statistică aplicată în ştiinţele socio-umane

de această variabilă. Aceste planuri de cercetare pot accepta abso-


lut aleatoriu atribuirea subiecţilor în cadrul categoriilor variabilei
independente (cum este planul complet aleatoriu – CR-p) sau sub-
iecţii sunt atribuiţi aleatoriu, însă înainte de acest lucru apare o
etapă intermediară de construcţie a unor grupuri sau categorii
omogene ale variabilei independente (cum sunt planurile de tip
bloc incomplet balansat– BIP-p, planul încrucişat – CO-p, planul
cu blocuri aleatorii generalizate – GRB-p, planurile de tip pătrate
greco-latine – GLS-p şi HGLS-p şi altele;
 Planuri aleatorii cu două sau mai multe variabile independen-
te – similare planurilor de cercetare anterioare, cu singura diferen-
ţă a existenţei mai multor variabile independente. Şi aici avem do-
uă situaţii particulare. Putem vorbi despre planuri factoriale, în ca-
re nu există o relaţie de ordine între categoriile variabilelor inde-
pendente (planuri fără variabile confundate – CRF-pq, GRBF-pq,
RBF-pq, planuri cu tratarea variabilelor confundate la nivel de
grup – SPF-p.q, planuri cu interacţiunea variabilelor confundate la
nivel de grup – LSCF-pk şi planuri de tip tratare-interacţiune) şi
despre planuri ierarhice, în care se poate pune o relaţie de ordine
între categoriile variabilelor independente, ordine fie totală, fie
parţială;
 Planuri aleatorii cu una sau mai multe covarianţe – specifice
analizei de covarianţă, în care variabilele confundate sunt tratate
prin procedee similare tratării variabilelor independente;
 Planuri speciale – nu intră în niciuna dintre categoriile de mai
sus. De exemplu, planul cu patru grupuri al lui Solomon sau pla-
nul cu serii temporare întrerupte.

164
Cristian Opariuc-Dan

Nu vă speriaţi, nu le vom studia pe toate. Ne vom concentra atenţia


doar asupra câtorva, cele mai utilizate în sfera noastră de interes.

II.1.1 Planuri de cercetare de bază


Reprezintă modele de cercetare de bază, din combinarea acestora re-
zultând toate celelalte planuri de cercetare uzuale. Specialiştii în cercetarea
experimentală identifică trei asemenea modele: designul complet aleatoriu
(CR-p), designul aleatoriu cu blocuri (RB-p) şi designul pătratelor latine (LS-
p). Înţelegerea acestor modele vă permite să vă descurcaţi în toate planurile
de cercetare existente, acestea nefiind altceva decât combinaţii ale planurilor
de cercetare de bază.

II.1.1.1 Designul complet aleatoriu (CR-p)


Face parte din categoria planurilor cu o singură variabilă independen-
tă, în care subiecţii sunt distribuiţi absolut aleatoriu în categoriile acestei va-
riabile. Este, în mod cert, cel mai simplu plan de cercetare posibil şi perfect
adecvat exemplului nostru anterior. Un asemenea plan se numeşte plan de tip
CR-p (de la Completely Random), unde p reprezintă categoriile variabilei
independente.
În cazul nostru, ipoteza ştiinţifică pe care o vom verifica va fi aceea în
care presupunem că nu există nicio diferenţă între numărul de ţigări fumate
de persoanele care urmează tratamentul naturist, în comparaţie cu persoanele
Tabelul 2.1 – Plan de cercetare de tip CR-2 care urmează tratamentul medica-
Variabila independentă – Tip tratament mentos. De cele mai multe ori, ipote-
Grup 1 – Medicamentos 30 subiecţi
za ştiinţifică este formulată în termeni
Grup 2 – Naturist 30 subiecţi
prea generali pentru a putea fi verifi-
cată. Va fi necesară transformarea ei într-o ipoteză statistică:
H0:μmedi –μnatu = 0; H1:μmedi –μnatu ≠ 0

165
Statistică aplicată în ştiinţele socio-umane

Spre deosebire de ipoteza ştiinţifică, în acest caz vom afirma că „nu


există nicio diferenţă între media ţigărilor fumate de către subiecţii care ur-
mează un tratament medicamentos şi media ţigărilor fumate de subiecţii care
urmează un tratament naturist. Aceasta este ipoteza nulă cu care vom lucra,
expresia sa matematică fiind expusă mai sus. Atenţie, ne aflăm acum pe tere-
nul statisticilor inferenţiale! Din datele rezultate în urma studiului va trebui să
extindem cunoştinţele la nivelul întregii populaţii. De aceea, am folosit sim-
bolul pentru medie ca parametru şi nu simbolul mediei ca indicator.
Planul de cercetare este expus în tabelul 2.1. Evident, este un plan de
cercetare de tip CR-2, numărul minim de subiecţi necesar pentru a se putea
respecta regula aplicării statisticilor parametrice este de 60 de persoane. Pri-
mul grup, format din 30 de persoane va urma un tratament medicamentos, iar
al doilea grup de 30 de persoane urmează un tratament naturist.
La sfârşitul cercetării vom calcula media ţigărilor fumate de subiecţii
din primul grup şi media ţigărilor fumate de subiecţii din al doilea grup. Dacă
cele două medii diferă semnificativ, vom putea respinge ipoteza nulă şi vom
putea afirma că unul dintre cele două tratamente are un efect semnificativ mai
mare (sau mai mic) asupra variabilei dependente.
Totuşi, să vedem ce influenţează în realitate variabila dependentă. De-
sigur, modificările la nivelul variabilei dependente pot fi determinate de efec-
tul variabilei independente (de exemplu, cei care urmează un tratament natu-
rist se lasă mai repede de fumat în comparaţie cu ceilalţi). Aceasta să fie oare
singura explicaţie posibilă? Ce spuneţi de caracteristicile individuale ale par-
ticipanţilor? O persoană cu o voinţă puternică probabil că va abandona mai
uşor fumatul în comparaţie cu o persoană mai slabă. Pot să apară, de aseme-
nea, fluctuaţii în dispoziţia individului sau erori în procesul de colectare a
datelor. Un subiect s-a certat cu şeful iar acest lucru determină creşterea nu-
mărului de ţigări fumate, sau persoana care înregistrează datele va trece 21 de
ţigări într-o zi, îl loc de 11, doar pentru că se gândea la plata datoriilor din

166
Cristian Opariuc-Dan

bancă. În fine, teoretic, pot exista o infinitate de variabile confundate care să


influenţeze variabila dependentă.
Nu putem şti cu certitudine dacă modificările în comportamentul sub-
iecţilor se datorează, într-adevăr, influenţei exercitate de variabila indepen-
dentă sau au apărut alţi factori care le-au determinat. Dacă am conveni să
notăm subiecţii cu litera i, unde, în cazul nostru, i poate lua valori între 1 şi
60, iar cele două situaţii de cercetare cu litera k, unde k poate fi tratamentul
naturist sau tratamentul medicamentos, am putea sintetiza acest design de
cercetare sub forma:
Yik=μ + αk + εi(k)
Să nu ne speriem prea tare! Yik reprezintă scorul obţinut la variabila
dependentă de către subiectul i aflat în situaţia k. De exemplu, Costel este al
şaselea subiect din grupul supus tratamentului medicamentos, care fumează,
în medie, 15 ţigări pe zi. Costel va fi, atunci, Y62 iar valoarea acestui Y devine
15. Aceste 15 ţigări fumate de Costel la sfârşitul experimentului reprezintă
suma a trei parametri. În primul rând, este vorba despre media mediilor celor
două situaţii de cercetare (μ= (μmedic+ μnatur)/2). Dacă subiecţii din situaţia
tratamentului medicamentos fumează în medie 12 ţigări, iar subiecţii din si-
tuaţia tratamentului naturist fumează în medie 8 ţigări, atunci o componentă a
celor 15 ţigări fumate de Costel va fi media 10. O altă componentă a număru-
lui de ţigări fumate de Costel este dată de efectul tratamentului αk. Desigur,
alături de media mediilor, în compoziţia celor 15 ţigări intră şi efectul deter-
minat de tratamentul medicamentos la care a fost supus Costel. În fine, ultima
componentă a scorului observat este dată de efectul erorilor apărute la nivelul
grupului din care face parte Costel εi(k).
Generalizând, fiecare scor observat reprezintă suma celor trei
componente: media generală, efectul determinat de situaţia de cercetare
şi efectul erorilor din grupul de cercetare. Când vorbim despre efectul ero-
rilor, ne referim exact la situaţiile expuse mai sus; Costel s-ar fi putut certa la

167
Statistică aplicată în ştiinţele socio-umane

un moment dat cu soţia, are o voinţă slabă, operatorul a introdus greşit, la un


moment dat, un număr de ţigări sau l-au strâns pantofii trei zile din durata
totală a experimentului. În mod cert, media generală şi efectul situaţiei de
cercetare sunt constante pentru toţi subiecţii. În acest caz, diferenţele dintre
participanţi se datorează efectului exercitat de către erori.
În asemenea planuri de cercetare, ţinta o reprezintă minimizarea efec-
tului generat de erori prin controlul surselor de eroare, astfel încât modificări-
le la nivelului scorului observat să se datoreze efectului generat de variabila
independentă.
Un asemenea plan de cercetare foloseşte aşa-numitele eşantioane in-
dependente, deoarece subiecţii au fost distribuiţi aleatoriu în cele două gru-
puri de cercetare. În mod normal, cercetările se fac în baza unor design-uri
mai complexe, existând puţine şanse să vă confruntaţi cu un plan atât de sim-
plu. Motivele constau tocmai din lipsa posibilităţii de control a surselor de
eroare.

II.1.1.2 Designul aleatoriu cu blocuri (RB-p)


Reprezintă o altă variantă a modelelor cu o singură variabilă indepen-
dentă, se notează RB-p (de la Randomized Block), p având aceeaşi semnifica-
ţie ca mai sus. Structural, modelul nu diferă de planul anterior. Deosebirile se
referă însă la modul de control al variabilelor confundate şi la tipul de eşanti-
on. Dacă designul de cercetare complet aleatoriu foloseşte eşantioane inde-
pendente, acest model are în vedere eşantioane dependente. Eșantioanele
dependente pot fi obţinute prin următoarele metode (Kirk, 1995):
1. Observarea fiecărui subiect în fiecare situaţie de cercetare, me-
todă numită şi „cu măsurări repetate”. Eşantioanele dependen-
te sunt formate din aceleaşi persoane, dar fiecare eşantion co-
respunde altei situaţii de cercetare;

168
Cristian Opariuc-Dan

2. Formarea de grupuri de participanţi având caracteristici simi-


lare, pe baza unei alte variabile care corelează cu variabila de-
pendentă, procedură numită „similaritatea participanţilor”;
3. Obţinerea grupurilor de subiecţi identici în baza caracteristici-
lor genetice (de exemplu grupuri de gemeni – un frate într-un
eșantion, celălalt în alt eșantion);
4. Alegerea subiecţilor care corespund unui criteriu convenit de
selecţie (de exemplu perechi formate din soţ şi soţie – soțul
într-un eșantion, soția în altul).
Deşi în teorie este foarte simplu, în practică veţi întâmpina dificultăţi
în găsirea subiecţilor pe baza cărora să construiţi eşantioane dependente. To-
tuşi, efortul dumneavoastră va fi răsplătit printr-o mai mare precizie a rezulta-
telor.

Tabelul 2.2 – Plan de cercetare de tip RB-2


Medicamentos Naturist
Bloc 1 Subiect rang 1 Subiect rang 2 Efect bloc 1
Bloc 2 Subiect rang 3 Subiect rang 4 Efect bloc 2
Bloc 3 Subiect rang 5 Subiect rang 6 Efect bloc 3
. . . .
. . . .
. . . .
Bloc 30 Subiect rang 29 Subiect rang 30 Efect bloc 30
Efect medicament Efect naturist

Probabil că abandonul fumatului este legat de „experienţa” de fumă-


tor. Există posibilitatea ca subiecţii care au fumat 30 de ani să se lase mai
greu de fumat în comparaţie cu cei care fumează de 30 de zile. Iată o nouă
variabilă confundată care poate influenţa rezultatele. Dacă în grupul supus
tratamentului medicamentos avem majoritatea fumătorilor „veterani”, iar în
grupul tratamentului naturist vom avea „începătorii”, s-a putea ca eficienţa
unui tratament să nu aibă o importanţă atât de mare, diferenţele rezultând, de

169
Statistică aplicată în ştiinţele socio-umane

fapt, din vechimea ca fumător. Putem controla această variabilă apelând la


înlocuirea eşantionului independent cu un eşantion dependent. La prima ve-
dere, se pare că metoda ar anula caracterul aleatoriu, însă nu este chiar aşa.
Toată tehnica rezidă în conceptul de blocuri. În cazul nostru, vom aplica me-
toda similarităţii participanţilor pentru a construi blocurile de subiecţi. Vom
întreba cele 60 de persoane ce vechime au ca fumător, apoi vom ordona sub-
iecţii în funcţie de vechimea lor şi vom stabili rangurile. Restul este foarte
simplu. Primul subiect va fi inclus în prima situaţie, iar subiectul cu rangul
imediat următor, în a doua situaţie. Aceştia vor forma primul bloc. Al doilea
bloc se construieşte similar. Al treilea subiect se include în prima situaţie şi al
patrulea în cea de-a doua situaţie. Vom proceda identic până în momentul în
care s-a construit şi cel de-al treizecilea grup.
Folosind această metodă vom constata că în ambele situaţii de cerce-
tare avem atât subiecţi veterani, cât şi subiecţi începători – efectul determinat
de variabila „vechime fumător” va fi anulat iar cercetarea câştigă în precizie.
Un astfel de design este un design de tip RB-2 în condiţiile controlului varia-
bilei „vechime fumător”, planul prezentând avantaje nete în comparaţie cu
modelul anterior.
Referitor la ipotezele nule care se testează prin intermediul acestui
plan, observăm că nu mai avem de a face cu o singură ipoteză nulă, ci cu do-
uă.
În primul rând, putem spune că nu există diferenţe semnificative între
media ţigărilor fumate de către subiecţii care urmează un tratament medica-
mentos şi media subiecţilor care urmează un tratament naturist (H0:μmedi
=μnatu).
În al doilea rând, vom putea spune că nu există diferenţe semnificative
între mediile ţigărilor fumate de către subiecţii incluşi în cele 30 de blocuri pe
baza vechimii ca fumător (H0:μbloc1 = μbloc2 = μbloc3 = …. = μbloc30).

170
Cristian Opariuc-Dan

În general, cercetarea se concentrează doar pe prima ipoteză. Deşi este


posibilă şi a doua ipoteză, aceasta nu are un rol activ în studiu, ci mai degrabă
pe acela de a elimina influenţa variabilei confundate.
Ecuaţia caracteristică acestui design este foarte asemănătoare cu cea a
designului complet aleatoriu, remarcându-se doar apariţia efectului determi-
nat de blocuri:
Yik=μ + αk + πi+ εik
Într-adevăr, scorul observat este compus din media generală (media
mediilor situaţiilor de cercetare) μ, din efectul exercitat de către situaţia de
cercetare αk, din efectul exercitat de blocuri (de vechimea ca fumător) πi şi de
efectul erorilor, de data aceasta considerat la nivelul întregului eşantion εik.
Desigur, efectul erorilor va fi incomparabil mai mic, datorită apariţiei efectu-
lui determinat de blocuri. Folosind însă metoda similarităţii participanţilor
pentru a construi eşantioanele dependente, acest efect al blocurilor se com-
pensează şi, prin urmare, precizia cercetării va fi mult mai mare.
Vă puteţi da seama că izolând o variabilă confundată care contribuia
într-o bună măsură la explicarea variabilei dependente, aţi obţinut un câştig
important în precizia şi puterea cercetării. Acest lucru a fost posibil prin sim-
pla înlocuire a unui design de tip complet aleatoriu cu unul aleatoriu cu blo-
curi.
Creşterea preciziei cercetării poate fi posibilă numai în cazul în care
variabila confundată are o legătură cu variabila dependentă. În cazul în care,
de exemplu, am include în loc de vechimea ca fumător, o altă variabilă, să
spunem numărul de la pantofi, cercetarea nu numai că nu va câştiga în preci-
zie, dar chiar va pierde din putere din cauza varianţei suplimentare introdusă
de o variabilă care nu are nicio legătură cu variabila dependentă. Atenţie aşa-
dar la proiectarea cercetărilor de acest tip!

171
Statistică aplicată în ştiinţele socio-umane

II.1.1.3 Designul pătratelor latine (LS-p)


Acest model permite controlul unui număr de două variabile confun-
date, notându-se cu LS-p (de la termenul Latin Square). Procedeele sunt simi-
lare planului de cercetare anterior, la care se adaugă încă o variabilă confun-
dată care urmează a fi izolată.
Să presupunem că alături de vechimea ca fumător, vom considera că
şi genul biologic poate influenţa abandonul fumatului. În acest caz, putem
construi un design cu pătrate latine de ordin 2, aşa cum rezultă şi din tabelul
2.3.
Tabelul 2.3 – Plan de cercetare de tip LS-2
Începători Veterani
Medicament Naturist Medicament Naturist
Bărbaţi Grup 1 Grup 2 Grup 3 Grup 4 Efect bărbaţi
Femei Grup 5 Grup 6 Grup 7 Grup 8 Efect femei
Efect Efect Efect Efect
medicament naturist medicament naturist
Efect începători Efect veterani
Spre deosebire de designul anterior, remarcăm câteva modificări im-
portante:
 Procedura de alocare a subiecţilor în grupele de cercetare este
mult mai complexă în comparaţie cu modelul RB-p;
 Numărul de linii şi de coloane din cadrul acestui design trebu-
ie să fie egal cu numărul situaţiilor determinate de variabila
independentă. În cazul nostru, putem clasifica subiecţii doar în
două grupuri de cercetare, după variabilele confundate „ve-
chime fumător” şi „gen biologic”, deoarece tipul tratamentului
are doar două condiţii de cercetare;
 Dacă o variabilă continuă va fi folosită ca variabilă confunda-
tă, este necesară transformarea acesteia în variabilă categoria-
lă. Deşi vechimea ca fumător este o variabilă continuă, expri-

172
Cristian Opariuc-Dan

mată în ani, nu putem să o folosim nici măcar la nivel ordinal,


ca în designul de mai sus. Va trebui să împărţim subiecţii, pe
baza acestei variabile, în două categorii: începători şi veterani.
Toate aceste eforturi sunt însă răsplătite printr-o precizie sporită a cer-
cetării, deoarece nu mai controlăm o singură variabilă confundată ci două.
Acest plan de cercetare rămâne totuşi un plan cu o singură variabilă indepen-
dentă – tratamentul. Problema se pune la nivelul controlului variabilelor con-
fundate şi nu la includerea unui număr mai mare de variabile independente.
Referitor la ipotezele statistice, de data aceasta ne confruntăm cu trei
ipoteze statistice:
În primul rând, putem spune că nu există diferenţe semnificative între
mediile ţigărilor fumate de către subiecţii care urmează un tratament medi-
camentos şi subiecţii care urmează un tratament naturist (H0:μmedi =μnatu).
În al doilea rând, vom putea spune că nu există diferenţe semnificative
între media ţigărilor fumate de către subiecţii începători, în comparaţie cu
media subiecţilor veterani (H0:μîncepător = μveteran).
În al treilea rând, presupunem că nu există diferenţe semnificative în-
tre media ţigărilor fumate de către bărbaţi şi media ţigărilor fumate de femei
(H0:μbărbaţi = μfemei).
Şi în acest caz, interesul cade pe prima ipoteză, celelalte având un rol
secundar, de izolare a variabilelor confundate.
Ecuaţia designului cu pătrate latine are un număr de şase parametri,
fapt concludent pentru plusul de precizie pe care îl aduce:
Yikmt=μ + αk + βm+ γt +εkmt + εi(kmt)
Traducerea acestei expresii poate fi făcută destul de uşor dacă aţi înţe-
les principiile expuse mai sus. Numărul mediu de ţigări fumate de către un
subiect i, aflat în situaţia de tratament k, veteran în ale fumatului m şi bărbat t

173
Statistică aplicată în ştiinţele socio-umane

este format din media generală μ, efectul situaţiei de tratament αk, efectul
determinat de vechimea ca fumător βm, precum şi efectul determinat de genul
biologic γt. În componenţa acestui scor observat intră şi efectele exercitate de
două surse de eroare: erorile la nivelul întregului eşantion, numite şi efect
rezidual εkmt, precum şi efectul erorilor de la nivelul grupului din care face
parte subiectul – de exemplu efectul erorilor determinate de faptul că subiec-
tul Costel este bărbat, fumător înrăit şi urmează un tratament medicamentos
εi(kmt).
Desigur, acest plan de cercetare este unul mult mai precis, însă preci-
zia designului s-a obţinut printr-o proiectare mai complexă şi, desigur, printr-
un număr de subiecţi mai mare. Pentru a putea desfăşura un studiu valid, în
cazul nostru vom avea nevoie de un număr de 240 de subiecţi (8 grupe, fieca-
re grupă conţinând un număr de 30 de subiecţi.
Toate cele trei planuri expuse mai sus se numesc planuri de cercetare
de bază, deoarece modelele mai complexe pot fi construite prin combinarea a
două sau mai multe planuri de acest tip. Aceste modele formează întreaga
structură de organizare şi de clasificare a design-urilor de cercetare (Kirk,
1995).

II.1.2 Planuri de cercetare complexe


Multitudinea situaţiilor de cercetare are ca efect o multitudine de pla-
nuri de cercetare derivate din cele trei modele de bază. Nu vom intra în deta-
lii referitoare la acestea, deoarece ar trebui să umplem un număr impresionant
de pagini şi, în definitiv, ieşim din domeniul prezentului volum. Planurile de
cercetare sunt tratate în lucrări de metodologia cercetării, iar dacă sunteţi pa-
sionat de acest subiect, puteţi studia lucrările lui Kirk (Kirk, 1995), Fisher
(Fisher, 1971), Radu (Radu, și alții, 1993) sau Havârneanu (Havârneanu,
2000), (Havârneanu, 2000).

174
Cristian Opariuc-Dan

Totuşi, nu mă pot abţine să nu vă prezint, foarte pe scurt, câteva dintre


modelele complexe cele mai utilizate. În general, clasificarea planurilor de
cercetare se face după câteva criterii (Kirk, 1995):
 Numărul variabilelor independente şi, implicit, numărul situa-
ţiilor de cercetare;
 Atribuirea complet randomizată sau randomizat după atribui-
rea în blocuri a participanţilor;
 Existenţa sau inexistenţa variabilelor confundate și utilizarea
covarianțelor;
 Utilizarea situaţiilor de cercetare încrucişate sau pe baza mo-
delului imbricat, numit şi model „cuib”;
Remarcaţi cu uşurinţă faptul că majoritatea criteriilor de clasificare se
leagă de particularităţile celor trei modele de bază. Ca regulă, într-un raport
de cercetare ştiinţific este obligatorie introducerea planului de cercetare folo-
sit, dacă studiul se bazează pe aşa ceva. Pe lângă faptul că foarte multe lucrări
nici nu pomenesc de planurile de cercetare, unii mai „scrupuloşi” înţeleg prin
design de cercetare o formulare de tipul: „s-a folosit un design factorial de tip
2x2”. Din nefericire, există o mulţime de planuri factoriale de acest tip, şi,
prin urmare, se impune o descriere ceva mai precisă. Ce fel de design factori-
al 2x2 s-a folosit? În afara faptului că avem două variabile independente, fie-
care cu câte două niveluri, formularea de mai sus nu ne mai spune nimic alt-
ceva. Există sau nu variabile confundate? Dacă există, cum vor fi acestea
tratate? La nivel de grup? La nivelul interacţiunilor dintre grupuri sau la nive-
lul interacţiunilor dintre situaţiile de cercetare? Acest lucru este necesar, pen-
tru că există cel puţin 11 planuri de cercetare care respectă condiţia unui plan
factorial 2x2.
Ca să vă faceţi o idee, în tabelul 2.4 am furnizat o clasificare a planu-
rilor de cercetare, realizată de Roger Kirk (Kirk, 1995).

175
Statistică aplicată în ştiinţele socio-umane

Tabelul 2.4 – Clasificarea planurilor de cercetare


Plan de cercetare Cod Plan de cercetare Cod
I. Planuri de cercetare sistematice (astăzi nu se mai folosesc) III.1.4. Planuri cu interacţiune la nivelul situaţiilor experi-
mentale a variabilelor confundate
1. Design factorial complet aleatoriu
1. „Tabla de şah” Beavan - CRFF-pk-1
fracţionar.
2. Design factorial fracţionar cu pătrate
2. „Half-drill strip” Beavan - GLSFF-pk
greco-latine.
3. Design factorial fracţionar cu pătrate
3. Diagonala de pătrat - LSFF-pk
latine
4. Design factorial fracţionar randomizat cu
4. Pătratele Knut Vik - RBFF-pk-i
blocuri
II. Planuri aleatorii cu o singură variabilă independentă III.2. Planuri de cercetare ierarhice
II.1. Subiecţii sunt repartizaţi aleatoriu situaţiilor de cercetare III.2.1. Design cu imbricare totală (cuib total)
1. Planul complet aleatoriu CR-p 1. Design complet aleatoriu ierarhic CRH-pq(A)
II.2. Înainte de repartizarea aleatorie a subiecţilor, sunt construite 2. Design complet aleatoriu ierarhic cu
RBH-pq(A)
blocuri sau grupuri relativ omogene blocuri
1. Design balansat pe blocuri incomplete BIP-p III.2.2. Design cu imbricare parţială (cuib parţial)
2. Design încrucişat CO-p 1. Design complet aleatoriu ierarhic parţial CRPH-pq(A)r
2. Design complet aleatoriu ierarhic parţial
3. Design randomizat general cu blocuri GRB-p RBPH-pq(A)r
cu blocuri
4. Design cu pătrate greco-latine GLS-p 3. Design ierarhic parţial split-plot SPH-p.qr(B)
5. Design cu pătrate greco-latine extins HGLS-p IV. Planuri aleatorii cu una sau mai multe covariaţii
1. Design de analiză de covarianţă complet
6. Design cu pătrate latine LS-p CRAC-p
aleatoriu
7. Design latice balansată cu blocuri incomplete 2. Design de analiză factorială de covarian-
LBIB-p CRFAC-pq
ţă complet randomizat
3. Design de analiză de covarianţă bazat pe
8. Latice parţial balansată, blocuri incomplete LPBIB-p LSAC-p
pătrate latine
9. Design latice nebalansată cu blocuri incomplete 4. Design de analiză de covarianţă rando-
LUBIB-p RBAC-p
mizat cu blocuri
10. Design parţial balansat cu blocuri incomplete 5. Design de analiză factorială de covarian-
PBIB-p SPFAC-p.q
ţă split-plot
11. Design aleatoriu cu blocuri RB-p V. Planuri de cercetare speciale
12. Design cu pătrate Youden YBIB-p 1. Design în patru grupuri Solomon -
III. Planuri aleatorii cu o două sau mai multe variabile indepen-
2. Design serii temporare întrerupte -
dente
III.1. Planuri de cercetare factoriale Adaptat după Roger Kirk (Kirk, 1995)
III.1.1 Planuri de cercetare fără variabile confundate
1. Design factorial complet randomizat CRF-pq
2. Design factorial generalizat randomizat cu blocuri GRBF-pq
3. Design factorial randomizat cu blocuri RBF-pq
III.1.2. Planuri cu tratament la nivel de grup al variabilelor
confundate
1. Design factorial „split-plot” SPF-p.q
III.1.3. Planuri cu interacţiune la nivel de grup a variabilelor
confundate
1. Design factorial pătrate latine cu variabile confun-
LSCF-pk
date
2. Design factorial aleatoriu cu blocuri şi variabile
RBCF-pk
complet confundate
3. Design factorial aleatoriu cu blocuri şi variabile
RBPF-pk
parţial confundate

176
Cristian Opariuc-Dan

Acum ce mai spuneţi? Nu-i aşa că lucrurile stau puţin altfel decât aţi
crezut? Vă puteţi da seama că o afirmaţie de genul plan factorial 2x2 nu mai
este suficientă. Aveţi nevoie de ceva mai multe date pentru a vă face cunos-
cute intenţiile. Nu vom încheia acest capitol înainte de a vă prezenta, foarte
pe scurt, câteva dintre cele mai cunoscute planuri de cercetare complexe.

II.1.2.1 Planul factorial complet randomizat (CRF-pq)


Derivă direct din planul de cercetare complet randomizat şi permite
analiza efectului exercitat de două variabile independente. Se notează cu
CRF-pq (de la Completely Randomized Factorial), iar p reprezintă nivelurile
unei variabile independente, în timp ce q se referă la nivelurile celeilalte vari-
abile independente. Se poate observa că, spre deosebire de planul cu pătrate
latine, acest design nu se referă la o variabilă independentă şi la o variabilă
confundată, ci la două variabile independente, plecând de la presupunerea că
nu există variabile confundate. Desigur, în acest caz nici nu mai este nevoie
ca variabilele independente să aibă un număr egal de situaţii de cercetare. Se
poate, foarte bine, ca una să aibă două situaţii (cum este, spre exemplu, genul
biologic) iar cealaltă să aibă 3 sau mai multe situaţii (de exemplu vârsta, ope-
raţionalizată în tineri, maturi şi vârstnici).
Ecuaţia caracteristică acestui design de cercetare este următoarea:
Yikm=μ + αk + βm+ (αβ)km +εi(km)
Scorul observat este dat de media generală, de efectul exercitat de
prima variabilă independentă, de efectul generat de a doua variabilă indepen-
dentă, de efectul comun generat de cele două variabile independente şi de
erorile determinate de grupul din care face parte subiectul.
Efectele generate separat de fiecare dintre cele două variabile independente
se numesc efecte principale, în timp ce efectul comun, exercitat de ambele
variabile independente asupra variabilei dependente, poartă numele de efect
de interacţiune. Erorile se numesc, în termeni de specialitate, reziduuri sau

177
Statistică aplicată în ştiinţele socio-umane

Tabelul 2.5 – Design de cercetare CRF-23 efecte reziduale,


Masculin Feminin pe care nu le de-
Şcoala primară 30 30
Gimnaziu 30 30
Efect principal termină niciuna
„Şcolarizare”
Liceu 30 30 dintre cele două
Efect de interacţiune variabile inde-
Efect principal
„Gen biolo-
„Gen biologic” pendente.
gic”x”Şcolarizare”
Un asemenea plan de cercetare stă la baza analizei de varianţă
(ANOVA), ale cărei proprietăţi le vom studia ulterior.

II.1.2.2 Designul factorial randomizat cu blocuri (RBF-pq)


Planul prezentat anterior poate fi folosit doar în cazul în care nu există
variabile confundate. În momentul în care suspectăm existenţa unei variabile
confundate, vom apela la un plan factorial de tip RBF-pq. Diferenţa dintre
cele două planuri constă în faptul că, alături de variabilele independente, mo-
delul permite controlul unei variabile confundate.
În tabelul 2.5, am reprezentat o cercetare prin intermediul căreia in-
tenţionam să studiem efectul exercitat de genul biologic şi de nivelul de şco-
larizare asupra venitului personal. Designul, desigur, a fost unul de tip facto-
rial complet randomizat CRF-23, cu două variabile independente, având una
un număr de două grade de intensitate (genul biologic) iar cealaltă, trei grade
de intensitate (școala primară, gimnaziu şi liceu). Cum am putea adapta acest
design experimental, dacă alături de cele două variabile independente, am
dori să controlăm efectul unei variabile confundate?
Tabelul 2.6 – Design de cercetare CRF-22 Să reluăm exemplul fu-
Medicamentos Naturist matului, introducând încă o vari-
Rural MR - 30 NR - 30
Urban MU - 30 NU - 30
abilă independentă, să spunem
„mediul de provenienţă”, cu do-
uă grade de intensitate: rural şi urban. Prezentat ca atare, designul de cerceta-
re este unul factorial complet randomizat de tip CRF-22. Ştim totuşi că una

178
Cristian Opariuc-Dan

dintre posibilele variabile confundate este „vechimea” ca fumător. În mod


cert, aceasta exercită un efect asupra variabilei dependente „număr de ţigări
fumate”, iar controlul acesteia se realizează similar designului cu blocuri din
planurile de bază. În primul rând, împărţim cei 120 de subiecţi după niveluri-
le variabilelor independente, ca în tabelul 2.6. Vom avea 30 de subiecţi din
mediul rural care urmează un tratament medicamentos, 30 de subiecţi din
mediul rural care urmează un tratament naturist, 30 de subiecţi din mediul
urban cu tratament medicamentos şi 30 de subiecţi din mediul urban cu tra-
tament naturist.
Până aici, nimic spectaculos. Avem un plan factorial complet rando-
mizat, cu două variabile independente. Pentru a transforma acest plan factori-
al într-un plan factorial randomizat cu blocuri, de tip RBF-22, va trebui să
includem variabila confundată. În acest moment, sunt necesare câteva expli-
caţii suplimentare.
Prima variabilă independentă, „mediul de provenienţă”, este o variabi-
lă pe care cercetătorul nu o poate controla. Un subiect pur şi simplu provine
din mediul rural sau urban, prin faptul că locuieşte acolo. Cercetătorul nu are
nicio posibilitate să mute un subiect din mediul rural în mediul urban sau
invers. În termeni de specialitate, cercetătorul nu poate să atribuie subiecţii
aleatoriu în cadrul categoriilor acestei variabile. Din acest motiv, experimen-
tele în care intervin asemenea variabile independente se numesc cvasi-
experimente. Toate experimentele în care cercetătorul poate atribui absolut
aleatoriu subiecţii în toate categoriile variabilelor independente se numesc
experimente reale. În domeniul ştiinţelor socio-umane, cele mai multe expe-
rimente sau cercetări sunt cvasi-experimente. Alte variabile de acest tip sunt
genul biologic, grupa sanguină etc.
A doua variabilă independentă, „tipul de tratament”, permite atribui-
rea aleatorie a subiecţilor în cele două categorii – medicamentos şi naturist.
Un cercetător poate forma cele două grupe de cercetare absolut aleatoriu. Din

179
Statistică aplicată în ştiinţele socio-umane

cauza variabilei independente „mediul de provenienţă”, studiul nostru nu este


o cercetare reală ci o cvasi-cercetare şi vom vedea imediat cum acest lucru
influenţează construcţia blocurilor.
La modul ideal, pentru a construi blocurile bazate pe variabila con-
fundată „vechime fumător”, ar trebui să ierarhizăm toţi cei 120 de subiecţi
după acest criteriu. În cazul nostru, această ierarhizare nu se poate realiza
direct, din cauza prezenţei variabilei independente „mediul de provenienţă”.
Ne-am putea confrunta cu situaţia în care majoritatea fumătorilor „veterani”
să provină din mediul rural iar majoritatea fumătorilor „tineri” să fie din me-
diul urban. Astfel, suntem nevoiţi să apelăm la o etapă intermediară. În pri-
mul rând, împărţim subiecţii după nivelurile variabilei independente care nu
permite atribuire aleatorie. În cazul nostru, după variabila independentă „me-
diul de provenienţă”. Vom avea, aşadar, 60 de subiecţi din mediul urban şi 60
de subiecţi din mediul rural. Pentru fiecare dintre aceste două grupe, ierarhi-
zăm subiecţii după variabila confundată – „vechimea ca fumător” –, urmând
apoi să construim blocurile.
Tabelul 2.7 – Design de cercetare RBF-22
Combinaţii ale variabilelor independente
MR NR MU NU
Bloc 1 Subiect rang 1 R Subiect rang 2 R Subiect rang 1 U Subiect rang 2 U
Bloc 2 Subiect rang 3 R Subiect rang 4 R Subiect rang 3 U Subiect rang 4 U
Bloc 3 Subiect rang 5 R Subiect rang 6 R Subiect rang 5 U Subiect rang 6 U
. . . . .
. . . . .
. . . . .
Bloc 60 Subiect rang 59 R Subiect rang 60 R Subiect rang 59 U Subiect rang 60 U

Primul bloc va fi format din subiecţii cei mai „tineri” din punctul de
vedere al fumatului, atât din mediul urban, cât şi din mediul rural (rangurile 1
şi 2). Al doilea bloc va conţine subiecţii cu rangurile 3 şi 4, al treilea bloc
subiecţii cu rangurile 5 şi 6 şi aşa mai departe, până la ultimul bloc. Am con-

180
Cristian Opariuc-Dan

struit astfel un plan factorial randomizat cu blocuri, după cum se poate obser-
va în tabelul 2.7.
Bineînţeles, acest plan factorial este superior planului factorial com-
plet randomizat, deoarece permite includerea unei variabile confundate şi,
implicit, creşterea rigurozităţii cercetării. Ideal ar fi ca ambele variabile inde-
pendente să permită atribuirea aleatorie a subiecţilor. Dacă acest lucru nu este
posibil, vom proceda după schema prezentată.
Ecuaţia caracteristică acestui design de cercetare este următoarea:
Yikm=μ + πi + αk + βm+ (αβ)km + (παβ)ikm
Scorul observat este dat de media generală, de efectul generat de blo-
curi (variabila confundată), de efectul exercitat de prima variabilă indepen-
dentă, de efectul generat de a doua variabilă independentă, de efectul comun
generat de cele două variabile independente şi de efectul erorilor determinate
de cele două variabile independente şi de variabila confundată (erori determi-
nate de bloc).
*
* *
Ne vom opri aici cu expunerea planurilor de cercetare. Acest capitol
nu intenționează să facă o prezentare exhaustivă a acestora, ci doar să vă in-
formeze asupra elementelor de bază legate de proiectarea unei cercetări știin-
țifice. Informații suplimentare referitoare la planurile de cercetare și prezenta-
rea detaliată a acestora găsiți în lucrări specializate pe metodologia cercetării,
o parte dintre acestea fiind prezentate mai sus.
Ați observat deja că planurile de cercetare complexe derivă, de fapt,
din cele de bază, nefiind altceva decât combinații la diferite niveluri ale aces-
tora. Să trecem acum la scopul real al acestui capitol, și anume acela de a
prezenta câteva tehnici statistice de analiză a datelor bazate pe diferențe.

181
Statistică aplicată în ştiinţele socio-umane

II.2 Teste statistice pentru date neparametrice


După cum bine știți, incursiunea noastră va debuta cu studiul testelor
statistice care folosesc date neparametrice. Acest lucru îl facem din cauză că
literatura de specialitate tratează la un nivel destul de sumar aceste proceduri,
ceea ce conduce la o slabă însușire și, de multe ori, la o ignorare a acestora în
analizele de date. Cu toate că testele parametrice sunt mult mai puternice,
totuși administrarea acestora trebuie să respecte condițiile de bază ale datelor
parametrice. Pentru detalii suplimentare referitoare la diferența dintre date
parametrice și date neparametrice, puteți consulta lucrarea anterioară
(Opariuc-Dan, 2009).

II.2.1 Diferența dintre frecvențe. Testul χ2


Despre χ2 am discutat pe larg în capitolul destinat analizei legăturilor
existente între variabile. Afirmam atunci că acest indicator poate fi folosit
atât în cazul studiului gradului de asociere între variabile, cât și în situația
analizei diferențelor dintre acestea. Așadar, χ2 poate fi atât un coeficient de
contingență, cât și unul de diferență semnificativă. Caracteristica sa este ace-
ea conform căreia χ2 se poate folosi atunci când lucrăm cu frecvențe (absolute
sau relative), fiind singurul indicator aplicabil lucrului cu date aflate la un
nivel nominal de măsură.
Testul χ2 compară frecvențele observate cu cele estimate (teoretice) și
ne indică dacă diferențele dintre frecvențe sunt întâmplătoare sau, din contra,
neîntâmplătoare, semnificative.
Să considerăm, spre exemplu, o cercetare științifică care are ca obiec-
tiv aflarea faptului dacă există diferențe semnificative între blonde și brunete
în ceea ce privește comiterea de accidente rutiere. Deși cercetarea poate fi
abordată printr-un design de cercetare mai complex, noi ne vom rezuma doar
la înregistrarea producerii sau a ne-producerii unui accident rutier.

182
Cristian Opariuc-Dan

Vom avea, așadar, o singură variabilă independentă, cu două grade de


intensitate (culoarea părului: blond și brunet) și o singură variabilă dependen-
tă dihotomică (accident: Da și Nu).
Ipoteza nulă a acestui studiu susține că nu există nicio diferență sem-
nificative între blonde și brunete referitor la producerea accidentelor rutiere.
Datele colectate pot fi sistematizate sub forma unui tabel, asemănător
tabelului de contingență, prezentat în capitolul anterior (tabelul 2.8).
Tabelul 2.8 – Tabelul de analiză pentru χ2
Blonde Brunete Total
30 21
Cu accident A B 51
(26,04) (24,95)
18 25
Fără accident C D 43
(21,95) (21,04)
Total 48 46 n=94

În acest tabel am înregistrat frecvențele observate. Au fost studiate 94


de femei, 48 de blonde și 46 de brunete. De asemenea, 51 de femei au comis
cel puțin un accident rutier, în timp ce 43 de femei nu au comis niciun acci-
dent rutier. Dintre cele care au comis accidente rutiere, 30 de femei sunt
blonde și 21 brunete, în timp ce 18 blonde și 25 de brunete nu au comis acci-
dente. Aceste date sunt, bineînțeles, fictive și nu corespund unei cercetări
reale. Din acest motiv, nu poate exista nicio suspiciune în ceea ce privește
preferința mea pentru blonde sau brunete. Voi și demonstra această afirmație.
Ambele variabile sunt nominale, variabila dependentă având și un ca-
racter dihotomic. Faptul că am înregistrat doar frecvențele de apariție ale
evenimentelor (a produs sau nu a produs accident) ne situează la un nivel de
măsură pur nominal. Singura metodă prin care putem verifica ipoteza nulă
este testul χ2. Formula generală de calcul a acestui indicator va fi:

183
Statistică aplicată în ştiinţele socio-umane

∑ (formula 2.1)

unde fobs reprezintă frecvența observată, fast reprezintă frecvența es-


timată sau frecvența teoretică iar n numărul de categorii
Desigur, formula este analogă celei expuse în capitolul I. Singura di-
ferență se referă la notația frecvenței teoretice. În capitolul I am notat-o cu
Fest, iar aici am convenit să o notăm cu fast. Am procedat în acest fel pentru a
vă obișnui cu diferitele stiluri de notare ale formulelor pe care le puteți întâlni
în lucrările de specialitate.
De asemenea, modalitatea de calcul a frecvenței estimate (teoretice)
am prezentat-o în același capitol anterior. V-o reamintesc, în caz că ați uitat-
o:

(formula 2.2)

Iată că avem toate datele necesare calculului, însă haideți să nu ne


grăbim. În cazul nostru, tabelul are exact 4 celule, deoarece fiecare variabilă
are două grade de intensitate (două niveluri). Cunoscând această situație, pu-
tem simplifica lucrurile și putem renunța la calculul frecvenței estimate, dacă
aplicăm o altă formulă, valabilă numai pentru tabele de acest tip – tabele cu
patru celule (Radu, și alții, 1993):

(formula 2.3)

unde am notat cu f - frecvențele observate din cele patru celule.


Iată, vom aplica formula 2.3 pentru a obține valoarea testului χ2, ur-
mând apoi să aplicăm și formula 2.1 pentru a vedea că rezultatul este aproxi-
mativ același.

184
Cristian Opariuc-Dan

Pentru a putea aplica formula 2.1, trebuie să calculăm întâi frecvențele


estimate, pentru fiecare celulă, după formula 2.2. Astfel, vom avea:

Acum putem face calculele după formula 2.1, rezultând un χ2 de 2,75.

Diferențele dintre cele două valori ale lui χ2 (2,68 după formula 2.3 și
2,75 după formula 2.1) apar din cauza erorilor de rotunjire la două zecimale
și sunt nerelevante. Dacă ambele variabile sunt dihotomice, se folosește co-
recția pentru continuitate, așa cum s-a discutat deja în capitolul anterior.
Iată, cu grație și câteva calcule am reușit să găsim valoarea acestui in-
dicator. Acum, dacă tot o avem, ce facem cu ea? Ei bine, comparăm această
valoare cu valorile prag prezentate în tabelul de referință din anexa 3. Mai
avem o singură problemă: la câte grade de libertate? Vă mai aduceți probabil
aminte din primul capitol că gradele de libertate se află foarte simplu, pe baza
liniilor și a coloanelor din tabel. Astfel df=(linii-1)(coloane-1). Noi avem
două linii și două coloane, prin urmare df=(2-1)(2-1)=1x1=1. Linia care ne
interesează este, așadar, prima linie din tabelul din anexă. Pentru un prag de
semnificație p<0,05, valoarea indicatorului χ2 trebuie să fie mai mare de
3,841. Valorile noastre sunt mult mai mici în comparație cu această valoare

185
Statistică aplicată în ştiinţele socio-umane

de referință, prin urmare testul χ2 nu este semnificativ și astfel nu vom res-


pinge ipoteza nulă.
Așadar, iată că nu există diferențe semnificative între blonde și brune-
te sub aspectul accidentelor comise. Altfel spus, culoarea părului nu determi-
nă niciun efect asupra probabilității de comitere a unui accident. Diferențele
dintre blonde și brunete, sub acest aspect, sunt absolut întâmplătoare, culoa-
rea părului neavând niciun cuvânt de spus. V-ați liniștit acum, fetelor?
Particularitățile acestui coeficient, precum și semnificația sa, sunt
elemente tratate pe larg în primul capitol, asupra cărora nu vom reveni aici.
Pentru detalii, consultați capitolul referitor la analiza relațiilor între variabile.
Testul χ2 se mai numește și test de concordanță, deoarece permite
compararea distribuției datelor observate – numite și date empirice – cu o
repartiție teoretică. Prin intermediul acestor teste se poate înțelege legea de
evoluție a fenomenului studiat și se poate chiar verifica posibilitatea de utili-
zare a testelor parametrice (Vasilescu, 1992). Asupra acestor aspecte vom
reveni spre finalul capitolului.
Desigur, mă veți întreba dacă mai există vreo modalitate prin care să
verificăm această ipoteză, sau suntem dependenți complet de χ2. Sunt fericit
să vă informez că da, într-adevăr, mai există o variantă. Totuși, și aceasta se
bazează pe χ2, însă pornește de la o altă teorie, cea a probabilității maximale
(în engleză maximum-likelihood theory). Ideea generală este aceea a constru-
irii unui model teoretic pentru care probabilitatea de obținere a datelor să fie
maximă, apoi compararea datelor observate cu acel model teoretic. Diferența
este una subtilă și ține de teoria mai sus menționată, teorie pe care o vom
aborda și noi într-un alt volum. Această metodă se numește metoda raportului
de probabilitate (likelihood ratio), iar indicatorul acestui test se calculează
după formula:

186
Cristian Opariuc-Dan

∑ (formula 2.4)

Bănuiesc că v-ați speriat din nou de logaritm. Stați liniștiți, nu este


chiar atât de complicat precum pare. Practic, “modelul” construit nu este alt-
ceva decât frecvența estimată, pe care am numit-o și frecvență teoretică. În
realitate, avem toate datele necesare și putem calcula foarte ușor acest indica-
tor statistic.

∑ [ ]

Acest indicator se raportează la tabelul din anexa 3, la fel ca și χ2. De-


sigur, testul este din nou nesemnificativ, determinându-ne să nu respingem
ipoteza nulă. Pentru eșantioane sau loturi de cercetare de mari dimensiuni,
valoarea acestui indicator se apropie foarte mult de valoarea lui χ2. Totuși,
acest indicator se preferă atunci când volumul eșantionului este mic, fiind un
indicator mai precis în comparație cu χ2.
În final, mă simt dator să vă atrag atenția asupra câtorva elemente le-
gate de utilizarea testului χ2 și a tuturor indicatorilor derivați din acesta
(Field, 2000):
 Deși χ2 se poate folosi și pentru date ordinale sau chiar para-
metrice (după cum vom vedea), vom prefera totuși să-l utili-
zăm în cazul datelor strict nominale, sau atunci când lucrăm
exclusiv cu frecvențe. Este, de fapt, singurul test statistic pen-
tru date aflate la un nivel categorial de măsură. Din cauza pu-
terii sale reduse, pentru date ordinale sau parametrice vom pre-
fera alte teste;
 Este absolut necesar, atunci când folosim χ2, ca fiecare subiect
să se regăsească doar într-o singură celulă a tabelului de con-

187
Statistică aplicată în ştiinţele socio-umane

tingență, și numai în una. Acest lucru înseamnă că testul χ2


poate fi folosit numai în planuri de cercetare cu eșantioane in-
dependente, fiind complet inadecvat într-un design cu măsu-
rări repetate;
 Testul χ2 este relevant doar atunci când toate frecvențele aștep-
tate au valori mai mari decât 5. Dacă există celule în care frec-
vențele așteptate sunt sub 5, testul χ2 își pierde puterea. Totuși,
în tabelele de contingență de mari dimensiuni (în care variabi-
lele au multe niveluri) se acceptă și unele celule cu frecvența
așteptată sub 5, dar acestea nu trebuie să depășească 20% din
numărul total de celule;

II.2.2 Teste pentru eșantioane independente


Știm deja la ce se referă eșantioanele independente. Vorbim despre
eșantioane independente atunci când grupele de subiecți din planul nostru de
cercetare conțin, în general, elemente diferite şi când selectarea unui element
într-un eşantion nu are nicio legătură cu selectarea elementelor din celelalte
eşantioane. Exemplul anterior este adecvat acestui tip de cercetare. O parte
dintre femei sunt blonde, iar o altă parte brunete. Sunt, iată, două grupe de
cercetare diferite – blondele și brunetele – care conțin, în mod evident, alte
persoane.
Tehnic vorbind, aceste teste verifică omogenitatea celor două serii de
date, adică analizează dacă au o aceeași repartiție, indiferent dacă repartiția
este sau nu este specificată. Dacă datele au aceeași repartiție, înseamnă că
eșantioanele sunt extrase din aceeași populație și coincid în privința parame-
trilor distribuțiilor (Vasilescu, 1992).
Din această categorie fac parte o serie de teste statistice precum: testul
medianei, testul U Mann-Whitney, testul Wald-Wolfowitz, testul Colin-
White și altele.

188
Cristian Opariuc-Dan

II.2.2.1 Testul medianei


Acest test statistic neparametric îl veți întâlni frecvent sub denumirea
de proba medianei și se poate aplica datelor situate cel puțin la un nivel de
măsură ordinal, deoarece se bazează pe calculul rangurilor, pe poziția pe care
o ocupă scorurile în cadrul șirului de date.
Să reluăm cercetarea anterioară, de data aceasta dezvoltând planul de
cercetare. Vom rămâne la aceeași ipoteză nulă (nu există diferențe între blon-
de și brunete sub aspectul producerii accidentelor rutiere), însă vom modifi-
ca variabila dependentă. Nu ne vom mai limita doar la înregistrarea produce-
rii accidentului, ca în cazul anterior, ci vom transforma această variabilă într-
una ordinală, în care convenim să notăm cu 0 lipsa accidentelor, cu 1 acci-
dente ușoare, cu 2 accidente medii, 3 accidente grave și 4 accidente foarte
grave.
În continuare, vom investiga un număr de 20 de femei, 10 blonde și
10 brunete, obținând următoarele date:
Blonde: 1, 3, 2, 2, 4, 0, 0, 2, 1, 3
Brunete: 0, 2, 1, 2, 3, 0, 0, 1, 1, 2

Vă reamintesc că scorurile înregistrate nu reprezintă numărul de acci-


dente produse ci „calificativul” acestora, după scala ordinală de mai sus. Am
folosit un număr de doar 20 de cazuri din considerente didactice. În realitate,
un asemenea studiu are mult mai mulți subiecți.
Desigur, nu se pune problema aplicării testelor parametrice, variabila
dependentă fiind aflată în mod natural la un nivel de măsură ordinal. Ne de-
cidem să verificăm ipoteza nulă prin testul medianei. Primul pas presupune
calculul medianei pentru cele două grupe de cercetare. Ordonăm datele, cres-
cător sau descrescător, mediana aflându-se la a 5,5-a măsurătoare, după cum
știți deja.

189
Statistică aplicată în ştiinţele socio-umane

Blonde: 0, 0, 1, 1, 2, 2, 2, 3, 3, 4 Me(blonde)= 2
Brunete: 0, 0, 0, 1, 1, 1, 2, 2, 2, 3 Me(brunete)=1

Pentru a verifica ipoteza, vom compara practic cele două mediane și


vom decide dacă această diferență dintre ele este sau nu este semnificativă.
Dar cum facem comparația? Ați ghicit deja, prin χ2. În acest sens, următorul
pas este reprezentat de calculul medianei generale, mediana întregului lot de
cercetare (în cazul nostru, mediana tuturor celor 20 de femei, blonde și brune-
te).
Total(blonde+brunete): 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4 Me=1,5

Mediana întregului lot de cercetare este 1,5, fiind situată, în mod evi-
dent, la a 10,5-a măsurătoare, între valorile 1 și 2. Stabilind aceste elemente
de bază, urmează să contabilizăm numărul de scoruri aflate sub valoarea me-
dianei generale și numărul de scoruri aflate peste valoarea medianei generale.
Pentru aceasta vom construi următorul tabel de contingență:
Tabelul 2.9 – Tabelul de analiză pentru testul medianei
Sub mediana Peste mediana
Total
generală (Me) generală (Me)
4 6
Blonde 10
A B
6 4
Brunete 10
C D
Total 10 10 n=20

Un număr de 4 blonde și 6 brunete se situează sub mediana generală


din punctul de vedere al gravității accidentelor, în timp ce 6 blonde și 4 bru-
nete se situează peste mediana generală la același criteriu.
Întotdeauna, tabelul de contingență pentru proba medianei va avea
exact 4 celule. În acest caz, aplicăm formula 2.3 pentru calculul testului χ2.

190
Cristian Opariuc-Dan

Valoarea obținută este, în mod evident, nesemnificativă. Totuși, am


lucrat cu efective foarte mici. În cazul în care într-una dintre căsuțe găsim sub
10 scoruri, vom folosi o formulă corectată a testului χ2, numită corecția lui
Yates pentru efective reduse (Radu, și alții, 1993). Aceasta este, dacă doriți,
formula 1.14 modificată pentru lucrul direct cu frecvențele observate, în ca-
zul tabelelor cu 4 celule.

[ ]
(formula 2.5)

Efectuând calculele în baza formulei 2.5, obținem valoarea 1,8 pentru


2
testul χ . Și în acest caz, comparând valoarea cu valorile de referință din ane-
xa 3, pentru un singur grad de libertate, observăm că testul este nesemnifica-
tiv. Prin urmare, nu vom respinge ipoteza nulă, șansele ca aceasta să se susți-
nă fiind mai mari de 5%. Rezultatul studiului nu este concludent, nu există
nicio diferență determinată de culoarea părului, sub aspectul gravității acci-
dentelor rutiere produse. Din nou, culoarea părului nu exercită niciun efect
asupra producerii accidentelor rutiere.
Acum suntem în situația fericită în care nu avem scoruri egale cu me-
diana generală. Dacă aceasta ar fi fost, să spunem, 2, am fi avut un număr de
6 scoruri (3 pentru blonde și 3 pentru brunete) egale cu mediana. În asemenea
cazuri, vom include scorurile egale cu mediana o dată în categoria scorurilor
sub mediana generală, și a doua oară în categoria celor peste mediana gene-
rală, construind două tabele de contingență – cu scoruri egale cu mediana
aflate în categoria scorurilor sub mediană și al doilea tabel, cu scoruri egale
cu mediana aflate în categoria scorurilor peste mediana generală. Vom calcu-
la, după modelul de mai sus, valoarea testului χ2 pentru ambele tabele și vom
lua în considerarea tabelul care are valoarea mai mică a testului χ2.

191
Statistică aplicată în ştiinţele socio-umane

Analiza semnificației testului medianei rezidă în analiza semnificației


testului χ2 și a coeficientului de contingență χ2. Proba medianei se folosește,
de obicei, în cazul în care avem un număr mare de ranguri egale. Dacă numă-
rul rangurilor egale nu este foarte mare, se preferă alte teste, mai precise, cu
ar fi, de exemplu, testul U Mann-Whitney.

II.2.2.2 Testul U Mann-Whitney


Acest test statistic este unul dintre cele mai utilizate tehnici de analiză
a datelor din sfera neparametrică, alături de testul Wilcoxon pentru eșantioa-
ne dependente (perechi). De altfel, unii autori chiar îl denumesc testul U
Mann-Whitney-Wilcoxon (Vasilescu, 1992), nu pentru că cele două teste ar
reprezenta același lucru, ci pentru a reflecta contribuția celor trei statisticieni
la dezvoltarea testului U.
Testul se aplică, la fel ca și proba medianei, rangurilor pe care le au
datele, nefiind sensibil la distribuția acestora, ci doar la numărul de cazuri,
după cum vom vedea imediat.
Reluăm exemplul anterior, singura diferență fiind aceea că nu vom
mai contabiliza gravitatea accidentelor după o scală ordinală, ci numărul
acestora, după o scală de raport. Bineînțeles, vom investiga, de această dată,
mai multe persoane – 20 de blonde și 20 de brunete.
Tabelul 2.10 – Numărul accidentelor produse de blonde și brunete
Accidente
0 1 2 3 4 5 6 7 8 20 Total
Grup
Blonde 3 2 1 2 2 3 3 1 2 1 20
Brunete 5 2 1 3 1 3 2 2 1 0 20

Dacă privim cu atenție tabelul de mai sus, vom observa că, cel puțin
în aparență, avem condițiile aplicării unor teste parametrice. Totuși, nu este
așa, acel scor extrem (20 accidente) determinând o distribuție skewness pozi-

192
Cristian Opariuc-Dan

tiv, cu tendințe către valori mici ale accidentelor. În acest caz, evident că vom
folosi teste neparametrice în locul celor parametrice, mai exact testul U
Mann-Whitney.
Pentru a determina valoarea exactă a testului statistic, trebuie, în pri-
mul rând, să ordonăm crescător sau descrescător datele, apoi să calculăm
rangurile. Realizăm acest lucru prin cumularea cele două șiruri într-unul sin-
gur. Vom avea 8 femei cu zero accidente, 4 femei cu un accident, 2 femei cu
două accidente și așa mai departe, până la o singură femeie cu 20 de acciden-
te (știm deja că este blondă). Evident, șirul a fost în prealabil ordonat crescă-
tor după numărul accidentelor.
Tabelul 2.11 – Calculul rangurilor
Accidente
0 1 2 3 4 5 6 7 8 20 Total
Grup
Blonde 3 2 1 2 2 3 3 1 2 1 20
Brunete 5 2 1 3 1 3 2 2 1 0 20
Total 8 4 2 5 3 6 5 3 3 1 40
1 9 13 15 20 23 29 34 37 40
2 10 14 16 21 24 30 35 38
3 11 17 22 25 31 36 39
4 12 18 26 32
Poziții
5 19 27 33
6 28
7
8
Rang 4,5 10,5 13,5 17 21 25,5 31 35 38 40

Calculul rangurilor din tabelul 2.11 s-ar putea să vă deruteze puțin, în-
să nu vă impacientați. Opt femei nu au comis niciun accident. În mod cert,
ele vor ocupa primele opt poziții în șirul ordonat (pozițiile de la 1 la 8). Deoa-
rece cele opt poziții au aceeași valoare (valoarea zero accidente), rangul va fi
reprezentat de media pozițiilor ocupate de scoruri. Adunând numerele de la

193
Statistică aplicată în ştiinţele socio-umane

unu la opt și împărțind suma la opt, rezultă 4,5, acesta fiind rangul scorului
„zero accidente”.
Următoarele patru femei au comis câte un singur accident. Bineînțe-
les, ele vor ocupa pozițiile următoare, de la poziția a noua, la poziția doispre-
zece. Rangul scorului „un accident rutier” va fi media acestor patru poziții –
de la 9 la 12 –, adică 10,5. Procedăm similar pentru a calcula rangurile tutu-
ror scorurilor din distribuția noastră. Nu este deloc dificil, doar diferit față de
cum erați dumneavoastră obișnuiți.
În următoarea etapă, va trebui să calculăm suma rangurilor pentru fie-
care grup de cercetare. Din moment ce știm deja rangul fiecărui scor, suma
rangurilor se calculează foarte simplu, înmulțind efectivul care a obținut sco-
rul respectiv, cu rangul asociat scorurilor, apoi adunând toate aceste produse.
Pentru a ne ușura sarcina, vom construi tabelul 2.12 și obținem suma ranguri-
lor pentru grupul blondelor de 444,5 și suma rangurilor pentru brunete 375,5.
Suma totală a rangurilor va fi 820 (∑R1+∑R2=444,5+375,5=820).

Tabelul 2.12 – Calculul sumei rangurilor


Blonde Brunete
Scor Efectiv Rang Efectiv Rang
fxr fxr
(f) (r) (f) (r)
0 3 4,5 13,5 5 4,5 22,5
1 2 10,5 21 2 10,5 21
2 1 13,5 13,5 1 13,5 13,5
3 2 17 34 3 17 51
4 2 21 42 1 21 21
5 3 25,5 76,5 3 25,5 76,5
6 3 31 93 2 31 62
7 1 35 35 2 35 70
8 2 38 76 1 38 38
20 1 40 40 0 40 0
∑R1=444,5 ∑R2=375,5

194
Cristian Opariuc-Dan

Ca măsură suplimentară de precauție, vom verifica dacă suma totală a


rangurilor este egală cu , unde n reprezintă numărul total de subiecți

(Radu, și alții, 1993). Pentru cazul nostru, .


Într-adevăr, nu am greșit la calcule, suma totală a rangurilor fiind corectă.
Având toate aceste informații, urmează calculul valorii testului statis-
tic U Mann-Whitney, după formula:

(∑ ∑ ) (formula 2.6)

Această formulă ne arată că vom lua ca referință, pentru testul U


Mann-Whitney, cea mai mică valoare dintre cele două prezentate. Să urmă-
rim calculul valorii testului U Mann-Whitney în cazul nostru:

(∑ ∑ )

( )

Efectuând calculele, am obținut U=165,5, aceasta fiind cea mai mică


valoare dintre cele două (234,5 și 165,5). În cazul în care cele două grupuri
de subiecți au sub 20 de scoruri, valoarea U se poate raporta direct la tabelul
de referință din anexa 8. În cazul nostru, pentru n1=20 și n2=20, ne situăm în
ultima celulă a tabelului, cea din dreapta jos. Valoarea testului nostru (165,5)
este mai mare decât pragul de referință de 127, precizat în tabel. Deoarece
pentru a fi semnificativ la un prag de semnificație mai mic de 0,05, valoarea
testului U trebuie să fie mai mică sau cel mult egală cu această valoare
(127), vom conchide că testul nu este semnificativ și nu vom respinge ipoteza
nulă, conform căreia nu există nicio diferență semnificativă între blonde și
brunete sub aspectul numărului de accidente comise.

195
Statistică aplicată în ştiinţele socio-umane

Atunci când numărul de subiecți din cele două grupuri de cercetare


este mare, distribuția testului U se apropie de distribuția normală. În acest caz
este mai util să calculăm varianta standardizată a testului U Mann-Whitney.
Această variantă – numită și scorul z al testului U – se bazează pe valoarea U
calculată anterior și poate fi aflat folosind formula de conversie a valorii ne-
standardizate U în scorul z pentru U.

(formula 2.7)

Dacă stăpâniți noțiunile de bază, ați observat deja că formula 2.7 nu


este altceva decât aplicarea concretă a formulei generale pentru statistica z,
fiind, de fapt, scorul U minus media celor două scoruri U de împărțit la abate-
rea standard a scorurilor U.


√ √

Valoarea z pentru datele noastre este de -0,93, valoare pe care o vom


considera în modul (fără semn) și o vom raporta la binecunoscuta distribuție
z. Știm deja că valorile prag pentru distribuția z sunt 1,96 la un prag de sem-
nificație mai mic de 0,05 și 2,58 pentru un prag de semnificație mai mic de
0,01. Valoarea noastră (0,93) este mai mică decât valoarea prag corespunză-
toare nivelului de semnificație 0,05, testul nostru fiind, după cum era și fi-
resc, nesemnificativ.
Unii autori (Vasilescu, 1992) fac distincție între forma standardizată a
testului U și forma sa nestandardizată, prima dintre ele purtând un nume dis-
tinct – testul Colin-White. Într-adevăr, Mann și Whitney s-au rezumat doar
la specificarea și demonstrarea formulei 2.6. Alți statisticieni, printre care
Colin și White au continuat activitatea, propunând forma standardizată, așa
cum a fost ea expusă în formula 2.7.

196
Cristian Opariuc-Dan

Vom încheia prezentarea acestui test statistic atrăgând atenția asupra


unui singur element: atunci când comparăm direct valoarea U cu valorile
prag prezentate în tabelul din anexa 8, aceasta trebuie să fie mai mică sau
cel mult egală cu valoarea prag pentru ca testul să prezinte semnificație sta-
tistică. Dacă însă lucrăm cu notele z, atunci valoarea notei z pentru testul U
trebuie să fie mai mare decât valorile prag pentru ca acesta să prezinte sem-
nificație statistică. Am accentuat asupra acestor idei, deoarece de multe ori se
creează confuzie la interpretarea semnificației testului statistic U Mann-
Whitney.
Acest test statistic, deși preferat în mai toate cercetările care folosesc
date neparametrice, se folosește atunci când numărul de ranguri egale nu este
foarte mare. Dacă această condiție nu poate fi îndeplinită din cauza naturii
datelor, atunci se preferă testul medianei sau se administrează o serie de pro-
cedee și tehnici de corecție pentru egalitatea rangurilor, aceasta fiind însă
prea complexe pentru ca să le discutăm în cadrul acestui volum.

II.2.2.3 Testul Wald-Wolfowitz


Reprezintă un alt tip de test statistic, întâlnit sub denumiri ca testul
iterațiilor, testul secvențelor sau testul Runs și se folosește, de obicei, pentru
eșantioane cu un volum mare, peste 40 de subiecți pentru fiecare eșantion.
O iterație (secvență) reprezintă o succesiune de elemente de același
tip. De exemplu, în tabelul 2.11 avem o iterație cu lungimea opt formată din
elemente de tip „zero accidente”, urmată de o iterație cu lungimea patru for-
mată din elemente de tip „un accident”, apoi o iterație cu lungimea doi for-
mată din elemente de tip „două accidente” și așa mai departe.
Pentru a calcula valoarea testului iterațiilor, avem nevoie atât de șirul
ordonat de date, cât și de șirul original, neordonat. Vom modifica puțin cerce-
tarea anterioară pentru a corespunde acestei noi cerințe.

197
Statistică aplicată în ştiinţele socio-umane

Blonde: 0, 1, 2, 2, 3 ,5, 3, 5, 5, 3, 2, 0, 1, 3, 4, 5, 3, 2, 1, 1 nbl=20


Brunete: 3, 5, 1, 1, 1, 2, 2, 0, 1, 2, 0, 0, 1, 2, 3, 4 ,3, 5, 1, 1, 3 nbr=21

Șirurile inițiale conțin un număr de 41 de cazuri, 20 de blonde și 21 de


brunete, aranjate ca mai sus. Prima blondă nu a făcut niciun accident, a doua
blondă a făcut un singur accident, a treia și a patra blondă au făcut, fiecare,
câte două accidente și așa mai departe. Observăm că ambele șiruri sunt neor-
donate.
În primul pas vom cumula cele două șiruri și vom ordona noul șir cu-
mulat, fie crescător, fie descrescător.
Total: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3,
3, 3, 4, 4, 5, 5, 5, 5, 5, 5 nbl+nbr=41

În al doilea pas, înlocuim elementele din șirul cumulat cu o serie de


coduri, corespunzătoare grupului din care fac parte. Pentru a simplifica lucru-
rile, vom codifica blondele cu litera A și brunetele cu litera B. Atunci, șirul
nostru cumulat devine o succesiune de secvențe.
A, A, B, B, B, A, A, A, A, B, B, B, B, B, B, B, A, A, A, A, B, B, B, B, A, A, A, A, A, B,
B, B, B, A, B, A, A, A, A, B, B

În total, un număr de cinci femei nu au avut niciun accident. Dintre


acestea, două sunt blonde (A, A) și trei brunete (B, B, B). Apoi, unsprezece
femei au făcut câte un singur accident. Dintre acestea, patru sunt blonde (A,
A, A, A) și șapte brunete (B, B, B, B, B, B, B). Vom continua după același
algoritm până recodificăm întregul șir cumulat. Apoi, numărăm secvențele
obținute. Primele două litere A formează o secvență de lungime 2 cu elemen-
te de tip A (din blonde). Următoarele trei litere B formează o secvență de
lungime 3 ce conține elemente de tip B (brunete) și așa mai departe. În final,
se obține un număr de 12 secvențe (R=12, R însemnând număr de repetări
sau secvențe).

198
Cristian Opariuc-Dan

Nu ne rămâne decât să calculăm valoarea z a testului iterațiilor, după


formula următoare:

( )
(formula 2.8)

Toate datele necesare înlocuirii în formulă există deja, iar după efec-
tuarea calculelor obținem o valoare z de -3,03.

( ) ( )

√ √

Această valoare obținută, luată fără semn, este mai mare decât valoa-
rea critică 2,58 pentru un prag de semnificație mai mic de 0,01, astfel încât
putem respinge ipoteza nulă. Folosind aceste date, putem spune că, într-
adevăr, de această dată culoarea părului are efect. Există diferențe între blon-
de și brunete sub aspectul numărului de accidente comise.
Pentru a vedea sensul acestor diferențe, adică pentru a vedea dacă
blondele comit mai multe accidente în comparație cu brunetele sau invers, nu
avem decât să calculăm medianele celor două șiruri.
Acest test statistic este destul de puțin folosit în științele socio-umane,
deoarece procesul de creare a secvențelor este unul migălos și de durată. De
cele mai multe ori procedeul este folosit pentru a verifica dacă șirul de date
are sau nu are un caracter aleatoriu. Desigur, procedeul de calcul este altul, se
folosește șirul de date neordonat, calculându-se nota z după o altă formulă.
Atunci când dorim să verificăm dacă datele au un caracter aleatoriu,
alături de acest test mai avem la dispoziție testul fazelor Wallis-Moore sau

199
Statistică aplicată în ştiinţele socio-umane

testul diferențelor succesive. Toate se bazează pe secvențe și pe diferențe în


cadrul secvențelor, procedeele de lucru fiind asemănătoare cu cele ale testului
iterațiilor. Nu vom prezenta aceste teste statistice. Pentru cei care doresc să-și
însușească aceste metode, vă invit pe site-ul http://www.statistica-sociala.ro
sau pot studia literatura de specialitate.

II.2.3 Teste pentru eșantioane dependente


Pentru eșantioane dependente (numite și eșantioane perechi), utilizate
atunci când lucrăm cu planuri de cercetare bazate pe măsurări repetate, avem
o altă categorie de teste statistice. Vă reamintesc că eșantioanele perechi se
formează, de obicei, investigând același grup de persoane de două ori. Există
două tipuri de teste pentru date situate la un nivel de măsură neparametric:
testul semnelor și testul Wilcoxon.

II.2.3.1 Testul semnelor


Acest test se folosește atunci când planul de cercetare presupune mă-
surări repetate și utilizăm eșantioane perechi. Proba ne permite să analizăm
semnificația diferențelor care apar între cele două serii de măsurători. Prin
urmare, accentul nu se pune numaidecât pe valori, ci pe semnul diferențelor
dintre valori.
Să presupunem următorul experiment, în care studiem efectele unui
tratament pentru abandonul fumatului. Vom selecta un grup de fumători la
care măsurăm numărul de țigări fumate inițial. Intervenim apoi cu tratamen-
tul și, la sfârșitul acestuia, măsurăm din nou numărul de țigări fumate. Acesta
este un experiment tipic pentru măsurări repetate; aceiași subiecți investigați
în două situații diferite.
Ipoteza nulă vizează egalitatea proporțiilor de semne + și – în șirul
nostru de date. În tabelul 2.13 am reprezentat situația de cercetare de mai sus,
pentru un număr de 12 subiecți. Observăm că primul subiect, M.C., fuma

200
Cristian Opariuc-Dan

înainte 10 țigări, iar după tratament fumează 6 țigări. Subiectul P.A. fumează
înainte de tratament 9 țigări, după tratament 10 țigări și așa mai departe.

Tabelul 2.13 – Modalitate de calcul pentru testul semnelor


În următoarea etapă facem
Subiect Înainte După Diferențe diferența dintre scorurile celor
M.C. 10 6 - două situații. Deci, vom avea Di-
P.A. 9 10 +
D.V. 15 11 - ferențe=După – Înainte. Nu sun-
S.T. 13 11 - tem interesați de valoarea acestei
B.L. 12 12 =
diferențe, ci doar de semnul ei,
A.T. 18 18 =
M.Z. 21 20 - semn pe care îl marcăm în ultima
R.V. 32 15 - coloană a tabelului 2.13. Nu ne
I.G. 35 12 -
J.I. 24 29 +
rămâne decât să numărăm câte
S.I. 26 10 - semne „-” avem, câte semne „+”
A.C. 18 7 - și câte situații de egalitate. În ca-
- = +
8 2 2 zul nostru, avem 8 semne minus,
2 egalități și 2 semne pozitive.
Egalitățile nu ne interesează, decizia luându-se doar la nivelul semne-
lor pozitive și negative. Prin urmare, „-”=8 și „+”=2. Numărul total de cazuri
(n) va fi considerat „+” + „-”, adică 8+2=10. Valoarea de referință (s) re-
prezintă cea mai mică valoare dintre totalul semnelor negative și totalul sem-
nelor pozitive. Deoarece avem 8 semne negative și 2 semne pozitive, valoa-
rea cea mai mică este, evident, 2 și corespunde semnelor pozitive. Prin urma-
re, s=2 și n=10. Valoarea lui n fiind mică (sub 30 de cazuri), putem raporta
valoarea s la tabelul din anexa 10. Pentru n=10, valoarea de referință la un
prag de semnificație mai mic de 0,01 este 1 (a treia linie din anexa 10). Noi
am obținut valoarea 2, o valoare care depășește valoarea critică minimă. Prin
urmare, testul este nesemnificativ, fiind nevoiți să nu respingem ipoteza nulă.
În cazul în care numărul de semne (n) este mai mare de 30, distribuția
acestora se apropie de o distribuție normală, având sens calculul notei z, după
formula următoare:

201
Statistică aplicată în ştiinţele socio-umane

(formula 2.9)

unde s reprezintă numărul de semne, după următoarea regulă:

 dacă s se referă la numărul de semne mai frecvente, se scade


constanta 0,5
 dacă s se referă la numărul de semne mai puțin frecvente, se
adaugă constanta 0,5

Reluând exemplul nostru, am putea avea două situații:

√ √

și

√ √

În ambele situații, valoarea z este 1,58, mai mică decât valoarea prag
1,96 pentru un prag de semnificație mai mic de 0,05. Desigur, testul este ne-
semnificativ – era și normal să fie așa –, nu vom respinge ipoteza nulă con-
form căreia tratamentul anti-fumat nu are nici un efect.

II.2.3.2 Testul Wilcoxon


Dacă proba semnelor – așa cum îi spune și numele – ia în calcul doar
semnele diferențelor dintre cele două situații, fără apel la valori, pentru a ana-
liza semnificația diferențelor dintre cele două situații de cercetare, testul
Wilcoxon are în vedere – alături de semne – și valoarea diferențelor.
Trebuie să aveți în vedere că atât proba semnelor, cât și proba
Wilcoxon, sunt teste statistice neparametrice. Forma distribuției variabilelor

202
Cristian Opariuc-Dan

nu are importanță, iar nivelul de măsură poate fi cel puțin unul ordinal. Testul
semnelor și proba Wilcoxon pot fi administrate valorilor sau rangurilor, fără
ca acest lucru să influențeze importanța lor.
Pentru clarificare, vom relua exemplul folosit anterior, de data aceasta
urmărind calculul unui test statistic mai eficient. Ați dedus bine, este vorba
despre testul Wilcoxon.
Primul pas, la fel ca și în cazul celeilalte probe, se referă la calculul
diferențelor dintre scoruri. De această dată vom reține și valorile acestor dife-
rențe. Probabil că ați observat un lucru de nuanță; dacă la testul semnelor
diferența a fost După – Înainte, aici diferența este Înainte – După. În realitate
acest lucru nu are nicio importanță. Singura diferență obținută va fi cea legată
de semn. Diferențele pozitive vor fi negative în al doilea caz și reciproc. Nu
este cazul să vă bateți capul prea tare cu aceste diferențe, rămâne la latitudi-
nea dumneavoastră să le efectuați cum doriți. Dacă folosiți prima situație
Tabelul 2.14 – Modalitate de calcul pentru testul Wilcoxon (După – Înainte) și obți-
Subiect Înainte După Diferențe Ranguri
M.C. 10 6 +4 +4,5
neți o diferență semnifica-
P.A. 9 10 -1 -1,5 tivă pozitivă, atunci în-
D.V. 15 11 +4 +4,5 seamnă că tratamentul a
S.T. 13 11 +2 +3
B.L. 12 12 0 - avut efect, în sensul că a
A.T. 18 18 0 - crescut numărul de țigări
M.Z. 21 20 +1 +1,5
fumate – normal, deoarece
R.V. 32 15 +17 +9
I.G. 35 12 +23 +10 diferența pozitivă provine
J.I. 24 29 -5 -6 din faptul că valorile în
S.I. 26 10 +16 +8
A.C. 18 7 +11 +7
situația „După” sunt mai
∑R+ 47,5 mari decât valorile în situ-
∑R- 7,5 ația „Înainte”. Dacă dife-
rența este semnificativă și negativă, înseamnă că tratamentul a avut efect în
sensul reducerii numărului de țigări, conform aceluiași algoritm.

203
Statistică aplicată în ştiinţele socio-umane

În al doilea pas, renunțăm la diferențele nule. Toate celelalte diferențe


le considerăm în valori absolute (fără semn) pentru a le ordona. După ce le
ordonăm crescător, vom stabili rangul fiecărei diferențe. În cazul nostru, sub-
iecții B.L. și A.T. sunt eliminați, deoarece diferențele sunt nule. Subiecții
P.A. și M.Z. au diferențe de un punct – primul în sens negativ, al doilea în
sens pozitiv. Ocupând primele două poziții, rangul va fi 1,5 pentru amândoi,
singura diferență fiind semnul rangurilor – negativ pentru primul și pozitiv
pentru al doilea, în conformitate cu semnul inițial al diferențelor. O singură
diferență pozitivă de două puncte o vom găsi la subiectul S.T. Desigur, ran-
gul acesteia va fi pozitiv și având valoarea 3. În mod similar, stabilim rangu-
rile tuturor scorurilor.
Următoarea etapă presupune realizarea sumei rangurilor, atât pentru
rangurile pozitive, cât și pentru cele negative. Adunând toate rangurile cu
plus, obținem 47,5 și adunând toate rangurile cu minus, obținem 7,5. La fel
ca și la testul semnelor, reținem cea mai mică sumă a rangurilor – în cazul
nostru suma celor negative, 7,5. Această sumă se raportează la tabelul din
anexa 11. Tabelul indică valoarea maximă pe care o poate lua suma de refe-
rință pentru ca testul să fie considerat semnificativ la diferite praguri de sem-
nificație. În cazul nostru, pentru n=10, valoarea maximă a sumei poate să fie,
8 pentru un prag de semnificație mai mic de 0,05. Surpriză, suma noastră cea
mai mică are valoarea 7,5, testul Wilcoxon fiind semnificativ la un prag de
semnificație mai mic de 0,05. Ipoteza nulă poate fi respinsă, semnul este ne-
gativ, am putea trage concluzia că tratamentul a avut ca efect creșterea numă-
rului de țigări fumate.
Dacă eșantionul este mare, știm deja ce se poate întâmpla. Distribuția
sumei rangurilor tinde spre o distribuție normală, iar în acest caz se poate
calcula nota z după următoarea relație:

204
Cristian Opariuc-Dan

(formula 2.10)

Datele din formulă sunt știute. La fel ca și în cazul anterior, suma ran-
gurilor este cea mai mică sumă a rangurilor dintre suma rangurilor pozitive și
suma rangurilor negative.

√ √ √

Din nou, a rezultat un test semnificativ la un prag de semnificație mai


mic de 0,05, valoarea obținută (2,03) fiind mai mare de valoarea prag 1,96 a
distribuției z.
De ce totuși testul semnelor a fost nesemnificativ, iar testul Wilcoxon,
semnificativ? Nu vi se pare ciudat? Răspunsul este foarte simplu și vă invit
să-l descoperiți. Când îl veți descoperi, veți înțelege de ce testul Wilcoxon
este preferat testului semnelor – de care, între noi fiind vorba, au auzit destul
de puțini.

II.3 Teste statistice pentru date parametrice


Adevărata plăcere a comparațiilor se află la nivelul datelor parametri-
ce – scalele de interval și de raport. Acum are sens calculul mediei și al aba-
terii standard, lucrurile devenind mult mai clare. Totuși, pe lângă nivelul de
măsură, datele trebuie să respecte și condiția obligatorie a distribuției norma-
le. Dacă una dintre variabile nu are o distribuție normală, fie aplicăm proce-
dee de normalizare a distribuției, fie folosim teste neparametrice.
Majoritatea lucrărilor de specialitate disting, la acest nivel, între trei
mari categorii de teste statistice: teste pentru un singur eșantion, teste pentru
două eșantioane independente și teste pentru două eșantioane perechi.

205
Statistică aplicată în ştiinţele socio-umane

II.3.1 Teste pentru un singur eșantion


Aceste teste statistice compară media unui eșantion cu media unei po-
pulații și verifică ipoteza nulă conform căreia nu există diferențe semnificati-
ve între media populației din care s-a extras eșantionul și o valoare dată. Alt-
fel spus, vom avea următoarele ipoteze:
H0: m=µ - Nu există nicio diferență între media populației din care a
fost extras eșantionul și valoarea dată (ipoteza nulă);
H1: µ>m<µ - Există o diferență semnificativă între media populației
din care a fost extras eșantionul și valoarea dată (ipoteză alternativă bilate-
rală);
H2: m>µ - Media populației este semnificativ mai mare în comparație
cu valoarea dată (ipoteză alternativă unilaterală).
H3: m<µ - Media populației este semnificativ mai mică în comparație
cu valoarea dată (ipoteză alternativă unilaterală).
Am început să folosim concepte reale de cercetare, deoarece aveți de-
ja informații suficiente. Respingerea ipotezei nule duce, după cum știți, la
susținerea uneia dintre cele trei ipoteze alternative.
Verificarea ipotezei nule se face prin intermediul a două teste statisti-
ce, astfel:
 testul z – dacă se cunoaște, alături de media populației, și aba-
terea standard a acesteia;
 testul t Student – dacă nu se cunoaște abaterea standard a po-
pulației.
Totuși, ce înseamnă „media populației”? Vom insista puțin asupra
acestui concept, deoarece aș dori să evităm pe viitor orice fel de confuzii.

206
Cristian Opariuc-Dan

Media populației poate însemna, ad-litteram, media obținută de o co-


lectivitate mare la un parametru. De exemplu, media sticlelor de bere pe care
le beau studenții universității Ovidius din Constanța poate fi considerată o
medie teoretică (valoarea dată). Dacă din acea universitate vom extrage un
eșantion de studenți de la psihologie, media sticlelor de bere pe care aceștia le
consumă reprezintă media eșantionului.
O altă accepție a mediei populației – cunoscută mai frecvent sub de-
numirea de medie teoretică – este legată de instrumentul de măsură. De
exemplu, itemul „Cât de frecvent consumați bere?” poate primi răspunsuri pe
o scală de la 1 la 5, unde 1 înseamnă „niciodată” iar 5 înseamnă „întotdeau-
na”.

Niciodată Întotdeauna
1 2 3 4 5

În acest caz, media teoretică (valoarea dată) este reprezentată de mij-


locul scalei (valoarea 3), valoare cu care se poate compara media eșantionului
format din subiecții care au răspuns la acest item.
O variantă a celor expuse mai sus se referă la media teoretică a unui
instrument format din mai mulți itemi. De exemplu, un instrument care mă-
soară anxietatea prin 25 de itemi de tipul „Da” și „Nu”, poate avea o ampli-
tudine a răspunsurilor cuprinsă între zero puncte (dacă un subiect răspunde
nesemnificativ clinic la toți itemii) și 25 de puncte (dacă un subiect răspunde
semnificativ clinic la toți itemii). În acest caz, media teoretică va fi de 12,5,
mijlocul scalei „anxietate” din inventar.
Cunoscând câteva dintre sensurile mediei populației, vă doresc mult
succes la crearea de instrumente și să vedem cum putem compara un eșantion
cu o populație.

207
Statistică aplicată în ştiinţele socio-umane

II.3.1.1 Testul z pentru un eșantion


Se folosește în cazul în care dispunem de media populației (valoarea
dată), abaterea standard a populației și, evident, media eșantionului. Testul z
se calculează după formula:

(formula 2.11)

unde m este media eșantionului, µ este valoarea dată (presupusa me-


die a populației), σ este abaterea standard a populației din care provine
eșantionul iar n se referă la mărimea eșantionului.

Formula este foarte ușor de aplicat. Să presupunem că studenții uni-


versității Ovidius din Constanța consumă, în medie, 1,3 litri de bere pe zi (µ),
cu o abatere standard de 2,1 litri de bere (σ). Am dori să știm dacă studenții
de la psihologie consumă semnificativ mai multă bere în comparație cu me-
dia pe universitate. Pentru aceasta, convocăm un eșantion de 34 de studenți la
psihologie, mergem la restaurant timp de o săptămână și vedem cam câtă
bere consumă. Presupunem că am ajuns la concluzia că aceștia consumă, în
medie, 2,1 litri de bere zilnic (m).
H0: m=µ - Nu există nicio diferență semnificativă între cantitatea de
bere consumată de studenții de la psihologie (populația din care a fost extras
eșantionul) și cantitatea de bere consumată de studenții universității Ovidius
Constanța (valoarea teoretică dată, cu care se compară media populației din
care s-a extras eșantionul);
H1: m>µ - Studenții de la psihologie consumă semnificativ mai multă
bere în comparație cu studenții universității Ovidius Constanța.
Ipoteza alternativă este, în mod cert, o ipoteză unilaterală. De ce am
formulat așa, vom vedea imediat.

208
Cristian Opariuc-Dan

Având toate aceste informații, presupunând că datele se distribuie


normal la nivelul populației de studenți de la psihologie, constatăm că înde-
plinim condițiile de aplicare ale testului z.

√ √

Desigur, valoarea obținută (2,22) o vom raporta la distribuția z. Cred


că deja țineți minte valorile critice pentru notele z – 1,96 pentru un prag de
semnificație mai mic de 0,05 și 2,58 pentru pragul de semnificație mai mic de
0,01. Testul z calculat de noi este mai mare decât valoarea critică pentru pra-
gul de semnificație p<0,05 și mai mic decât valoarea pentru pragul de semni-
ficație p<0,01. Putem, deci, respinge ipoteza nulă la un p<0,05. Într-adevăr,
există o diferență semnificativă între cantitatea de bere consumată de studen-
ții de la psihologie și cantitatea de bere consumată de studenții universității
Ovidius, în general. Deși am respins ipoteza nulă, putem oare susține ipoteza
alternativă formulată? Nu vă grăbiți să răspundeți!
Ipoteza alternativă este o ipoteză unilaterală, iar pragurile pentru va-
loarea z sunt date pentru o ipoteză bilaterală. În cazul ipotezelor unilaterale,
acestea devin:
 z=1,65 pentru p<0,05;
 z=2,33 pentru p<0,01.
Lucrurile se schimbă puțin. Într-adevăr, ipoteza alternativă se susține
la un prag de semnificație mai mic de 0,05. Dacă am fi obținut valoarea
z=2,34 în loc de 2,22, iată că ipoteza unilaterală s-ar fi susținut la un prag de
semnificație mai mic de 0,01 în comparație cu pragul de semnificație 0,05
pentru ipoteze bilaterale. Scopul acestui exemplu este acela de a vă arăta că,
de multe ori, este mai util să formulați ipoteze unilaterale.

209
Statistică aplicată în ştiinţele socio-umane

Folosind testul z am arătat că studenții de la psihologie consumă sem-


nificativ mai multă bere în comparație cu media consumului studenților uni-
versității Ovidius. Dacă valoarea z ar fi fost negativă (dacă am fi arătat că
studenții consumă semnificativ mai puțină bere), ipoteza alternativă, formula-
tă unilateral, ca mai sus, nu s-ar fi putut susține.

II.3.1.2 Testul t Student pentru un singur eșantion


O asemenea situație fericită, în care să avem la dispoziție atât media
cât și abaterea standard a populației se întâlnește, din păcate, extrem de rar,
aproape niciodată. Dacă media populației o putem afla – de obicei sub forma
mediei teoretice –, abaterea standard a acesteia este aproape imposibil de
cuantificat. Totuși, dacă ați studiat statistica univariată, trebuie să știți că aba-
terea standard a unui eșantion aproximează destul de bine abaterea standard a
populației. Când spunem destul de bine, în limbaj tehnic, spunem că aceasta
nu urmează o distribuție z ci o distribuție t, și iată testul t Student:

(formula 2.12)

unde m este media eșantionului, µ este media populației din care a


fost extras eșantionul, s este abaterea standard a eșantionului iar n se referă
la mărimea eșantionului.

Îmi veți spune că este formula testului z și aveți oarecum dreptate.


Într-adevăr, testul t Student pentru un eșantion este o formă adaptată a testu-
lui z, în care se înlocuiește doar abaterea standard a populației cu abaterea
standard a eșantionului.
Poate că vă surprinde numele acestui test, mai ales apelativul „Stu-
dent”. Nu întâmplător am ales berea ca exemplu pentru aceste teste. Într-
adevăr, testele t au fost descoperite în anul 1908 de către William Sealy
Gosset, un chimist angajat la berăriile irlandeze Guinness pentru a concepe

210
Cristian Opariuc-Dan

un nou tip de bere (de fapt exact berea neagră Guinness pe care o bem acum).
Proaspăt absolvent al universității Oxford, Gosset a fost imediat „botezat” de
către noul său patron cu numele de „studentul”. Monitorizând ingredientele
berii și inventând testele t, „studentul” a văzut ce anume face diferența sem-
nificativă la nivel de calitate. Deoarece procedeul de fabricație – inclusiv
metodele matematice folosite – reprezentau un secret comercial, Gosset a fost
nevoit să publice descoperirea testelor t, în revista Biometrika, nu sub numele
său real ci sub pseudonimul cu care îl gratulase șeful său. Acesta este motivul
pentru care cele mai cunoscute teste statistice de comparație poartă un nume
atât de ciudat.
După ce ne-am relaxat puțin, vom reconsidera exemplul anterior. Stu-
denții universității Ovidius din Constanța consumă, în medie, 1,3 litri de bere
pe zi (µ), iar un eșantion de 34 de studenți la psihologie, consumă, în medie,
2,1 litri de bere zilnic (m), cu o abatere standard de 3,1 litri de bere (s). În
acest caz, valoarea testului t devine:

√ √

Această valoare va trebui să o raportăm la valorile de referință din


anexa 4. Deoarece avem un singur eșantion, numărul gradelor de libertate
pentru care vom calcula semnificația testului va fi df=n-1. Având 34 de sub-
iecți, vom căuta pentru un număr de 33 grade de libertate. Totodată, ne amin-
tim că ipoteza alternativă este o ipoteză unilaterală, astfel încât valorile de
referință se vor calcula folosind primul cap de tabel și nu pe cel de-al doilea.
Pentru numărul de grade de libertate dat (33), valoarea de referință a
testului t la un prag de semnificație minim mai mic de 0,05 este de 2,03. Va-
loarea noastră (1,50) este mult mai mică în comparație cu această valoare
prag, testul statistic nefiind semnificativ. Prin urmare, ipoteza nulă nu poate fi
respinsă.

211
Statistică aplicată în ştiinţele socio-umane

II.3.2 Teste pentru două eșantioane independente


Semnificația eșantioanelor independente se păstrează și în cazul teste-
lor statistice parametrice. La fel ca și testele pentru un singur eșantion, și aici
avem un număr de două teste statistice – testul z și testul t Student. Ambele
teste verifică ipoteza nulă conform căreia nu există nicio diferență semnifica-
tivă între mediile celor două populații din care s-au extras eșantioanele.
H0: m1=m2 - Nu există nicio diferență între mediile celor două popu-
lații din care s-au extras eșantioanele (ipoteza nulă);
H1: m1≠m2 - Există o diferență semnificativă între mediile celor două
populații din care s-au extras eșantioanele (ipoteză alternativă bilaterală);
H2: m1>m2 - Media primului eșantion este semnificativ mai mare în
comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-
rală).
H3: m1<m2 - Media primului eșantion este semnificativ mai mică în
comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-
rală).

II.3.2.1 Testul z pentru eșantioane independente


Testul z se utilizează în momentul în care dispersiile populațiilor din
care au fost extrase eșantioanele sunt cunoscute, numărul de subiecți din fie-
care eșantion fiind, evident, mai mare de 30.
Relația de calcul a acestui test statistic este următoarea:

(formula 2.13)

Semnificația elementelor formulei o cunoașteți deja, astfel încât nu va


trebui să intrăm în detalii. Valoarea calculată, fiind o notă z, se raportează la
distribuția z în funcție de tipul ipotezei alternative.

212
Cristian Opariuc-Dan

Să presupunem că dorim să aflăm dacă studenții universității Ovidius


din Constanța beau mai multă sau mai puțină bere în comparație cu studenții
universității Alexandru Ioan Cuza din Iași.
H0: m1=m2 – Nu există nicio diferență între cantitatea de bere băută de
către studenții universității Ovidius din Constanța și cantitatea de bere băută
de către studenții universității Alexandru Ioan Cuza din Iași.
H1: m1≠m2 – Între cantitatea de bere băută de studenții universității
Ovidius Constanța și cantitatea de bere băută de studenții universității Ale-
xandru Ioan Cuza din Iași există o diferență semnificativă.
În mod cert, ipoteza alternativă este o ipoteză bilaterală, pragurile de
semnificație fiind 1,96 pentru p<0,05 și 2,58 pentru p<0,01. Nu avem nevoie
decât de abaterile standard la nivelul populației pentru a desfășura cercetarea.
Să presupunem că abaterea standard a studenților universității Ovidius este de
1,34 litri de bere, iar cea a studenților universității Alexandru Ioan Cuza este
de 1,76 litri de bere.
Desfășurând cercetarea pe un lot de cercetare de 42 de persoane de la
universitatea Ovidius Constanța, am constatat că media berii consumate este
de 2,10 litri, în timp ce pe lotul de cercetare de 45 de persoane de la Iași, me-
dia a fost de 1,87 litri. Ne punem problema dacă cele două medii diferă sem-
nificativ. Notăm cu m1 media pentru Constanța și cu m2 media pentru Iași,
după care aplicăm formula.

√ √

Valoarea obținută este cu mult sub valoarea prag, diferențele dintre


cele două medii sunt nesemnificative, ipoteza nulă nu poate fi respinsă.

213
Statistică aplicată în ştiinţele socio-umane

II.3.2.2 Testul t Student pentru eșantioane independente


La fel ca la testele pentru un singur eșantion, și aici testul z este supus
acelorași limitări. Nu vom reuși aproape niciodată să aflăm abaterea standard
a populațiilor din care provin cele două eșantioane și va trebui să ne bazăm
pe abaterea standard a eșantioanelor. Dacă cele două populații din care au
fost extrase eșantioanele au aceleași varianțe, comparația mediilor se poate
face după următoarea formulă:

(formula 2.14)
√ ( )

Dacă privim cu atenție formula 2.14, observăm că prima parte de sub


radical nu reprezintă altceva decât media aritmetică a varianțelor celor două
eșantioane. De aceea, formula de mai sus o puteți găsi exprimată și în felul
următor:

(formula 2.15)
√ ( )

unde s2 este dispersia întregului lot de cercetare, obținută prin cumu-


larea dispersiilor celor două eșantioane independente.

Formula 2.15 este, în general, mai puțin utilizată în comparație cu


formula 2.14, dintr-un motiv foarte simplu; este mai ușor să calculăm varian-
țele (sau abaterile standard) fiecărui eșantion decât să cumulăm datele celor
două eșantioane și să introducem pași de calcul suplimentari, doar pentru a
calcula varianța totală a celor două eșantioane, așa cum o cere formula 2.15.
În exemplul de mai sus, alături de medii (m1=2,10 litri și m2=1,87 li-
tri) și de numărul de studenți (n1=45 studenți și n2=45 studenți) vom presu-
pune că știm și abaterile standard (s1=0,35 litri și s2=0,98 litri). De fapt,
aceasta este și situația clasică de cercetare. Mult mai ușor aflăm abaterile
standard ale unui eșantion (s) decât abaterile standard ale populației (σ).

214
Cristian Opariuc-Dan


√ ( )


Valoarea testului t obținută (1,48) o comparăm cu valoarea de referin-


ță din anexa 4. Înainte de a face acest lucru, trebuie să decidem asupra numă-
rului de grade de libertate. Deoarece vorbim despre două eșantioane indepen-
dente, știți deja că fiecare eșantion pierde un grad de libertate. Atunci, numă-
rul total al gradelor de libertate va fi df=n1+n2-2. Adică, în situația noastră, df
va fi 45+45-2=88 grade de libertate.
În tabel, pentru 80 de grade de libertate (valoarea imediat inferioară
valorii căutate), avem, pentru un p<0,05, o valoare a testului t de 1,99 în ca-
zul ipotezei unidirecționale și 1,66 pentru ipoteza bidirecțională. Indiferent de
modul în care formulăm ipoteza, valoarea noastră (1,48) este mai mică decât
valoarea prag. Testul este nesemnificativ, nu există nicio diferență între canti-
tățile de bere consumate de studenții universității Ovidius în comparație cu
cei de la Iași. Asta este situația, nu putem respinge ipoteza nulă, toți studenții
sunt aproximativ la fel sub aspectul consumului de bere.
Referitor la acest test statistic, formula 2.14 sau 2.15 se aplică doar
atunci când dispersiile sunt egale (când s1=s2). Desigur, este aproape imposi-
bil să întâlnim dispersii absolut egale, de aceea egalitatea varianțelor (disper-
siilor) se verifică printr-un alt test statistic (testul F al lui Levene) pe care nu-l
vom detalia acum. Tot ceea ce vă pot spune este că acest test statistic are ca
ipoteză nulă egalitatea varianțelor populațiilor din care au fost extrase eșanti-
oanele (H0: s1=s2=s3=….=sn). Dacă testul nu este semnificativ, atunci nu
respingem ipoteza nulă și putem aplica formulele 2.14 sau 2.15. Dacă testul

215
Statistică aplicată în ştiinţele socio-umane

este semnificativ, atunci varianțele nu sunt egale și va trebui să folosim o altă


formulă, o formulă ajustată pentru testul t Student.

(formula 2.16)

Însăși formula de calcul a testului F al lui Levene – ei bine, cel puțin o


formă prescurtată a sa – este foarte simplă: . Observați că nu este alt-
ceva decât un raport al celor două varianțe. Acest raport se verifică folosindu-
se distribuția F, distribuție pe care nu o vom trata în acest volum, ci o vom
aborda în următoarea carte, când vom discuta despre analiza de varianță.
În exemplul nostru, evident că cele două varianțe nu sunt egale. Mă
veți crede pe cuvânt atunci când vă voi spune că testul F este semnificativ,
ipoteza nulă a egalității varianțelor fiind respinsă. Atunci, valoarea corectă a
testului t, în cazul nostru, va fi 1,49.


Nu este cine știe ce câștig, este doar o ajustare. Oricum, testul t rămâ-
ne, în continuare, nesemnificativ.

II.3.3 Teste pentru două eșantioane perechi


Eșantioanele perechi, numite și eșantioane corelate sau eșantioane de-
pendente, provin în urma cercetărilor cu măsurări repetate, așa cum deja cu-
noașteți. Literatura de specialitate menționează, pentru eșantioane perechi,
doar testul t Student. Acest test statistic, verifică aceeași ipoteza nulă con-
form căreia nu există nicio diferență semnificativă între mediile celor două
populații din care au fost extrase eșantioanele, distincția realizându-se doar la
nivelul construcției eșantioanelor:

216
Cristian Opariuc-Dan

H0: m1=m2 - Nu există nicio diferență între mediile celor două popu-
lații din care s-au extras eșantioanele perechi (ipoteza nulă);
H1: m1≠m2 - Există o diferență semnificativă între mediile celor două
populații din care s-au extras eșantioanele perechi (ipoteză alternativă bila-
terală);
H2: m1>m2 - Media primului eșantion este semnificativ mai mare în
comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-
rală).
H3: m1<m2 - Media primului eșantion este semnificativ mai mică în
comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-
rală).
Pentru a nu ne limita la o abordare simplistă, să considerăm următorul
experiment:
Un număr de 15 fumători au participat la o ședință de psihoterapie în
vederea abandonării fumatului. Ne interesează să știm dacă ședința de psiho-
terapie a avut sau nu a avut efect. Prin urmare, ce s-a întâmplat cu numărul
țigărilor fumate de către cei 15 fumători după psihoterapie. Ipoteza nulă ne
spune că ședința de psihoterapie nu are niciun efect. Transpus în termeni ști-
ințifici, avem următoarele posibilități:
H0: m1=m2 – Nu există nicio diferență semnificativă între media țigă-
rilor fumate înainte de ședința de psihoterapie și media țigărilor fumate după
ședința de psihoterapie (ipoteza nulă);
H1: m1≠m2 – Există o diferență semnificativă între media țigărilor fu-
mate înainte de ședința de psihoterapie și media țigărilor fumate după ședința
de psihoterapie (ipoteză alternativă bilaterală);
H2: m1>m2 – Media țigărilor fumate înaintea ședinței de psihoterapie
este semnificativ mai mare în comparație cu media țigărilor fumate după șe-

217
Statistică aplicată în ştiinţele socio-umane

dința de psihoterapie (ipoteză alternativă unilaterală - ședința de psihoterapie


are ca efect creșterea numărului de țigări fumate).
H3: m1<m2 - Media țigărilor fumate înaintea ședinței de psihoterapie
este semnificativ mai mică în comparație cu media țigărilor fumate după șe-
dința de psihoterapie (ipoteză alternativă unilaterală - ședința de psihoterapie
are ca efect scăderea numărului de țigări fumate).
Tabelul 2.15 – Modalitate de calcul pentru testul t Student – Dacă privim ipotezele
eșantioane dependente
Înainte După După-Înainte (După-Înainte)2
de mai sus, în special cele trei
30 18 -12 144 ipoteze alternative, constatăm
19 16 -3 9 că ne interesează, în special,
28 20 -8 64
41 21 -20 400 ipoteza a treia. Aceasta ar
25 14 -11 121 avea valoare, ar fundamenta
23 12 -11 121 atât efectul ședinței de psiho-
32 11 -21 441
28 10 -18 324 terapie cât și motivația sub-
26 5 -21 441 iecților. Desigur, primul pas îl
31 12 -19 361
38 11 -27 729
reprezintă colectarea datelor.
40 4 -36 1296 Vom înregistra numărul de
42 13 -29 841 țigări fumate de cei 15 sub-
41 19 -22 484
35 10 -25 625 iecți, atât înainte, cât și după
n=15 ∑dif=-283 ∑dif2=6401 ședința de psihoterapie. Re-
zultatele le vom consemna în tabelul 2.15.
După colectarea datelor, efectuăm diferențele dintre situația finală și
situația inițială, aceste diferențe fiind înregistrate cu tot cu semn. La sfârșit,
va trebui să facem suma tuturor diferențelor calculate. Suma, în cazul exem-
plului nostru, este de -283. Ținând cont de specificul cercetării, suma ne spu-
ne că după psihoterapie, subiecții fumează mai puțin cu 283 de țigări. Pare
frumos, însă trebuie să vedem dacă este și semnificativ.

218
Cristian Opariuc-Dan

Ultima etapă de calcul în tabel presupune ridicarea la pătrat a tuturor


diferențelor și calculul sumei acestor pătrate. Suma pătratelor diferențelor
este, pentru studiul propus, de 6401. Imediat vom vedea la ce ne folosește.
Testul t Student pentru eșantioane perechi se calculează după expresia
următoare:

(formula 2.17)

unde mdif reprezintă media diferențelor, iar sdif dispersia acestora

Pentru a calcula valoarea acestui test, nu trebuie decât să aflăm media


și dispersia diferențelor. Media diferențelor este foarte simplu de aflat. Împăr-
țim suma diferențelor la numărul de subiecți. Așadar, înlocuind datele, avem
mdif=-283/15=-18,86.
Pentru a calcula dispersia diferențelor, va trebui să aplicăm o altă
formulă, în acord cu formula de definiție a dispersiei.

( )

(formula 2.18)

Desigur, avem deja toate datele necesare pentru a calcula dispersia di-
ferențelor.

( )

Acum nu rămâne decât să folosim formula testului t Student pentru


eșantioane perechi (formula 2.17)


219
Statistică aplicată în ştiinţele socio-umane

Valoarea lui t (8,41) se raportează la valorile de referință din anexa 4


pentru un număr de n-1 grade de libertate. Din ce motiv folosim n-1 și nu
forma de la eșantioane independente, vă lăsăm pe dumneavoastră să explicați.
Nu uităm faptul că s-a utilizat o ipoteză unilaterală și nu bilaterală.
Pentru 14 grade de libertate, valoarea de referință la nivelul unei ipo-
teze unilaterale și la un p<0,05 este de 2,14, iar pentru p <0,01 este de 2,97.
Testul nostru este semnificativ la un p<0,01, putem respinge ipoteza nulă.
Semnul testului (negativ) arată că scăzând situația „Înainte” din situația „Du-
pă”, obținem un număr cu semnul minus. Asta înseamnă că situația „După”
are valori semnificativ mai mici în comparație cu situația „Înainte”. În cazul
nostru, psihoterapia a avut un efect semnificativ, determinând scăderea sem-
nificativă a numărului de țigări fumate, la un prag de semnificație mai mic de
0,01.
Pentru cei dintre dumneavoastră cărora au început să le placă formule-
le complexe, pentru a-și impresiona prietenii și/sau prietenele, putem combi-
na formulele 2.17 și 2.18 într-o expresie de calcul unică a testului t Student
pentru eșantioane dependente

(formula 2.19)
( )

II.4 Teste statistice de normalitate și teste pentru valori


aberante
În cadrul acestui capitol vom discuta despre două categorii specifice
de teste statistice. Este vorba despre testele pentru valori aberante și testele de
normalitate. Explicații detaliate referitoare la fiecare categorie, veți găsi în
subcapitolele adiacente. Dar să începem cu o încălzire ușoară și să abordăm
testele pentru valori aberante.

220
Cristian Opariuc-Dan

II.4.1 Teste pentru valori aberante


Mult timp am stat în dubii referitor la includerea acestor categorii de
teste. Adevărul este că nu le folosește prea multă lume. Decizia de a le trata
aici, a survenit în urma unei discuții cu profesorul Filaret Sîntion, șeful cate-
drei de psihologie de la Universitatea Ovidius din Constanța. Domnia sa mi-a
pus, la un moment dat, o întrebare: „atunci când apar scoruri extreme într-o
distribuție, ce facem cu ele?” Din câte știți deja, pentru a beneficia de supor-
tul și puterea testelor parametrice, vom renunța la subiectul cu acel scor ex-
trem. Totuși acesta să fie răspunsul? Haideți să ne imaginăm un experiment
în care urmărim să investigăm reacția unor subiecți la imagini cu conținut
violent. Variabila dependentă ar fi ritmul cardiac – pulsul în limbaj comun.
Să presupunem că majoritatea subiecților ar avea pulsul între 100 și 110 bătăi
pe minut, cu excepția unui singur subiect, la care pulsul ar fi de 185 de bătăi
pe minut. Desigur, acest scor ar fi un scor extrem, cel puțin la prima vedere.
Acum, revenim la întrebarea profesorului Sîntion; ce facem cu acest subiect?
Îl eliminăm din analiză sau îl tratăm ca un caz de hiperemotivitate și hiper-
sensibilitate? În realitate răspunsul la această întrebare depinde de scopul
cercetării, neexistând soluții universal valabile.
Problema este, însă, alta. Cum decidem dacă un scor este sau nu este
extrem? Până la ce limită putem vorbi de scoruri aberante? În cartea anterioa-
ră ați învățat o metodă grafică pentru depistarea acestor valori. Vă amintiți,
era vorba despre graficul „box-plot”, cutie cu mustăți cum l-am denumit noi.
Desigur, metodele grafice sunt utile în vederea conturării unei păreri subiec-
tive. În statistică avem nevoie, aproape de fiecare dată, nu de păreri subiecti-
ve ci de date obiective, demonstrabile. Iată și rațiunea pentru care există și
teste statistice de depistare a valorilor aberante.
Majoritatea acestor teste au în vedere un șir ordonat de date, iar for-
mulele diferă în funcție de valoarea aberantă testată – dacă această valoare se
situează la limita inferioară a șirului sau la limita superioară a acestuia.

221
Statistică aplicată în ştiinţele socio-umane

II.4.1.1 Testul Romanovski


Este un test pentru valori aberante, aplicabil pe loturi de cercetare de
mici dimensiuni, sub 20 de cazuri. Formulele de calcul pentru acest test sunt
următoarele:

(formula 2.20)

(formula 2.21)

unde xaber reprezintă valoarea aberantă, m reprezintă media valorilor


din șirul de date fără valoarea aberantă iar σ se referă la abaterea standard
a valorilor din șirul de date, de asemenea fără valoarea aberantă.
După cum observați, formulele se aplică diferențiat. Dacă valoarea
aberantă este cea mai mare valoare, se aplică formula 2.20, iar dacă valoarea
aberantă este cea mai mică valoare din șir, se aplică 2.21.
Exemplele de calcul pentru aceste teste nu sunt foarte complexe. Să
presupunem că în urma unui test de inteligență, aplicat unui număr de 18 per-
soane, una dintre persoane a obținut scorul 2. Toate celelalte persoane au
scoruri cuprinse între 15 și 38 de puncte. În prima etapă, excludem persoana
care a obținut scorul 2 și calculăm media și abaterea standard pentru celelalte
17 persoane rămase. Presupunem că media scorurilor este de 23,10 puncte,
iar abaterea standard este 2,13 puncte. Deoarece valoarea 2 este valoarea in-
ferioară din șirul de date, aplicăm formula 2.21 pentru testul Romanovski și
obținem valoarea 9,63

√ √

Ipoteza nulă a acestui test statistic postulează că valoarea nu este abe-


rantă. Dacă testul este semnificativ, atunci se respinge ipoteza nulă, valoarea

222
Cristian Opariuc-Dan

testată fiind aberantă. Testul statistic este semnificativ dacă valoarea sa este
mai mare sau egală cu valoarea de referință prezentată în tabelul din anexa
12.
Pentru n=18, valoarea de referință este 2,17 la un prag de semnificație
mai mic de 0,05 și 3,00 pentru un prag de semnificație mai mic de 0,01. În
mod cert, testul nostru este semnificativ la un prag de semnificație mai mic
de 0,01, ipoteza nulă se respinge, valoarea testată (2) fiind o valoare aberantă.

II.4.1.2 Testul Dixon


Este un alt test pentru valori aberante, aplicabil pentru șiruri de până
la 25 de scoruri, bazat pe ordonarea șirului. Dacă valoarea suspectă este cea
Tabelul 2.16 – Pragurile critice și formulele de calcul pentru testul Dixon
mai mică valoare din
n 0,05 0,01 Formula șir, șirul se ordonează
3 0,941 0,988
crescător. Dacă valoarea
4 0,765 0,889
5 0,642 0,780 | | (formula 2.22) suspectă este cea mai
6 0,560 0,698
7 0,507 0,637
mare valoare din șir,
8 0,554 0,683 șirul se ordonează des-
9 0,512 0,635 | | (formula 2.23)
10 0,477 0,597
crescător.
11 0,576 0,679
12 0,546 0,642 | | (formula 2.24) Să presupunem
13 0,521 0,615 că avem un șir ordonat
14 0,546 0,641
15 0,525 0,616 crescător, În acest caz
16 0,507 0,595 vom avea valorile x1, x2,
17 0,490 0,577
18 0,475 0,561 x3, x4, x5 … xn-2, xn-1, xn,
19 0,462 0,547
| | (formula 2.25) cu proprietatea că x1
20 0,450 0,535
21 0,440 0,524 este cea mai mică va-
22 0,430 0,514 loare din șir (în situația
23 0,421 0,505
24 0,413 0,497 noastră valoarea suspec-
25 0,406 0,489 tă) iar xn este cea mai
după (Vasilescu, 1992)
mare valoare din șir.

223
Statistică aplicată în ştiinţele socio-umane

Formula se ajustează în funcție de numărul de scoruri.


Dacă avem până la șapte valori în șirul de date, folosim formula 2.22.
Dacă avem de la opt la zece valori, folosim formula 2.23 și așa mai departe,
după cum reiese și din tabelul 2.16.
Ipoteza nulă susține că valoarea testată (x1) nu este aberantă, la fel ca
și testul anterior.
Avem șirul ordonat de date: 1, 9, 15, 18, 23, 17, 29, 30, 32, 32, 33.
Acesta conține un număr de 11 valori, prin urmare vom aplica formula 2.24
pentru a testa valoarea presupusă a fi aberantă, valoarea 1.

| | | | | |

Valoarea de referință pentru un n=11, în tabelul 2.16, este de 0,576 la


un prag de semnificație mai mic de 0,05. Deoarece valoarea noastră (0,451)
este mai mică decât valoarea prag, testul este nesemnificativ, ipoteza nulă nu
se poate respinge. Așadar valoarea 1 nu este o valoare aberantă în șirul nostru
de date.

II.4.1.3 Testul Grubbs


Tabelul 2.17 – Pragurile critice pentru testul Grubbs Este un alt test pentru valori
n 0,05 0,01 n 0,05 0,01 aberante, fiind folosit, de această
20 2,557 2,884 85 3,151 3,543
25 2,663 3,009 90 3,171 3,563 dată, pe eșantioane sau loturi de
30 2,745 3,103 95 3,189 3,582 cercetare de mari dimensiuni (peste
35 2,811 3,178 100 3,207 3,600
40 2,866 3,240 105 3,224 3,617 20 de cazuri). Ipoteza nulă a acestui
45 2,914 3,292 110 3,239 3,632 test susține, la fel ca și pentru cele-
50 2,956 3,336 115 3,254 3,647
55 2,992 3,376 120 3,267 3,662 lalte două teste expuse anterior, că
60 3,025 3,411 125 3,281 3,675
valoarea nu este aberantă,
65 3,055 3,442 130 3,294 3,688
70 3,082 3,471 135 3,306 3,700 respingându-se în cazul în care tes-
75 3,107 3,496 140 3,318 3,712
80 3,130 3,251 145 3,328 3,723
tul Grubbs este mai mare în compa-
după (Vasilescu, 1992)

224
Cristian Opariuc-Dan

rație cu valorile prag precizate în tabelul 2.17.


Deoarece vorbim despre eșantioane mari, calculul testului Grubbs se
poate efectua doar dacă datele au o distribuție normală, acesta bazându-se pe
medie și abatere standard.

(formula 2.26)

(formula 2.27)

Dacă valoarea testată este cea mai mare din șir, se folosește formula
2.26, iar dacă valoarea testată este cea mai mică din șir, formula 2.27.
Cred că ați observat deja un lucru interesant. Testul Grubbs nu repre-
zintă altceva decât nota z a scorului presupus aberant.
Să considerăm un exemplu, în care un număr de 130 de subiecți au
efectuat un test de atenție. Media scorurilor obținute de cei 130 de subiecți
este m=21,35 puncte iar abaterea standard s=5,41 puncte. Ne întrebăm dacă
scorul maxim x=53 puncte este sau nu un scor aberant.
Pentru că valoarea testată este cea mai mare valoare din șir, aplicăm
formula 2.26 pentru testul Grubbs.

La un număr de 130 de subiecți, valoarea prag pentru un p<0,01 este


de 3,688. Indicatorul obținut de noi depășește cu mult valoarea prag, prin
urmare testul Grubbs este semnificativ la un p<0,01. În acest caz vom respin-
ge ipoteza nulă și vom accepta faptul că valoarea testată este aberantă.
Deoarece testul Grubbs este unul standardizat, pentru eșantioane de
mari dimensiuni se poate realiza compararea cu distribuția t Student la un
număr de n-1 grade de libertate.

225
Statistică aplicată în ştiinţele socio-umane

II.4.2 Teste de normalitate


Se mai numesc teste de concordanță cu repartiția normală și toate fac
același lucru – compară distribuția datelor empirice (a datelor din populația
din care s-a extras eșantionul cercetat) cu distribuția teoretică normală și veri-
fică dacă diferențele dintre acestea sunt sau nu sunt semnificative.
Cu altă ocazie am învățat să analizăm o distribuție și să decidem dacă
este sau nu este normală. Este vorba despre procedeul bazat pe momentele
centrate – analiza simetriei și a boltirii. Aceasta este o metodă excelentă, o
folosesc și eu intens în studiile și cercetările mele. Uneori, însă, avem nevoie
de mai mult, de o demonstrație mai serioasă, de o expresie unică a normalită-
ții unei distribuții. Acum, dacă suntem familiarizați cu analiza diferențelor
statistice, ne va fi mai ușor. Iată de ce se merită să introducem și conceptul de
teste de normalitate.

II.4.2.1 Testul de normalitate χ2


Să nu-mi spuneți că nu v-a fost dor de χ2, că nu vă cred. L-am studiat
la asocierea datelor neparametrice, ne-am lovit de el la diferențele de frecven-
ță între variabile, am văzut că poate funcționa ca test statistic și coeficient de
asociere (contingență), dar să vorbim despre χ2 la distribuția normală, parcă e
prea de tot. Cu toate acestea, iată, χ2 reprezintă unul dintre cele mai serioase
teste de normalitate. Ipoteza nulă susține că distribuția empirică nu diferă de
distribuția normală teoretică și se respinge dacă valoarea χ2 este mai mare
decât pragul de semnificație ales.
Să considerăm că un număr de 486 de studenți au efectuat un test, la
care s-a obținut media m=18,93, abaterea standard s=2,14, cel mai mic scor
fiind 2 iar cel mai mare scor fiind 45. Se pune problema să studiem dacă
această distribuție este sau nu este normală.
În primul rând, să construim distribuția empirică. Practic, avem de
stabilit un număr de clase și de calculat frecvența absolută a fiecărei clase.

226
Cristian Opariuc-Dan

Da, așa este, revenim, iată, la bazele statisticii. Procedura este analogă, doar
că vom folosi media și abaterea standard pentru crearea claselor.
Tabelul 2.18 – Testul de normalitate bazat pe χ2
Clase f zi F(zi) π(zi) f*π(zi) f-ft (f-ft)2 (f-ft)2/ft
Clasa 1 (i=1)
< m-2,5s 1 -2,5 0,0062 0,0062 0,0062 0,9938 0,98763844 159,296523
< 13,58
Clasa 2 (i=2)
(m-2,5s…m-2s] 4 -2 0,0228 0,0166 0,0664 3,9336 15,473209 233,030255
13,58-14,65
Clasa 3 (i=3)
(m-2s…m-1,5s] 15 -1,5 0,0668 0,044 0,66 14,34 205,6356 311,569091
14,66-15,72
Clasa 4 (i=4)
(m-1,5s…m-1s] 49 -1 0,1587 0,0919 4,5031 44,4969 1979,97411 439,691348
15,73-16,79
Clasa 5 (i=5)
(m-1s…m-0,5s] 65 -0,5 0,3085 0,1498 9,737 55,263 3053,99917 313,648883
16,80-17,86
Clasa 6 (i=6)
(m-0,5s…m] 104 0 0,5000 0,1915 19,916 84,084 7070,11906 354,99694
17,87-18,93
Clasa 7 (i=7)
(m…m+0,5s] 97 +0,5 0,6915 0,1915 18,5755 78,4245 6150,4022 331,102915
18,94-20,00
Clasa 8 (i=8)
(m+0,5s…m+1s] 87 +1 0,8413 0,1498 13,0326 73,9674 5471,17626 419,806966
20,01-21,07
Clasa 9 (i=9)
(m+1s…m+1,5s] 38 +1,5 0,9332 0,0919 3,4922 34,5078 1190,78826 340,985127
21,08-22,14
Clasa 10 (i=10)
(m+1,5s…m+2s] 18 +2 0,9772 0,044 0,792 17,208 296,115264 373,882909
22,15-23,21
Clasa 11 (i=11)
(m+2s…m+2,5s] 5 +2,5 0,9938 0,0166 0,083 4,917 24,176889 291,287819
23,22-24,28
Clasa 12 (i=12)
> m+2s 3 +3 0,9987 0,0049 0,0147 2,9853 8,91201609 606,259598
> 24,28
TOTAL 486 4175,55837
Există mai multe variante de lucru. Cea mai comodă variantă este să
lucrăm cu intervale având dimensiunea de jumătate de abatere standard. Exis-

227
Statistică aplicată în ştiinţele socio-umane

tând șase abateri standard într-o distribuție normală, vor rezulta un număr de
12 clase.
Prima clasă va conține scorurile mai mici decât media minus 2,5 aba-
teri standard. A doua clasă cuprinde scorurile cuprinse între media minus 2,5
abateri standard și media minus 2 abateri standard. Clasa a treia se referă la
scoruri cuprinse între media minus 2 abateri standard și media minus 1,5 aba-
teri standard și așa mai departe, după cum puteți vedea în tabelul 2.18.
După construcția claselor, stabilim, evident, frecvențele absolute la
nivelul fiecărei clase. Urmează calcului variabilei normale z, pentru fiecare
dintre cele 12 clase, după expresia următoare

(formula 2.28)

Este formula clasică de calcul a notelor z, unde lsup(i) se referă la limita


superioară a clasei i. Pentru prima clasă, am avea:

A doua clasă ar deveni:

Continuați până când stabiliți variabilele normale pentru toate cele 12


clase. Observați că, în realitate, nici nu ar fi fost nevoie să calculați. Notele z
nu reprezintă decât fracțiunea cu care s-a multiplicat abaterea standard la li-
mita superioară a fiecărei clase.
Deoarece vom dori să comparăm această distribuție cu distribuția teo-
retică – normală în cazul nostru – avem nevoie de probabilitățile teoretice
pentru fiecare valoare z, pe care le vom nota cu F(z). Aceste valori sunt obți-
nute din valorile funcției Laplace. Despre această funcție nu vom discuta,
deoarece depășim cu mult contextul materialului. Funcția F(z) Laplace este

228
Cristian Opariuc-Dan

prezentată în tabelul din anexa 13, tabel care ne ajută să extragem probabili-
tățile teoretice pentru fiecare scor z. Înainte de a efectua calculele, se impune
totuși să precizăm că dacă scorul z este negativ, atunci F(-z)=1 – F(z). Adică,
pentru a calcula un scor z negativ, trebuie să scădem din valoarea 1, valoarea
F(z) din tabel pentru acel scor. Vedem imediat cum se procedează.
Prima clasă are z=-2,5. În tabelul din anexa 13, pentru un z=2,5 avem
F(z)=0,9938. Cum însă z este negativ, obținem F(z)=1 – 0,9938, adică 0,0062.
A doua clasă are z=-2. În tabelul din anexa 13 avem pentru un z=2, valoarea
0,9772. Din aceleași motive, obținem F(z)=1 – 0,9772=0,0228. La fel proce-
dăm cu toate clasele, până la clasa a șasea.
Pentru clasa a șasea, unde avem z=0, F(z)=0,5000. Deoarece z nu mai
este negativ, aceasta este și valoarea căutată. La fel, clasa a șaptea, unde
F(z)=0,6915.
Totuși, până acum nu am stabilit decât probabilitățile teoretice cumu-
late pentru distribuția noastră, deoarece funcția Laplace este, după cum am
spus, o funcție cumulativă. Am fi mai curând interesați de probabilitățile teo-
retice efective, nu de cele cumulate. Din fericire, acest lucru este simplu de
aflat. Nu avem decât să scădem din probabilitatea teoretică cumulată a unei
clase, probabilitatea teoretică cumulată a clasei anterioare și iată, am obținut
probabilitățile teoretice efective pentru fiecare dintre clase. Așadar, vom avea
o nouă coloană în tabelul 2.18, coloana π(zi) unde:

(formula 2.29)
Pentru prima clasă nu avem o clasă anterioară, așadar π(zi)=0,0062. A
doua clasă va fi π(zi)=0,0228-0,0062=0,0166. Pentru a treia clasă vom avea
π(zi)=0,0668-0,0228=0,0440 și așa mai departe. După calculul probabilități-
lor teoretice efective, urmează să înmulțim frecvența absolută a fiecărei clase
cu probabilitatea teoretică efectivă (f*π(zi)). Această valoare o putem denumi

229
Statistică aplicată în ştiinţele socio-umane

frecvență teoretică și o notăm cu ft. Având aceste elemente, putem acum trasa
formula de calcul pentru χ2 atunci când efectuăm testul de normalitate:

∑ (formula 2.30)

Destul de simplu. Din formulă mai rezultă câțiva pași. Să facem dife-
rențele dintre frecvența observată și frecvența teoretică, să ridicăm la pătrat
aceste diferențe și apoi să împărțim pătratele la frecvența teoretică. În final
efectuăm suma acestor rezultate și obținem valoarea pentru χ2. Valoarea
noastră este foarte mare. Am obținut χ2=4175,55. Această valoare o vom
compara cu valoarea de referință pentru un număr de k-3 grade de libertate,
deoarece avem doi parametri – media și abaterea standard. În situația noastră,
valoarea indicatorului este comparată la 12-3=9 grade de libertate. La un prag
de semnificație mai mic de 0,01, valoarea de referință este de 21,665. Valoa-
rea obținută este mult mai mare decât valoarea prag, testul este semnificativ
la un prag de semnificație mai mic de 0,01, vom respinge ipoteza nulă. Cu
alte cuvinte, distribuția empirică diferă semnificativ de distribuția teoretică
normală. Pe scurt, datele noastre nu se distribuie normal.
Folosind această metodă putem compara o distribuție empirică nu
numai cu distribuția normală, dar și cu alte distribuții, precum distribuția Po-
isson, binomială, etc.

II.4.2.2 Testul de normalitate Shapiro-Wilk


Are la bază aceeași ipoteză nulă, conform căreia distribuția empirică
nu diferă de distribuția normală. Testul se folosește, în general, pentru eșanti-
oane care nu depășesc 50 de subiecți, în timp ce testul χ2 se pretează foarte
bine la eșantioane de mari dimensiuni. Formula de calcul pentru testul
Shapiro-Wilk este următoarea:

230
Cristian Opariuc-Dan


(formula 2.31)

unde b este o estimație liniară a abaterii standard, care se calculează


în baza valorilor ordonate din șirul de date
Să presupunem un număr de 10 măsurători, după cum urmează: 190,
250, 200, 330, 280, 260, 270, 240, 290, 220. Desigur, acest exemplu are un
caracter pur didactic, deoarece este absurd să vorbim despre o distribuție
normală la doar 10 scoruri. Pentru a calcula valoarea testului Shapiro-Wilk,
trebuie să ordonăm crescător șirul de date. Acesta va deveni:
190, 200, 220, 240, 250, 260, 270, 280, 290, 330
Pentru a stabili estimația liniară a abaterii standard, avem nevoie de
valoarea kmax care se calculează aproximativ la fel ca și poziția medianei. Da-
că șirul de date este par, atunci kmax=n/2, iar dacă este impar, kmax=n-1/2. Ei
bine, dacă vă mai aduceți aminte, poziția medianei se calculează puțin diferit,
de aceea am afirmată că procedeul este aproximativ la fel și nu identic.
Șirul nostru fiind unul par, kmax=10/2=5. Urmează construirea unui ta-
bel special necesar stabilirii valorii estimației liniare a abaterii standard, după
cum urmează în tabelul 2.19.

Tabelul 2.19 – Calcului estimației b pentru testulÎn primul rând, formăm co-
Shapiro-Wilk
loana XI pentru fiecare valoare a lui
k xI xII Wk a Wk*a
1 190 330 140 0,5739 80,346 k. Practic, această coloană este for-
2 200 290 90 0,3291 29,619 mată din primele k numere ordonate
3 220 280 60 0,2141 12,846
4 240 270 30 0,1224 3,672 crescător – în cazul nostru, primele 5
5 250 260 10 0,0399 0,399 numere. Coloana XII este formată din
126,882
ultimele k numere – 5 numere în
cazul nostru – de data aceasta ordonate descrescător. Vom avea, în situația
noastră, pentru fiecare valoare a lui k de la 1 la 5, șirul X I=190, 200, 220, 240
și 250, și XII=330, 290, 280, 270 și 260. Urmează construcția coloanei Wk,

231
Statistică aplicată în ştiinţele socio-umane

unde Wk nu este altceva decât diferența dintre al doilea și primul șir. Adică,
Wk=XII-XI.
Coeficientul a se extrage din tabelul din anexa 14, pentru diferitele
valori ale lui n și k. În cazul nostru, n=10 și, evident, k=5. Ne deplasăm în
tabel pe coloana numărul 10 (corespunzătoare lui n) și vom avea pentru k=1,
un coeficient a=0,5739. Pentru k=2 avem a=0,3291 și așa mai departe. Copi-
em acești coeficienți în coloana corespunzătoare din tabelul 2.19. Urmează
apoi să înmulțim, pentru fiecare k, coloana Wk și coloana a, rezultatele fiind
trecute într-o ultimă coloană din tabel. Însumând toate aceste produse, obți-
nem expresia estimării liniare a abaterii standard (b), în situația noastră aceas-
ta fiind 126,882.
Restul procesului este foarte simplu și nu îl vom detalia. Este necesar
să calculăm media celor 10 scoruri (m=253 în cazul de față), apoi să scădem
fiecare scor din medie, la fel ca la calculul varianței, (xi-m), să ridicăm la pă-
trat aceste diferențe (xi-m)2 și, în final, să facem suma acestor pătrate. Pentru
exemplul nostru, suma pătratelor diferențelor este 16410. Având toate datele,
putem înlocui acum în formulă:

Valoarea testului Shapiro-Wilk o raportăm la pragurile de semnifica-


ție din tabelul din anexa 15. Pentru n=10, pragul de semnificație la un p<0,05
este de 0,842, iar la un p<0,01 este de 0,781. Deoarece valoarea testului este
mai mare de 0,842, testul este nesemnificativ, ipoteza nulă nu se respinge și,
prin urmare, distribuția poate fi considerată o distribuție normală. Aveți grijă
la interpretare. De această dată, testul este semnificativ dacă valoarea sa este
mai mică decât valoarea prag.

232
Cristian Opariuc-Dan

II.4.2.3 Testul momentelor centrate


Cred că mai rețineți analiza simetriei și a boltirii. Am vorbit despre
aceste elemente într-o lucrare anterioară. Totodată, am văzut atunci câteva
metode prin care putem analiza normalitatea distribuției plecând de la acești
coeficienți. Metodele tratate atunci sunt bune, însă de cele mai multe ori
avem nevoie de un plus de precizie, mai exact de o standardizare a acelor
coeficienți. Ce standardizare poate fi mai bună decât calculul scorurilor z ale
acestor coeficienți? Într-adevăr, acest test face exact transformarea coeficien-
ților de simetrie și boltire β1 și β2 în formele lor standardizate.
Ipoteza nulă este aceeași, conform căreia repartiția datelor este norma-
lă și se respinge dacă cel puțin una dintre valorile z ale celor doi coeficienți
este mai mare decât valoarea critică pentru pragul de semnificație ales. Con-
versia acestor coeficienți se poate face după următoarele expresii:

| |
√ (formula 2.32)

( )√ (formula 2.33)

Să presupunem că o cercetare efectuată pe un număr de 853 de stu-


denți, cărora li s-a înregistrat greutatea, a condus la o distribuție având coefi-
cientul de simetrie β1=-0,46 și coeficientul de boltire β2=0,87. Să se decidă
dacă datele empirice se distribuie sau nu normal.

√ √ √

233
Statistică aplicată în ştiinţele socio-umane

( )√

( )√

Știm deja că pragul critic la un p<0,05 este de 1,96 iar la un p<0,01


este de 2,28. Coeficientul de boltire (0,43) este mai mic decât 1,96, prin ur-
mare distribuția poate fi considerată mezocurtică. Simetria însă (8,11) depă-
șește cu mult pragul critic 2,28 pentru un p<0,01. Așadar, distribuția nu este
simetrică, ci asimetrică negativ, cu tendințe către valori mari ale greutății.
Înainte de a încheia acest capitol și de a trece la activitățile practice
utilizând SPSS, va trebui să facem o serie de precizări privind interpretarea
testelor statistice. Desigur, nu am epuizat subiectul testelor statistice de nor-
malitate. Există, spre exemplu, și alte teste de acest tip: d’Agostino, Kolmo-
gorov-Smirnov etc. Noi le-am prezentat pe cele mai folosite.

II.5 Interpretarea testelor statistice


Testele statistice fac parte din categoria procedeelor statistice inferen-
țiale. Testarea ipotezelor statistice reprezintă, alături de estimarea parametri-
lor statistici, una dintre principalele aspecte ale inferenței statistice (Sava,
2004). Atunci când testăm ipotezele în cadrul unei cercetări științifice, avem
în vedere trei dimensiuni principale (Sava, 2004):
 Analiza datelor empirice;
 Realizarea, pe baza datelor, a unor inferențe logice;
 Menținerea unei atitudini sceptice legate de concluziile obținu-
te.

234
Cristian Opariuc-Dan

Atunci când vorbea despre teoriile științifice, marele Albert Einstein


făcea o afirmație pertinentă în care putem regăsi, de fapt, întregul spirit al
demersului științific: „Oamenii de știință nu sunt de invidiat. Natura, sau mai
exact, experimentul este un judecător neprietenos și inexorabil al muncii
cercetătorului. Niciodată nu îi spune „Da” teoriei acestuia. În cele mai favo-
rabile cazuri îi spune „Poate”, iar în majoritatea cazurilor îi spune „Nu”.
Dacă experimentul sprijină o teorie, pentru aceasta înseamnă „Poate”, iar
dacă nu sprijină înseamnă ”Nu”. Probabil că orice teorie va experimenta
într-o bună zi pe „Nu” – cele mai multe chiar imediat după conceperea lor.”
(Sava, 2004).
Ținând cont de citatul de mai sus, chiar cu riscul de a ne repeta, vom
efectua, în cele ce urmează, o serie de observații referitoare la ipoteza nulă:
 atunci când folosim testele statistice, întotdeauna verificăm
ipoteza nulă, niciodată cea experimentală. De asemenea, ple-
căm de la premiza că ipoteza nulă este adevărată. Doar printr-
un asemenea algoritm putem asigura respectarea demersului
științific;
 analizând ipoteza nulă, trebuie să menționăm că, după verifi-
care, aceasta nu poate fi adevărată sau falsă. Singurul lucru pe
care îl putem face cu ipoteza nulă este să o respingem sau să
nu o respingem. Ipoteza nulă nu poate fi confirmată sau infir-
mată. Afirmații precum „ipoteza nulă este falsă” sau „testul nu
este semnificativ, deci se confirmă ipoteza nulă” sunt afirmații
eronate, deși frecvent întâlnite printre începători. În realitate,
putem spune doar că „respingem ipoteza nulă” sau „nu respin-
gem ipoteza nulă”;
 desigur, respingerea unei ipoteze nule se face în baza unui
prag de semnificație. De obicei, pragul de semnificație este cel

235
Statistică aplicată în ştiinţele socio-umane

postulat de Fisher și corespunde, în științele sociale, unei va-


lori mai mici de 0,05. Dacă respingem ipoteza nulă, nu în-
seamnă că aceasta nu se poate, la un moment dat, susține.
Acest prag de semnificație nu spune decât probabilitatea cu
care am obține, întâmplător, datele observate, pornind de la
ideea că ipoteza nulă este adevărată. Atât și nimic mai mult;
 în general, folosim teste statistice pentru a extinde cunoștințele
dobândite prin studiul unui eșantion la nivelul întregii popula-
ții. De aceea, asemenea procedee se numesc procedee statistice
inferențiale. În asemenea condiții, este importantă reprezenta-
tivitatea eșantionului. Dacă eșantionul este redus ca dimensi-
uni, există o probabilitate foarte mare să nu obținem niciun re-
zultat semnificativ, deși poate că relația există la nivelul popu-
lației. Cu alte cuvinte, cu cât eșantionul este mai mic, cu atât
crește probabilitatea de a obține un rezultat nesemnificativ.
Nici eșantioanele foarte mari nu ne sunt utile, deoarece la vo-
lume foarte mari ale unui eșantion, crește probabilitatea de a
găsi un rezultat semnificativ, chiar dacă acest de fapt nu există
la nivelul populației. Soluția o reprezintă un eșantion reprezen-
tativ, de dimensiuni moderate.
Atunci când raportăm rezultatele unui test statistic, ne interesează câ-
teva elemente:
 În primul rând, semnificația. Vom considera testul ca fiind
semnificativ, dacă pragul de semnificație este mai mic de 0,05.
Despre aceste lucruri am discutat pe larg, deci nu vom mai in-
sista;
 În al doilea rând, semnul sau sensul. Acest element este util
în cazul ipotezelor unidirecționale. De exemplu, dacă una din-

236
Cristian Opariuc-Dan

tre ipotezele experimentale afirmă că „există o diferență sem-


nificativă între bărbați și femei sub aspectul anxietății, în sen-
sul că bărbații sunt mai puțin anxioși în comparație cu femei-
le”, aceasta ar putea fi susținută numai în condițiile în care, la
comparația mediei obținute de către bărbați la anxietate cu cea
obținută de către femei, se obține un test semnificativ, negativ
(adică media bărbaților este mai mică în comparație cu media
femeilor);
 Gradele de libertate reprezintă o expresie a volumului eșan-
tionului studiat, raportarea lor fiind obligatorie;
De exemplu, s-a realizat o cercetare pe un număr de 438 de studenți,
pornindu-se de la ipoteza nulă că nu există nicio diferență între bărbați și fe-
mei cu privire la emotivitatea din timpul examenelor. După colectarea notelor
obținute de cei 438 de studenți la un inventar de emotivitate, s-au comparat
mediile scorurilor obținute de către bărbați cu media scorurilor obținute de
către femei, folosindu-se testul t Student pentru eșantioane independente. A
rezultat t=-48,46, la un prag de semnificație p<0,01. Vă întreb care este mo-
dalitatea corectă de raportare a acestui studiu? Iat-o!

Există o diferență semnificativă între bărbați și femei sub aspectul


emotivității din timpul examenelor (t(436)=48,46; p<0,01) în sensul că emoti-
vitatea femeilor este semnificativ mai ridicată în comparație cu emotivitatea
bărbaților. Prin urmare, respingem ipoteza nulă și putem susține ipoteza de
cercetare conform căreia diferențele dintre bărbați și femei sub aspectul
emotivității din timpul examenelor sunt semnificative.

În formularea de mai sus am atins, după cum se poate observa, toate


punctele importante ale raportării rezultatelor unui test statistic. Deși pentru
cei mai mulți dintre dumneavoastră expresia de mai sus pare suficientă, mai

237
Statistică aplicată în ştiinţele socio-umane

există un element extrem de important care trebuie precizat. Este vorba de-
spre mărimea efectului.

II.5.1 Puterea testului și mărimea efectului


Înainte de a începe discuția legată de mărimea efectului și puterea tes-
telor statistice, voi relua un exemplu prezentat într-o lucrare anterioară
(Opariuc-Dan, 2009).
A fost odată un împărat care avea obiceiul să poarte multe războaie.
Înainte de a merge la război, împăratul nostru îl chema pe vrăjitorul curţii şi îl
punea să-i prezică soarta bătăliei. De fiecare dată, bietul vrăjitor era în mare
impas, deoarece, dacă greşea previziunea, risca să-şi piardă capul, cum o pă-
ţiseră mulţi alţii înaintea lui. Totuşi, vrăjitorul avea mulţi ani de când îşi păs-
tra capul pe umeri, iar predicţiile acestuia, uneori, se dovedeau a fi adevărate.
Întrebarea mea este cum proceda? Foarte simplu. Vrăjitorul avea ceva noţiuni
legate de probabilităţi şi de verificarea ipotezelor şi, înaintea bătăliei, îşi for-
mula ipotezele, apoi construia un tabel similar tabelului de mai jos:

H1: Prevăd că măria sa va câştiga bătălia


H0: Prevăd că măria sa nu va câştiga bătălia

Ce se întâmplă în urma bătăliei


Câştigă Pierde
OK Eroare tip I
Câştigă p= 1-α p=α
Ce a prevăzut Caracteristica testului Pragul de semnificaţie
că se întâmplă OK
Eroare tip II
Pierde p=1-β
p=β
Puterea testului
Să analizăm acum tabelul de mai sus. Observăm că există un număr
de patru situaţii:
 Vrăjitorul a prezis că împăratul va câştiga bătălia şi împăratul
a câştigat-o. Vrăjitorul respinge ipoteza nulă şi susţine ipoteza

238
Cristian Opariuc-Dan

alternativă, deoarece probabilitatea de a nu câştiga bătălia era


foarte mică. Celălalt împărat avea probabil un număr mic de
oameni şi o tehnică de luptă net inferioară. Vrăjitorul a obţinut
o nouă avere şi respectul împăratului;
 Vrăjitorul a prezis câştigarea bătăliei şi împăratul a pierdut-o.
S-a comis astfel o eroare de tip I, respingându-se ipoteza nulă
când, de fapt, ar fi trebuit să nu fie respinsă. Pragul de semni-
ficaţie a fost probabil apropiat de limită (0,05), însă vrăjitorul
a riscat. Şi-a pierdut şi averea şi capul. Este cea mai gravă
eroare pe care o poate face. Probabil că s-a bazat pe faptul că
celălalt împărat are puţini oameni şi o tehnică de luptă inferi-
oară, însă l-au dezinformat spionii şi a subapreciat fanatismul
ostaşilor;
 Vrăjitorul a prezis pierderea bătăliei şi împăratul a câştigat-o.
S-a comis acum o eroare de tip II, nerespingând ipoteza nulă
în condiţiile în care ar fi trebuit respinsă. În bucuria victoriei,
împăratul s-ar putea să-i cruţe capul vrăjitorului, însă va pierde
respectul şi o parte din avere. Vrăjitorul nu a vrut să rişte, de-
oarece cunoştea fanatismul luptătorilor celuilalt împărat;
 Vrăjitorul a prezis pierderea bătăliei şi împăratul a pierdut-o.
Din fericire, şi-a păstrat şi capul şi averea, deoarece a avut în-
ţelepciunea că calculeze puterea unui test statistic, adică
probabilitatea de a respinge ipoteza nulă atunci când ea este
falsă.
După cum observați, pragul de semnificație nu ne arată decât dacă
avem de a face cu o diferență semnificativă – sau, în cazul corelațiilor, cu o
asociere semnificativă. Acesta nu ne spune care este mărimea acestei diferen-
țe. Pragul de semnificație micșorează riscul de a se comite erori de tip I, erori

239
Statistică aplicată în ştiinţele socio-umane

în care am respinge ipoteza nulă în condițiile în care aceasta nu ar trebui să


fie respinsă. Cu alte cuvinte, îl ferește pe vrăjitor să prezică faptul că împăra-
tul va câștiga bătălia, în condițiile în care ar putea să o piardă. Desigur, acesta
este, poate, cel mai important element al unui test statistic, însă nu este singu-
rul. Avem nevoie să știm și dimensiunea acestei diferențe, element pe care ni-
l furnizează mărimea efectului.
Iată un exemplu. Să presupunem că studiem efectul unui tratament
asupra abandonului fumatului. Știți deja exemplul, astfel încât nu vom mai
insista asupra lui. Obținem, în final, o diferență semnificativă în sensul că
subiecții, după tratament, fumează un număr semnificativ mai mic de țigări.
Atât ne spune pragul de semnificație. Deocamdată nu știm dacă cei care au
fumat 40 de țigări pe zi fumează acum 3 țigări pe zi sau fumează 38 de țigări
pe zi. Cu alte cuvinte, nu știm cât de mare este efectul tratamentului ci doar
că acel tratament are un efect semnificativ. Iată că studiul mărimii efectului
are o importanță aproape la fel de mare ca și studiul semnificației acestuia.
Există un număr destul de mare de indicatori pentru mărimea efectului
și, în general, aceștia se împart în două mari categorii:
 Indicatori calculați în baza diferenței standardizate între medii
(indicele d al lui Cohen, coeficientul Δ al lui Glass, coeficien-
tul g al lui Hedges etc.);
 Indicatori calculați pe baza procentului de varianță explicată
(r, r2, η2, ω2 etc.).

II.5.1.1 Indicatori ai mărimii efectului pentru date neparame-


trice
Din nefericire, testele neparametrice sunt recunoscute prin puterea lor
redusă. Majoritatea indicatorilor pentru mărimea efectului se bazează pe date
continui și nu pe date situate la un nivel de măsură ordinal sau nominal. To-
tuși, există un număr de doi indicatori statistici ai mărimii efectului pentru

240
Cristian Opariuc-Dan

date neparametrice, unul pentru χ2 (după Rosenthal, Rosnow și Rubin) (Sava,


2004) iar celălalt pentru date ordinale – coeficientul δ propus de Cliff.
Estimarea mărimii efectului pentru χ2 atunci când există doar un sin-
gur grad de libertate se poate face prin intermediul coeficientului de determi-
nare r2, după expresia:

(formula 2.34)

În formula 2.34, la numărător avem valoarea testului χ2 pentru un sin-


gur grad de libertate, iar la numitor regăsim numărul de cazuri observate.
În exemplul de la capitolul II.2.1 am pornit de la ipoteza nulă conform
căreia nu există nicio diferență semnificativă între blonde și brunete referitor
la producerea accidentelor rutiere. Am aplicat atunci testul χ2 obținând o dife-
rență nesemnificativă la un singur grad de libertate. Valoarea testului a fost
de 2,75, la un număr n=94 de femei studiate.
Dacă testul ar fi fost semnificativ, am putea calcula mărimea efectului
pe baza expresiei de mai sus:

Într-adevăr, coeficientul de determinare este foarte mic, efectul este


scăzut, aproape inexistent, lucru perfect normal, deoarece și testul χ2 nu este
semnificativ.
Ca repere pentru coeficientul de determinare r2, vom avea:
 Pentru r2 mai mic de 0,01 nu există niciun efect;
 Pentru r2 cuprins între 0,01 și 0,05 efectul este scăzut;
 Pentru r2 cuprins între 0,06 și 0,14 avem de a face cu un efect
mediu, moderat;

241
Statistică aplicată în ştiinţele socio-umane

 Pentru r2 mai mare de 0,14 avem de a face cu un efect puternic


Atunci când datele se află la un nivel ordinal, nu mai putem folosi co-
eficientul de determinare exprimat anterior. O măsură alternativă pentru aces-
ta este reprezentată de coeficientul delta (δ) propus de Cliff în anul 1993.
Acest coeficient testează echivalența probabilității ca scorurile dintr-un grup
să fie mai mari decât scorurile din celălalt grup și se bazează pe conceptul de
dominanță. Formula de calcul a coeficientului δ este următoarea:
( )
(formula 2.35)

Pare complicat, dar nu este chiar așa. Practic #Xi1>Xj2 reprezintă nu-
mărul de comparații între observațiile dintre cele două grupuri, atunci când
numărul de observații din primul grup este mai mare decât numărul de obser-
vații din al doilea grup.
Să considerăm un exemplu simplu pentru a lămuri formula de calcul.
O cercetare efectuată pe bărbații și femeile dintr-o unitate militară pleacă de
la ipoteza nulă conform căreia nu există nicio diferență între bărbați și femei
sub aspectul gradelor militare de ofițeri. Desigur, ne situăm la un nivel pur
ordinal, unde am notat cu 1 – locotenentul, 2 – căpitanul, 3 – maiorul, 4 –
locotenent colonelul și 5 – colonelul. Datele noastre sunt următoarele
Bărbați: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5 n1=10
Femei: 1, 2, 3, 4, 4, 5 n2=6
Pentru a ușura lucrul, am ordonat deja datele noastre. Urmează con-
strucția așa-numitei matrice de dominanță. În primul rând, construim un tabel
similar tabelului 2.20. Pe coloane trecem una dintre variabile iar pe linii cea-
laltă variabilă. Regula de completare a matricei de dominanță este simplă. O
celulă poate lua valoarea +1 dacă valoarea la nivel de linie este mai mare
decât valoarea la nivel de coloană, 0 dacă cele două valori sunt la fel și -1
dacă valoarea de pe linie este mai mică decât valoarea de pe coloană.

242
Cristian Opariuc-Dan

Tabelul 2.20 – Calculul matricei de dominanță


Femei
Bărbați
1 2 3 4 4 5 di
1 0 -1 -1 -1 -1 -1 -0,833
1 0 -1 -1 -1 -1 -1 -0,833
2 1 0 -1 -1 -1 -1 -0,500
2 1 0 -1 -1 -1 -1 -0,500
2 1 0 -1 -1 -1 -1 -0,500
3 1 1 0 -1 -1 -1 -0,167
3 1 1 0 -1 -1 -1 -0,167
3 1 1 0 -1 -1 -1 -0,167
4 1 1 1 0 -1 -1 0,333
5 1 1 1 1 1 0 0,833
dj 0,8 0,3 -0,3 -0,7 -0,7 -0,9 δ=-0,250
Pentru prima linie, valoarea pentru bărbați (1) este egală cu prima co-
loană, valoarea pentru femei (1). La nivelul acestei celule, dominanța ia va-
loarea 0. Tot la prima linie, valoarea pentru bărbați (1) este mai mică decât
valoarea pentru femei (2). Atunci celula ia valoarea -1 și așa mai departe,
după regula expusă, până la completarea întregii matrice de dominanță.
În următorul pas, facem media dominanțelor atât pe linie cât și pe co-
loană. Astfel, pentru prima linie vom avea 0-1-1-1-1-1=-5, apoi -1/6=-0,833.
Veți continua la fel pentru toate liniile și toate coloanele, așa cum observați în
tabelul 2.20.
Înainte de a aplica formula, calculăm indicii di și dj. Aceștia nu repre-
zintă altceva decât suma mediilor dominanțelor. Adunați, așadar, toate valori-
le de pe ultima coloană și veți obține di=-2,50. Apoi adunați toate valorile de
pe ultima linie și veți obține dj=-1,50. Valoarea pe care o reținem este valoa-
rea cea mai mare luată în modul. Deoarece 2,50 este mai mare decât 1,50,
reținem 2,50. Pentru a obține coeficientul δ este suficient să facem media
valorilor însumate pentru cea mai mare dominanță. Deoarece cea mai mare
sumă a fost 2,50, obținută pentru cei 10 bărbați, vom avea -2,50/10=-0,250.
Prin urmare, δ=-0,250.
Acest indicator ia valori cuprinse între -1 (atunci când toate observați-
ile din primul grup sunt mai mari decât observațiile din cel de-al doilea grup)

243
Statistică aplicată în ştiinţele socio-umane

și +1 (atunci când toate observațiile din primul grup sunt mai mici decât ob-
servațiile din al doilea grup). Valoarea 0 arată că observațiile din cele două
grupuri sunt perfect identice. Interpretarea acestui coeficient ca măsură a mă-
rimii efectului, va ține cont de următoarele repere:
 Pentru un δ mai mic de 0,147, nu există niciun efect;
 Pentru δ cuprins între 0,147 și 0,33, efectul este scăzut;
 Pentru δ cuprins între 0,33 și 0,474, efectul este unul mediu,
moderat;
 Pentru δ mai mare de 0,474, efectul este puternic.
În cazul nostru, am obținut un efect scăzut. Putem suspecta și existen-
ța unei diferențe semnificative între bărbați și femei în raport cu atribuirea
gradelor militare. Ca exercițiu, vă revine dumneavoastră sarcina să alegeți
testul statistic adecvat și să verificați dacă, într-adevăr, există o asemenea
diferență semnificativă, apoi să decideți ce faceți cu ipoteza nulă.

II.5.1.2 Indicatori ai mărimii efectului pentru date parametrice


Pentru date parametrice suntem, din fericire, posesorii unui număr
destul de mare de indicatori ai mărimii efectului. Poate cel mai folosit coefi-
cient este coeficientul de determinare, r2, indicator cu aceeași semnificație
interpretativă ca și varianta lui folosită la analiza efectului în cazul testului χ2.

(formula 2.36)

unde t reprezintă valoarea testului t Student, iar df se referă la numă-


rul gradelor de libertate.
În exemplul din capitolul II.3.2.2 am dorit să aflăm dacă există dife-
rențe semnificative între cantitatea de bere băută de către studenții universită-
ții Ovidius din Constanța, în comparație cu studenții universității Alexandru

244
Cristian Opariuc-Dan

Ioan Cuza din Iași. Obținusem un t(88)=1,48, testul fiind nesemnificativ. Adi-
că nu există diferențe semnificative între studenții celor două universități, sub
aspectul consumului de bere. Dacă ar fi existat diferențe semnificative, ar fi
trebuit să calculăm și mărimea efectului.

Desigur, nu ne așteptam la existența vreunui efect. Conform principii-


lor interpretative ale acestui coeficient, efectul este scăzut.
Corespondentul coeficientului de determinare este coeficientul de co-
relație a mărimii efectului. Formula de calcul a acestuia este extrem de sim-
plă, el nefiind altceva decât rădăcina pătrată din coeficientul de determinare

√ √ (formula 2.37)

În cazul nostru, coeficientul de corelație al efectelor este de 0,155, in-


terpretarea sa fiind analoagă interpretării coeficientului de corelație r Bravais-
Pearson. Spre deosebire de coeficientul Bravais-Pearson, în acest caz întâl-
nim doar valori pozitive.
Folosind cei doi coeficienți, putem deduce și alți indicatori ai mărimii
efectului. Vom exemplifica doar câțiva, deoarece este posibil să-i întâlniți în
studii și cercetări, mai ales în cele de factură meta-analitică.
Coeficientul d al lui Cohen poate fi calculat pe baza coeficientului de
determinare și a coeficientului de corelație al efectelor, după expresia:

(formula 2.38)


(formula 2.39)

245
Statistică aplicată în ştiinţele socio-umane

Intens folosit, acest coeficient are următoarele repere interpretative,


propuse chiar de autor:
 Pentru d mai mic de 0,20, nu există nici un efect;
 Pentru d cuprins între 0,20 și 0,50, efectul este unul slab;
 Pentru d cuprins între 0,50 și 0,80, efectul este unul mediu;
 Pentru d mai mare de 0,80, avem de a face cu un efect puter-
nic;

√ √
Doar nu v-ați fi așteptat să obțineți aici vreun efect puternic. Observați
că și după acest coeficient, ne situăm în același domeniu al efectelor slabe.
Coeficientul g al lui Hedges are o formulă de calcul bazată tot pe coe-
ficientul de determinare și pe cel de corelație al efectelor:


(formula 2.40)

Vă lăsăm dumneavoastră ca exercițiu calculul acestui coeficient pen-


tru mărimea efectului, precum și sarcina interpretării sale.

II.5.1.3 Interpretarea mărimii efectului și puterea cercetărilor


Dincolo de reperele interpretative propuse pentru fiecare dintre coefi-
cienți, o analiză pertinentă a mărimii efectului presupune și alte demersuri.
Coeficientul de determinare r2 se poate exprima și în termeni procen-
tuali. Un coeficient de 0,024, obținut mai sus, arată că doar 2,4% din varianța
datelor folosite pentru investigarea cantității de bere băută de studenți se poa-
te explica prin apartenența acestora la o universitate.

246
Cristian Opariuc-Dan

Mărimea efectului se interpretează împreună cu pragul de semnifica-


ție. Vom furniza o serie de repere interpretative, așa cum au fost ele prezenta-
te de Florin Sava (Fan, 2001 apud Sava, 2004).
Tabelul 2.21 – Interpretarea mărimii efectului și a semnificației
Mărime Testare ipoteze (semnificație)
efect H0 nu este respinsă H0 este respinsă
1. Rezultatele nu au nicio importanță
practică deosebită, deși rezultatele sunt
semnificative statistic;
1. Ipoteza nulă este sprijinită, nu există
Efect mic 2. Risc mare de comitere a erorii de tip I
însă vreun efect statistic sau practic.
(să respingem ipoteza nulă în condiții
în care nu ar trebui respinsă). Puterea
cercetării este foarte mare.
1. Mărimea efectului este bună, însă
acesta poate să fi apărut din întâmpla- 1. Probabilitatea ca efectul obținut să
re; apară din întâmplare este mică;
Efect mediu 2. Risc mare de comitere a erorilor de 2. Efectul este semnificativ statistic și
tip II (să nu se respingă ipoteza nulă pare a fi important din punct de vedere
în condițiile în care ar trebui respin- practic
să). Puterea cercetării este mică.
1. Risc mare de comitere a erorii de tip
II (să nu respingem ipoteza nulă când
aceasta ar trebui respinsă);
2. Efectul a apărut din întâmplare sau 1. Testul este semnificativ atât statistic,
Efect mare
rezultatul nesemnificativ al testului cât și practic
statistic apare din cauza numărului
mic de subiecți. Se impune creșterea
puterii cercetării.
SURSA: (Sava, 2004 p. 36)
Interpretarea valorii mărimii efectului se completează cu analiza sen-
sului acesteia. Un efect pozitiv, determinat de valoarea pozitivă a mărimii
efectului, conduce la ideea că efectele observate sunt în direcția presupusă.
De exemplu, dacă obținem un efect puternic și pozitiv în baza ipotezei alter-
native conform căreia există o diferență semnificativă între cantitatea de bere
băută de studenții de la universitatea din Constanța și cantitatea de bere băută
de studenții de la universitatea din Iași, în sensul că cei din universitatea mol-
doveană beau semnificativ mai multă bere în comparație cu cei din universi-
tatea dobrogeană, atunci datele observate susțin această ipoteză. Dacă am
obține un efect puternic și negativ, înseamnă că ipoteza se susține, doar că

247
Statistică aplicată în ştiinţele socio-umane

studenții universității dobrogene consumă semnificativ mai multă bere în


comparație cu cei ai universității din Moldova.
Cele mai multe cercetări, realizate profesional, stabilesc încă de la în-
ceput mărimea așteptată a efectului, în baza acesteia construindu-se lotul de
cercetare. Există mai multe metode prin intermediul cărora se poate realiza
acest deziderat (Sava, 2004):
 În baza meta-analizei, prin cercetarea studiilor efectuate ante-
rior. Dacă ne propunem să cercetăm efectul exercitat de reac-
tivitatea motorie asupra riscului de a se produce un accident
rutier, este o bună idee să începem prin studiul literaturii de
specialitate și a cercetărilor, destul de numeroase, referitoare la
această temă. Astfel, ne putem da seama de modul în care va-
riabilele se influențează, și putem proiecta studiul în cunoștin-
ță de cauză;
 Printr-un studiu pilot, realizat pe un număr relativ redus de
subiecți, în care să putem estima mărimea indicatorilor tendin-
ței centrale și ai dispersiei, și, implicit, mărimea efectului;
 Dacă nu avem posibilitatea realizării unei meta-analize și nici
cea a efectuării unui studiu pilot, vom stabili numărul de sub-
iecți necesari pe baza unui nivel mediu al mărimii efectului.
În literatura de specialitate, veți întâlni deseori pragul de semnificație
notat cu α, corespunzător riscului de a produce o eroare de tip I și mărimea
efectului notată cu β, corespunzătoare riscului de a produce o eroare de tip II.
Caracteristica testului statistic, adică situația în care respingem ipote-
za nulă fără a comite o eroare de tip I, se notează cu 1-α, iar puterea unui test
statistic, adică situația în care nu respingem ipoteza nulă, fără a comite o
eroare de tip II se notează cu 1-β. Așadar, puterea statistică a unei cercetări

248
Cristian Opariuc-Dan

este intim legată de mărimea efectului, deși ia în considerare un număr de trei


parametri importanți:
 Mărimea efectului (β);
 Mărimea eșantionului (n);
 Mărimea pragului de semnificație (α)
Calculul efectiv al puterii unei cercetări nu presupune doar diferența
1-β, ci este destul de laborios și nu îl vom detalia aici. Pentru cei interesați,
voi furniza legătura către programul GPower, care permite, alături de multe
alte procedee de analiză a datelor, și calculul puterii unei cercetări. Programul
este gratuit, poate fi descărcat de pe site-ul http://www.psycho.uni-
duesseldorf.de/abteilungen/aap/gpower3/ această adresă fiind pusă la dispozi-
ția mea și a dumneavoastră de către Florin Sava în excelenta sa lucrare (Sava,
2004).
Fără să intrăm în amănunte, vom furniza, în final, o serie de modali-
tăți de creștere a puterii statistice într-o cercetare științifică, așa cum au fost
acestea exprimate de către Florin Sava (Sava, 2004), la care vom adăuga
completările noastre.
Autorul sus menționat, distinge între trei categorii de metode care pot
îmbunătăți puterea statistică într-o cercetare științifică. Pentru detalii supli-
mentare, puteți consulta lucrarea sa (Sava, 2004 pg. 40-46):
 Metode orientate spre designul cercetării;
 Metode orientate spre măsurările efectuate în cadrul cercetării;
 Metode exclusiv statistice.

II.5.1.3.1 Metode orientate spre designul cercetării


1. Cea mai simplă metodă de creștere a puterii statistice într-o cerce-
tare științifică se referă la creșterea numărului de subiecți eva-

249
Statistică aplicată în ştiinţele socio-umane

luați. Puteți, fie include mai mulți subiecți în întregul lot de stu-
diu, fie mări numărul de subiecți la nivelul grupelor de cercetare
considerate cele mai importante din perspectiva ipotezelor stabili-
te;
2. Utilizarea unui design de cercetare cu măsurări repetate. Știți
deja că un design cu măsurări repetate – care folosește eșantioane
dependente – are o putere mai mare în comparație cu design-ul
bazat pe eșantioane independente, deoarece varianța reziduală –
cea determinată de erori, varianța neexplicată – este mai mică. Fo-
losind, de obicei, aceiași subiecți în două condiții experimentale
diferite, erorile determinate de factorii subiectivi sunt mult mai
mici în comparație cu situația în care veți folosi două eșantioane
independente;
3. Introducerea unei covariabile eficiente. Încă nu aveți noțiunea
completă asupra semnificației unei covariabile. Pentru a vă face
cât de cât o idee, revedeți capitolul referitor la corelații parțiale. În
acest volum ne-am limitat la studiul efectelor pe care le exercită o
singură variabilă independentă asupra unei singure variabile de-
pendente. Majoritatea situațiilor de cercetare presupun însă analiza
efectului generat de mai multe variabile independente asupra unei
singure variabile dependente (ANOVA – analiza de varianță), a
efectului generat de mai multe variabile independente asupra mai
multor variabile dependente sau a efectului generat de variabilele
independente asupra variabilelor dependente în condițiile menține-
rii constante a efectului unei variabile – numită covariabilă
(ANCOVA – analiza de covarianță). Despre aceste elemente vom
discuta, însă, în următoarea lucrare. Ceea ce trebuie să știți deo-
camdată este faptul că introducerea unei covariabile, aflată, desi-
gur, în relație cu variabila dependentă, poate determina micșorarea

250
Cristian Opariuc-Dan

varianței neexplicate și, implicit, creșterea puterii unei cercetări.


Dacă studiem efectul determinat de emotivitate asupra notelor ob-
ținute la examene, este posibil să nu obținem nicio diferență sem-
nificativă între emotivi și neemotivi sub aspectul notelor obținute.
Includerea unei covariabile de tipul „timp dedicat studiului” s-ar
putea să conducă la efecte semnificative;
4. Utilizarea unui design de cercetare cât mai simplu. Cu cât in-
cludem într-un studiu mai multe variabile, cu atât crește riscul de a
comite o eroare de tip I, de a obține rezultate semnificative din în-
tâmplare. Chiar dacă aplicăm corecții statistice pentru a reduce
riscul de apariție a erorilor de tip I, vom crește probabilitatea de a
obține erori de tip II. Principiul fundamental: cel mai simplu e cel
mai bine;
5. Creșterea numărului de grade de intensitate pentru variabila
independentă sau creșterea amplitudinii factorilor. Dacă vom
studia efectul reactivității asupra producerii de accidente rutiere, s-
ar putea ca în condițiile în care variabila independentă „reactivita-
te” are doar două grade de intensitate, „reactivitate mică” și „reac-
tivitate mare” să nu obținem diferențe semnificative. Dacă am in-
clude un grad de intensitate în plus, spre exemplu „reactivitate
medie”, este foarte probabil să găsim un efect al reactivității asu-
pra producerii de accidente rutiere;
6. Tratarea variabilelor independente ca variabile discrete. Dacă
vom măsura reactivitatea pe o scală continuă (de interval), puterea
statistică ar fi redusă. În loc să punem în relație scorurile variabilei
„reactivitate” – aflate la un nivel de interval – cu scorurile variabi-
lei „accidente rutiere” – aflate la un nivel natural continuu – prefe-
răm să recodificăm variabila „reactivitate” – variabilă independen-

251
Statistică aplicată în ştiinţele socio-umane

tă – într-o variabilă discretă, spre exemplu „reactivitate mică”,


„reactivitate medie” și „reactivitate mare”;
7. Utilizarea ipotezelor unilaterale. Am insistat de atâtea ori asupra
acestui aspect, încât nu-l vom mai detalia aici. Într-adevăr, față de
ipotezele bilaterale, cele unilaterale măresc semnificativ puterea
unei cercetări.

II.5.1.3.2 Metode orientate spre măsurările efectuate în cadrul cercetării


1. Utilizarea scalelor de măsură numerice. Este evident faptul că
în momentul în care utilizăm scale numerice, situate la un nivel de
măsură parametric, beneficiem și de avantajele și puterea testelor
statistice parametrice. În cercetări de acest tip, este bine ca cel pu-
țin variabilele dependente să fie măsurate la un nivel parametric;
2. Transformarea datelor brute. Deși testele parametrice au ca ce-
rință de bază nivelul parametric de măsură, pentru a le folosi tre-
buie să fie îndeplinită și condiția unei distribuții normale a datelor.
În caz contrar, va trebui să utilizăm teste neparametrice, cu o pute-
re statistică mult mai mică (aproximativ jumătate din puterea tes-
telor parametrice). Este de preferat ca în condițiile în care distribu-
ția nu este normală să folosim tehnici de normalizare a datelor, în
loc să trecem pur și simplu la utilizarea testelor neparametrice;
3. Alegerea de probe cu caracteristici psihometrice ridicate. Me-
toda aproape că nu mai necesită comentarii. Una este să măsurăm
emotivitatea cu un chestionar luat din revista „Felicia” și altceva e
să măsurăm aceeași dimensiune cu un instrument profesional. In-
strumentele folosite trebuie să prezinte caracteristici înalte, cel pu-
țin sub aspectul validității și sub cel al fidelității pentru ca cerceta-
rea să fie relevantă.

252
Cristian Opariuc-Dan

II.5.1.3.3 Metode exclusiv statistice


1. Salvarea unor grade de libertate. Implicit, un experiment sau o
cercetare cât mai simplu proiectată duce la un număr de grade de
libertate mai redus. Planurile de cercetare complexe determină, pe
lângă calcularea unui număr mare de efecte, și o putere statistică
mai mică;
2. Utilizarea tehnicilor statistice cu o putere mai mare. Atunci
când situația o permite, este de preferat să folosim cele mai puter-
nice teste statistice. De exemplu, dacă într-o cercetare avem de
ales între folosirea testului z și folosirea testului t Student, vom
alege utilizarea testului z, acesta fiind mai puternic în comparație
cu testul t.

II.6 Realizarea testelor statistice în SPSS


Înainte de a începe activitatea care vă place dumneavoastră cel mai
mult, evident cea practică, unde vom folosi SPSS, vreau să vă anunț că SPSS
Tabelul 2.22 – Structura bazei de date pentru testul χ2 nu mai există. Firma SPSS
Variable Position Label Measurement Level Inc. a fost cumpărată de
Daca către IBM, așadar ultima
saptamana
viitoare ar fi versiune de SPSS este ver-
Intrebare_1 1 alegeri Nominal siunea 17. Într-adevăr, in-
prezidentiale,
cu cine ati vestiția a fost în jur de 1,2
vota?
miliarde de dolari și s-a
Variables in the working file
finalizat în anul 2009. Ast-
Value Label
Intrebare_1 1 Costachescu Virgil
fel, SPSS devine parte din
2 Ionescu George programul integrat al com-
3 Neacsu Vasile paniei IBM - „Business
4 Agape Alexandru Analytics and Process Op-
timization”, versiunea 18 a
produsului numindu-se acum PASW (Predictive Analytics Software for Win-

253
Statistică aplicată în ştiinţele socio-umane

dows). Deoarece atât aspectul cât și funcționalitatea PASW sunt radical dife-
rite de ceea ce știați deja, vom continua să utilizăm SPSS în acest volum
(versiunea 17), urmând ca în celelalte cărți să trecem către noua variantă de la
IBM.

II.6.1 Procedee neparametrice


Testul χ2 în SPSS are o proprietate interesantă, alta față de care ne-am
obișnuit. Acesta permite analiza doar a unei singu-
re variabile, comparând frecvențele teoretice cu
cele observate. Să considerăm situația unui sondaj
de opinie, în care un număr de 20 persoane au
răspuns la următoarea întrebare: „Dacă săptămâna
viitoare ar fi alegeri prezidențiale, dumneavoastră
cu cine ați vota?” Variantele de răspuns au fost 1
– Costăchescu Virgil, 2 – Ionescu George, 3 –
Figura 2.1 – Lansarea analizei Neacșu Vasile, 4 – Agape Alexandru.
pentru testul chi pătrat

Variabila este situată, desigur, la Tabelul 2.23 – Răspunsurile subiecților pentru


un nivel nominal, structura bazei de date testul χ2

fiind prezentată în tabelul 2.22. Costachescu Virgil Agape Alexandru


Costachescu Virgil Ionescu George
Răspunsurile celor 20 de subiecți
Costachescu Virgil Neacsu Vasile
sunt reprezentate în tabelul 2.23. Problema Costachescu Virgil Costachescu Virgil
care se pune este aceea de a verifica dacă Ionescu George Ionescu George
există vreo diferență semnificativă între Neacsu Vasile Costachescu Virgil
cei 4 candidați sub aspectul preferinței Neacsu Vasile Costachescu Virgil
respondenților. Ipoteza nulă a acestui stu- Ionescu George Ionescu George
diu ar fi că, toți cei patru candidați sunt Agape Alexandru Costachescu Virgil
preferați în mod egal de către respondenți. Agape Alexandru Neacsu Vasile
Desigur, verificarea unei asemenea ipoteze se face prin intermediul testului
statistic χ2.

254
Cristian Opariuc-Dan

Lansarea acestui test se face din meniul „Analyze”, opțiunea „Non-


parametric Tests” și apoi opțiunea „Chi-
Square”. În această secțiune („Nonparamet-
ric tests”) vom regăsi aproape toate testele
statistice folosite în cazul datelor neparame-
trice.
Executarea comenzii determină lan-
sarea ferestrei de configurare pentru testul
statistic χ2. Fereastra are mai multe elemente
de noutate, astfel încât vom insista puțin
Figura 2.2 – Configurarea analizei
asupra ei. Lista variabilelor din baza de date pentru testul chi pătrat
se află în partea stângă, lista variabilelor
incluse în vederea analizei o regăsim în partea dreaptă. După cum observați
în figura 2.2, am inclus deja variabila noastră în vederea analizei acesteia.
Secțiunea „Expected Range” permite configurarea modalității de cal-
cul a amplitudinii frecvențelor teoretice. Astfel, cazul cel mai des întâlnit este
„Get from data”, situația în care SPSS calculează automat amplitudinea
frecvențelor estimate, pornind de la datele existente – la fel cum am procedat
Tabelul 2.24 – Rezultatul analizei pentru testul χ2
și noi. Puteți alege și opțiunea
Daca saptamana viitoare ar fi alegeri prezidentiale, cu cine „Use specified range”, caz în
ati vota? care frecvențele estimate sunt
Observed N Expected N Residual
cele cuprinse între limita mi-
Costachescu Virgil 8 5,0 3,0
nimă („Lower”) și limita ma-
Ionescu George 5 5,0 ,0
Neacsu Vasile 4 5,0 -1,0 ximă („Upper”). Această ul-
Agape Alexandru 3 5,0 -2,0 timă situație se folosește în
Total 20 cazul în care doriți să compa-
rați frecvențele observate cu alte frecvențe, nu cele calculate automat de
SPSS. Este, dacă vreți, o formă neparametrică a testului t Student pentru un
singur eșantion.

255
Statistică aplicată în ştiinţele socio-umane

Relaționată cu această secțiune se află și secțiunea „Expected


values”, care se referă nu la amplitudinea frecvențelor estimate ci chiar la
valoarea acestora. Cazul tipic este „All categories equal”, adică frecvențele
observate se compară cu situația în care fiecare categorie ar avea o frecvență
de apariție teoretică, egală. Opțiunea „Values” se folosește la fel ca și opțiu-
nea „Use specified range” din secțiunea anterioară. Valorile pot fi adăugate
folosindu-se butonul „Add”, pot fi modificate cu butonul „Change” sau pot
fi eliminate cu ajutorul butonului „Remove”.

Test Statistics Butonul „Exact…” permite


Daca saptamana viitoare ar definirea testelor suplimentare de
fi alegeri prezidentiale, cu
cine ati vota?
semnificație, iar butonul
Chi-Square 2,800a
„Options…” configurează statisticile
df 3 descriptive care vor fi calculate, pre-
Asymp. Sig. ,423 cum și tratamentul cazurilor lipsă.
a. 0 cells (,0%) have expected frequencies less
than 5. The minimum expected cell frequency is
Ambele opțiuni au fost detaliate în
5,0. capitolul anterior, drept urmare nu
vom reveni aici asupra lor.
Lansarea efectivă a analizei
se face prin apăsarea butonului
„OK”, așa cum știți deja. Progra-
mul furnizează două tabele. În
primul tabel, observăm că un nu-
măr de 8 persoane l-ar alege pe
Costăchescu Virgil. Pentru fiecare
prezidențiabil, frecvența teoretică
este 5. Prin urmare, frecvența ob-
servată pentru Costăchescu Virgil
Figura 2.3 – Fereastra de configurare a testului
supraestimează frecvența teoretică binomial
cu 3 alegeri.

256
Cristian Opariuc-Dan

Agape Alexandru are o frecvență observată de 3. Față de frecvența


teoretică 5, aceasta subestimează pentru acest prezidențiabil cu 2 alegeri.
Pentru a răspunde dacă există diferențe semnificative între cei patru
prezidențiabili, vom urmări al doilea tabel din foaia de rezultate. Observăm
că pragul de semnificație este de 0,423, mult mai mare decât limita admisă,
Tabelul 2.25 – Structura bazei de date pentru testul binomial
0,05. Așadar diferența
Variable Information nu este semnificativă,
Measurement nu putem respinge ipo-
Variable Position Label
Level
teza nulă. Iată că, în
culoare_par 1 Culoarea paru- Nominal
lui ciuda aparențelor, opi-
accidente 2 Numar de Scale nia alegătorilor nu este
accidente
conturată. După cum
Variables in the working file
Variable Values
vedeți, pentru a vedea
Value Label dacă o opinie este sau
culoare_par 1 Blond nu este conturată, avem
2 Brunet nevoie de ceva mai
mult decât exprimări
procentuale sau simple frecvențe absolute.
O variantă a acestui test, pentru situația în care variabila are doar două
categorii (variabile de tip Masculin – Feminin sau Da – Nu) este testul bino-
mial. Acesta poate fi lansat din aceeași categorie („Nonparametric Tests”),
opțiunea „Binomial…”, fiind mai precis decât chi-pătrat atunci când variabi-
la are exact două categorii.
Vă mai amintiți exemplul cu blondele, brunetele și accidentele rutie-
re? Haideți să construim o bază de date având structura din tabelul 2.25.
Avem două variabile: „culoarea părului”, o variabilă nominală diho-
tomică, având două valori – blond și brunet și „accidente”, variabilă scalară
care înregistrează numărul de accidente comise.

257
Statistică aplicată în ştiinţele socio-umane

Structura răspunsurilor celor 31 de femei este dată în tabelul 2.26.


Ipoteza nulă a acestui nou studiu este aceea că nu există nicio diferen-
ță semnificativă între frecvența cu care comit accidente blondele și frecvența
cu care comit accidente brunetele. Desigur, în această situație, utilizarea tes-
tului binomial este cea mai adecvată.
Fereastra de configurare a testului binomial nu pune probleme deose-
bite. Diferența față de testul anterior constă doar în titulatură. Avem acum
secțiunea „Define Dichotomy” în care putem alege calculul acesteia automat
din date cu ajutorul opțiunii Tabelul 2.26 – Baza de date pentru testul binomial
„Get from data” sau putem Culoare păr Accidente Culoare păr Accidente
introduce o valoare în caseta Blond 0 Blond 3
„Cut point” pentru a construi Brunet 3 Brunet 4
instantaneu una. Ultima opțiu- Blond 0 Blond 10
ne o vom alege dacă variabila Brunet 4 Blond 2
nu are o dihotomie reală. De Brunet 2 Brunet 3
exemplu, dacă avem variabila Blond 2 Brunet 3
„vârsta”, variabilă continuă, cu Brunet 2 Brunet 1
mediana, să spunem, 18 ani. Blond 3 Brunet 2
Dorim să folosim această vari- Brunet 1 Brunet 0
abilă în testul binomial. În Brunet 0 Blond 2

acest caz, în caseta „Cut point” Blond 0 Brunet 3

vom introduce valoarea 18, iar Brunet 0 Brunet 3

SPSS va transforma instanta- Brunet 0 Blond 3


Blond 1 Brunet 1
neu variabila într-una dihoto-
Brunet 2 Brunet 2
mică – subiecții cu vârsta sub
Blond 3
18 ani vor face parte din pri-
mul grup, iar subiecții cu vârsta peste 18 ani fac parte din al doilea grup –
după care efectuează prelucrările necesare.

258
Cristian Opariuc-Dan

Caseta de text „Test proportion” permite specificarea proporției teo-


retice cu care se va face comparația. Implicit este inclusă valoarea 0,50, ceea
ce arată o comparație cu situația în care cele două grupuri ar avea proporții
egale, 50% și 50%.

Tabelul 2.27 – Rezultatul analizei pentru testul binomial Rezultatul


Binomial Test acestui test este
Category N
Observed Test Asymp. Sig. foarte simplu de
Prop. Prop. (2-tailed)
interpretat. Se ob-
Group 1 Blond 12 ,39 ,50 ,281a
Culoarea servă, în tabelul
Group 2 Brunet 19 ,61
parului
Total 31 1,00
2.27, că testul nu
a. Based on Z Approximation. este semnificativ,
pragul de semnifi-
cație fiind mai mare de 0,05. Așadar, ipoteza nulă nu se poate respinge, cu
alte cuvinte lotul nostru de cercetare poate fi considerat omogen din punctul
de vedere al caracteristicii „culoarea părului”. Proporția de blonde nu diferă
semnificativ de proporția de brunete.
Vom trata, în continuare,
– deși face parte dintr-o altă ca-
tegorie – testul de normalitate
Kolmogorov-Smirnov. Acesta
permite comparația unei distribu-
ții empirice cu o distribuție teore-
tică, de obicei normală, plecând
de la ipoteza nulă conform căreia
cele două distribuții nu diferă.
Este un test similar testelor de
Figura 2.4 – Fereastra de configurare a testului
normalitate studiate în capitolele
Kolmogorov-Smirnov
anterioare. Așa cum am mențio-
nat și cu altă ocazie, testele de comparație a unei distribuții empirice cu o

259
Statistică aplicată în ştiinţele socio-umane

distribuție teoretică nu se limitează doar la distribuția teoretică normală. Se


poate folosi și o altă distribuție teoretică, așa cum ar fi distribuția Poisson,
distribuția uniformă, exponențială și altele. Nici testul Kolmogorov-Smirnov
nu face excepții, după cum veți vedea imediat.
Fereastra de configurare a testului Kolmogorov-Smirnov poate fi lan-
sată din aceeași opțiune de meniu, cea a testelor non-parametrice, apoi „1-
Sample K-S”. Formularul din figura 2.4 este destul de simplu. Alături de
ferestrele variabilelor, întâlnim în plus un număr de 4 căsuțe de bifare, grupa-
te în secțiunea „Test Distribution”. Caseta „Normal” se referă la compararea
distribuției empirice cu distribuția normală, caseta „Poisson” la compararea
cu distribuția Poisson, caseta „Uniform” la compararea cu distribuția uni-
formă, iar caseta „Exponențial” la compararea cu distribuția exponențială.
Desigur, pe noi
Tabelul 2.28 – Rezultatul analizei pentru testul Kolmogorov-Smirnov
One-Sample Kolmogorov-Smirnov Test ne interesează doar
Numar de accidente comparația cu distribu-
N 31 ția normală, prin urmare
Normal Parametersa,,b Mean 2,10 vom bifa numai caseta
Std. Deviation 1,938
„Normal”. De aseme-
Most Extreme Differences Absolute ,224
Positive ,224 nea, variabila supusă
Negative -,140 analizei va fi, în mod
Kolmogorov-Smirnov Z 1,246 evident, o variabilă con-
Asymp. Sig. (2-tailed) ,090
tinuă – „numărul de
a. Test distribution is Normal.
b. Calculated from data.
accidente”.
Tabelul rezultat este destul de generos în informații. În primul rând,
ne sunt oferite informații despre media și abaterea standard a populației pen-
tru variabila estimată. În cazul nostru, media accidentelor comise este de 2,10
accidente cu o abatere standard de 1,938 accidente. În subsolul tabelului
avem distribuția teoretică folosită la compararea distribuției empirice – dis-

260
Cristian Opariuc-Dan

tribuția normală – și informația conform căreia acești parametri sunt estimați


pe baza datelor calculate la nivelul celor 31 de femei investigate.
După compararea cu distribuția normală, tabelul ne arată și diferențele
extreme observate, în sens pozitiv și negativ. Cea mai mare diferență obser-
vată față de distribuția normală este o diferență pozitivă, având valoarea
0,224. Următoarea întrebare este dacă această diferență se încadrează în limi-
te acceptabile, pentru ca distribuția noastră să fie considerată normală. Ei
bine, după cum se poate constata, testul nu este semnificativ, pragul de sem-
nificație fiind de 0,09, mai mare decât pragul critic de 0,05. Cu alte cuvinte,
vom accepta ipoteza nulă conform căreia nu există nicio diferență între dis-
tribuția empirică și distribuția teoretică normală (ZKS(31)=1,24, p>0,05). Iată
cum am demonstrat faptul că dis-
tribuția este una normală.
V-am prezentat trei dintre
cele mai utilizate teste neparame-
trice pentru un singur eșantion.
Cum procedăm dacă avem de a
face cu două eșantioane indepen-
dente? Pentru a verifica – în
exemplul nostru – dacă există
diferențe semnificative între
blonde și brunete sub aspectul Figura 2.5 – Fereastra de configurare al testelor
comiterii de accidente, vom folosi neparametrice pentru două eșantioane independente
același sub-meniu, „Nonparametric Test”, din care vom alege opțiunea „2
Independent Samples”.
Fereastra de configurare prezentată în figura 2.5 are o serie de particu-
larități. În primul rând, lista „Test Variable List” reprezintă locația în care
vom include variabila dependentă – numărul de accidente în cazul de față.
Caseta „Grouping Variable” reprezintă locul în care vom include variabila

261
Statistică aplicată în ştiinţele socio-umane

independentă sau variabila de grup. Variabila noastră de grup este „culoarea


părului”, pe care o vom transfera în această listă. Observați că, imediat după
transfer, la dreapta numelui variabilei apar două semne de întrebare, deoarece
nu am definit încă grupurile. Ne aducem aminte că am notat cu cifra 1 blon-
dele și cu cifra 2 brunetele. Pentru a defini grupurile, apăsăm butonul „De-
fine Groups…”.
Se deschide un nou formular, de
mici dimensiuni, similar celui din figura
2.6. Primul grup este reprezentat de
blonde, care au fost codate cu cifra 1.
Așadar vom scrie 1 în caseta „Group
1”. Al doilea grup, brunetele, au fost
codate cu 2. Efectuăm aceeași operați- Figura 2.6 – Formularul de configurare a
une în caseta „Group 2”, apoi apăsăm grupurilor

butonul „Continue” pentru a reveni la


formularul anterior.
Constatăm că în paranteze, după numele variabilei de grup, au apărut
cifrele 1 și 2, semn că s-au definit grupurile. De asemenea, putem lansa anali-
za de date, deoarece s-a activat și butonul „OK”. Să nu ne grăbim încă.
În secțiunea „Test Type”, SPSS ne pune la dispoziție un număr de pa-
tru teste neparametrice pentru eșantioane independente.
Testul Mann-Whitney U a fost discutat deja și știm că reprezintă
unul dintre cele mai populare teste neparametrice pentru eșantioane indepen-
dente. Deși mă repet, vă reamintesc că acesta verifică dacă două eșantioane
independente sunt echivalente din punctul de vedere al poziției datelor.
Testul Kolmogorov-Smirnov Z și testul iterațiilor Wald-Wolfowitz
sunt teste mai generale, care detectează diferențele la nivelul pozițiilor și a
formei distribuțiilor. Despre al doilea am mai discutat. Acesta combină și

262
Cristian Opariuc-Dan

stabilește rangurile scorurilor din ambele grupuri. Dacă cele două eșantioane
sunt din aceeași populație – adică dacă nu există diferențe între ele – cele
două grupuri vor fi distribuite aleatoriu în jurul rangurilor generale. Testul
Kolmogorov-Smirnov Z face deja ceea ce știți. Se bazează pe analiza diferen-
ței maxime dintre cele două distribuții cumulative. Practic, este un fel de test
de normalitate, doar că nu se mai compară distribuția teoretică și cea empiri-
că ci distribuțiile celor două eșantioane.
Testul Moses al reacțiilor extreme presupune că variabila indepen-
dentă va afecta unii subiecți într-o direcție și pe alții în direcția opusă. De
obicei, acest test se folosește atunci când lucrăm cu un grup de control. Gru-
pul de control este definit ca fiind grupul 1, în timp ce grupul experimental se
definește ca fiind grupul 2. În cazul nostru, neavând o cercetare cu grupuri de
control, utilizarea acestui test este inadecvată.
Tabelul 2.29 – Rezultatul analizei pentru testul Mann-Whitney Din considerente care
U
țin de specificul datelor noastre,
Ranks
Mean Sum of
vom bifa doar testul Mann-
Culoarea parului N
Rank Ranks Whitney U, acesta fiind singurul
Numar de Blond 12 16,25 195,00 test adecvat, care ne poate furni-
accidente
Brunet 19 15,84 301,00 za informații utile.
Total 31
Test Statisticsb Rezultatele testului
Numar de accidente Mann-Whitney U sunt furnizate
Mann-Whitney U 111,000 în tabelul 2.29. Observăm că
Wilcoxon W 301,000 media rangurilor pentru blonde
Z -,125
este de 16,25 iar pentru brunete
Asymp. Sig. (2-tailed) ,900
Exact Sig. [2*(1-tailed Sig.)] ,921a este de 15,84. Diferența mică
a. Not corrected for ties. dintre cele două medii ale rangu-
b. Grouping Variable: Culoarea parului rilor se confirmă și în tabelul
statisticilor. Într-adevăr, testul nu este semnificativ, valoarea semnificației
statistice (0,921) fiind mult mai mare în comparație cu pragul critic 0,05.

263
Statistică aplicată în ştiinţele socio-umane

Așadar, nu respingem ipoteza nulă și constatăm că nu există diferențe între


blonde și brunete sub aspectul comiterii de accidente rutiere. Toate sunt la
fel…
Atunci când Tabelul 2.30 – Completarea bazei de date cu variabila accidente_final

avem de a face cu Culoare păr Accidente_final Culoare păr Accidente_final

eșantioane perechi Blond


Brunet
0
2
Blond
Brunet
1
2
(dependente), va trebui Blond 0 Blond 4
Brunet 1 Blond 1
să folosim alte teste Brunet 0 Brunet 3
statistice neparametri- Blond 0 Brunet 3
Brunet 0 Brunet 2
ce, după cum bine Blond 1 Brunet 3
știm. Vom extinde Brunet 1 Brunet 2
Brunet 0 Blond 1
puțin exemplul nostru, Blond 0 Brunet 2
introducând încă o Brunet 0 Brunet 2
Brunet 0 Blond 1
variabilă, numită „ac- Blond 1 Brunet 0
cidente_final”, variabi- Brunet 1 Brunet 0
Blond 2
lă care va stoca numă-
rul de accidente comise de cele 31 de femei după efectuarea a 10 ore de con-
ducere. Vă atrag atenția că exemplul are un caracter pur didactic și nu cores-
punde în niciun caz unei cercetări
reale.
Scorurile acestei noi variabi-
le sunt prezentate în tabelul 2.30,
păstrându-se, în mod evident, ordi-
nea persoanelor. După completarea
bazei de date SPSS, ne propunem să
vedem dacă cele 10 ore de conduce-
re au avut sau nu au avut efect. Ipo-
Figura 2.7 – Formularul de configurare al teste-
lor pentru eșantioane dependente
teza nulă va fi cea conform căreia
nu există diferențe între accidentele

264
Cristian Opariuc-Dan

comise înainte de efectuarea celor 10 ore de curs și accidentele comise după


efectuarea celor zece ore de curs.
Din sub-meniul „Nonparametric Tests” vom alege opțiunea „2 Re-
lated Samples” pentru a putea accesa formularul de configurare pentru testele
neparametrice referitoare la două eșantioane perechi. De această dată, fereas-
tra este puțin diferită. Lista variabilelor care urmează să fie analizate („Test
Pairs”) are un aspect special care invită la construcția variabilelor perechi.
Inițial, după cum este și firesc, lista va fi goală. Trebuie să alegem prima va-
riabilă din pereche („Număr de accidente” din lista din partea stângă) și să
apăsăm butonul de transfer. Vom observa că această variabilă s-a transferat în
partea dreaptă, pe rândul 1 al coloanei „Pair”, în coloana „Variable1”. Ale-
gem apoi a doua variabilă din pereche („Număr de accidente după curs”) și
acționăm același buton de transfer. Variabila se va copia pe același rând, dar
în a doua coloană („Variable2”). Astfel am construit prima pereche de varia-
bile. Dacă doriți, puteți adăuga mai multe variabile perechi – nu este cazul
nostru – iar cu butoanele din partea dreaptă a listei „Test Pairs” puteți modi-
fica ordinea perechilor (primele două butoane) sau puteți modifica ordinea
variabilelor în cadrul perechii selectate (ultimul buton).
Testele statistice disponibile se află în aceeași secțiune „Test Type”.
Cel mai puternic test este testul Wilcoxon, pe care îl cunoașteți deja foarte
bine. Aveți posibilitatea să efectuați și testul semnului dacă bifați caseta
„Sign”. Atunci când datele din cele două variabile sunt dihotomice, veți folo-
si testul McNemar. Acesta determină dacă rata de răspuns inițială (înaintea
evenimentului) este egală cu rata de răspuns finală (după eveniment). Testul
este util în detectarea modificărilor în răspunsuri ca urmare a unei intervenții
experimentale, în situații de tipul înainte-după.
O extensie a testului McNemar pentru date categoriale este testul
omogenității marginale („Marginal Homogeneity”). Acest test permite nu
numai variabile dihotomice, ci și variabile cu mai multe variante de răspuns.

265
Statistică aplicată în ştiinţele socio-umane

Noi vom discuta doar testul Wilcoxon și testul semnelor, acestea fiind
testele adecvate tipului nostru de date. Desigur, pornirea analizei se va face
prin acționarea butonului „OK”.
Cele două tabele ale testului Wilcoxon ne arată că, în urma comparați-
ilor, avem un număr de 18 cazuri în care rangurile au fost calculate pentru
diferențe pozitive (ranguri în care numărul de accidente după cursuri este mai
mic în comparație cu numărul de accidente înainte de cursuri) cu o medie a
rangurilor de 11,39, un număr de 3 ranguri calculate pentru diferențe negative
cu o medie a rangurilor de 8,67 (ranguri în care numărul de accidente după
cursuri este mai mare în comparație cu numărul de accidente înainte de cur-
suri) și 10 ranguri egale.

Tabelul 2.31 – Rezultatele testului Wilcoxon Pornind de la aceste


Ranks date, obținem un Z(31)=3,18
Mean Sum of la un p<0,01. Testul este
N
Rank Ranks
semnificativ, așadar res-
Numar accidente dupa Negative Ranks 18a 11,39 205,00
cursuri - Numar de
Positive Ranks 3 b
8,67 26,00
pingem ipoteza nulă și
accidente
Ties 10 c putem considera că cele 10
Total 31 ore de curs au avut efect.
a. Numar accidente dupa cursuri < Numar de accidente
Interpretarea de-
b. Numar accidente dupa cursuri > Numar de accidente
c. Numar accidente dupa cursuri = Numar de accidente curge aproape la fel și în
Test Statisticsb cazul în care folosim testul
Numar accidente dupa semnului.
cursuri - Numar de
accidente Și în această situa-
Z -3,180a
ție avem un număr de 18
Asymp. Sig. (2-tailed) ,001
diferențe negative, 3 dife-
a. Based on positive ranks.
b. Wilcoxon Signed Ranks Test rențe pozitive și un număr
de 10 egalități (Revedeți
teoria acestui test dacă ați uitat principul de calcul).

266
Cristian Opariuc-Dan

Raportat la aceste diferențe, testul este semnificativ la un prag de


semnificație mai mic de 0,01. Respingem și în această situație ipoteza nulă și
putem considera că cele 10 ore de curs au avut efect.

Tabelul 2.32 – Rezultatele testului semnului


Aceasta este metoda de
Frequencies lucru și interpretarea testelor
N neparametrice pentru eșantioane
Numar accidente Negative Differences a
18 relaționate. Am observat că exis-
dupa cursuri -
Numar de accidente
Positive Differencesb 3 tă diferențe între cele două situa-
Tiesc 10 ții (înaintea orelor de curs și du-
Total 31 pă orele de curs) în sensul că
a. Numar accidente dupa cursuri < Numar de accidente
numărul de accidente scade
b. Numar accidente dupa cursuri > Numar de accidente
c. Numar accidente dupa cursuri = Numar de accidente semnificativ după ce subiecții
Test Statisticsb parcurg un număr de 10 ore de
Numar acciden- curs.
te dupa cursuri -
Numar de acci- Dacă doriți, puteți verifi-
dente
ca dacă în a doua situație (după
Exact Sig. (2-tailed) ,001a
a. Binomial distribution used. orele de curs) există diferențe
b. Sign Test între blonde și brunete sub as-
pectul comiterii accidentelor rutiere. Luați această solicitare ca exercițiu, ale-
geți testul statistic adecvat și interpretați rezultatele.

II.6.2 Procedee parametrice


Procedeele parametrice vor fi abor-
date folosindu-se aceeași bază de date, pen-
tru a nu complica inutil demersul nostru. În
definitiv, avem 31 de cazuri, avem două
variabile continui și o variabilă dihotomică,
Figura 2.8 – Meniul de lansare al
ar trebui ca cele două variabile continui să
testelor parametrice se și distribuie normal. Știm că cel puțin una

267
Statistică aplicată în ştiinţele socio-umane

dintre variabile (numărul de accidente înainte de curs) se distribuie normal. În


realitate, cea de-a doua variabilă (numărul de accidente după curs) nu se dis-
tribuie normal. Dacă nu credeți, efectuați testul Kolmogorov-Smirnov pentru
un eșantion și vă veți convinge.
Testele statistice parametrice – testele t Student le puteți găsi în meni-
ul „Analyze”, sub-meniul „Compare Means”, așa cum puteți observa în fi-
gura 2.8.
Puteți alege între testul t Student pentru un singur eșantion „One-
Sample T Test”, testul t Student pentru eșantioane independente „Independ-
ent-Samples T Test” și testul t Student pentru eșantioane perechi „Paired-
Samples T Test”. În cadrul acestui sub-meniu există și alte opțiuni, pe care le
vom studia ulterior.
Să începem cu primul test statistic parametric, testul t Student pentru
un singur eșantion. Efectuând click pe opțiunea „One-Sample T Test” veți
determina deschiderea ferestrei de configurare a acestui test statistic.
Iată o fereastră extrem de simplă. Să presupunem că desfășurăm o
cercetare în care dorim să comparăm media accidentelor comise de femei
într-un an cu media accidentelor din România, în aceeași perioadă de timp.
Știm, din statisticile oficiale, că
media accidentelor în România
este de, să spunem, 1,5 accidente
anual. Ipoteza nulă a acestui
studiu susține că nu există nicio
diferență semnificativă între
media accidentelor comise de
femei și media accidentelor din
Figura 2.9 – Fereastra de configurare a testului t
Student pentru un singur eșantion
România, într-un an. Desigur,
testul statistic adecvat pentru a
verifica această ipoteză este testul t Student pentru un singur eșantion. Așa-

268
Cristian Opariuc-Dan

dar, vom transfera variabila continuă „Număr de accidente” în lista „Test


Variable(s)” iar în caseta de text „Test Value” vom include valoarea cu care
dorim să efectuăm comparația – în situația de față valoarea 1,5 care reprezin-
tă media anuală a accidentelor din România.
Butonul „Options” conține modalitatea de tratare a cazurilor lipsă și
stabilirea intervalului de încredere (implicit 95%), fiind descris în detaliu
într-un capitol anterior.
Tabelul 2.33 – Rezultatele testului t Student pentru un singur eșantion
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
Numar de accidente 31 2,10 1,938 ,348
One-Sample Test
Test Value = 1.5
95% Confidence Interval of
Mean the Difference
t df Sig. (2-tailed)
Difference
Lower Upper
Numar de accidente 1,714 30 ,097 ,597 -,11 1,31

Rezultatele acestei analize sunt sintetizate în două tabele. Primul tabel


conține statistici descriptive. Aflăm numărul total al subiecților analizați (31),
media accidentelor comise de către femei (2,10 accidente) eroarea standard a
mediei (0,348 accidente) și abaterea standard (1,93 accidente).
Al doilea tabel prezintă statisticile rezultate în urma testului t Student
pentru un singur eșantion. Astfel, se prezintă valoarea cu care s-a realizat
comparația (1,5 accidente), valoarea testului t (1,714), numărul gradelor de
libertate (30), semnificația (0,097), diferența dintre media scorurilor eșantio-
nului și valoarea cu care s-a realizat comparația (0,597), precum și intervalul
de încredere a acestei diferențe (între -0,11 și 1,31).

269
Statistică aplicată în ştiinţele socio-umane

Concluzia este clară. Testul t Student pentru un eșantion nu este sem-


nificativ, valoarea semnificației sale depășind valoarea prag 0,05. Prin urma-
re, nu putem respinge ipoteza nulă. Așadar, nu există nicio diferență semnifi-
cativă între media accidentelor comise de către femei și media anuală a acci-
dentelor din România.
Următoarea problemă pe
care ne-o punem se referă la soli-
citarea pe care v-am făcut-o la
finalul subcapitolului anterior. Să
verificăm dacă există diferențe
semnificative între blonde și bru-
nete sub aspectul numărului de
accidente comise într-un an, după
ce au efectuat cele 10 ore supli- Figura 2.10 – Fereastra de configurare a testului
t Student pentru eșantioane independente
mentare de curs. Ipoteza nulă sus-
ține că nu există nicio diferență semnificativă între blonde și brunete din acest
punct de vedere. De această dată nu vom mai aborda problema la nivel nepa-
rametric ci la nivelul testelor parametrice. Mai precis, vom folosi testul t Stu-
dent pentru eșantioane independente.
Fereastra de configurare seamănă frapant cu cea a testelor neparame-
trice de tipul eșantioanelor independente
(Mann-Whitney U). Vom transfera variabila
dependentă „Număr de accidente după curs”
în lista „Test Variable(s)” și variabila inde-
pendentă „Culoarea părului” în lista „Group-
ing Variable”. Urmează definirea grupurilor,
Figura 2.11 – Definirea grupurilor la fel ca la testele neparametrice. Blondele au
pentru testul t Student fost codate cu cifra 1, așadar vor forma primul
grup, iar brunetele au fost codate cu cifra 2, constituind al doilea grup. Am

270
Cristian Opariuc-Dan

folosit, în acest caz, opțiunea „Use specified values” care ne permite introdu-
cerea precisă a valorilor dintr-o variabilă discretă. În cazul în care am fi folo-
sit o variabilă continuă, există posibilitatea transformării acesteia într-una
discretă alegând opțiunea „Cut point”. Această opțiune funcționează la fel ca
și în cazul testelor neparametrice, unde a fost detaliată și exemplificată.
Tabelul 2.34 – Rezultatele testului t Student pentru două eșantioane independente
Group Statistics
Culoarea
N Mean Std. Deviation Std. Error Mean
parului
Numar accidente dupa cursuri Blond 12 1,00 1,128 ,326
Brunet 19 1,26 1,147 ,263
Independent Samples Test
Levene's Test
for Equality of t-test for Equality of Means
Variances
95% Confi-
dence Interval
of the Differ-
ence
Sig. (2- Mean Std. Error
F Sig. t df Lower Upper
tailed) Difference Difference
Equal 2,005 ,167 -,626 29 ,536 -,263 ,420 -1,123 ,597
Numar variances
acci- assumed
dente Equal -,629 23,843 ,536 -,263 ,419 -1,128 ,601
dupa variances
cursuri not as-
sumed
Tabelele generate de acest test sunt ceva mai complexe. Regăsim ta-
belul statisticilor descriptive, în care, pentru fiecare grup, sunt prezentate
numărul de cazuri, mediile, abaterile standard și erorile standard ale mediilor.
Astfel, avem un număr de 12 blonde, media accidentelor acestora după cur-
suri este de 1 cu o abatere standard de 1,12 accidente și o eroare standard a
mediei de 0,32 accidente, precum și un număr de 19 brunete, având o medie a

271
Statistică aplicată în ştiinţele socio-umane

accidentelor de 1,26 cu abaterea standard de 1,14 și eroarea standard a mediei


0,26 accidente.
Tabelul rezultatelor testului statistic este asemănător cu cel al testului
t pentru un singur eșantion. În plus, apar datele generate de testul Levene al
egalității varianțelor. De asemenea, observăm că ni se prezintă două seturi de
rezultate: unul în cazul în care varianțele sunt egale (primul rând) și celălalt
pentru varianțe inegale (al doilea rând). Care dintre cele două seturi de date
vor fi folosite? Ei bine, utilizarea acestora depinde de rezultatul testului de
egalitate a varianțelor. Ne
amintim că testul Levene
pleacă de la ipoteza nulă
conform căreia varianțele
sunt egale. Dacă acest test
nu este semnificativ,
atunci nu respingem ipo-
teza nulă și acceptăm fap-
tul că varianțele sunt ega- Figura 2.12 – Fereastra de configurare a testului t Student
le. În acest caz, vom folosi pentru eșantioane perechi

primul set de date. Dacă


testul este semnificativ, atunci vom respinge ipoteza nulă, varianțele nu sunt
egale și utilizăm al doilea set de date. În situația noastră, testul nu este semni-
ficativ (F=2,005; p=0,167), deci varianțele sunt egale.
În primul set de date, observăm că testul statistic t Student pentru
eșantioane independente nu este semnificativ (p=0,536). Așadar, ipoteza nulă
nu poate fi respinsă și rezultă că nu există nicio diferență semnificativă între
blonde și brunete din punctul de vedere al numărului de accidente comise
într-un an, după cursul de 10 ore.
Ultimul test studiat în cadrul acestui capitol are în vedere compararea
accidentelor comise înainte de curs, cu accidentele comise după curs, într-o

272
Cristian Opariuc-Dan

manieră similară testelor neparametrice. De altfel, se poate observa că fereas-


tra de configurare a testului t Student pentru eșantioane perechi arată la fel ca
fereastra de configurare a testelor neparametrice pentru aceleași eșantioane.
Nu intrăm în detalii. Vom construi perechea formată din cele două va-
riabile – număr de accidente înainte de curs și număr de accidente după curs,
apoi apăsăm butonul „OK” pentru a porni analiza statistică.
Tabelul 2.35 – Rezultatele testului t Student pentru două eșantioane perechi
Paired Samples Statistics
Std. Error
Mean N Std. Deviation
Mean
Pair 1 Numar de accidente 2,10 31 1,938 ,348
Numar accidente dupa cursuri 1,16 31 1,128 ,203
Paired Samples Correlations
N Correlation Sig.
Pair 1 Numar de accidente & Numar accidente dupa 31 ,663 ,000
cursuri
Paired Samples Test
Paired Differences
95% Confidence
Sig. (2-
Std. Std. Error Interval of the t df
Mean tailed)
Deviation Mean Difference
Lower Upper
Pair 1 Numar de acciden- ,935 1,459 ,262 ,400 1,471 3,570 30 ,001
te - Numar acciden-
te dupa cursuri

De această dată, rezultatele se prezintă sub forma a trei tabele. În pri-


mul tabel sunt afișate statisticile descriptive. Media anuală a accidentelor
înainte de curs este de 2,10 accidente, cu o abatere standard de 1,93 accidente
și o eroare standard a mediei de 0,34 accidente. După curs, media anuală a
accidentelor se reduce la 1,16, cu o abatere standard de 1,12 și o eroare stan-
dard a mediei de 0,20. Desigur, ideea centrală a testului este dacă această
reducere a numărului de accidente poate fi considerată semnificativă.

273
Statistică aplicată în ştiinţele socio-umane

Într-adevăr, în ultimul tabel, constatăm că diferența este semnificati-


vă. Putem așadar respinge ipoteza nulă conform căreia nu există niciun efect
al cursurilor asupra numărului de accidente comise. Iată că există o diferență
semnificativă între numărul de accidente comise înainte de curs și numărul de
accidente comise după curs (t(30)=3,54; p<0,01), în sensul că, după efectuarea
celor 10 ore de curs, numărul de accidente anuale a scăzut semnificativ.
Al doilea tabel conține un … coeficient de corelație. Mă veți întreba
ce treabă are coeficientul de corelație într-un test statistic. Acesta urmărește
păstrarea ierarhiei datelor. Cu alte cuvinte, un coeficient de corelație semnifi-
cativ și pozitiv ne spune că subiecții care inițial aveau scoruri mici, în final
vor avea tot scoruri mici; cei care inițial aveau scoruri mari, în final vor avea
tot scoruri mari, cu toate că există diferențe semnificative între situația iniția-
lă și cea finală. Coeficientul de corelație semnificativ și negativ ne arată că
subiecții care inițial aveau scoruri mici au obținut în final scoruri mari și in-
vers. Dacă acest coeficient nu este semnificativ, înseamnă că ierarhia inițială
a scorurilor nu se mai păstrează.
În exemplul nostru, avem un coeficient de corelație semnificativ și
pozitiv. Acest lucru arată că, deși în final subiecții au făcut mai puține acci-
dente ca urmare a participării acestora la curs, totuși cei care înainte făceau
puține accidente, în final vor face și mai puține; cei care inițial au făcut foarte
multe accidente, în final vor face tot multe accidente, cu toate că accidentele
în final sunt totuși mai puține în comparație cu situația inițială.

II.6.3 Analiza normalității și a scorurilor aberante


În partea teoretică a acestui capitol am
văzut câteva procedee statistice de analiză a
normalității și a scorurilor aberante. De aseme-
nea, în subcapitolul destinat testelor neparame-
trice, am studiat testul Kolmogorov-Smirnov Figura 2.13 – Lansarea analizei
pentru normalitate

274
Cristian Opariuc-Dan

pentru un singur eșantion și am observat maniera în care acest test se poate


folosi pentru a analiza normalitatea unei distribuții empirice de date.
În cadrul acestui subcapi-
tol vom vedea și alte variante prin
care putem decide dacă o distribu-
ție este sau nu este normală și/sau
dacă ne confruntăm cu scoruri
extreme.
Foarte multe dintre infor-
mațiile prezentate aici au fost deja
detaliate în lucrări anterioare, lu- Figura 2.14 – Fereastra de configurare a statisti-
crări dedicate statisticilor cilor exploratorii
univariate. Nu vom relua acele
explicații, deoarece consider că sunt cunoscute. Vom insista doar asupra par-
ticularităților care țin de analiza normalității și a scorurilor aberante prin
prisma testelor statistice.
Procedeele de analiză pot fi lansate din
meniul „Descriptive Statistics”, opțiunea „Ex-
plore”.
În mod normal, această fereastră ar tre-
bui să vă fie foarte bine cunoscută. În lista
„Dependent list” vom include variabila pe care
dorim să o analizăm. De asemenea, comunicăm
programului să afișeze atât statisticile, cât și
Figura 2.15 – Opțiuni de analiză graficele, prin alegerea opțiunii „Both” din
pentru normalitate
cadrul secțiunii „Display”.
În vederea configurării opțiunilor de analiză, vom apăsa butonul
„Plots…”. Vom vedea fereastra din figura 2.15, în care regăsim mai multe

275
Statistică aplicată în ştiinţele socio-umane

elemente. Pe unele le cunoașteți (cum ar fi cele din secțiunile „Descriptive”


și „Boxplots”), în timp ce altele necesită unele clarificări.
Caseta „Normality plots with tests” va afișa graficele pentru probabi-
litatea teoretică a distribuției normale și pentru tendințele datelor empirice
către distribuția normală teoretică (distribuția z). De asemenea, se vor afișa
rezultatele testelor de normalitate Kolmogorov-Smirnov și Shapiro-Wilks,
testul Kolmogorov-Smirnov fiind ajustat prin procedura de corecție a semni-
ficației Lilliefors.
Alături de bifarea graficelor descriptive, vom alege și afișarea grafice-
lor și a testelor de normalitate.
Tabelul 2.36 – Statistici descriptive
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Numar accidente dupa cursuri 31 100,0% 0 ,0% 31 100,0%
Descriptives
Statistic Std. Error
Numar accidente dupa Mean 1,16 ,203
cursuri
95% Confidence Interval for Lower Bound ,75
Mean
Upper Bound 1,58
5% Trimmed Mean 1,09
Median 1,00
Variance 1,273
Std. Deviation 1,128
Minimum 0
Maximum 4
Range 4
Interquartile Range 2
Skewness ,704 ,421
Kurtosis -,242 ,821

276
Cristian Opariuc-Dan

Primele două tabele furnizează statisticile descriptive univariate. Ală-


turi de numărul de cazuri, întâlnim media și intervalul de încredere al mediei,
Tabelul 2.37 – Teste de normalitate media 5% trim, mediana,
Tests of Normality varianța și abaterea stan-
a
Kolmogorov-Smirnov Shapiro-Wilk dard, amplitudinea de vari-
Statistic df Sig. Statistic df Sig.
ație, valorile minime și
Numar acciden- ,203 31 ,002 ,862 31 ,001
te dupa cursuri maxime, intervalul
a. Lilliefors Significance Correction intercuartil, coeficienții de
simetrie și boltire. Pentru detalii despre acești indicatori, consultați lucrarea
anterioară dedicată statisticilor univariate.
Următorul tabel este acela al testelor
de normalitate. Avem atât valorile pentru
Kolmogorov-Smirnov, cât și valorile pentru
Shapiro-Wilk.
Se observă cu ușurință că ambele tes-
te sunt semnificative. Așadar, respingem
ipoteza nulă conform căreia nu există nicio
diferență între distribuția empirică și distribu- Figura 2.16 – Histograma distribuției
pentru variabila studiată
ția teoretică normală. Iată că, scorurile pentru
variabila „Număr de accidente după cur-
suri” nu prezintă o distribuție normală.
Acest lucru devine evident dacă analizăm
coeficientul de simetrie Skewness. Vom
constata o asimetrie pozitivă, o tendință
către valori mici, fapt mai mult decât clar
din analiza histogramei.
Desigur, în asemenea situații nu
Figura 2.17 – Graficul boxplot al
distribuției pentru variabila studiată am putea folosi testele parametrice, așa
cum am procedat în acest capitol, fără o

277
Statistică aplicată în ştiinţele socio-umane

normalizare a datelor. Dacă nu dorim normalizarea datelor, singura alternati-


vă pe care o avem este cea a testelor neparametrice.
Aceleași tendințe se pot observa și în graficul boxplot din figura 2.17.
Puteți remarca modul în care datele se concentrează în zona scorurilor mici
(„cutia”), în timp ce una dintre „mustăți” determină asimetria pozitivă.
Din fericire, nu există scoruri aberante. Graficul nu remarcă asemenea
valori dincolo de limita „mustăților”.
Programul SPSS ne prezintă și două grafice prin intermediul cărora se
compară distribuția datelor
empirice cu distribuția teore-
tică normală.
Primul grafic – Numit
„Normal Q-Q Plot” –
trasează dreapta probabilități-
lor distribuției normale și
prezintă modul în care cate-
goriile variabilei analizate se
abat de la distribuția normală.
În figura 2.18 se poate
Figura 2.18 – Graficul Q-Q Plot al distribuției pentru vari- observa că pentru scoruri
abila studiată mici (scoruri de la 0 la 2),
abaterile de la distribuția normală nu sunt semnificative. În zona scorurilor
mici, distribuția empirică respectă caracteristicile distribuției normale. Pro-
bleme apar în zona scorurilor mari (scoruri peste valoarea 2).
Categoriile cu valori mari se abat în sens negativ de la distribuția
normală. Prin urmare, pentru ca datele să se distribuie normal, ar trebui ca
scorurile mari să aibă valori mult mai mici în comparație cu cele actuale.

278
Cristian Opariuc-Dan

Acest lucru nu ne spune decât că distribuția este asimetrică pozitiv,


fapt pe care îl cunoșteam deja.
Al doilea grafic furnizat de SPSS compară distribuția z (distribuție cu
media 0 și abaterea stan-
dard 1) cu distribuția empi-
rică, în termeni de abateri
standard.
Se observă în figura
2.19 dreapta distribuției z și
modul în care se abat cate-
goriile variabilei studiate de
la aceasta. Lucrurile sunt
mult mai clare în acest caz.
Tendințele sunt aceleași.
Scorurile mici se apropie Figura 2.19 – Graficul Q-Q Plot al distribuției pentru
de distribuția normală, în timp variabila studiată, în raport cu distribuția z

ce scorurile mari sunt puternic distanțate. Totuși nu avem de a face cu scoruri


extreme, deoarece nicio valoare nu depășește o abatere standard în jurul me-
diei.
Iată și abordarea profesionistă a analizei normalității unei distribuții,
inclusiv tratarea scorurilor extreme.
Nu vom încheia acest capitol înainte de a vă furniza – așa cum v-am
obișnuit – un exemplu profesional de analiză și interpretare a unui test statis-
tic. Ne vom rezuma la testele parametrice, deoarece acestea sunt cele mai
folosite, menționând că analiza testelor neparametrice se face după un algo-
ritm asemănător.

279
Statistică aplicată în ştiinţele socio-umane

„Într-o cercetare efectuată pe un număr de 62 de deținuți, femei și


bărbați, s-a urmărit investigarea emotivității. În acest sens, s-a administrat
inventarul de personalitate 16 PF, reținându-se doar factorul de personalita-
te C. Ipoteza nulă susține că nu există nicio diferență între bărbați și femei
sub aspectul emotivității. Deoarece scorurile variabilei „Factorul C” se dis-
tribuie normal, analiza va folosi testul t Student pentru eșantioane indepen-
dente.”
Group Statistics
Genul biologic
N Mean Std. Deviation Std. Error Mean
al subiectilor
Factorul C Masculin 32 5,98 1,369 ,214
Feminin 30 7,60 1,639 ,423

Independent Samples Test


Levene's Test
for Equality of t-test for Equality of Means
Variances
95% Confidence
Interval of the
Difference
Sig. (2- Mean Std. Error
F Sig. t df Lower Upper
tailed) Difference Difference
Factorul C Equal variances 1,696 ,198 -3,728 60 ,000 -1,624 ,436 -2,498 -,751
assumed
Equal variances -3,426 27,570 ,002 -1,624 ,474 -2,609 -,640
not assumed

Statisticile de grup indică un număr de 32 de deținuți și 30 de deținu-


te. Media bărbaților la factorul emotivitate este de 5,98, cu o eroare stan-
dard a mediei de 0,21 și o abatere standard de 1,36. În cazul femeilor, media
la factorul emotivitate este de 7,60, cu o eroare standard a mediei de 0,423 și
o abatere standard a scorurilor de 1,63.

280
Cristian Opariuc-Dan

Conform testului Levene de egalitate a varianțelor, varianțele celor


două grupuri studiate sunt egale, deoarece testul este nesemnificativ
(F=1,69; p=0,198), prin
urmare nu putem respinge
ipoteza nulă conform căreia
varianțele scorurilor celor
două eșantioane sunt egale.
În aceste condiții,
constatăm existența unei
diferențe semnificative între
bărbați și femei sub aspectul
emotivității (t(60)=3,728;
p<0,01), în sensul că emotivitatea femeilor este semnificativ mai mare în
comparație cu emotivitatea bărbaților (mfemei=7,60 > mbărbați=5,98), așa cum
rezultă și din graficul atașat.
Astfel, vom respinge ipoteza nulă conform căreia nu există diferențe
semnificative între bărbați și femei sub aspectul emotivității și vom susține
ipoteza alternativă. Într-adevăr, diferența dintre bărbați și femei din punctul
de vedere al variabilei studiate există și este semnificativă.
Efectul exercitat de variabila independentă „gen biologic” asupra
variabilei dependente „emotivitate” este un efect puternic (r2=0,188), testul
fiind semnificativ atât statistic, cât și din punctul de vedere al utilității prac-
tice. Efectul se manifestă în sensul testului statistic, susținând ipoteza alter-
nativă propusă. Astfel, 18,8% din varianța emotivității se poate explica prin
genul biologic, aspect care confirmă teoria după care emotivitatea femeilor
este mai mare în comparație cu cea a bărbaților, chiar și în mediul peniten-
ciar.

281
Statistică aplicată în ştiinţele socio-umane

Iată o demonstrație statistică realizată complet și profesional. Desigur,


mai este loc. Am putea completa rezultatele cu puterea cercetării pentru a
avea o imagine definitivă asupra acestei analize. Oricum, printr-un asemenea
demers nu vă puteți face de râs la nicio conferință din țară ori din străinătate.

În concluzie:
 Extinderea cunoștințelor dobândite în urma studierii unui eșantion la nivelul între-
gii populații, face parte din domeniul statisticilor inferențiale. Orice cercetare știin-
țifică are la bază un plan (design) de cercetare;
 Un design de cercetare este un plan care permite atribuirea subiecților în diferite
condiții experimentale, împreună cu modalitățile de analiză ale datelor rezultate.
Planurile de cercetare pot fi de bază sau complexe. Planurile de cercetare comple-
xe derivă din combinațiile planurilor de cercetare de bază;
 Planurile de cercetare de bază sunt: designul complet aleatoriu (CR-p), designul
aleatoriu cu blocuri (RB-p) și designul pătratelor latine (LS-p);
 Testele statistice neparametrice se aplică atunci când datele sunt situate la un nivel
de măsură neparametric sau când datele sunt parametrice, însă nu este îndeplinită
condiția distribuției normale;
 Principalele teste neparametrice sunt: testul diferențelor dintre frecvențe χ2, testul
medianei pentru eșantioane independente, testul Mann-Whitney U pentru eșantioa-
ne independente, testul iterațiilor Wald-Wolfowitz (Runs), testul semnelor pentru
eșantioane dependente, testul Wilcoxon;
 Principalele teste parametrice sunt: testele pentru un singur eșantion, teste pentru
două eșantioane independente și teste pentru două eșantioane perechi;
 Există și teste specifice, testele de depistare a unor valori aberante și testele de
comparare a distribuției empirice cu o distribuție teoretică, în general distribuția
normală;
 La interpretarea unui test statistic se ține cont de pragul de semnificație, valoarea
testului, semnul testului și mărimea efectului;
 Creșterea puterii unei cercetări științifice se poate realiza prin măsuri care țin de:
designul cercetării, măsurătorile efectuate în cadrul cercetării și metodele statistice
folosite.

282
Cristian Opariuc-Dan

III.ANALIZA FIDELITĂŢII
În acest capitol se va discuta despre:
Conceptul de fidelitate şi validitate;
Tehnicile şi metodele de calcul ale fidelităţii;
Modalitatea de alegere a metodei de analiză a fi-
delităţii;
 Relevanţa şi strategiile de calcul ale fidelită-
ţii;
După parcurgerea capitolului, cititorii vor fi capabili să:
 Înţeleagă principiile generale şi utilitatea fide-
lităţii şi a validităţii;
 Calculeze coeficienţii de fidelitate, în funcţie
de specificul cercetării;
 Analizeze şi să interpreteze elementele specifice
de studiu ale fidelităţii;
 Utilizeze SPSS în calculul coeficienţilor de fide-
litate.

Stimate doamne, domnişoare şi domni, fidelitatea, în această accepţi-


une, nu este ceea ce credeţi. Nu se referă la fidelitatea partenerului sau la cea
a partenerei, ci vizează un cu totul alt concept. Cei dintre dumneavoastră,
care urmează sau au urmat cursurile unei facultăţi de psihologie, îşi mai
amintesc probabil coşmarul teoretic al validităţii şi fidelităţii din cadrul disci-
plinelor „psihodiagnostic” şi „metodologia elaborării instrumentelor psiholo-
gice”. Fiţi liniştiţi, deoarece nu doresc să detaliez aceste elemente aici. To-
tuşi, se impun anumite precizări.
Atunci când ne gândim la validitatea unui instrument de cercetare sau
la cea a unuia de diagnostic, avem în vedere faptul că itemii acelui instrument
reuşesc să măsoare, într-adevăr, ceea ce-şi propun să măsoare. Fidelitatea, pe
de altă parte, pleacă de la supoziţia că itemii deja măsoară dimensiunea in-
vestigată şi încearcă să determine cât de precis, cât de fiabil se măsoară acest
lucru. Vom clarifica imediat definițiile prin câteva exemple. Mă veţi întreba,

283
Statistică aplicată în ştiinţele socio-umane

desigur, pentru ce avem nevoie de studiul acestor elemente? Cred că vă mai


amintiţi caracteristicile măsurării în ştiinţele socio-umane. Ştiţi, desigur, că
aceasta are un caracter subiectiv şi că nu se poate compara cu măsurarea din
lumea fizică. Deoarece nu putem măsura direct fenomenele sociale, ci prin
intermediul unor indicatori observabili, indicatori care doar presupunem că ar
avea legătură cu fenomenul investigat, apare firească întrebarea cu privire la
modul în care aceşti indicatori chiar reprezintă fenomenul studiat şi, de ase-
menea, cât de precis îl reprezintă. Aceasta este, de fapt, problema validităţii şi
cea a fidelităţii.
Deseori aud, chiar printre profesioniştii cu experienţă, întrebarea „dar
testul acela a fost validat pe populaţia românească?”, întrebare care nu sinte-
tizează tocmai exact conceptul pe care-l vizează. În mod corect, nu ar trebui
să se vorbească despre validare, ci despre adaptare, presupunând că vorbim
despre un instrument de diagnostic din import. Ştim, deja, că verificarea vali-
dităţii – validarea, cum o numesc unii – este doar o etapă în procesul de adap-
tare. În mod normal, adaptarea unui instrument debutează cu traduceri şi re-
troversiuni multiple ale itemilor, pentru a se asigura specificul cultural al po-
pulaţiei, se continuă apoi cu asigurarea validităţii, în multiple forme, înce-
pând cu cea teoretică, de construct, apoi validitatea de conţinut, cea concu-
rentă şi predictivă, se studiază fidelitatea, şi, la sfârşit, se asigură etalonarea.
Termenul de „validare pe populaţia românească” este inadecvat, ca să nu mai
vorbim de cei care folosesc pentru adaptarea unui instrument, termenul de
„etalonare”. Adică, „este etalonat pe populaţia românească, sau nu?” Nu vă
amuzaţi prea tare, există şi asemenea „specialişti”, la care nivelul cunoştinţe-
lor de construcţie a instrumentelor de psihodiagnostic se rezumă doar la eta-
lon. Nu ne mai mirăm că aceştia folosesc teste depăşite de zeci de ani, sau,
mai simplu, dau un aviz psihologic în baza unei discuţii de trei minute.
Doar… testul e test, nu-i aşa? Ce, un test psihologic are termen de garan-
ţie??!!

284
Cristian Opariuc-Dan

Pe scurt, un instrument de cercetare sau unul de diagnostic pentru care


nu există studii serioase de validitate şi de fidelitate, este un instrument pe cât
de inutil, pe atât de periculos, deoarece, în baza rezultatelor obţinute, se pot
lua decizii complet false.
Să presupunem că doriţi să investigaţi anxietatea colegilor de serviciu,
iar pentru aceasta veţi construi un chestionar. Puteţi să măsuraţi anxietatea
direct? Desigur, nu! Anxietatea nu se măsoară în metri sau în kilograme, ci
prin intermediul unor întrebări, care vizează comportamente asociate cu
această dimensiune. Să presupunem că aţi inclus în chestionar următoarele
întrebări, la care subiectul va răspunde prin „Da” sau „Nu”:
 Mâncaţi pâine în fiecare zi?
 Obişnuiţi să vă plimbaţi prin parc cel puţin o dată pe săptămâ-
nă?
 Vă place să citiţi cărţi de aventuri?
Credeţi că un chestionar care conţine întrebări similare cu cele de mai
sus măsoară anxietatea? Răspunsul este extrem de simplu. Evident că nu! Ce
treabă are mâncatul pâinii sau plimbarea prin parc cu anxietatea… Alta ar fi
situaţia în care am dispune de întrebări precum:
 Aveţi uneori o stare de teamă inexplicabilă, fără obiect?
 Atunci când vă cheamă şeful, vă îngrijoraţi şi vă este frică de-
oarece credeţi că aţi făcut ceva rău?
 Atunci când aveţi de rezolvat o sarcină, într-un timp scurt, vă
agitaţi şi credeţi că nu o veţi putea duce la bun sfârşit?
Dacă subiectul răspunde afirmativ la aceste trei întrebări, atunci com-
portamentul său poate fi suspectat de anxietate. Iată, pe scurt, modalitatea de
prezentare a validităţii. Dacă primul set de întrebări este invalid, iar itemii nu

285
Statistică aplicată în ştiinţele socio-umane

au nimic în comun cu anxietatea, al doilea set poate fi considerat valid, aceş-


tia fiind puternic saturaţi în dimensiunea investigată.
Relaţia dintre validitate şi fidelitate poate fi foarte uşor înţeleasă dacă
apelăm la un exemplu. Să presupunem că instrumentul de diagnostic sau cel
de cercetare este asimilat unui trăgător cu pistolul5. Situaţia „trăgătorilor” din
punctul de vedere al validităţii şi fidelităţii poate fi prezentată în figura 3.1.

a b c d
Figura 3.1 – Relaţia dintre validitate şi fidelitate

În prima figură (a) vom avea un instrument valid şi fidel. Trăgătorul


nu numai că a ochit grupat (fidel), însă a atins şi obiectivul urmărit, centrul
ţintei (valid). Figura (b) reprezintă situaţia unui instrument valid, însă cu pro-
bleme referitoare la fidelitate. Trăgătorul şi-a concentrat loviturile spre mijlo-
cul ţintei, spre obiectivul urmărit (valid) însă nu a tras prea grupat (nefidel).
Figura (c) reprezintă un instrument fidel, însă invalid. Deşi trăgătorul a gru-
pat foarte bine loviturile (fidel), totuşi este departe de centrul ţintei, de obiec-
tivul urmărit (invalid). În sfârşit, figura (d) este expresia unui instrument şi
invalid şi infidel. Imaginea nu necesită comentarii. Trăgătorul nu numai că nu
reuşeşte să atingă obiectivul (invalid), mai mult, loviturile nici măcar nu sunt
grupate (nefidel).

5
Exemplul nu-mi aparţine în totalitate. A fost citit sau mi s-a povestit de către Florin Sava.
Din nefericire, nu am sursa să-l pot cita, însă îmi fac datoria de onoare să menţionez acest
lucru.

286
Cristian Opariuc-Dan

Ce se întâmplă, însă, din punct de vedere statistic? Orice cercetare


efectuată, va fi afectată de două surse de eroare: erori aleatorii şi erori nealea-
torii (sistematice).
Erorile aleatorii reprezintă influenţe ale factorilor externi care pot
afecta măsurătorile. Nici măcar în lumea fizică măsurătorile nu sunt scutite
de asemenea erori. Dacă măsurăm un obiect la o temperatură de 45 de grade
Celsius, vom obţine o valoare, diferită de valoarea obţinută la măsurarea ace-
luiaşi obiect la -10 grade Celsius. Mai mult, în domeniul socio-uman pot in-
terveni o mulţime de factori externi care să afecteze răspunsurile subiecţilor
şi, deci, măsurătoarea. Vremea de afară, genul biologic al cercetătorului sau
modul în care acesta s-a îmbrăcat, faptul că subiectul s-a certat cu soţia sau
cu soacra, faptul că nu a dormit noaptea sau că îl strânge un pantof sunt tot
atâtea surse externe de influenţă care pot genera erori aleatorii şi care pot
influenţa măsurătorile. Din nefericire, asemenea erori apar fie că vrem fie că
nu vrem şi de multe ori sunt aproape imposibil de controlat. Este cunoscut
faptul că influența acestor erori corelează negativ cu gradul de fidelitate al
unui instrument de cercetare. Cu cât influenţa erorilor aleatorii este mai mare,
cu atât instrumentul este mai puţin fidel, reciproca fiind, de asemenea, valabi-
lă. Un instrument are un grad ridicat de fidelitate, dacă aplicat aceloraşi sub-
iecţi, în condiţii variate, conduce la aceleaşi răspunsuri sau la răspunsuri foar-
te apropiate.
Erorile nealeatorii, numite şi erori sistematice, au un caracter con-
stant şi sunt legate, de cele mai multe ori, de instrumentul de cercetare. De
exemplu, dacă aveţi un ceas care merge cu 10 minute înainte, această diferen-
ţă dintre ora exactă şi ora indicată de ceas reprezintă o eroare sistematică. La
fel, un termometru care arată cu 20 de grade mai puţin decât temperatura rea-
lă este un termometru invalid. Iată că am ajuns şi la esenţa problemei. După
cum aţi constatat deja, controlul erorilor sistematice ţine de validitatea unui

287
Statistică aplicată în ştiinţele socio-umane

instrument (revedeţi figura cu ţinta), în timp ce minimizarea influenţei erori-


lor aleatorii reprezintă o problemă de fidelitate.
Nu intenţionez să susţin aici o prelegere referitoare la aceste două
concepte, deoarece fac parte dintr-o altă disciplină. Se pare că „m-a cam luat
valul” şi nu m-am putut abţine să nu încerc să lămuresc aceste lucruri. De
fapt, de buna lor înţelegere depinde însuşirea tehnicilor de analiză ale fidelită-
ţii. Cât despre validitate, o parte dintre instrumentele menite să o asigure va fi
discutată cu altă ocazie.

III.1 Metode de analiză a fidelităţii


În condiţiile în care orice măsurătoare este supusă erorilor aleatorii,
înseamnă că niciodată nu putem afla exact valoarea unui indicator. Conform
teoriei clasice a testului, un rezultat obţinut conţine scorul real şi suma erori-
lor aleatorii. Probabil că formula X = t + e nu reprezintă o noutate pentru
dumneavoastră. Aceasta este, de fapt, expresia matematică a afirmaţiei de
mai sus. Dacă veţi lua un test de inteligenţă şi îl veţi efectua, în fiecare zi,
timp de 10 zile, veţi observa că nu ajungeţi, de fiecare dată, la acelaşi rezul-
tat. Acest lucru nu se întâmplă din cauză că inteligenţa dumneavoastră fluctu-
ează, ci din cauza efectului exercitat de erorile aleatorii. Practic, valoarea „t”
din expresia de mai sus este constantă. Nu cred că este probabil ca inteligenţa
dumneavoastră să fluctueze de la o zi la alta, însă este foarte probabil ca într-
o zi să vă simţiţi mai obosit, fără chef, ori să vă fi zgâriat pisica DVD-ul pre-
ferat, iar în altă zi să vă puteţi concentra mai bine, să fiţi plin de energie. Stă-
rile dumneavoastră interne pot influenţa scorul observat (X), de la o zi la alta.
Dacă inteligenţa este constantă în această perioadă de timp, însă scorul ob-
servat se modifică, puteţi identifica sursa acestor fluctuaţii? Desigur, aţi răs-
puns corect! Într-adevăr, sursa variaţiilor scorului observat nu este dată de
inteligenţă ci de erorile aleatorii, elementul „e” din expresia anterioară.

288
Cristian Opariuc-Dan

În realitate, scorul real („t”) nu poate fi niciodată cunoscut. Nu veţi


putea şti vreodată, absolut exact, ce „cantitate” de inteligenţă aveţi. Acesta
este un indicator ipotetic, imposibil de observat şi de măsurat direct. Poate,
doar în condiţiile în care aţi efectua testul de inteligenţă vreo 50 de ani, în
fiecare zi, iar apoi aţi face media tuturor rezultatelor obţinute, ar rezulta o
măsură foarte apropiată de scorul real (conform teoremei limitei centrale),
însă nu vom uita că şi inteligenţa este afectată de timp.
Totuşi, dacă singura sursă de variaţie a scorului real este reprezentată
de erorile aleatorii, înseamnă că vor exista zile în care scorul dumneavoastră
observat va fi mai mare decât scorul real, după cum vor fi evaluări în care
scorul observat se va situa sub cel real. Acest lucru ne spune, de fapt, că sco-
rurile observate situate peste valoarea scorului real vor anula, în cele din ur-
mă, scorurile situate sub scorul real. Cu alte cuvinte, la un număr suficient de
mare de evaluări, erorile aleatorii tind să fie nule.
Sintetizând, vom considera următoarele asumpţii referitoare la ecuaţia
fundamentală a teoriei clasice a testului (Carmines, și alții, 1979):
 Media erorilor aleatorii tinde spre zero, deoarece erorile care
determină situarea scorului observat peste scorul real compen-
sează erorile care determină situarea scorului observat sub sco-
rul real;
 Din acelaşi motiv, corelaţia dintre scorul real şi erorile aleato-
rii tinde spre zero, cele două variabile fiind independente;
 Corelaţia dintre erorile aleatorii, la diferite măsurători, va fi,
de asemenea zero, erorile aleatorii exercitând efecte indepen-
dente.
Plecând de la aceste asumpţii de bază, care, desigur, au şi o demon-
straţie matematică pertinentă, putem ajunge la concluzia că vom reuşi să
aflăm scorul real, dacă evaluăm o persoană de foarte multe ori cu acelaşi in-

289
Statistică aplicată în ştiinţele socio-umane

strument. Însă, acest lucru nu este posibil din mai multe motive. Nu cred că
vom găsi o asemenea persoană disponibilă, şi apoi intervin factorii de memo-
rie şi alţi factori care pot influenţa rezultatele, prin noi erori aleatorii. În acest
caz, renunţăm la a evalua o singură persoană şi evaluăm, cu acelaşi instru-
ment, un grup de persoane. Intuiţi deja că fundamentul teoretic de mai sus se
poate aplica şi în această situaţie. Nu intrăm în detalii şi în demonstraţii. Cei
care doresc mai multe informaţii, pot consulta literatura de specialitate. O
prezentare excelentă a acestor elemente este realizată de către Carmines şi
Zeller (Carmines, și alții, 1979) în lucrarea lor. În linii mari, aceasta este
logica evaluării fidelităţii. La un număr suficient de mare de persoane evalua-
te cu acelaşi instrument, erorile aleatorii se compensează reciproc şi putem
avea măsura fidelităţii scorului real. Repet, problema nu se referă la aflarea
scorului real, ci la analiza fidelităţii unui instrument de măsură, a stabilităţii
sale. Dacă ceea ce fluctuează sunt erorile aleatorii, atunci, identificând ceva
stabil, acel lucru trebuie să fie scorul real.
În practică, există mai multe metode prin care putem evalua fidelitatea
unui instrument: metoda test-retest, metoda formelor paralele, metoda înju-
mătăţirii, metoda acordului între evaluatori şi metoda consistenţei interne. Le
vom analiza pe fiecare în parte.

III.1.1 Metoda test-retest


Se referă la analiza stabilităţii în timp a rezultatelor şi presupune ad-
ministrarea instrumentului unui grup de subiecţi, colectarea rezultatelor şi
apoi administrarea aceluiaşi instrument, aceluiaşi grup de subiecţi, după un
interval de timp. Rezultatele obţinute la cele două evaluări sunt apoi corelate,
coeficientul numindu-se coeficient de fidelitate test-retest sau coeficient de
stabilitate, deoarece arată cât de stabile sunt rezultatele după un interval de
timp.

290
Cristian Opariuc-Dan

Una dintre cele mai controversate întrebări care se pune este cea refe-
ritoare la intervalul de timp dintre cele două evaluări (Stan, 2002). Ei bine,
intervalul de timp depinde de stabilitatea dimensiunii măsurate. Retestarea
după un an poate fi inadecvată pentru un chestionar de opinii, acestea
putându-se schimba între timp, însă poate fi perfect valabilă pentru un test de
inteligenţă. Oricum, durata dintre cele două evaluări nu poate fi mai mică de
3-4 săptămâni. În cele mai multe cazuri, cercetătorii acordă un interval de 5-6
luni, considerat suficient pentru o analiză pertinentă a fidelităţii.
Această metodă, deşi intens folosită, nu este agreată în mod deosebit
de către cercetători, din cauza unor motive obiective. În primul rând, unii nu
o consideră o măsură a fidelităţii, ci una a stabilităţii scorurilor. Apoi, dacă
intervalul de timp este prea scurt, metoda nu mai estimează în mod real stabi-
litatea, intervenind influenţa memoriei şi efectul de învăţare. Subiecţii îşi pot
aminti unele răspunsuri de la evaluarea trecută, fapt care biasează masiv ana-
liza de fidelitate. Dacă intervalul de timp este prea lung, intervine efectul de
maturizare, prin care dimensiunea evaluată se modifică, mai ales dacă vorbim
de factori de personalitate. Mai mult decât atât, subiecţii tind să dea răspun-
suri la întâmplare în condiţiile celei de-a doua administrări.
Ideea este că nu se poate folosi această metodă ca metodă unică de es-
timare a fidelităţii, ci doar însoţită de o altă metodă, de obicei de metoda con-
sistenţei interne. Foarte mulţi consideră metoda test-retest ca o formă a meto-
dei înjumătăţirii, poate şi datorită faptului că procedeele statistice de calcul
sunt analoage. Din această cauză, nu vom prezenta aici calculul coeficientului
de fidelitate test-retest, ci îl vom aborda în cadrul celei de-a doua metode
studiate.

III.1.2 Metoda înjumătăţirii


Se mai numeşte metoda split-half, este mult mai precisă în comparaţie
cu metoda test-retest şi nu mai presupune o readministrare a instrumentului

291
Statistică aplicată în ştiinţele socio-umane

după un interval de timp. Ideea de bază a metodei este aceea că, dacă avem
un set de itemi care măsoară o dimensiune, oricare două subseturi din acei
itemi, măsurând aceeaşi dimensiune, vor corela puternic. De exemplu, dacă
avem un chestionar care măsoară depresia, chestionar format din 20 de între-
bări, dintre care, aleatoriu, formăm două chestionare de câte 10 întrebări (lu-
ăm la întâmplare 10 itemi din chestionar şi construim o formă, ceilalţi 10
itemi rămaşi reprezentând cealaltă formă), şi apoi corelăm cele două chestio-
nare, ar trebui să obţinem un coeficient de corelaţie ridicat. Acest coeficient
poartă numele de coeficient de fidelitate split-half şi reprezintă o măsură
mai precisă a fidelităţii în comparaţie cu celălalt indicator, coeficientul de
stabilitate.
Dacă aţi fost atenţi, aţi observat că metoda test-retest este o variantă a
metodei înjumătăţirii. Pentru test-retest se foloseşte întregul instrument apli-
cat la două intervale de timp, iar pentru split-half folosim cele două jumătăţi
ale instrumentului, aplicate o singură dată. Ambele metode presupun aceleaşi
operaţii statistice, şi anume corelarea celor două administrări în cazul test-
retest şi corelarea celor două jumătăţi pentru split-half.
Fidelitatea prin metoda split-half măsoară, de fapt, echivalenţa celor
două jumătăţi de instrument. Unii autori o numesc şi fidelitate a formelor
paralele sau chiar fidelitatea consistenţei interne, deşi aceste denumiri sunt
oarecum improprii metodei.
Atât fidelitatea prin metoda test-retest, cât şi cea evaluată prin metoda
înjumătăţirii se pot analiza prin mai multe procedee statistice. Unul dintre
acestea implică obţinerea coeficientului de fidelitate split-half după formula
Spearman-Brown, numit şi coeficient de predicţie Spearman-Brown.

292
Cristian Opariuc-Dan

(formula 3.1)

unde, rij reprezintă coeficientul de corelaţie Bravais-Pearson între ce-


le două forme, iar k se referă la numărul total de itemi împărţit la numărul
de itemi din fiecare formă şi are, în general, valoarea 2.

Această formulă se foloseşte exclusiv în situaţia în care utilizăm me-


toda înjumătăţirii, factorul k jucând rolul de factor de corecţie.
Să presupunem că avem un chestionar cu un număr de 25 de itemi
pentru care dorim să verificăm fidelitatea prin metoda înjumătăţirii. Dintre
cei 25 de itemi, vom construi două forme, alegerea întrebărilor fiind absolut
aleatorie. Vor rezulta, aşadar, două forme, una conţinând 13 itemi iar cealaltă
12 itemi.
Am ales intenţionat un număr inegal de itemi în cele două forme, pen-
tru a vă arăta modul în care se poate calcula factorul k. Pentru un plus de pre-
cizie, vom considera forma cea mai scurtă, cea cu 12 itemi. Făcând raportul
dintre numărul total al itemilor din chestionarul original şi numărul de itemi
din prima jumătate, obţinem 25/12=2,08. Practic, chestionarul original este
de 2,08 ori mai lung în comparaţie cu această formă. Similar, raportul pentru
forma a doua, cea cu 13 itemi devine 25/13=1,92. Această formă este de 1,92
ori mai scurtă în comparaţie cu chestionarul original. Singurul element care
ne lipseşte este coeficientul de corelaţie dintre cele două forme. Acest indica-
tor ştiţi deja să-l calculaţi foarte bine şi, să presupunem că aţi obţinut r= 0,87.
Înlocuind în formulă, vom obţine un coeficient de predicţie Spearman-Brown
rSB1= 0,93, valoare care arată o fidelitate foarte bună, cele două forme fiind
echivalente, iar pe ansamblu chestionarul fiind fidel.

293
Statistică aplicată în ştiinţele socio-umane

Dacă dorim un exces de precizie, putem calcula coeficientul de pre-


dicţie a fidelităţii ajustat şi pentru cealaltă parte. Vom obţine valoarea 0,92
pentru coeficientul de fidelitate split-half, diferenţa dintre cele două valori
fiind foarte mică.

Acest coeficient îl vom folosi doar dacă analizăm fidelitatea prin me-
toda split-half. În ceea ce priveşte semnificaţia lui, majoritatea autorilor con-
sideră că valorile de peste 0,80 sunt adecvate pentru o fidelitate acceptabilă,
iar dacă dorim un grad ridicat al fidelităţii, nu vom putea accepta coeficienţi
sub 0,90. Totuşi, pentru cercetări exploratorii şi nu diagnostice, se pot lua în
considerare coeficienţi de fidelitate de peste 0,60, sub această limită
considerându-se instrumentul ca nefiind fidel.
Probabil că vă veţi întreba de ce acest coeficient se numeşte coeficient
de predicţie? Răspunsul constă în analiza formulei. Practic, formula prezice
fidelitatea întregului chestionar, pornind de la o formă a acestuia – formă
pentru care s-a calculat factorul k –, şi în baza corelaţiei dintre cele două for-
me.
În cazul în care s-a utilizat metoda test-retest pentru calculul fidelită-
ţii, formula 3.1 nu mai corespunde. Un caz particular al acestei formule este
exprimat prin relaţia următoare:

(formula 3.2)

Este, de fapt, situaţia în care am construi două forme ale unui chestio-
nar, ambele cu acelaşi număr de itemi. Prin extensie, metoda se poate aplica
şi în cazul formei test-retest.
Să presupunem că acelaşi chestionar cu 25 de itemi este aplicat unui
lot de cercetare de 130 de subiecţi, cu readministrare peste 8 luni. Coeficien-

294
Cristian Opariuc-Dan

tul de corelaţie dintre cele două administrări este r= 0,79. În acest caz, fideli-
tatea test-retest va fi 0,88, arătând că instrumentul are o foarte bună stabilita-
te.

Pentru a înţelege mai bine calculul acestui coeficient, vom lua exem-
plul unui chestionar cu 40 de itemi, aplicat unui număr de 10 studenţi. Rezul-
tatele vor fi centralizate în tabelul 3.1. Se observă că, pentru fiecare subiect,
am inclus atât scorul total obţinut (la nivelul întregului chestionar) cât şi sco-
rul obţinut pentru fiecare dintre cele două jumătăţi (forma x cu 20 de itemi şi
forma y, tot cu 20 de itemi).
Primul pas este reprezentat de calculul mediilor, atât pentru forma
completă a instrumentului, cât şi pentru cele două sub-forme. Media scoruri-
lor este de 31 pentru întregul chestionar (mtot), 15,2 pentru prima formă (mx)
şi 15,8 pentru forma a doua (my).
Tabelul 3.1– Calculul coeficientului de fidelitate split-half
Scor Forma x Forma y
Student x-mx y-my (x-mx)2 (y-my) 2 (x-mx)( y-my)
(40) (20) (20)
A 40 20 20 4.8 4.2 23.04 17.64 20.16
B 28 15 13 -0.2 -2.8 0.04 7.84 0.56
C 35 19 16 3.8 0.2 14.44 0.04 0.76
D 38 18 20 2.8 4.2 7.84 17.64 11.76
E 22 l0 12 -5.2 -3.8 27.04 14.44 19.76
F 20 12 8 -3.2 -7.8 10.24 60.84 24.96
G 35 16 19 0.8 3.2 0.64 10.24 2.56
H 33 16 17 0.8 1.2 0.64 1.44 0.96
I 31 12 19 -3.2 3.2 10.24 10.24 -10.24
J 28 14 14 -1.2 -1.8 1.44 3.24 2.16
Media 31.0 15.2 15.8 95.60 143.60 73.40

Corelaţia Bravais-Pearson se va calcula după una dintre procedurile


expuse în primul capitol, cea prin care folosim direct formula de definiţie.
Pentru aceasta – vă reamintim – trebuie făcută diferenţa dintre scor şi medie,
pentru fiecare dintre cele două forme, apoi ridicăm la pătrat aceste diferenţe

295
Statistică aplicată în ştiinţele socio-umane

şi, în final, le vom înmulţi. Sunt, de asemenea, necesare sumele pătratelor


diferenţelor, pentru fiecare variabilă, precum şi suma produselor diferenţelor.
Toate calculele au fost realizate în tabelul 3.1, nu rămâne decât să aplicăm
formula de definiţie a coeficientului de corelaţie r Bravais-Pearson.
∑ ̅ ̅

√∑ ∑ √
̅ ̅

Având coeficientul de corelaţie r Bravais-Pearson (0,62), restul devine


o simplă problemă de aplicare a formulei Spearman-Brown în vederea obţi-
nerii coeficientului de fidelitate split-half (0,76).

Coeficientul de predicţie a fidelităţii Spearman-Brown este foarte bun,


în condiţiile în care cele două forme au un număr egal de itemi, iar varianţele
celor două forme sunt, şi ele, egale. Aţi văzut deja că în cazul în care numărul
de itemi nu este egal, apar diferenţe între cei doi coeficienţi de fidelitate.
Formula 3.1 poate fi folosită şi în acest caz, de obicei raportându-se coefici-
entul de fidelitate cel mai mic. Totuşi, dacă varianţele nu sunt egale, fidelita-
tea analizată prin intermediul formulei Spearman-Brown poate să nu fie rele-
vantă. În acest caz, vom aplica o altă tehnică, bazată pe coeficientul de fide-
litate split-half Guttman.
Acest coeficient reprezintă o formă adaptată a relaţiei Spearman-
Brown, folosită în cazul în care varianţele celor două forme nu sunt egale, iar
calculul se poate realiza după formula următoare:

(formula 3.3)

unde reprezintă varianţa întregului chestionar, reprezintă vari-


anţa primei forme iar reprezintă varianţa celei de-a doua forme.

296
Cristian Opariuc-Dan

Acest coeficient calculează direct fidelitatea, bazându-se doar pe vari-


anţe, nu şi pe alţi coeficienţi de corelaţie. Tot ceea ce avem de făcut este să
calculăm varianţele instrumentului original şi varianţele celor două forme ale
sale, apoi să înlocuim în formulă. Ştiţi deja că varianţa nu este altceva decât
abaterea standard la pătrat, modalitatea de calcul fiind prezentată într-un alt
volum6.
Să presupunem că varianţa totală a unui chestionar de 37 de întrebări
este 132,43, varianţa primei forme, care conţine 18 întrebări este de 40,01 iar
varianţa celei de-a doua forme, cu 19 întrebări este de 32,21. Aplicând în
formulă, obţinem un coeficient de fidelitate de 0,90.

Această formă a coeficientului de fidelitate Guttman este, de fapt,


forma λ4 din cei şase coeficienţi pe care îi propune autorul, fiind şi cea mai
recomandată metodă de studiu a fidelităţii prin split-half.
Deşi metoda înjumătăţirii este mult mai precisă în comparaţie cu me-
toda test-retest, aţi remarcat faptul că nu ne spune nimic despre structura in-
ternă a celor două forme. Coeficienţii de fidelitate split-half sunt puternic
influenţaţi de modul în care vor fi selectaţi itemii în cele două forme, acest
lucru putând asigura egalitatea varianţelor, însă nu lasă nicio posibilitate prin
care cercetătorul să poată verifica, propriu-zis, itemii. Pot să apară diferenţe
importante dacă itemii sunt selectaţi aleatoriu în cele două forme, în compa-
raţie cu situaţia în care o formă conţine itemii pari iar cealaltă conţine itemii
impari sau printr-o altă selecţie aleatorie a itemilor.
De exemplu, dacă am avea un chestionar pentru evaluarea depresiei,
format din 40 de itemi, dintre care 39 ar viza depresia, însă un singur item s-

6
Puteţi consulta lucrarea „Statistică aplicată în ştiinţele socio-umane. Noţiuni de bază -
Statistici univariată”, de acelaşi autor, apărută la editura ASCR, Cluj-Napoca, 2009

297
Statistică aplicată în ştiinţele socio-umane

ar referi la numărul de la pantofi, probabil că includerea acestuia într-una


dintre forme ar furniza un anumit coeficient de fidelitate, chiar şi acceptabil,
dar nu am avea nicio posibilitate să depistăm că acel item nu este consistent
cu ansamblul celorlalţi 39.
Aceasta este, de fapt, principala deficienţă a metodei split-half şi prin-
cipala critică ce i se aduce în lumea ştiinţifică. Pornind de la acest lucru,
Cronbach a avut în anul 1951 ideea de a trata fiecare item ca o formă a testu-
lui. În loc să construim două forme de câte 20 de itemi pentru chestionarul
nostru, vom construi, practic, 40 de forme, fiecare conţinând un singur item.
Corelarea tuturor celor 40 de itemi, prin această variantă de split-half, deter-
mină apariţia unui nou concept, cel de consistenţă internă.

III.1.3 Metoda consistenţei interne


Încă de la început, doresc să menţionez că analiza consistenţei interne
este o metodă de verificare a fidelităţii, nu o metodă de verificare a validităţii,
aşa cum am auzit şi am citit prin unele cărţi. Ea nu se bazează pe tratarea ero-
rilor sistematice, ci tot pe tratarea erorilor aleatorii, fiind o derivaţie a meto-
dei split-half.
Coeficientul de consistenţă internă α Cronbach este, poate, cea mai
populară măsură a fidelităţii evaluată prin această metodă. Acesta poate lua
valori între 0 şi 1, unde valoarea 0 arată că instrumentul nu măsoară decât
erorile aleatorii, neavând nimic de a face cu scorul real, iar valoarea 1 arată
că instrumentul măsoară doar scorul real, fiind eliminate complet erorile alea-
torii.
Una dintre formulele de calcul ale coeficientului α Cronbach este ur-
mătoarea:

298
Cristian Opariuc-Dan

̅
̅
(formula 3.4)

unde n reprezintă numărul de itemi analizaţi, iar ̅ este media corela-


ţiilor inter-itemi.

Să considerăm un chestionar cu un număr de 10 itemi, care măsoară


satisfacţia profesională. Primul pas în calcularea coeficientului de fidelitate α
Cronbach îl reprezintă construirea matricei de corelaţii.
În afara faptului că este foarte migăloasă, construirea tabelului 3.2 nu
pune probleme deosebite de calcul. Nu trebuie decât să luaţi fiecare item şi
să-l corelaţi cu ceilalţi. Desigur, dacă aţi corelat itemul 3 cu itemul 5, nu are
rost să corelaţi itemul 5 cu itemul 3, pentru că veţi ajunge la acelaşi rezultat.
Acesta este şi motivul pentru care sunt afişate doar rezultatele de deasupra
(sau de dedesubtul, dacă preferaţi) diagonalei principale. Coeficientul de co-
relaţie a unui item cu el însuşi este întotdeauna 1, de aceea diagonala tabelu-
lui va avea întotdeauna valoarea 1.
Tabelul 3.2– Matricea de corelaţii inter-itemi
Item Item Item Item Item Item Item Item Item Item ∑
1 2 3 4 5 6 7 8 9 10
Item 1 1 ,185 ,451 ,399 ,413 ,263 ,394 ,352 ,361 ,204 3,022
Item 2 1 ,048 ,209 ,248 ,246 ,230 ,050 ,277 ,270 1,578
Item 3 1 ,350 ,399 ,209 ,381 ,427 ,276 ,332 2,374
Item 4 1 ,369 ,415 ,469 ,280 ,358 ,221 2,112
Item 5 1 ,338 ,446 ,457 ,317 ,425 1,983
Item 6 1 ,474 ,214 ,502 ,189 1,379
Item 7 1 ,315 ,577 ,311 1,203
Item 8 1 ,299 ,374 0,673
Item 9 1 ,233 0,233
Item 10 1 -
∑=14,557

Dacă nu v-aţi plictisit realizând un număr destul de mare de corelaţii,


vă mai aşteaptă o surpriză, şi anume calculul mediei corelaţiilor inter-itemi.
Conceptul înseamnă exact ceea ce-i spune şi numele. Avem un număr de 45
de corelaţii inter-itemi (desigur, fără corelaţiile itemului cu el însuşi – corela-

299
Statistică aplicată în ştiinţele socio-umane

ţiile cu valoarea 1). Trebuie să adunăm toate aceste corelaţii şi să împărţim


suma rezultată la 45 – numărul total al corelaţiilor.
Vă recomand să procedaţi ca în tabelul 3.2. Efectuaţi suma corelaţiilor
inter-itemi pentru fiecare item (pe fiecare linie) şi apoi adunaţi sumele parţia-
le. Atenţie, sumele se calculează fără valorile de pe diagonală, fără corelaţiile
cu valoarea 1. Totalul obţinut este 14,557. Dacă împărţim această sumă la 45
(numărul total al corelaţiilor inter-itemi) obţinem valoarea 0,323, valoare care
reprezintă tocmai media corelaţiilor inter-itemi. Ştiind această medie şi cu-
noscând numărul total de itemi (10), putem acum aplica formula pentru a
calcula coeficientul de consistenţă internă α Cronbach.
̅
̅

S-a obţinut un coeficient de consistenţă internă bun, putem accepta


faptul că instrumentul are consistenţă internă, este un instrument fidel.
Există, desigur, mai multe variante de formule pentru calculul coefici-
entului de consistenţă internă. Formula 3.4 se bazează pe media corelaţiilor
inter-itemi, fiind şi cea mai uşoară. Altele se centrează pe calculul varianţe-
lor, creându-se matricea varianţă-covarianţă. Pentru a nu complica inutil ex-
punerea, ne vom rezuma doar la formula prezentată. Oricum, este prea puţin
probabil să calculaţi manual acest coeficient, volumul de muncă fiind foarte
mare. În general, veţi apela la SPSS, după cum vom vedea imediat.
La fel ca şi coeficientul de fidelitate split-half, α Cronbach nu trebuie
să aibă o valoare mai mică de 0,60 în cazul cercetărilor exploratorii. În scop
diagnostic, se recomandă ca valoarea acestui coeficient să depăşească 0,70,
un instrument bun având o consistenţă internă de peste 0,80.
Deşi coeficientul de consistenţă internă α Cronbach este intens folosit,
totuşi nu este scutit de probleme. Kline (Kline, 1999) afirma că valoarea re-
comandată pentru acest coeficient (0,80) poate fi o valoare de referinţă în

300
Cristian Opariuc-Dan

cazul testelor de inteligenţă, în timp ce pentru inventarele de personalitate se


poate coborî până la 0,70, iar pentru chestionarele de opinie chiar şi mai jos.
Totuşi, niciun autor nu susţine posibilitatea ca un coeficient de consistenţă
internă să fie mai mic de 0,60.
De asemenea, Cortina (Cortina, 1993) ridică o altă problemă a acestui
coeficient, cea conform căreia valoarea sa depinde de numărul de itemi. Pe
măsură ce creşte numărul de itemi dintr-un instrument, creşte şi coeficientul
α Cronbach. De aceea, există posibilitatea să obţinem un instrument sau o
scală consistentă, nu pentru că aceasta ar fi, într-adevăr, fidelă, ci pentru că
are un număr foarte mare de întrebări.
O altă eroare des întâlnită în interpretarea coeficientului de consisten-
ţă internă se referă la faptul că cercetătorii pleacă de la premisa unidimensio-
nalităţii. Cu alte cuvinte, se presupune că în spatele acelor itemi se află o sin-
gură dimensiune, ceea nu este, de multe ori, corect. Consistenţa internă nu
poate reliefa structura dimensiunilor, a factorilor instrumentului, acest lucru
fiind de competenţa analizei factoriale. Tot Cortina (Cortina, 1993) a arătat
că seturi de itemi cu acelaşi coeficient de consistenţă internă, pot avea struc-
turi foarte diferite. Itemii pot să vizeze un singur factor, doi factori corelaţi
sau factori complet necorelaţi. Cercetările au arătat că α Cronbach nu poate şi
nu trebuie folosit ca o măsură a unidimensionalităţii. Obţinerea unui coefici-
ent înalt arată doar că itemii sunt corelaţi între ei, nu şi că vizează o singură
dimensiune. Din nefericire, destui cercetători confundă aceste elemente şi
creează instrumente de cercetare „valide” bazându-se exclusiv pe α
Cronbach, lucru, desigur, eronat. Chiar Cronbach afirma că dacă un instru-
ment are mai multe scale, coeficientul α va fi calculat pentru fiecare scală şi
nu pe întregul chestionar, un asemenea demers neavând sens.
De obicei, coeficientul de consistenţă internă are valori pozitive. S-ar
putea, însă, să aveţi surpriza obţinerii unor coeficienţi negativi. De unde poa-
te să apară acest lucru? Ei bine, un asemenea coeficient are valori negative în

301
Statistică aplicată în ştiinţele socio-umane

cazul în care covarianţa negativă este mai mare în comparaţie cu cea pozitivă.
Ştim foarte bine, că pentru a evita tendinţa subiecţilor către un răspuns pozi-
tiv, de multe ori folosim itemi inversaţi. Adică, dacă la unii itemi răspunsul
„Da” este semnificativ şi primeşte un punct, la alţi itemi primeşte un punct
răspunsul „Nu”. Sau, dacă vom nuanţa puţin, având o evaluare pe o scală de
la 1 la 5, pentru unii itemi 5 înseamnă „foarte mult”, în timp ce pentru alţi
itemi, 1 va însemna „foarte mult”. În acest caz, unii itemi vor corela negativ.
În funcţie de numărul itemilor inversaţi, per ansamblu este posibil să obţinem
o covarianţă negativă mai mare în comparaţie cu cea pozitivă, şi, evident, un
coeficient negativ. Vom vedea, atunci când vom discuta despre aplicaţiile în
SPSS, ce avem de făcut în acest caz, fiind vorba despre un proces de recodare
al itemilor.
Cronbach a descoperit formula sa în anul 1951. Să nu credeţi că până
atunci cercetătorii nu aveau idee despre consistenţa internă. Încă din anul
1937 conceptul era bine cunoscut, cel puţin pentru Kuder şi Richardson, care
au pus la punct o metodă de calcul a consistenţei interne, în condiţiile în care
itemii sunt dihotomici. Adică, atunci când răspunsurile sunt de tipul „Da” şi
„Nu”. Este cazul, desigur, al binecunoscutei formule Kuder-Richardson
KR20, formulă alternativă pentru α Cronbach.

( ) (formula 3.5)

unde p reprezintă proporţia subiecţilor care au răspuns semnificativ


la acel item (au primit punct), q reprezintă proporţia subiecţilor care au răs-
puns nesemnificativ la acel item (nu au primit punct), σ2 se referă la varianţa
scorului total iar k reprezintă numărul total de itemi
Vom considera un instrument cu 12 itemi, la care subiecţii pot răs-
punde prin „Da” sau „Nu”, răspunsul „Da” fiind semnificativ şi primind un
punct. Acest instrument a fost administrat unui număr de 10 persoane.

302
Cristian Opariuc-Dan

Tabelul 3.3– Calculul coeficientului Kuder-Richardson pentru itemi dihotomici


Itemi (k) ∑ ∑-m (∑-m)2
Subiecţi
1 2 3 4 5 6 7 8 9 10 11 12
A 1 1 1 1 1 1 1 0 1 1 1 1 11 4.5 20.25
B 1 1 1 1 1 1 1 1 0 1 1 0 10 3.5 12.25
C 1 1 1 1 1 1 1 1 1 0 0 0 9 2.5 6.25
D 1 1 1 0 1 1 0 1 1 0 0 0 7 0.5 0.25
E 1 1 1 1 1 0 0 1 1 0 0 0 7 0.5 0.25
F 1 1 1 0 0 1 1 0 0 1 0 0 6 -0.5 0.25
G 1 1 1 1 0 0 1 0 0 0 0 0 5 -1.5 2.25
H 1 1 0 1 0 0 0 1 0 0 0 0 4 -2.5 6.25
I 1 1 1 0 1 0 0 0 0 0 0 0 4 -2.5 6.25
J 0 0 0 1 1 0 0 0 0 0 0 0 2 -4.5 20.25
∑ 9 9 8 7 7 5 5 5 4 3 2 1
p 0,9 0,9 0,8 0,7 0,7 0,5 0,5 0,5 0,4 0,3 0,2 0,1 Media ∑
6.5 74.50
q 0,1 0,1 0,2 0,3 0,3 0,5 0,5 0,5 0,6 0,7 0,8 0,9
pq ,09 ,09 ,16 ,21 ,21 ,25 ,25 ,25 ,24 ,21 ,16 ,09 ∑pq=2,21

În tabelul 3.3 puteţi observa modul de aranjare al datelor în vederea


calculării coeficientului de fidelitate Kuder-Richardson. În primul rând, vom
construi o matrice a răspunsurilor subiecţilor. Astfel, primul subiect a răspuns
de 11 ori „Da” şi doar o singură dată „Nu”, la itemul 8. Al doilea subiect are
două răspunsuri „Nu”, la itemii 9 şi 12, şi aşa mai departe. După completarea
matricei, va trebui să realizăm suma răspunsurilor „corecte” pentru fiecare
item. Astfel, la primul item au răspuns „Da” 9 subiecţi, un singur subiect răs-
punzând „Nu”. Suma va fi aşadar 9, la fel ca şi pentru itemul al doilea. La
itemul al treilea, au răspuns „Nu” două persoane, opt persoane răspunzând
„Da”, aşadar suma răspunsurilor „Da” va fi 8. Procedăm la fel până la ultimul
item, itemul 12, unde observăm că doar o singură persoană a răspuns „Da”.
Urmează calculul proporţiilor. Deoarece ştiţi deja că proporţiile se exprimă
sub formă zecimală, având valori între 0 şi 1, vom calcula doar proporţia răs-
punsurilor semnificative, a răspunsurilor „Da” pentru fiecare item (p), cunos-
când că proporţia răspunsurilor nesemnificative, „Nu”, se află foarte simplu,
pe baza unei operaţii de scădere (q=1-p). Pentru primul item, din 10 subiecţi,
9 au răspuns „Da”. Evident, proporţia este de 0,9 (sau 90% dintre subiecţi au
răspuns „Da” – amintiţi-vă regula de trei simplă. Dacă 10 răspunsuri „Da”

303
Statistică aplicată în ştiinţele socio-umane

înseamnă 100%, atunci 9 răspunsuri „Da” cât la sută înseamnă?). Aceeaşi


proporţie o calculăm şi la al doilea item, şi aşa mai departe, până la ultimul
item. După stabilirea proporţiilor p şi q pentru toţi cei 12 itemi, vom face
produsul acestora (pq), aşa cum apare pe ultima linie a tabelului. În final,
calculăm suma acestor produse şi obţinem valoarea 2,21.
Singurul element care ne mai lipseşte pentru a putea aplica formula,
se referă la varianţa scorului total. Pentru a o afla, folosiţi-vă de ultimele trei
coloane din tabelul 3.3 şi de informaţiile din cartea anterioară, referitoare la
calculul varianţei şi al abaterii standard. În final, veţi obţine varianţa egală cu
8,28. Să calculăm acum coeficientul Kuder-Richardson.

( ) ( )

Nu este deloc greu, aşa cum deja v-aţi obişnuit. Un asemenea coefici-
ent indică o consistenţă internă bună a celor 12 itemi din instrumentul de mai
sus.
Ce ne facem însă dacă nu avem la dispoziţie structura datelor, la nivel
de item, ci doar scorul brut total, aşa ca în tabelul 3.4?
Tabelul 3.4– Calculul coeficientului Kuder-Richardson pe baza notelor brute

Subiecţi NB ∑-m (∑-m)2


A 11 4.5 20.25
B 10 3.5 12.25
C 9 2.5 6.25
D 7 0.5 0.25
E 7 0.5 0.25
F 6 -0.5 0.25
G 5 -1.5 2.25
H 4 -2.5 6.25
I 4 -2.5 6.25
J 2 -4.5 20.25
∑=74,5
m=6,5

304
Cristian Opariuc-Dan

Aţi remarcat, sunt aceleaşi date, însă nu mai avem răspunsurile celor
zece subiecţi la fiecare dintre cei 12 itemi, ci doar scorul brut, total, pentru
fiecare dintre subiecţi. Fără să intrăm în detalii, avem şi media acestor evalu-
ări, precum şi suma abaterilor pătratice de la medie, rezultând, evident, ace-
eaşi varianţă, care va avea valoarea 8,28. Există acum vreo posibilitate să
aflăm consistenţa internă? Răspunsul este pozitiv şi va trebui să aduceţi mul-
ţumiri lui Kuder şi Richardson pentru acest lucru. Iată că cei doi autori ne
mai oferă o relaţie, exact pentru situaţii de acest gen, numită formula de cal-
cul a coeficientului Kuder-Richardson 21 (KR21).
̅ ̅
( ) (formula 3.6)

Elementele formulei nu necesită explicaţii. Ne trebuie doar numărul


de itemi (12 în cazul nostru), media evaluărilor (ştim, este 6,5) şi varianţa (pe
care o cunoaşte deja, fiind 8,28).
̅ ̅
( ) ( )

Se constată o importantă reducere a coeficientului de consistenţă in-


ternă, de la 0,79 la 0,70. Acest lucru apare din cauza faptului că nu cunoaş-
tem structura internă a răspunsurilor. Formula Kuder-Richardson 21 utilizea-
ză o aproximare matematică a proporţiilor şi nu o evaluare exactă a acestora.
Este perfect normal faptul că se pierde foarte multă informaţie, iar coeficien-
tul de consistenţă internă va fi mult mai mic. Însă, dacă nu avem altă soluţie,
este bine şi aşa.
Spre deosebire de α Cronbach, care se poate calcula pentru orice fel
de itemi, coeficientul Kuder-Richardson se foloseşte numai pentru itemi di-
hotomici.
Desigur, există şi alte metode de evaluare a consistenţei interne, pe
care le vom analiza în cadrul aplicaţiei computerizate. Cele mai importante
tehnici au fost expuse în acest subcapitol, cunoaşterea lor oferindu-vă o bază

305
Statistică aplicată în ştiinţele socio-umane

solidă pentru înţelegerea şi utilizarea conceptului de fidelitate prin consisten-


ţă internă

III.1.4 Metoda formelor paralele


Reprezintă o formă hibridă de verificare a fidelităţii, prin combinarea
metodelor test-retest şi split-half şi se foloseşte destul de frecvent în dome-
niul educaţional. Ca şi metoda test-retest, presupune utilizarea aceluiaşi lot de
subiecţi, realizându-se în două etape:
 În prima etapă se împarte instrumentul original în două forme,
numite forme paralele, opţional studiindu-se coeficientul de
fidelitate split-half pe un grup de cercetare. Studiul acestui co-
eficient nu reprezintă, însă, o etapă obligatorie, ci poate fi fo-
losit ca referinţă pentru etapa a doua;
 În a doua etapă se administrează prima formă unui alt grup de
subiecţi, apoi, după un interval de două săptămâni sau o lună,
se administrează, aceloraşi subiecţi, cea de-a doua formă.
Un lucru foarte important îl reprezintă verificarea celor două forme,
astfel încât să nu difere între ele din punctul de vedere al erorilor sistematice
(al validităţii). Practic, cele două forme trebuie să măsoare acelaşi construct.
Cea mai simplă metodă prin care se poate realiza acest lucru este aceea a re-
partizării aleatorii a itemilor în cele două forme. Coeficientul de corelaţie
dintre cele două forme reprezintă o măsură a fidelităţii.
Dacă, de exemplu, avem un test de evaluare a competenţelor de calcul
numeric, ce conţine un număr de 60 de itemi, şi căruia dorim să-i studiem
fidelitatea. În prima etapă, vom împărţi, absolut aleatoriu, cei 60 de itemi în
două forme ale testului: una cu 30 de itemi şi cealaltă cu 30 de itemi. Dacă
dorim să fim foarte riguroşi, administrăm cele două forme paralele unui lot
de cercetare şi verificăm coeficientul de fidelitate split-half. Deşi acest lucru
nu este obligatoriu, eu vi-l recomand, deoarece se pot corecta, în această eta-

306
Cristian Opariuc-Dan

pă, unele imperfecţiuni. O bună practică ar fi să studiaţi şi consistenţa internă


a fiecărei scale. Repet, aceste operaţii nu sunt obligatorii şi nu fac parte din
metoda propriu-zisă. Dacă însă sunteţi maniaci ai preciziei, le veţi folosi.
În a doua etapă vom aplica prima formă unui alt lot de cercetare, apoi,
după minimum două săptămâni, aplicăm, aceluiaşi lot de cercetare, forma a
doua şi calculăm coeficientul de stabilitate între cele două forme, aplicate la
un anumit interval de timp.
Metoda formelor paralele este net superioară metodei test-retest, din
mai multe motive, dintre care poate cel mai important este acela că se reduce
efectul memoriei şi al învăţării. Timpul relativ redus între cele două adminis-
trări nu permite apariţia efectului de maturizare, acesta fiind un alt argument
al superiorităţii metodei formelor paralele.
Singura deficienţă majoră a metodei constă în dificultatea de a se ob-
ţine forme perfect paralele (forme cu proprietăți psihometrice absolut identi-
ce). De cele mai multe ori, repartiţia itemilor duce la forme echivalente, nu la
forme paralele. Diferenţe între forme pot exista, acestea contribuind la influ-
enţarea coeficientului de fidelitate. Iată cel puţin un motiv pentru care reco-
mandam studiu consistenţei interne şi al coeficientului de fidelitate split-half
în prima etapă. În realitate, această metodă implică şi o analiza factorială pen-
tru a se putea asigura unidimensionalitatea scalei.

III.1.5 Metoda acordului între evaluatori


Termenul cred că vă sună cunoscut, deoarece l-am discutat şi în ca-
drul capitolului referitor la corelaţii. Poate că atunci v-aţi întrebat pentru ce
aveţi nevoie de informaţiile respective? Iată un prim răspuns, o primă aplica-
ţie practică.
De obicei, în domeniul evaluării performanţelor, subiecţii nu sunt ana-
lizaţi de către un singur evaluator, ci de către o comisie de evaluare. Motivele
pentru care se preferă comisia sunt evidente şi nu trebuie comentate, putându-

307
Statistică aplicată în ştiinţele socio-umane

se referi la plusul de obiectivitate sau la evitarea situaţiilor prin care evaluato-


rul ar beneficia gratuit de mielul de Paști ori de porcul de Crăciun.
În asemenea evaluări, bazate pe judecată, este foarte important să ana-
lizăm un tip special de fidelitate, numit grad de acord între evaluatori. Cu
alte cuvinte, suntem interesaţi să vedem dacă părerile evaluatorilor sunt sau
nu sunt consistente, acest lucru reprezentând una dintre cele mai importante
măsuri a obiectivităţii evaluării.
Pentru a se putea realiza o evaluare a fidelităţii prin acordul între eva-
luatori, este necesară îndeplinirea următoarelor condiţii (Carmines, și alții,
1979):
 Scala de evaluare sau categoriile de evaluare trebuie să fie
foarte clar definite, precise, lipsite de ambiguitate, astfel încât
evaluarea să poată avea un grad acceptabil de obiectivitate;
 Evaluatorii trebuie să cunoască foarte bine scala sau categorii-
le de evaluare, precum şi modul de înregistrare a performanţe-
lor, pentru a putea înregistra acelaşi lucru.
În final, protocolul de evaluare ar trebui să reprezinte un sistem con-
sistent, care să vizeze evaluarea obiectivă a performanţelor. Consistenţa eva-
luărilor efectuate de diferiţi evaluatori unuia şi aceluiaşi subiect, poartă nu-
mele de fidelitate inter-evaluatori. Pentru ca fidelitatea inter-evaluatori să
fie cât mai mare, metoda presupune, iniţial, o instruire a evaluatorilor, instrui-
re care să cuprindă:
 O prezentare generală a scalei de evaluare, tuturor evaluatori-
lor, astfel încât să fie clarificate, de la început, toate interpretă-
rile posibile. De obicei, în urma acestei discuţii au loc modifi-
cări ale scalei, în funcţie de aspectele mai puţin clare ale eva-
luării;

308
Cristian Opariuc-Dan

 Furnizarea unor modele operaţionale cu privire la scala de


evaluare, prin posibilitatea organizării unor demonstraţii,
accentuându-se pe semnificaţia fiecărui scor acordat;
 Organizarea de evaluări demonstrative, în care să se discute fi-
ecare scor acordat. Rezultatele pot fi folosite şi în scopul per-
fecţionării înţelegerii conceptelor care stau la baza evaluării.
În această etapă se vor elimina evaluatorii care furnizează con-
stant evaluări divergente.
Fiind o evaluare cu un pronunţat caracter subiectiv, la care totuşi se
doreşte atingerea obiectivităţii în urma unui proces de acord, există o proba-
bilitate foarte mare ca această evaluare să fie contaminată de o serie de erori,
numite, generic, erori de evaluare. Dintre acestea, Gronlund distinge
(Gronlund, 1985):
 Erori de evaluare individuală, în situaţia în care evaluatorul
foloseşte doar o parte a scalei în vederea realizării evaluărilor.
Este exemplul evaluatorilor foarte severi (care utilizează valo-
rile mici ale scalei) sau cel al evaluatorilor foarte generoşi
(orientaţi către valori mari ale scalei). Există, de asemenea, ca-
tegoria evaluatorilor „împăciuitori” care preferă evaluările
medii, din mijlocul scalei. Toate aceste elemente se pot consti-
tui în surse de eroare, surse ce biasează analiza;
 Efectul de „halo” reprezintă o sursă de eroare foarte bine cu-
noscută în special în domeniul educaţional. Percepţia generală
asupra celor evaluaţi poate influenţa evaluarea unei persoane
sau a unui grup de persoane. Un grup de evaluatori de la Uni-
versitatea Harvard ar putea genera un asemenea efect în condi-
ţiile în care evaluează studenţii universităţii din Lehliu-Gară.
O posibilă percepţie a calităţii slabe a celor evaluaţi poate de-

309
Statistică aplicată în ştiinţele socio-umane

termina evaluări mult mai exigente, chiar dacă lucrurile nu


stau întotdeauna aşa;
 Erorile logice pot să apară atunci când un evaluator confundă
semnificaţia şi sensul scalelor de evaluare. Aceste confuzii pot
să apară în condiţiile în care elementele scalei de evaluare nu
sunt clar definite ori în cazul în care evaluatorii nu au fost in-
struiţi foarte bine.
Având în vedere cele expuse mai sus, ajungem la concluzia că putem
creşte fidelitatea acestor evaluări în condiţiile unei instruiri foarte bune a eva-
luatorilor şi în condiţiile proiectării responsabile a instrumentului de evaluare.
Referitor la procedeele statistice prin intermediul cărora se individua-
lizează acest tip de fidelitate, literatura de specialitate distinge fie un coefici-
ent de corelaţie r Bravais-Pearson, atunci când numărul de cazuri evaluate
este suficient de mare, fie coeficienţi de concordanţă (cum ar fi coeficientul
W Kendall şi omologul acestuia, coeficientul de concordanţă κ al lui Cohen).
Elementele specifice referitoare la aceşti coeficienţi nu le mai discutăm aici,
aplicarea lor rămânându-vă dumneavoastră ca exerciţiu.

III.1.6 Interpretarea coeficienţilor de fidelitate


Interpretarea coeficienţilor de fidelitate variază destul de mult în lite-
ratura de specialitate, fiind influenţată, de obicei, de pretenţiile şi cercetările
diferiţilor producători de instrumente de evaluare. Astfel, Aiken (Aiken, 1994
apud Albu, 2000) oferă o listă de praguri critice de la care se poate accepta un
instrument ca fiind fidel, în funcţie de dimensiunile pe care acesta le
măsoară:
 0,26 pentru bateriile de teste de aptitudini;
 0,42 pentru inventarele de interese;
 0,46 pentru teste obiective de personalitate;

310
Cristian Opariuc-Dan

 0,47 pentru scalele de atitudini;


 0,56 pentru testele de aptitudini şcolare;
 0,66 pentru bateriile de teste de cunoştinţe.
În clasificarea de mai sus, observăm că Aiken a fost extrem de gene-
ros cu aceste praguri. Personal, consider că un coeficient de fidelitate de 0,26
nu poate reprezenta o valoare serioasă pentru fidelitatea unui instrument. Mai
mult decât atât, este discutabilă calcularea fidelităţii pe ansamblul unei baterii
care conţine mai multe scale, mai multe instrumente. Rămânem totuşi la ide-
ea unui coeficient de fidelitate de peste 0,55 – 0,60 pentru orice scală care se
doreşte serioasă.
Există totuşi, o serie de recomandări importante în cea ce priveşte uti-
lizarea coeficienţilor de fidelitate (Albu, 2000):
 Testele folosite pentru luarea deciziilor asupra persoanelor sau
cele care împart indivizii în categorii, pe baza unor diferenţe
mici, vor avea valori mari ale coeficienţilor de fidelitate, în
general peste 0,85 – 0,90. Nu putem, de exemplu, angaja sau
concedia o persoană în baza rezultatelor unui test lipsit de o
fidelitate înaltă. Din păcate, în România există încă destule
persoane care încalcă această regulă, deciziile fiind bazate pe
utilizarea unor instrumente mai mult decât discutabile;
 Niveluri mici ale fidelităţii putem accepta doar în cercetările
cu caracter exploratoriu, cercetări care nu presupun decizii fi-
nale şi care pot împărţi persoanele în baza unor diferenţe rela-
tiv mari între acestea. Chiar şi în aceste condiţii, coeficienţii de
fidelitate mai mici de 0,50 – 0,60 trebuie priviţi cu maximă re-
zervă.

311
Statistică aplicată în ştiinţele socio-umane

Kubiszyn şi Borich (Kubiszyn, Borich, 1996 Albu, 2000) remarcă o


serie de elemente importante pentru analiza şi interpretarea coeficienţilor de
fidelitate:
 În eşantioanele în care variabilitatea scorurilor este mare,
coeficientul de fidelitate are valori mai mari în comparaţie cu
eşantioanele omogene;
 Fidelitatea este puternic afectată de erorile de cotare;
 Creşterea numărului de itemi atrage după sine şi creşterea
coeficientului de fidelitate;
 Dacă toţi itemii unui instrument sunt foarte uşori sau foarte
dificili, coeficientul de fidelitate are o valoare mică.
Având în vedere aceste opinii, se observă că, deşi la prima vedere
analiza fidelităţii nu pune probleme deosebite, în realitate construirea unui
instrument fidel nu este un lucru atât de uşor. Personal, nu recomandăm utili-
zarea instrumentelor cu un coeficient de fidelitate sub 0,60, în aceste condiţii
o revizie a conceptelor şi a itemilor fiind necesară.
În speranţa că s-au lămurit sensul, semnificaţia şi procedurile de cal-
cul ale fidelităţii, nu ne rămâne decât să aflăm cum putem folosi computerul
pentru a scăpa de corvoada formulelor.

III.2 Analiza fidelităţii în SPSS for Windows


Lansarea procedeelor de analiză ale fidelităţii se realizează, în SPSS
for Windows, accesând acelaşi meniu, „Analyze…”, apoi submeniul „Scale”
şi, în final, opţiunea „Reliability Analysis…”. Analiza fidelităţii fiind o pro-
cedură ceva mai complexă în comparaţie cu celelalte tehnici discutate până
acum, presupune şi un alt tip de bază de date. De aceea, nu vă veţi supăra pe
mine dacă, la început, voi încerca să vă prezint opţiunile de analiză din SPSS
şi abia mai târziu vom discuta despre baza de date necesară. De asemenea,

312
Cristian Opariuc-Dan

sper să nu vă uitaţi urât dacă în baza de date va


trebui să definiţi mai multe variabile decât până
acum şi, în acelaşi timp, veţi introduce mai mul-
te date. Vă pot promite că aceste date le vom
folosi şi pentru analiza factorială.
Iată, în figura 3.3, formularul de definire
al analizei de fidelitate. Nu, să nu vă inducă în
eroare simplitatea extraordinară a acestuia. Ana-
Figura 3.2 – Accesarea meniu- liza este chiar mai simplă decât credeţi. Cele
lui de analiză a fidelităţii
două liste, lista variabilelor din baza de date şi
lista variabilelor supuse analizei, separate prin butonul de transfer, nu mai
necesită nicio precizare suplimentară. La fel, observaţi butoanele de coman-
dă. În realitate, există doar trei elemente de noutate, şi anume lista derulantă
„Model”, secţiunea „Scale label” şi butonul „Statistics…” care include opţi-
uni specifice analizei de fidelitate.
În comparaţie cu expune-
rea teoretică din acest capitol,
SPSS vă propune chiar mai multe
elemente de studiu ale fidelităţii,
vă permite să analizaţi proprietăţi-
le scalelor de măsură şi proprietă-
ţile tuturor itemilor componenţi,
Figura 3.3 – Formularul de configurare al anali-
inclusiv relaţiile dintre aceştia şi zei de fidelitate
relaţiile itemilor cu scala în an-
samblul ei. Credeţi-mă, nu aţi vrea să calculaţi manual aceste lucruri…
Lista derulantă „Model” vă permite să alegeţi metoda de studiu a fi-
delităţii pe care o doriţi. Iată ce posibilităţi aveţi:

313
Statistică aplicată în ştiinţele socio-umane

 „Alpha (Cronbach)” vă oferă posibilitatea studiului fidelităţii


prin consistenţă internă, cu calculul coeficientului de consis-
tenţă internă α Cronbach;
 „Split-half” prezintă posibilitatea de analiză a fidelităţii prin
metoda înjumătăţirii;
 „Guttman” se referă la aceeaşi metodă de analiză a fidelităţii
(split-half), aplicabilă situaţiilor în care varianţele nu sunt ega-
le;
 „Parallel” permite aprecierea fidelităţii prin metoda formelor
paralele, în situaţia în care itemii au aceleaşi varianţe şi ace-
leaşi erori ale varianţelor;
 „Strict parallel” este un model nou de analiză de fidelitate,
model care presupune, pe lângă condiţiile de administrare ale
formelor paralele, şi egalitatea mediilor.
Caseta de text „Scale label” nu are
decât o valoare informativă, de etichetare
a scalei pentru care se realizează analizele.
Dacă, de exemplu, studiaţi fidelitatea unui
număr de 20 de itemi pentru o scală de
anxietate, puteţi introduce în această sec-
ţiune textul „Anxietate” în vederea unei
mai bune organizări a informaţiilor în fe-
reastra de rezultate.
Apăsarea butonului „Statistics…”
Figura 3.4 – Formularul de configura- determină apariţia formularului din figura
re a opţiunilor statistice 3.4, formular prin intermediul căruia vom
alege prelucrările de date necesare.

314
Cristian Opariuc-Dan

Secţiunea „Descriptives for” determină afişarea statisticilor descripti-


ve pentru fiecare item inclus în analiză (la bifarea casetei „Item”), la nivelul
scalelor (bifând caseta „Scale”) şi pentru scală atunci când un item este eli-
minat (bifarea casetei „Scale if item deleted”). Acesta din urmă este şi un
element extrem de important, pe care îl vom discuta în detaliu ceva mai târ-
ziu.
Statisticile afişate la nivel de item se referă la media, abaterea stan-
dard şi numărul de cazuri pentru fiecare item analizat. La nivelul scalei, pro-
gramul prezintă media, varianţa şi abaterea standard a scalei (a tuturor
itemilor supuşi analizei) precum şi numărul total de itemi. Dacă alegem şi
afişarea compoziţiei scalei la eliminarea itemului, atunci SPSS va calcula,
pentru fiecare item, comportamentul scalei dacă acel item nu ar mai exista.
Astfel, se va include media şi varianţa scalei dacă acel item este eliminat,
precum şi corelaţia item-scală şi comportamentul noului coeficient de fideli-
tate, dacă itemul respectiv nu va mai fi inclus în scală.
Secţiunea „Inter-Item” vă oferă posibilitatea prezentării matricei de
corelaţii între toţi itemii scalei (bifând opţiunea „Correlations”) precum şi
cea a afişării matricei de covarianţă a itemilor scalei (bifând opţiunea „Co-
variances”), ambele elemente fiind extrem de utile atunci când dorim să stu-
diem detaliat compoziţia scalei.
Secţiunea „Summaries” furnizează statistici descriptive privind dis-
tribuţia itemilor în raport cu toţi ceilalţi itemi ai scalei. Bifând caseta
„Means” veţi putea calcula statisticile legate de media itemilor. Astfel, SPSS
va afişa cea mai mică şi cea mai mare medie a itemilor, media mediilor
itemilor, amplitudinea şi varianţa mediilor itemilor, precum şi numărul de
itemi incluşi în analiză. Bifarea casetei „Variances” determină calculul sta-
tisticilor centralizate pentru varianţa itemilor. La fel ca mai sus, se va calcula
varianţa cea mai mică, varianţa cea mai mare, media varianţelor, amplitudi-
nea şi varianţa varianţelor. Aceleaşi elemente vor fi calculate şi pentru cova-

315
Statistică aplicată în ştiinţele socio-umane

rianţe, la bifarea casetei „Covariances”, precum şi în cazul corelaţiilor dacă


alegem să bifăm caseta „Correlations”. Informaţiile sunt utile în cazul anali-
zei compoziţiei scalei, de aceea le vom relua ulterior.
Secţiunea „ANOVA Table” permite lansarea procedurilor de calcul
referitoare la egalitatea mediilor. Ştiu că deocamdată nu aveţi suficiente in-
formaţii pentru a înţelege bine aceste elemente, totuşi voi încerca să le prezint
cât mai clar cu putinţă. Un test de egalitate a mediilor pleacă de la ipoteza
nulă conform căreia toţi itemii scalei au aceeaşi medie. Dacă testul este sem-
nificativ, înseamnă că putem respinge ipoteza nulă, apreciind că mediile
itemilor sunt semnificativ diferite. Un test nesemnificativ ne spune că putem
considera itemii ca având medii egale. Desigur, discutând despre fidelitate,
vom observa că pentru scalele consistente sau pentru instrumentele fidele, de
obicei acest test nu este semnificativ.
Opţiunea „None” este cea mai simplă, deoarece comunică programu-
lui SPSS să nu calculeze niciun test de egalitate a mediilor.
Opţiunea „F test” realizează o analiză de varianţă cu măsurări repeta-
te în vederea stabilirii egalităţii mediilor. Procedeul se foloseşte pentru date
parametrice.
Opţiunea „Friedman chi-square” afişează coeficienţii de concordanţă
Friedman χ2 şi W Kendall. La modul forţat, aceşti coeficienţi pot fi conside-
raţi similari testului F, pentru date aflate la un nivel de măsură ordinal;
Opţiunea “Cochran chi-square” se foloseşte pentru date dihotomice,
afişând statisticile Q ale lui Cochran, oarecum analoage testului F.
Opţiunea „Hotelling’s T-square” reprezintă o versiune simplă a tabe-
lelor ANOVA, şi pleacă de la aceeaşi ipoteză nulă, ipoteza egalităţii mediilor
itemilor care compun scala.

316
Cristian Opariuc-Dan

Opţiunea „Tukey’s test of additivity” verifică dacă există interacţiuni


multiplicative între itemi. Dacă testul este semnificativ, înseamnă că aseme-
nea interacţiuni există.
Opţiunea „Intraclass correlation coefficient” determină evaluarea
consistenţei, adică evaluarea acordului la nivelul scorurilor fiecărui subiect.
Este o opţiune foarte interesantă, folosită mai ales la analiza fidelităţii inter-
evaluatori, şi presupune definirea mai multor elemente de calcul:
 Alegerea modelului de calcul al coeficientului de corelaţie a
consistenţei la nivel de subiect, prin intermediul listei derulan-
te „Model”. Opţiunea „Two-Way Mixed” o puteţi folosi
atunci când efectele subiecţilor sunt aleatorii şi efectul
itemului (evaluatorului) este constant. Reprezintă cea mai fo-
losită opţiune, deoarece se presupune că subiecţi diferiţi vor
răspunde diferit la acel item, în funcţie de nivelul la care este
prezentă trăsătura. Dacă nu putem anticipa efectul itemului
(evaluatorului) – presupunând că itemul nu a fost suficient
studiat, nu se ştie în ce măsură acoperă varianţa trăsăturii –
vom folosi opţiunea „Two-Way Random”. În sfârşit, dacă
avem certitudinea că modificarea valorilor la nivelul itemilor
se datorează numai diferenţelor inter-individuale, adică numai
efectelor generate de către subiecţi, vom folosi opţiunea „One-
Way Random”.
 Alegerea tipului de analiză, din cadrul listei derulante „Type”.
În funcţie de specificul cercetării, puteţi selecta între analiza
consistenţei „Consistency” şi analiza acordului „Absolute
Agreement”;

317
Statistică aplicată în ştiinţele socio-umane

 Alegerea intervalului de încredere, în cadrul casetei „Confi-


dence interval”. De obicei, intervalul de încredere este cel im-
plicit, 95%;
 Alegerea valorii de test cu care se vor compara valorile obser-
vate în cadrul casetei „Test
Tabelul 3.5– Structura bazei de date
value”. Valoarea implicită
Nivelul de
este zero, însă adeseori Variabila Eticheta măsură Format
această valoare va trebui item1 Itemul 1 Scale F1
item2 Itemul 2 Scale F1
modificată. item3 Itemul 3 Scale F1
item4 Itemul 4 Scale F1
III.2.1 Analiza consistenţei interne item5 Itemul 5 Scale F1

Finalizând prezentarea opţiunilor, să item6 Itemul 6 Scale F1


item7 Itemul 7 Scale F1
trecem la treabă. Mai uşor vom înţelege item8 Itemul 8 Scale F1
conceptele exersând decât efectuând infini- item9 Itemul 9 Scale F1
item10 Itemul 10 Scale F1
te speculaţii teoretice. În primul rând, baza
item11 Itemul 11 Scale F1
de date. Puteţi observa, în tabelul 3.5, mo- item12 Itemul 12 Scale F1
dul de definire al variabilelor. Avem un item13 Itemul 13 Scale F1
item14 Itemul 14 Scale F1
număr de 24 de itemi, toţi asimilaţi unui item15 Itemul 15 Scale F1
nivel de măsură scalar, variabilele fiind item16 Itemul 16 Scale F1
definite numeric, cu un singur caracter şi item17 Itemul 17 Scale F1
item18 Itemul 18 Scale F1
fără valori zecimale. La sfârşitul bazei de item19 Itemul 19 Scale F1
date, există variabila nominală „sexul”, item20 Itemul 20 Scale F1

care stochează genul biologic al subiecţilor item21 Itemul 21 Scale F1


item22 Itemul 22 Scale F1
şi variabila scalară „vârsta”. item23 Itemul 23 Scale F1
item24 Itemul 24 Scale F1
În tabelul 3.6 observaţi şi modalita- Sexul Genul Nominal F1
tea de codificare a genului biologic, proce- biologic
Varsta Varsta Scale F3
dură care ar trebui să vă fie deja familiară. subiectilor
Variables in the working file
Înainte de a prezenta efectiv datele, să ve-
dem câteva dintre particularităţile acestei baze de date. Să presupunem că

318
Cristian Opariuc-Dan

avem un chestionar cu 24 de itemi care măsoară orice doriţi dumneavoastră.


Din considerente practice, vom alege să vorbim despre un chestionar de eva-
luare a climatului organizaţional. Acest chestionar are un număr de şase sca-
le:7
 „motivaţia” se referă la climatul motivaţional din Tabelul 3.6– Codificarea
variabilei sex
firmă, vizând aspecte precum retribuţia, promova- Valoare Etichetă
rea, competenţa. Această scală este evaluată de sexul 1 Barbati

itemii 12, 13, 14, 15 şi 16; 2 Femei

 „suportul” are în vedere resursele şi condiţiile de muncă pe care le asi-


gură organizaţia în vederea realizării unor activităţi performante. Itemii
corespunzători acestei scale sunt 17, 18, 19 şi 20;
 „conducerea” evaluează stilul de conducere eficient, sprijinind perfor-
manţa individuală şi colectivă. Itemii 5, 6, 7 şi 8 sunt cei care se referă la
acest indicator;
 „sarcina” este prezentată ca modul de definire al sarcinilor şi obiective-
lor, atât la nivelul organizaţiei cât şi la nivelul fiecărui angajat. Această
scală are în componenţă itemii 1, 2, 3, 4;
 „structura” vizează modul de organizare a muncii, cu referire la eficien-
ţă, flexibilitatea şi adaptabilitatea posturilor şi a funcţiilor. Itemii compo-
nenţi sunt 21, 22, 23 şi 24;
 „relaţiile” reprezintă indicatorul care evaluează calitatea relaţiilor dintre
angajaţi, cu referire la comunicare şi colaborare pe linie profesională.
Itemii caracteristici acestei scale sunt 9, 10 şi 11.

7
Chestionarul este absolut fictiv. Datele nu corespund unor cercetări reale. Descrierea scale-
lor a fost preluată din lucrarea „Evaluarea psihologică a personalului” – Ticu Constantin,
Editura Polirom, Iaşi, 2004.

319
Statistică aplicată în ştiinţele socio-umane

Până în acest moment, nu cred ca sunt neclarităţi. Chestionarul poate


fi tratat per ansamblu, ca un indicator total al climatului organizaţional, sau
pe scale, dacă dorim să investigăm componenţa acestuia. Itemii (întrebările)
acestui chestionar primesc răspunsuri pe o scală de la 1 la 7, unde 1 înseamnă
foarte puţin, iar 7 înseamnă foarte mult. Scorul total la nivelul chestionarului
poate varia între un minimum de 24 de puncte şi maximum 168 de puncte. La
nivelul scalelor, scorul poate varia între numărul de itemi (3, 4 sau 5), scorul
minim, şi de 7 ori numărul de itemi (21, 28 sau 35), scorul maxim.
Nu suntem interesaţi de modul de formulare al itemilor. Vom presu-
pune că itemii au fost bine concepuţi, au validitate teoretică şi validitate de
construct, per ansamblu chestionarul atingându-şi obiectivele. Pentru a verifi-
ca fidelitatea şi în vederea unei analize factoriale confirmatorii (pe care o
vom discuta în următoarele volume) vom considera o cercetare efectuată într-
o organizaţie de dimensiuni mari. Lotul de cercetare este format dintr-un nu-
măr de 160 de persoane. Puteţi observa, în tabelul 3.7, structura completă a
bazei de date. Desigur, pentru a putea analiza fidelitatea, ne interesează răs-
punsurile subiecţilor la fiecare item şi nu scorurile brute obţinute la nivelul
scalelor sau la nivelul întregului chestionar.
Nu vă speriaţi. Înarmaţi-vă cu răbdare şi completaţi toate aceste in-
formaţii, exact aşa cum vă sunt prezentate8.

8
Toate fișierele de date SPSS le puteți descărca de la adresa http://www.statistica-socială.ro

320
Tabelul 3.7– Baza de date pentru analiza fidelităţii
It1 It2 It3 It4 It5 It6 It7 It8 It9 It10 It11 It12 It13 It14 It15 It16 It17 It18 It19 It20 It21 It22 It23 It24 Sex Varsta
7 7 7 7 6 5 5 6 6 6 7 6 7 7 7 7 7 7 7 7 6 6 5 5 2 46
6 6 6 6 5 5 5 4 7 7 6 7 7 7 7 7 6 6 6 6 6 6 6 6 1 48
7 7 7 7 6 6 6 6 7 7 6 7 7 7 7 7 5 3 3 3 6 6 5 5 2 52
6 5 3 4 7 7 7 7 6 5 6 5 6 5 6 6 6 6 6 6 6 6 6 5 1 35
4 5 4 4 4 4 5 4 7 6 7 7 7 6 6 6 6 6 6 6 6 6 6 5 1 48
7 7 7 7 6 6 5 5 7 6 7 5 4 7 6 6 7 7 7 7 6 6 5 5 1 53
7 7 7 7 7 7 6 7 7 7 7 6 6 6 6 6 7 7 7 7 7 7 7 7 1 58
3 5 4 5 5 5 5 5 7 7 7 7 6 7 6 6 4 4 3 3 6 6 7 7 2 46
7 7 7 7 5 4 4 4 7 7 7 5 6 5 6 6 5 5 4 5 7 6 6 7 1 53
5 5 5 6 5 5 5 5 7 6 7 7 7 7 7 7 4 3 4 3 4 5 5 5 1 58
6 6 6 6 6 6 6 6 7 7 7 5 6 5 6 6 6 6 5 5 7 6 6 6 1 56
3 4 5 5 7 7 7 7 7 7 7 6 5 5 6 6 5 3 5 5 5 5 5 6 1 50
3 4 5 4 5 6 6 5 6 6 7 6 6 7 7 6 6 6 6 6 6 6 6 6 1 50
6 6 6 6 6 6 6 6 6 7 7 6 6 6 4 4 6 6 6 6 5 5 5 4 1 47
7 7 7 7 7 7 7 7 7 7 7 7 7 6 4 4 6 6 6 6 6 6 6 6 1 50
7 7 7 7 7 7 7 7 6 6 6 5 5 6 6 5 3 3 4 4 7 6 6 7 1 54
5 5 5 4 7 6 6 7 7 7 7 6 6 6 6 6 6 6 6 5 6 6 6 6 1 48
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 3 5 4 5 7 7 7 7 1 39
6 4 5 4 7 7 7 6 6 6 6 5 5 6 6 6 5 6 6 6 6 6 6 5 1 31
6 6 5 4 7 7 7 6 6 6 6 6 6 5 6 6 6 6 7 7 5 5 3 4 1 48
7 7 7 7 7 7 7 7 7 7 7 6 6 6 5 5 7 7 7 7 5 5 5 6 2 50
6 6 6 6 4 4 4 4 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 1 43
6 6 6 6 6 6 6 6 7 7 7 4 5 5 5 4 6 6 6 6 7 6 6 6 1 54
7 7 7 7 7 7 7 7 7 7 7 5 6 5 6 6 3 4 5 5 1 55
6 6 6 6 5 5 5 5 7 6 6 7 7 7 6 7 7 7 7 7 7 7 7 7 1 46
5 3 5 4 6 6 6 6 6 7 7 4 4 4 5 5 7 7 7 7 7 7 7 7 2 44
7 6 6 6 6 6 6 6 6 7 7 5 5 5 5 4 6 6 6 6 6 6 6 6 1 50
7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 6 5 5 5 1 54
6 6 6 5 6 6 6 6 7 7 7 5 6 5 6 6 4 5 4 5 7 6 6 7 1 31
7 7 7 7 5 7 7 6 7 7 7 5 5 4 4 4 7 7 7 7 7 7 7 7 1 57
3 4 5 5 6 3 4 5 5 5 6 5 5 4 4 4 6 6 6 6 5 5 5 6 1 53
4 4 4 4 7 7 7 7 7 7 7 7 7 6 6 6 7 7 7 7 6 6 6 6 1 58
7 7 7 7 7 5 7 7 7 7 7 6 6 6 7 7 7 7 7 7 6 6 6 6 1 35
6 6 6 6 6 6 6 6 7 6 6 4 4 5 5 5 6 6 6 6 7 7 6 6 1 53
6 6 6 6 6 5 6 4 7 7 7 6 7 7 7 7 6 6 6 6 6 6 6 7 1 36
Statistică aplicată în ştiinţele socio-umane
6 3 5 4 7 7 7 7 7 7 6 7 7 7 7 7 5 5 5 6 6 6 6 5 1 50
3 4 5 5 3 4 5 5 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 1 49
7 7 7 7 7 7 7 7 7 7 6 5 5 7 6 6 7 7 7 7 4 4 4 5 1 23
5 5 5 6 7 7 7 7 7 7 7 7 7 7 7 7 3 5 4 5 7 6 7 7 1 50
6 6 6 5 6 6 7 7 7 7 7 5 5 6 6 6 5 4 5 5 6 6 6 6 1 58
5 6 5 6 6 6 6 6 6 7 7 6 6 6 6 6 6 6 6 6 5 6 6 6 1 46
5 5 6 6 6 6 6 6 7 7 7 6 6 6 6 6 6 6 6 6 7 7 6 6 1 59
5 5 7 5 5 6 5 6 6 6 7 6 7 7 7 7 7 7 7 7 6 6 6 6 1 50
6 6 6 5 6 6 6 6 5 5 6 5 5 5 5 5 5 5 3 3 5 5 5 4 1 48
6 6 6 6 6 6 6 6 5 6 7 7 7 7 7 7 6 6 6 6 5 5 6 5 1 39
6 6 6 5 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 6 6 6 6 2 44
6 6 6 6 6 6 6 6 7 7 7 5 5 6 4 4 6 5 5 6 6 6 5 5 1 43
7 7 7 7 7 7 7 7 6 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 1 56
7 7 7 7 7 7 7 6 7 7 7 7 5 6 6 7 7 7 7 7 7 7 7 7 1 58
6 6 6 6 6 6 6 6 7 7 7 7 6 6 5 5 6 5 6 5 6 6 6 6 1 48
7 7 7 7 7 7 7 7 7 7 7 5 5 7 6 5 4 3 4 3 6 7 7 6 1 46
7 7 7 7 6 5 5 6 7 7 7 4 5 7 6 6 5 5 6 6 6 6 6 6 1 48
6 6 6 6 6 6 6 6 6 7 7 7 7 6 6 6 7 7 7 7 7 7 7 7 2 50
5 5 5 5 5 6 5 4 6 6 7 5 5 5 4 4 6 6 6 6 5 6 6 6 1 53
5 5 5 4 7 7 6 7 6 7 6 6 6 6 6 6 5 5 6 7 6 6 6 6 1 53
6 6 6 5 6 6 6 6 7 7 7 6 6 6 5 5 4 4 5 5 7 6 6 7 1 48
3 4 4 3 2 3 5 4 6 5 5 5 5 5 5 4 3 3 4 5 4 4 3 3 1 56
6 6 6 5 6 6 7 7 6 6 6 7 7 7 7 7 5 5 6 6 6 6 6 6 1 48
3 4 5 7 5 5 5 5 6 6 6 5 5 5 4 4 4 2 5 5 4 3 5 5 1 36
7 7 7 7 7 7 7 7 7 7 7 6 7 5 5 5 7 7 7 6 7 7 7 7 1 51
6 5 3 4 6 6 7 7 6 5 6 4 4 4 5 5 7 7 7 7 7 7 7 7 1 39
2 3 4 5 5 5 5 4 6 6 7 4 4 4 4 4 6 4 6 5 6 6 6 7 1 47
6 6 6 6 6 6 6 6 7 7 7 5 6 5 6 6 1 4 4 5 6 6 6 6 1 53
7 7 7 7 6 5 5 6 7 7 6 6 6 7 6 7 6 7 6 6 7 7 7 7 1 48
6 6 6 6 2 3 5 4 6 7 7 6 7 7 7 7 6 6 6 6 7 7 6 6 1 47
6 6 6 6 5 5 5 5 7 5 6 5 5 4 5 4 6 6 6 6 5 5 5 5 1 56
7 7 7 7 4 4 5 4 6 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 1 57
6 6 6 6 6 6 6 6 7 7 6 6 7 6 4 4 6 6 6 6 6 6 5 5 1 31
5 4 5 4 7 7 7 7 7 7 7 6 5 5 7 5 5 5 6 5 7 6 7 6 1 48

322
Cristian Opariuc-Dan
7 7 5 7 4 4 4 4 7 6 6 6 6 7 6 6 6 7 6 6 6 6 5 5 2 52
6 6 6 5 5 5 4 4 7 6 7 5 5 5 6 6 5 5 6 6 5 5 6 6 1 31
6 6 6 6 3 4 5 5 7 6 7 5 5 6 4 4 6 7 6 6 6 6 5 5 2 30
6 6 6 6 6 5 5 6 6 6 6 7 6 7 6 6 4 5 4 4 6 6 5 5 1 50
5 5 5 6 5 5 5 5 7 7 6 7 7 6 4 4 3 3 4 4 4 4 5 5 1 48
6 6 6 5 6 7 6 7 6 7 7 6 6 6 6 6 4 5 5 5 6 6 6 6 1 53
3 3 4 4 3 4 5 5 6 6 6 5 5 5 6 6 7 7 7 7 6 6 5 5 1 31
6 6 6 6 5 5 5 4 7 7 7 4 5 5 4 5 6 7 6 7 6 6 6 7 1 35
7 7 7 7 7 7 7 7 7 7 7 5 6 5 6 6 2 3 4 5 6 7 6 7 1 53
5 5 5 6 7 7 7 7 7 7 7 5 5 5 5 5 3 4 5 5 6 7 7 7 1 36
6 6 6 6 6 6 6 6 6 6 6 5 5 6 4 4 5 6 5 6 6 5 5 5 2 46
6 6 6 6 6 6 6 6 7 7 7 6 7 5 5 5 3 4 3 4 6 6 6 6 1 59
6 6 6 6 6 6 6 6 7 5 6 5 5 5 5 3 6 6 6 6 5 5 6 6 1 51
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 1 48
3 3 4 4 6 6 7 7 6 5 6 6 6 6 6 6 7 6 5 5 7 7 7 7 1 57
4 4 4 4 5 4 5 5 7 6 7 5 5 7 6 6 7 7 7 7 6 6 5 5 1 43
7 7 7 7 7 7 7 7 6 6 6 5 5 6 6 6 3 4 5 5 7 7 7 7 1 58
7 6 6 7 6 6 6 6 7 7 7 6 6 7 7 6 7 7 7 7 5 5 5 4 1 31
6 6 6 5 6 6 7 7 7 7 6 6 6 6 6 6 5 4 5 5 6 6 6 6 1 49
6 6 6 6 5 5 7 5 7 7 7 5 5 6 6 6 6 6 6 7 5 6 4 5 1 57
5 4 5 4 7 6 7 6 7 7 7 5 5 5 5 5 7 7 7 7 7 7 7 7 1 56
7 6 7 5 5 4 5 5 6 6 6 6 5 7 6 6 6 6 6 6 6 6 6 7 1 50
6 6 6 6 5 6 6 5 7 7 7 4 4 6 4 4 4 5 5 5 4 5 5 5 1 31
6 6 6 6 6 6 6 6 7 7 7 7 7 6 7 7 7 6 7 6 6 6 6 6 1 53
6 6 6 6 5 6 5 6 7 7 6 5 5 6 6 6 3 3 4 4 5 5 7 7 2 52
6 6 7 7 7 7 7 7 7 7 7 5 6 5 6 6 6 6 6 7 7 6 6 6 1 50
5 5 3 3 4 4 4 4 6 7 7 6 7 7 7 7 6 6 6 6 6 6 7 7 1 59
5 7 6 7 6 5 6 7 6 6 6 6 6 6 5 5 7 7 7 7 6 6 5 5 1 58
5 6 7 7 4 5 5 5 7 7 7 5 6 5 6 6 7 7 6 6 7 7 7 7 2 52
6 3 5 4 6 6 7 7 6 6 6 6 6 6 6 5 6 6 6 6 4 3 5 5 1 51
5 5 5 6 3 4 5 4 6 7 7 7 5 5 6 6 6 6 6 6 6 6 6 6 1 53
4 3 3 4 6 6 6 6 7 7 7 7 7 7 7 7 6 6 6 6 7 7 7 7 1 53
7 7 7 7 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 77 7 1 45
4 4 4 5 6 6 6 6 7 6 7 5 4 4 5 4 7 7 7 7 7 7 7 7 1 55

323
Statistică aplicată în ştiinţele socio-umane
5 7 6 7 7 5 6 7 7 5 6 7 6 5 7 7 7 6 6 6 7 6 7 6 1 55
6 6 5 5 6 6 6 4 6 6 7 6 6 5 7 7 6 6 6 6 6 6 6 6 1 53
7 7 7 7 6 5 5 6 7 7 7 5 5 7 6 6 7 6 6 6 7 7 7 7 1 56
3 3 4 4 4 4 4 4 5 4 5 4 4 5 5 3 5 5 5 5 6 6 6 6 1 51
3 4 6 4 7 7 7 7 7 7 7 7 7 7 7 7 4 4 5 5 6 6 6 6 1 45
7 7 7 7 6 7 6 7 6 7 7 7 6 6 6 7 6 5 6 5 6 6 6 6 2 50
6 6 6 6 6 6 5 6 7 6 6 7 6 7 6 6 3 5 4 5 7 7 7 7 1 54
5 6 5 6 5 5 6 6 6 6 7 5 5 7 6 6 6 6 6 6 6 6 5 5 1 54
3 3 4 4 7 7 6 6 6 6 6 6 6 6 6 6 6 6 5 6 7 7 7 7 1 53
3 4 5 5 2 3 5 4 5 5 6 1 4 2 3 4 6 6 6 6 5 5 5 5 1 50
6 6 6 6 4 5 5 5 7 7 7 5 5 6 6 6 6 6 5 5 4 4 4 4 1 50
3 4 4 3 6 6 6 6 6 7 6 6 6 6 6 6 6 6 6 6 7 7 7 7 1 53
6 6 6 6 6 6 6 6 7 7 7 7 7 6 4 4 7 6 6 6 6 6 6 6 1 49
3 3 5 7 4 5 5 5 6 5 5 7 7 7 7 7 4 3 5 5 5 5 5 5 1 39
7 7 7 7 3 4 5 4 7 7 7 3 4 3 3 4 5 5 6 6 6 6 5 5 2 30
6 5 6 6 6 6 6 6 7 7 7 7 7 7 7 7 4 4 5 5 6 6 7 7 1 48
7 7 7 7 7 7 7 7 7 7 6 5 6 5 6 6 4 5 5 5 6 6 6 7 1 57
6 6 6 6 5 5 6 6 7 6 6 7 7 7 7 6 6 6 6 6 4 4 4 4 2 44
6 6 6 6 6 6 5 5 7 7 7 5 5 7 6 6 4 4 4 4 6 6 6 6 2 30
5 6 7 7 7 7 6 6 7 6 7 5 5 5 5 5 5 5 6 6 7 7 7 7 1 53
3 4 3 4 5 5 5 5 6 6 6 4 4 4 3 4 5 5 5 5 2 2 5 6 2 30
6 4 3 4 6 6 5 4 5 5 6 5 5 4 4 4 5 5 6 5 5 5 3 4 1 56
4 4 4 5 3 4 5 5 7 7 7 7 6 6 6 6 5 6 5 7 6 6 6 6 1 36
5 7 6 7 6 6 5 5 6 6 6 6 7 7 7 7 7 7 7 7 6 6 7 7 2 44
6 6 6 6 7 6 7 6 7 7 6 5 6 5 6 6 6 6 6 6 6 6 6 6 1 49
7 7 7 7 7 7 7 7 5 6 5 6 6 6 6 6 6 6 6 6 7 6 6 6 1 53
7 7 7 7 6 6 6 6 6 6 6 3 3 7 6 6 7 7 7 7 6 6 6 6 1 54
6 6 7 7 4 4 4 4 7 6 6 6 7 7 7 7 6 6 6 6 6 6 6 6 1 31
4 5 4 5 6 6 7 7 7 7 7 5 5 5 5 5 7 7 7 7 7 7 7 7 1 50
7 7 7 7 3 4 5 5 6 7 7 5 6 5 6 6 6 6 6 6 6 6 6 6 2 46
3 4 5 5 5 6 6 5 6 7 7 6 5 7 7 6 5 5 5 6 5 6 5 5 1 23
7 7 7 7 6 6 6 6 7 5 6 7 7 7 6 6 3 5 4 5 4 4 4 5 1 58
3 4 3 4 6 6 6 6 7 7 7 7 7 7 7 7 6 6 6 6 7 7 7 7 1 50
6 6 6 6 6 6 6 6 6 7 7 6 6 6 6 6 3 3 4 4 6 6 6 6 2 50

324
Cristian Opariuc-Dan
7 5 5 5 5 6 6 5 6 6 6 6 7 7 7 7 7 7 7 7 5 5 5 5 1 43
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 3 4 4 5 5 4 4 4 1 45
5 5 6 6 5 5 5 5 7 6 6 5 5 5 6 6 6 6 6 6 6 6 6 7 1 55
7 7 7 7 7 7 7 7 7 7 7 6 6 6 7 7 6 5 5 6 5 5 5 5 1 57
6 7 6 7 6 6 7 7 7 6 7 4 5 5 5 4 6 6 6 6 6 7 7 7 1 53
7 7 5 6 5 7 6 7 5 6 7 7 7 6 5 4 7 7 7 7 6 6 6 6 1 50
3 4 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 1 53
6 7 6 7 5 6 6 5 6 7 7 6 5 5 5 6 7 7 7 7 4 4 4 5 1 50
5 6 7 7 6 6 6 7 6 6 6 6 6 6 6 7 7 7 7 7 5 5 5 5 1 56
6 6 7 7 5 6 6 5 6 6 6 5 6 7 7 6 7 7 7 7 5 5 4 5 1 47
7 7 7 5 5 7 7 7 7 6 7 7 6 6 4 4 6 6 6 7 7 7 7 7 1 59
5 5 5 5 7 7 7 7 7 7 7 7 7 7 7 7 4 4 5 5 6 6 6 6 1 54
6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 6 6 7 7 6 7 6 6 1 48
5 5 7 7 6 6 6 6 6 6 7 7 7 7 7 7 7 6 6 6 7 7 7 7 1 57
6 7 5 7 6 5 6 5 6 6 6 5 6 6 5 5 7 7 7 7 6 6 5 5 1 45
5 5 4 4 7 7 7 7 6 6 6 6 6 5 6 5 5 5 5 6 7 6 7 6 1 57
6 6 6 6 6 6 6 6 6 7 7 6 6 6 6 5 6 7 6 6 5 5 4 5 1 53
6 6 6 6 6 6 6 6 6 6 6 7 5 7 6 6 6 6 6 6 6 6 6 6 1 23
5 6 5 5 7 7 7 7 6 6 6 5 5 4 4 4 5 5 4 3 4 4 5 5 1 54
7 7 7 7 3 4 5 4 7 6 6 5 5 5 5 5 4 5 5 5 5 6 5 5 1 23
3 4 3 4 2 3 5 4 4 5 5 5 5 5 3 4 6 6 6 6 5 5 5 5 1 46
5 5 5 6 7 7 7 7 7 7 7 7 7 7 7 7 3 4 5 5 7 6 7 7 1 35
6 6 6 6 6 6 6 6 7 7 6 7 7 6 7 7 7 7 7 7 6 6 5 5 1 48

325
Vă felicit pentru răbdare! Într-adevăr, aţi muncit ceva, iar acum să
vedem răsplata. Pentru început, vom analiza consistenţa internă a fiecărei
scale, folosind metoda α
Cronbach. Deoarece acest chesti-
onar are şase scale, analiza consis-
tenţei interne pentru întregul in-
strument nu are sens.
Vom începe cu scala „mo-
tivaţie”, itemii componenţi fiind
Figura 3.5 – Analiza consistenţei interne pentru 12, 13, 14, 15 şi 16.
scala „motivaţie”
În figura 3.5 am inclus
aceşti itemi în vederea analizei, am ales modelul de analiză (modelul Alpha)
şi am scris o etichetă descriptivă pentru
aceste proceduri în secţiunea „Scale label”.
În principiu, aceste informaţii sunt suficien-
te pentru ca programul să calculeze coefici-
entul dorit. Totuşi, fiind cercetători cu expe-
rienţă, vom dori să aflăm în detaliu şi com-
poziţia scalei. Accesând butonul „Statis-
tics…” vom alege, imediat, şi opţiunile care
ne interesează în mod deosebit.
Vom alege calculul statisticilor de-
scriptive la nivel de item, la nivel de scală şi Figura 3.6 – Analiza compoziţiei
la nivel de scală atunci când eliminăm un scalei „motivaţie”
item. Matricele de corelaţie şi de covarianţă
sunt, de asemenea, foarte utile, precum şi statisticile cumulate (mediile,
varianţele, covarianţele şi corelaţiile). Nu vom proceda la analiza de varian-
ţă, însă vom dori să testăm ipoteza egalităţii mediilor prin testul T-square
Hotelling. Toate aceste configurări le puteţi urmări în figura 3.6.
Cristian Opariuc-Dan

După ce am părăsit acest formular, prin apăsarea butonului „Conti-


nue”, va trebui să apăsăm butonul „OK” în vederea lansării procedurilor de
calcul.

Tabelul 3.8– Sumarul cazurilor analizate Primul tabel din foaia de


Case Processing Summary rezultate se referă la sumarul
N %
cazurilor analizate. Observăm că
Cases Valid 160 100,0
studiul consistenţei interne s-a
Excludeda 0 ,0
Total 160 100,0
realizat pe un număr de 160 de
a. Listwise deletion based on all variables in the procedure. subiecţi, toţi având rezultatele
completate corect, procentul de rezultate valide fiind de 100%. A doua linie
din tabel ne informează asupra cazurilor excluse din analiză. Dacă unii din-
tre subiecţi ar fi avut date lipsă la vreunul dintre cei cinci itemi, în această
linie ar fi fost prezentat numărul acestora. Desigur, într-o asemenea situaţie,
numărul de cazuri valide nu ar mai fi fost 160, ci un alt număr, diminuat cu
valoarea din linia cazurilor excluse. Din fericire, nu ne aflăm într-o aseme-
nea situaţie, iar SPSS nu raportează niciun caz exclus. În mod firesc, linia
„Total” reprezintă suma dintre cazurile valide şi cazurile excluse, număr
egal cu subiecţii din baza de Tabelul 3.9– Coeficientul de consistenţă internă α Cronbach
date. Reliability Statistics
Cronbach's Alpha Based N of
Cronbach's Alpha
Următorul tabel conţine on Standardized Items Items

datele care ne interesează pe noi ,899 ,899 5

cel mai mult, şi anume valoarea coeficientului de consistenţă internă. Ob-


servăm că scala analizată, formată din cinci itemi, are un coeficient de con-
sistenţă internă α Cronbach de 0,899, atât în formă brută cât şi în formă
standardizată. Diferenţa dintre cele două valori constă în procedura de lu-
cru. În forma brută, calculul de bazează pe numărul de itemi din scală şi pe
raportul dintre media covarianţelor inter-item şi media varianţelor itemilor.
Formula de calcul nu a fost prezentată în acest volum, preferând calculul
coeficientului standardizat. Acesta din urmă pleacă de la supoziţia că vari-

327
Statistică aplicată în ştiinţele socio-umane

anţa itemilor este egală – aşa cum am discutat deja – şi se bazează pe core-
laţiile dintre itemi. Indiferent de metoda de lucru, am constatat că scala
„motivaţie” este o scală fidelă sub aspectul consistenţei interne (o scală con-
sistentă).
Tabelul 3.10 – Statistici descriptive la nivel de itemi Tabelul următor pe care îl afi-
Item Statistics şează formularul de rezultate conţine
Mean Std. Deviation N
statisticile descriptive pentru fiecare
Itemul 12 5,77 1,059 160
Itemul 13 5,84 ,955 160 dintre cei cinci itemi analizaţi. Obser-
Itemul 14 5,92 1,009 160 văm că SPSS a calculat, pentru fieca-
Itemul 15 5,82 1,045 160
re dintre itemi, media şi abaterea
Itemul 16 5,72 1,065 160
standard. Privind mediile, am putea
aprecia, la prima vedere, că acestea sunt relativ egale, fără diferenţe semni-
ficative între ele. Ne amintim, totuşi, că am ales un test statistic pentru a
verifica egalitatea mediilor – testul T-square – care pleacă de la ipoteza nulă
a egalităţii acestora. Ultimul tabel din formularul de rezultate arată rezulta-
tele administrării acestui test statis- Tabelul 3.11 – Testul de egalitate a mediilor
tic. Într-adevăr, ne-am fi înşelat Hotelling's T-Squared Test

dacă am fi presupus că mediile sunt Hotelling's T-


F df1 df2 Sig
Squared
egale. Testul este semnificativ 14,277 3,502 4 156 ,009
(F(4,156)=3,50, p<0,01), prin urmare
ipoteza nulă nu poate fi acceptată. Mediile nu sunt egale la nivelul celor
cinci itemi, existând diferenţe semnificative între răspunsurile subiecţilor la
Tabelul 3.12 – Matricea de corelaţii inter-itemi aceste întrebări, fapt de
Inter-Item Correlation Matrix altfel pozitiv, care asigură
Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16
variabilitatea, eterogenita-
Itemul 12 1,000 ,803 ,635 ,558 ,533
Itemul 13 ,803 1,000 ,567 ,570 ,562
tea necesară.
Itemul 14 ,635 ,567 1,000 ,672 ,622
Următoarele două
Itemul 15 ,558 ,570 ,672 1,000 ,880
Itemul 16 ,533 ,562 ,622 ,880 1,000 tabele vă arată matricele
de corelaţii şi de covarian-

328
Cristian Opariuc-Dan

ţe inter-itemi. Tabelul 3.12 prezintă tocmai matricea de corelaţii dintre cei


cinci itemi, similară celei pe care am construit-o în capitolul anterior, la
calcularea manuală a acestui coeficient.
La o simplă privi- Tabelul 3.13 – Matricea de covarianţă inter-itemi
re, observăm coeficienţi de Inter-Item Covariance Matrix

corelaţie ridicaţi între cei Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16


Itemul 12 1,122 ,813 ,679 ,618 ,601
cinci itemi, aceasta fiind Itemul 13 ,813 ,913 ,547 ,569 ,572
explicaţia obţinerii unei Itemul 14 ,679 ,547 1,019 ,708 ,669

fidelităţi ridicate la nivelul Itemul 15 ,618 ,569 ,708 1,093 ,980


Itemul 16 ,601 ,572 ,669 ,980 1,134
scalei. Studiul covarianţe-
lor ne permite, de asemenea, aprecierea omogenităţii scalei. Într-adevăr,
diferenţele dintre itemi sunt relativ mici, subiecţii răspunzând compact pe
scala „motivaţie”, lucru care ne permite să deducem, din nou, existenţa unei
valori mari pentru fidelitatea scalei.
Tabelul 3.14 – Statistici cumulate la nivelul scalei
Summary Item Statistics
Maximum /
Mean Minimum Maximum Range Variance N of Items
Minimum
Item Means 5,814 5,719 5,919 ,200 1,035 ,006 5
Item Variances 1,056 ,913 1,134 ,222 1,243 ,008 5
Inter-Item Covariances ,676 ,547 ,980 ,433 1,792 ,017 5
Inter-Item Correlations ,640 ,533 ,880 ,348 1,652 ,013 5

Dacă analiza corelaţiilor şi a covarianţelor nu v-a convins, haideţi să


abordăm perspectiva sintetică din tabelul 3.14. La nivelul mediilor, avem o
medie a mediilor celor cinci itemi de 5,81, cea mai mică medie fiind de 5,71
iar cea mai mare medie este de 5,91. Deşi amplitudinea dintre cea mai mică
medie şi cea mai mare este de doar 0,20, am observat că această diferenţă
este semnificativă (prin testul statistic de mai sus), în timp ce varianţa medi-
ilor este mică. Aceleaşi tendinţe le observăm şi la nivelul analizei varianţe-
lor, precum şi atunci când studiem sintetizat covarianţele şi corelaţiile.

329
Statistică aplicată în ştiinţele socio-umane

Până în acest moment, avem toate motivele să credem că valoarea


coeficientului α Cronbach pe care am obţinut-o este, într-adevăr, o valoare
reală, iar scala poate fi considerată fidelă.
Un singur lucru mai avem de
Tabelul 3.15 – Statistici descriptive la nivel de scală
Scale Statistics făcut, şi anume să analizăm proprietă-
Mean Variance Std. Deviation N of Items
ţile scalei. În acest sens, avem la dis-
29,07 18,794 4,335 5
poziţie două tabele: tabelul statistici-
lor descriptive la nivel de scală şi tabelul relaţiilor dintre itemi şi scală.
În tabelul 3.15 observăm că scala „motivaţie” este formată din 5
itemi, are o medie de 29,07 puncte cu o abatere standard de 4,33 puncte.
Desigur, la acest nivel, informaţiile nu ne sunt de prea mare folos.
Tabelul 3.16 – Relaţii între itemi şi scală
Item-Total Statistics
Squared Mul- Cronbach's
Scale Mean if Scale Variance Corrected Item-
tiple Correla- Alpha if Item
Item Deleted if Item Deleted Total Correlation
tion Deleted
Itemul 12 23,30 12,249 ,731 ,693 ,881
Itemul 13 23,23 12,880 ,729 ,671 ,881
Itemul 14 23,15 12,569 ,728 ,551 ,881
Itemul 15 23,25 11,950 ,796 ,802 ,866
Itemul 16 23,35 12,015 ,765 ,781 ,873

Situaţia se schimbă, însă, dacă analizăm şi tabelul 3.16. Se observă


că dacă eliminăm oricare dintre cei cinci itemi, media, varianţa dar şi core-
laţia dintre item şi scală vor scădea. Cel mai important item pare a fi itemul
14, deoarece dacă îl eliminăm, varianţa comună a scalei scade la 0,55. Prac-
tic acesta este itemul care introduce cele mai multe “distorsiuni”, care
biasează cel mai puternic scala. Folosind toţi cei cinci itemi, obţinusem un
coeficient de consistenţă internă de 0,89. Se poate constata că eliminarea
oricărui item nu duce la creşterea consistenţei interne ci, din contra, la di-
minuarea acesteia.

330
Cristian Opariuc-Dan

În final, am adus suficiente dovezi în sprijinul fidelităţii acestei sca-


le, demonstrând că toţi cei cinci itemi sunt consistenţi, fidelitatea prin aceas-
tă metodă fiind bună, putem păstra scala în forma ei actuală. Desigur, în
general nu vom folosi toate aceste opţiuni statistice pentru calculul fidelită-
ţii prin metoda consistenţei interne. Spre exemplu, statisticile descriptive la
nivel de scală se folosesc, în special, pentru metoda split-half şi nu pentru
metoda consistenţei interne.
Pentru a clarifica problematica analizei de fidelitate prin metoda
consistenţei interne, vom considera o nouă scală – scala „sarcina”, formată
din itemii 1, 2, 3 şi 4. Înainte de a începe studiul acestei scale, să vedem ce
se întâmplă dacă avem un item „inversat”. Anterior, am afirmat că răspun-
surile subiecţilor se dau pe o scală de la 1 la 7, unde 1 înseamnă foarte puţin
iar 7 înseamnă foarte mult. De obicei, în chestionare nu veţi întâlni toţi
itemii prezentaţi în forma naturală a scalei (1 – foarte puţin, 7 – foarte
mult). Din când în când, veţi observa itemi la care 1 înseamnă foarte mult
iar 7 foarte puţin. Motivul pentru care cercetătorii folosesc un asemenea
sistem, cu itemi inversaţi, este unul foarte simplu. Se evită tendinţa de răs-
puns în sensul „pozitiv” sau „negativ” al scalei, şi obligă subiecţii să fie
atenţi la răspunsurile pe care le dau. Cu alte cuvinte, elimină rutina răspun-
surilor. Deşi practica este apreciată şi răspândită în lumea ştiinţifică, ea poa-
te crea probleme atunci când apare necesitatea analizei datelor.
Chestionarul nostru nu are itemi cu scale de răspuns inversate, însă
putem crea foarte uşor un item de acest tip. Care ar fi procedeul? În primul
rând, vom reține valoarea maximă a scalei de răspuns. În cazul nostru,
aceasta este valoarea 7 (variantele de răspuns sunt de la 1 la 7). Apoi adău-
găm o unitate la această valoare (7+1=8). Din valoarea astfel rezultată, scă-
dem scorul obţinut de către subiecţi la itemul respectiv.
De exemplu, dorim să inversăm itemul 4 din scala „sarcina”. Desi-
gur, subiecţii au răspuns la această scală de la 1 la 7, valoarea maximă fiind

331
Statistică aplicată în ştiinţele socio-umane

7. Adăugăm o unitate acestei valori şi obţinem 8. Până aici este clar. Acum,
observăm că primul subiect a dat răspunsul 7 la itemul 4. Atunci, 8-7=1,
aceasta fiind valoarea inversată pentru primul subiect. Al doilea subiect a
dat răspunsul 6 şi vom avea 8-6=2 ca valoare inversată. Al treilea subiect va
avea valoarea inversată 8-7=1 şi aşa mai departe. Practic, inversarea este o
operaţiune de „reflectare în oglindă” a scorurilor. Dacă scala ar fi de tipul 7
– foarte puţin şi 1 foarte mult, vă daţi seama că prin inversare vom restabili
sensul natural al acesteia.
Realizarea acestui lucru manual ar în-
semna „muncă de chinez bătrân”. Din fericire,
SPSS ne pune la dispoziţie un utilitar foarte
Figura 3.7 – Meniul de trans- important, situat în cadrul meniului „Trans-
formare a variabilelor form”, opţiunea „Compute Variable…”. De-
spre acest meniu am discutat şi în volumul anterior, astfel încât aici ne vom
concentra doar pe elementele esenţiale.
În figura 3.8 aveţi rezultatul accesării acestui meniu. Chiar dacă nu
aţi lecturat lucrarea anterioară,
fereastra este destul de intuitivă.
Vă puteţi da seama că formularul
permite efectuarea diferitelor cal-
cule folosind variabilele din baza
de date. Vom folosi aceste proce-
duri pentru a inversa itemul 4 al
scalei „sarcina”.
În caseta „Target
Variable” vom include noul nume
al variabilei noastre. Vom conveni Figura 3.8 – Inversarea unui item
ca noua variabilă creată să se nu-
mească „item4tr”, prescurtare pentru „itemul 4 transformat”. În caseta

332
Cristian Opariuc-Dan

„Numeric Expression” scriem formula de calcul, în cazul nostru „8-item4”.


La apăsarea butonului „OK”, programul va crea o nouă variabilă, numită
„item4tr”, apoi va lua scorul fiecăruia dintre cei 160 de subiecţi şi îl va scă-
dea din valoarea 8, rezultatul fiind depozitat în variabila nou creată.
Ce am obţinut de fapt?
Dacă răspunsurile la itemul 4
original însemnau 1 – foarte
puţin şi 7 – foarte mult, răspun-
surile la itemul 4 transformat
vor însemna 1 – foarte mult şi 7
– foarte puţin. Iată metoda prin
care putem inversa itemii, Figura 3.9 – Analiza fidelităţii scalei „sarcina”
atunci când constatăm proble-
me în consistenţa scalei. Simplu şi elegant! Totuşi, care ar putea fi proble-
mele legate de consistenţa scalei? În secţiunea teoretică din cadrul acestui
capitol am discutat despre posibilitatea
obţinerii unui coeficient de consistenţă
internă foarte mic, sau chiar negativ, din
cauza existenţei itemilor inversaţi. A
venit momentul să ne şi confruntăm cu o
asemenea situaţie. Să ne imaginăm că
scala „sarcina” avea itemii 1, 2 şi 3 în
sensul natural al scalei iar itemul 4 era
inversat. Acum, ne interesează studiul
consistenţei interne a acestei scale.
Observăm, în figura 3.9, include-
Figura 3.10 – Statistici calculate pentru rea celor patru itemi. Itemii 1, 2 şi 3 au
scala „sarcina”
fost incluşi în forma originală, iar itemul

333
Statistică aplicată în ştiinţele socio-umane

4 a fost inclus în forma transformată (acest item îl găsiţi la sfârşitul bazei de


date, ultimul element din lista variabilelor din baza de date).
Calculele statistice sunt, de această dată, mult mai simple. Vom opta
doar pentru analiza statisticilor la nivel de item şi la nivel de scală dacă
itemul este eliminat şi, de asemenea, afişarea matricei de corelaţii inter-
item.

Tabelul 3.17 – Consistenţa internă a scalei „sarcina” Să vedem acum ce minuni


Reliability Statistics obţinem. Surpriză, coeficientul de
Cronbach's
Alpha
Cronbach's Alpha Based
on Standardized Items
N of
Items
consistenţă internă α Cronbach
,171 ,084 4 este de 0,171 în forma brută şi
0,084 în formă standardizată, for-
ma bazată pe corelaţii. Primul impuls ar fi să credeţi că scala nu are consis-
tenţă internă şi să vă grăbiţi să umblaţi la itemi. Dar, să continuăm totuşi
analiza.
Tabelul 3.18 – Statistici descriptive la nivel de itemi
La nivelul itemilor, observăm Item Statistics
că mediile sunt apropiate pentru toţi Mean Std. Deviation N
cei 3 itemi, singura medie diferită Itemul 1 5,61 1,304 160

fiind cea a itemului 4. În acelaşi timp, Itemul 2 5,68 1,200 160


Itemul 3 5,74 1,124 160
abaterile standard sunt, din nou, des- Itemul 4 transformat 2,23 1,132 160
tul de apropiate. Problema poate fi,
prin urmare, la nivelul celui de-al patrulea item. Acesta ori nu corelează cu
ceilalţi, ori corelează negativ. Se pare că ne aflăm în cea de-a doua situaţie,
Tabelul 3.19 – Matricea de corelaţii inter-itemi dacă vom privi tabelul 3.19.
Inter-Item Correlation Matrix Itemii 1, 2 şi 3 corelează
Itemul 4
Itemul 1 Itemul 2 Itemul 3
transformat puternic între ei, având coe-
Itemul 1 1,000 ,834 ,723 -,621 ficienţi de corelaţie cuprinşi
Itemul 2 ,834 1,000 ,780 -,779 între 0,723 şi 0,834. Pe de
Itemul 3 ,723 ,780 1,000 -,803
Itemul 4 transformat -,621 -,779 -,803 1,000
altă parte, şi itemul 4 core-
lează puternic cu itemii 1, 2

334
Cristian Opariuc-Dan

şi 3, coeficienţii fiind cuprinşi între 0,62 şi 0,80, singura problemă fiind


aceea că itemul 4 corelează negativ. Este foarte clar faptul că avem de a
face cu un item inversat.
În mod normal, analiza s-ar opri la această fază, după care vom pro-
ceda la inversarea sensului scalei itemului 4 şi reluarea studiului de fidelita-
te.
Tabelul 3.20 – Relaţii între itemi şi scală
Item-Total Statistics
Squared Mul-
Scale Mean if Scale Variance Corrected Item- Cronbach's Alpha
tiple Correla-
Item Deleted if Item Deleted Total Correlation if Item Deleted
tion
Itemul 1 13,64 1,931 ,799 ,723 -1,598a
Itemul 2 13,57 2,486 ,686 ,809 -1,062a
Itemul 3 13,51 3,082 ,552 ,730 -,653a
Itemul 4 trans- 17,02 11,239 -,790 ,718 ,912
format
a. The value is negative due to a negative average covariance among items. This violates reliability model
assumptions. You may want to check item codings.

Chiar şi SPSS şi-a dat seama de acest lucru, dacă observaţi subsolul
tabelului 3.20. Strict informativ, puteţi vedea ce se întâmplă dacă eliminăm
al patrulea item. Media şi varianţa scalei vor creşte, la fel şi coeficientul de
consistenţă internă. Totuşi, acesta nu este un item neconsistent ci un item
care corelează bine cu scala, singura sa problemă fiind aceea a sensului de
răspuns.
Reluând analiza, prin înlocuirea itemului 4 transformat cu itemul 4
original, vom obţine un coeficient de consistenţă internă de 0,92, aceasta
fiind şi cea mai mare valoare obţinută a consistenţei interne.

Exerciţii:
Efectuaţi analiza consistenţei interne a scalei „sarcina” folosind
itemul 4 original şi explicaţi diferenţele.

335
Statistică aplicată în ştiinţele socio-umane

Realizaţi analiza de fidelitate prin metoda consistenţei interne pen-


tru celelalte patru scale rămase.

Nu vom mai insista asupra acestei metode, deoarece consider că


aveţi deja suficiente informaţii pentru a realiza analize pertinente. Vreau
doar să menţionez, în final, că metoda consistenţei interne prin calculul coe-
ficientului α Cronbach nu este, de fiecare dată, cea mai bună variantă. S-au
analizat, anterior, limitele sale. De aceea, Raykov (1998) a pus la punct o
modalitate de analiză a consistenţei interne, numită fidelitate compozită sau
fidelitate Raykov ρ, care pleacă de la un principiu al analizei factoriale, con-
form căreia un set de variabile poate să acopere o singură dimensiune, un
singur factor. Această metodă este, la ora actuală, preferată metodei lui
Cronbach şi se consideră că estimează mult mai bine fidelitatea reală a unei
scale. Din nefericire, procedurile de calcul nu au fost încă implementate în
SPSS. Ele sunt însă disponibile în alte aplicaţii, precum EQS şi LISREL sau
AMOS.
Există controverse între cercetători privind ordinea analizelor. Unii
afirmă că este util, întâi, să studiem consistenţa internă, pentru a ne asigura
de fidelitatea scalei, apoi să verificăm unidimensionalitatea prin metoda
analizei factoriale. Alţii se situează la polul opus. Întâi vom verifica dimen-
siunile unui instrument, prin analiza factorială, apoi vom studia, pentru fie-
care dimensiune, fidelitatea acestora.
În realitate, au dreptate şi unii şi alţii. Dacă instrumentul este bine
conceput şi vizează o singură dimensiune, studiul iniţial al consistenţei poa-
te furniza informaţii preţioase, iar analiza factorială confirmatorie le va sus-
ţine. Pentru instrumente complexe, multidimensionale, este mai util să rea-
lizăm o analiză factorială sau o scalare multidimensională iniţială, pentru a
verifica numărul de dimensiuni şi modul în care acestea sunt saturate prin
itemi, iar apoi vom apela la studiul consistenţei interne.

336
Cristian Opariuc-Dan

Dacă instrumentul este greşit conceput, fără consistenţă, atunci nici


analiza factorială, nici consistenţa internă, nicio metodă nu-l poate repara.
În definitiv, nu putem face minuni cu procedeele statistice, dacă cercetătorul
a fost neinspirat sau diletant.
Analiza consistenţei interne nu se foloseşte, de obicei, independent,
ci este asociată cu alte metode de explorare ale dimensionalităţii instrumen-
telor. Cele mai utilizate proceduri asociate consistenţei interne sunt analiza
factorială, scalarea multidimensională sau analiza de cluster. Cu răbdare, le
vom aborda pe toate în decursul lucrărilor noastre.

III.2.2 Analiza fidelităţii prin metoda înjumătăţirii


Metoda înjumătăţi-
rii (split-half) poate fi uti-
lizată în SPSS în mod si-
milar procedeului de stu-
diu al consistenţei interne.
Singurul lucru pe care îl
avem de făcut este acela
de a alege modelul adecvat
(în cazul nostru, selectarea Figura 3.11 – Analiza fidelităţii prin metoda split-half
opţiunii „Split-half” din
Tabelul 3.21 – Sumarul cazurilor analizate cadrul casetei derulante „Mo-
Case Processing Summary
del”).
N %
Cases Valid 159 99,4 Să presupunem că dorim
Excluded a
1 ,6 să studiem fidelitatea, prin me-
Total 160 100,0 toda înjumătăţirii, pentru între-
a. Listwise deletion based on all variables in the procedure.
gul chestionar. După alegerea

337
Statistică aplicată în ştiinţele socio-umane

modelului, vom include, în vederea analizei, toţi cei 24 de itemi. În afară de


statisticile descriptive la nivelul scalei, nu avem nevoie de calculul altor
indicatori de acest tip.
Primul tabel din formula-
rul de rezultate se referă, după Tabelul 3.22 – Statistici descriptive la nivel de scală
Scale Statistics
cum bine ştiţi, la sumarul cazuri-
Mean Variance Std. Deviation N of Items
lor analizate. Observăm că dintr- Part 1 71,33 53,728 7,330 12a
un număr de 160 de persoane, au Part 2 70,16 93,884 9,689 12b

fost analizate doar 159. Probabil Both Parts 141,49 183,733 13,555 24
a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4,
că unul dintre subiecţi nu a com- Itemul 5, Itemul 6, Itemul 7, Itemul 8, Itemul 9, Itemul 10,
Itemul 11, Itemul 12.
pletat răspunsul la unul sau la b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16,
mai mulţi itemi, acesta fiind un Itemul 17, Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul
22, Itemul 23, Itemul 24.
motiv suficient pentru a fi exclus
din prelucrare. În orice caz, avem suficiente date pentru a putea trage con-
Tabelul 3.23 – Analiza fidelităţii prin metoda split-half cluzii utile.
Reliability Statistics
Cronbach's Alpha Part 1 Value ,839
Ultimul tabel din
N of Items 12a formularul de rezultate
Part 2 Value ,572 conţine statisticile de-
N of Items 12b scriptive la nivelul scalei.
Total N of Items 24 Se observă că SPSS a
Correlation Between Forms ,254
Spearman-Brown Coefficient Equal Length ,405
inclus primii 12 itemi din
Unequal Length ,405 chestionar într-o formă şi
Guttman Split-Half Coefficient ,393
ultimii 12 itemi în cealal-
a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4, Itemul 5, Itemul
6, Itemul 7, Itemul 8, Itemul 9, Itemul 10, Itemul 11, Itemul 12. tă formă.
b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16, Itemul 17,
Din primele in-
Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul 22, Itemul 23, Itemul
24.
formaţii, aflăm că media
itemilor din prima formă este mai mare în comparaţie cu media itemilor din
cea de-a doua formă, iar varianţele sunt, din nou, diferite. A doua formă are
o varianţă mai mare în comparaţie cu prima formă. Dacă diferenţele dintre

338
Cristian Opariuc-Dan

medii sunt sau nu semnificative, am fi putut afla utilizând unul dintre testele
statistice prezentate mai sus, sau prin construirea tabelelor de analiză de
varianţă. Dacă v-aţi format puţin „ochiul statistic”, deja puteţi suspecta ce-
va…. Oare despre ce este vorba? Să rezulte, oare, un coeficient de fidelitate
split-half cu o valoare mică?
Într-adevăr, aşa este! Să privim puţin tabelul 3.23, cel mai important
tabel generat de SPSS. Consistenţa internă pentru prima parte a instrumen-
tului este bună (0,839), în timp ce a doua parte are o consistenţă internă
aproape satisfăcătoare (0,572). Este firesc să obţinem un coeficient de core-
laţie între cele două părţi de numai 0,254. Mai mult decât atât, se observă o
fidelitate split-half redusă, de doar 0,40, estimată prin intermediul coeficien-
tului Spearman-Brown. Cele două forme, având un număr egal de itemi,
expresia acestui coeficient va fi prima valoare (Equal Length). Dacă forme-
le ar fi avut un număr inegal de itemi (de exemplu prima parte 12 itemi şi a
doua parte 13 itemi), am fi luat ca referinţă cea de-a doua valoare a coefici-
entului (Unequal Length).
Am văzut, totuşi, că varianţele nu sunt egale. Dacă ne-am raporta
precis la teorie, am alege ca indicator coeficientul de fidelitate split-half
Guttman. Însă, lucrurile par mai sumbre. Coeficientul este de numai 0,39
(de fapt, coeficientul Guttman λ4), cea mai mică sub aspectul fidelităţii.
În realitate, Guttman a propus şase coefi- Tabelul 3.24 – Fidelitatea split-half
cienţi de fidelitate care furnizează limitele inferi- pe baza modelului Guttman
Reliability Statistics
oare ale fidelităţii reale. Dacă dorim să-i calcu-
Lambda 1 ,690
lăm, tot ceea ce avem de făcut este să înlocuim 2 ,738
modelul (alegem modelul „Guttman” din lista 3 ,720
derulantă „Model”). 4 ,393
5 ,724
Vom obţine tabelul din figura 3.24. Pri- 6 ,806
mul coeficient (λ1) este o estimare simplă a fide- N of Items 24

339
Statistică aplicată în ştiinţele socio-umane

lităţii, formând baza tuturor celorlalte estimări. Conform acestuia, fidelitatea


ar fi acceptabilă. Al treilea coeficient (λ3) nu este altceva decât coeficientul
de consistenţă internă α Cronbach, calculat pentru toţi cei 24 de itemi. Am
observat că, deşi consistenţa internă poate fi considerată acceptabilă
(0,720), totuşi sunt probleme serioase de fidelitate prin metoda înjumătăţirii.
Coeficientul (λ2) este un coeficient mult mai precis în comparaţie cu
primul sau cu al treilea, însă calculul acestuia se poate face doar computeri-
zat. Este, dacă doriţi, o variantă optimizată şi ajustată a consistenţei interne
pentru întregul instrument. Desigur, al patrulea coeficient, (λ4) este exact
coeficientul de fidelitate Guttman split-half. În mod cert, are valoarea cea
mai mică.
Al cincilea şi al şaselea coeficient (λ5) şi (λ6) reprezintă estimări
mult mai precise în comparaţie cu al doilea coeficient (λ2). Coeficientul λ5 îl
folosim atunci când instrumentul prezintă itemi din domenii specifice şi
itemi aparţinând unor domenii generale. Practic, acest coeficient este utilizat
când avem un item care acoperă o mare parte din varianţa altor domenii
(item din domeniul general), domenii acoperite la modul specific de către
ceilalţi itemi. Situaţia este frecvent întâlnită în cazul testelor de cunoştinţe
generale şi specifice.
Coeficientul λ6 este util atunci când lucrăm cu baterii de teste, caz în
care testul acoperă mai multe dimensiuni. Fiecare item saturează o anumită
dimensiune, dar toate aceste dimensiuni pot participa la construcţia unui
factor general. Bateria de teste de inteligenţă Wechsler este unul dintre cele
mai bune exemple de utilizare ale acestui coeficient.
Folosind toate aceste informaţii, ce putem spune despre chestionarul
nostru? Desigur, instrumentul nu este fidel în baza metodei split-half, fapt
confirmat atât de coeficientul Spearman-Brown, cât şi de coeficientul
Guttman λ4. Totuşi, putem spune că instrumentul, luat în ansamblu, are con-
sistenţă internă (Guttman λ3, şi λ2). Într-adevăr (după Guttman λ6), se poate

340
Cristian Opariuc-Dan

aprecia că măsura comportamentului organizaţional este o măsură fidelă,


însă acesta prezintă mai multe scale, fiind aşadar necesară studierea structu-
rii dimensionale a instrumentului. În realitate, ştim bine că acest chestionar
este format din şase scale. Chiar dacă nu am fi cunoscut acest lucru, iată că
studiul coeficienţilor Guttman ne poate avertiza asupra acestor aspecte par-
ticulare. În mod evident, primii 12 itemi acoperă anumite scale, ultimii 12
acoperă alte scale. Chiar dacă per ansamblu chestionarul poate fi consistent,
nu este necesar să există o corelaţie între scalele instrumentului.

III.2.3 Analiza fidelităţii prin metoda formelor paralele


În vederea analizei de fidelitate prin metoda formelor paralele, me-
todă numită şi a echivalenţei, SPSS pune la dispoziţie două modele: mode-
lul „Parallel” şi modelul „Strictly parallel”. Modelul strict paralel pleacă de
la prezumţia că scorurile reale la itemi au aceeaşi medie şi aceeaşi varianţă,
în timp ce modelul paralel simplu postulează existenţa doar a aceleiaşi vari-
anţe, în timp ce mediile pot să nu fie egale. În general, atunci când ne refe-
rim la forme echivalente, avem în vedere modelul paralel strict. Deoarece
sunt extrem de rare cazurile în care putem obţine instrumente cu adevărat
echivalente, SPSS ne ajută cu o formă simplificată, forma paralelă simplă.
Lăsând la o parte diferenţele subtile dintre cele două modele, metoda
formelor paralele pleacă de la ipoteza nulă conform căreia avem de a face,
într-adevăr, cu forme paralele, cu forme care au cel puţin varianţa egală.
Dacă varianţele nu sunt semnificativ egale, atunci nu putem vorbi de forme
paralele.
Destul însă cu teoria. Să verificăm dacă putem vorbi de forme para-
lele în cazul chestionarului nostru. Din câte ştim până acum, nu cred că se
poate discuta despre acest lucru, însă haideţi să ne convingem. Vom alege
modelul „Parallel” şi cam atât, deoarece procedurile sunt identice.

341
Statistică aplicată în ştiinţele socio-umane

Tabelul 3.25 – Evaluarea paralelismului formelor Primul element de noutate


Test for Model Goodness of Fit
îl reprezintă tabelul 3.25. Desigur,
Chi-Square Value 5525,347
pentru a vorbi de forme paralele,
df 298
Sig ,000
va trebui să ne asigurăm că aces-
Log of Determinant of Unconstrained Matrix -17,280 tea sunt, într-adevăr, paralele.
Constrained Matrix 19,607 Pentru aceasta, SPSS furnizează
Under the parallel model assumption
un test statistic, testul „potrivirii”
cu modelul teoretic, practic verificarea ipotezei nule expusă mai sus. Vă
reamintesc faptul că ipoteza nulă afirma că varianţele celor două forme sunt
egale. Dacă pragul de semnificaţie al acestui test este mai mare de 0,05 nu
putem respinge ipoteza nulă şi vom accepta faptul că varianţele sunt egale,
deci vom vorbi despre forme paralele. Dacă pragul de semnificaţie este mai
mic de 0,05, ipoteza nulă se va respinge, cele două forme neavând varianţe
egale. Respingând ipoteza nulă, respingem şi modelul formelor paralele.
În cazul nostru, testul este semnificativ, pragul de semnificaţie fiind
mai mic de 0,05, în condiţiile unui test χ2(298) = 5525,37 (atenţie, este vorba
despre testul χ2 de diferenţe între frecvenţe şi nu despre coeficientul de con-
tingenţă χ2. Despre acest test am vorbit deja în capitolul anterior). Este foar-
te clar faptul că putem respinge ipoteza nulă, ipoteza varianţelor egale, şi
vom lua în considerare faptul că varianţele nu sunt egale – implicit faptul că
formele nu sunt paralele.
Dacă nu putem vorbi de forme pa-
Tabelul 3.26 – Fidelitatea formelor paralele
Reliability Statistics ralele, nu putem vorbi nici de fidelitate a
Common Variance 2,376 formelor paralele (echivalenţă). Totuşi,
True Variance ,230
Error Variance 2,147
SPSS ne furnizează, în tabelul 3.26, chiar
Common Inter-Item Correlation ,097 şi în acest caz, rezultatele analizei de fide-
Reliability of Scale ,720 litate. Constatăm că din totalul varianţei
Reliability of Scale (Unbiased) ,723
comune a celor 24 de itemi, o foarte mică
parte este explicată de varianţa reală, diferenţa datorându-se erorilor aleato-

342
Cristian Opariuc-Dan

rii. Coeficientul de corelaţie între itemii formelor paralele este foarte mic.
Totuşi, fidelitatea scalei pare să fie ridicată (0,72). Într-adevăr, fidelitatea
este estimată similar coeficientului α Cronbach, bazându-se pe consistenţa
internă. Dacă am fi folosit modelul paralel strict, acest coeficient ar fi fost şi
mai mic, deoarece consistenţa internă se ajustează în funcţie de diferenţele
dintre mediile itemilor.
Desigur, dacă am decis că modelul paralel simplu nu poate fi aplicat,
deoarece formele nu sunt paralele, nu vom putea aplica nici modelul paralel
strict. În realitate, modelul paralel simplu este, aşa cum am specificat ante-
rior, o variantă mai permisivă a modelului paralel strict.
În concluzie, nu putem vorbi de existenţa formelor paralele la nive-
lul acestui chestionar. De fapt, bănuiam deja acest lucru în urma analizei
fidelităţii prin metoda split-half. În realitate, foarte puţine instrumente înde-
plinesc condiţiile formelor paralele, şi, de aceea, nici metoda nu este intens
folosită.

III.2.4 Analiza fidelităţii inter-evaluatori


În situaţia în care aveţi mai mulţi evaluatori şi doriţi să analizaţi gra-
dul de acord între aceştia în condiţiile în care ei evaluează un anumit număr
de subiecţi, puteţi apela la o
altă variantă de calcul.
Să considerăm un
exemplu fictiv, în care o comi-
sie de trei profesori evaluează,
pe o scală de la 1 la 7, perfor-
manţele obţinute la statistică de
un număr de 160 de studenţi.
Figura 3.12 – Analiza acordului între evaluatori
Să presupunem că primul pro-
fesor este itemul 1, al doilea profesor este itemul 2 iar al treilea profesor va

343
Statistică aplicată în ştiinţele socio-umane

fi itemul 3. Cum putem să ştim dacă aceştia au căzut de acord în privinţa


evaluărilor şi care ar fi nivelul acestui acord? Dacă ar fi fost doar doi evalu-
atori, lucrurile erau mult mai simple – veţi folosi, de exemplu, coeficientul
de concordanţă W Kendall – cu trei evaluatori, pare mai complicat. Să ve-
dem dacă aşa şi este.
În figura 3.12 am inclus, în vederea analizei, gradului de acord inter-
evaluatori, evaluările efectuate de către
cei trei profesori. De această dată nu ne
mai interesează modelul folosit. Putem
lăsa modelul „Alpha” dacă dorim, sau
orice alt model se află în lista derulantă,
deoarece opţiunile principale se regăsesc
în formularul datelor statistice.
Ne amintim că, la nivelul acestui
formular (vezi figura 3.13), avem posibi-
litatea calculării coeficientului de corela-
ţie ca expresie a acordului cu privire la
Figura 3.13 – Calculul coeficientului
scorurile fiecărui subiect („Intraclass de acord între evaluatori
correlation coefficient”). Vom selecta
această opţiune, împreună cu afişarea statisticilor descriptive ale fiecărui
evaluator (bifarea opţiunii „Item” din cadrul secţiunii datelor descriptive).
Până acum este în regulă, însă ce model folosim? Să ne gândim. Avem vre-
un element constant în ecuaţia noastră? Nu cred! Nu putem anticipa nici
evaluările profesorilor, nici răspunsurile subiecţilor. În acest caz, modelul
„Two-Way Random” este cel mai potrivit. Intervalul de încredere va fi cel
implicit, de 95%, semnificaţia testându-se la un prag de 0,05. Comparaţiile
se vor face cu valoarea 0, adică valoarea lipsei totale de acord între cei trei
profesori. Acum să apăsăm butonul „OK” şi să vedem ce se întâmplă.

344
Cristian Opariuc-Dan

Tabelul 3.27 – Statistici descriptive la Dintre tabelele afişate, nu ne interesea-


nivel de evaluatori
ză decât două. În primul rând, tabelul 3.27,
Item Statistics
Mean Std. Deviation N
care prezintă statisticile descriptive ale fiecărui
Itemul 1 5,61 1,304 160 profesor. Fiecare dintre cei trei profesori a eva-
Itemul 2 5,68 1,200 160 luat un număr de 160 de studenţi. Cel mai „ge-
Itemul 3 5,74 1,124 160
neros” a fost profesorul „Itemul 3”, cu o medie
a notelor de 5,74 (atenţie, ne aflăm pe o scală de la 1 la 7, nu de la 1 la 10),
iar cel mai „exigent” a fost profesorul „Itemul 1” cu o medie a notelor de
5,61. Abaterile standard ne informează că, primul profesor, deşi mai exi-
gent, are o variabilitate a notelor acordate mai mare în comparaţie cu ulti-
mul profesor, care nu numai că este cel mai tolerant, dar oferă şi note mai
apropiate. Mediile relativ apropiate, acordate de către cei trei profesori, ne
îndeamnă să credem că, în linii mari, aceştia au fost de acord. Din păcate, în
statistică lucrurile nu ţin de aparenţă, ci trebuie demonstrate.
Programul mai oferă un tabel, tabelul coeficienţilor de corelaţie ai
acordului între scorurile subiectului, tabelul 3.28.
Tabelul 3.28 – Coeficienţii de corelaţie a acordurilor
Intraclass Correlation Coefficient
95% Confidence
F Test with True Value 0
Intraclass Interval
Correlationa Lower Upper
Value df1 df2 Sig
Bound Bound
Single Measures ,776b ,721 ,824 11,387 159 318 ,000
Average Measures ,912 ,886 ,933 11,387 159 318 ,000
Two-way random effects model where both people effects and measures effects are
random.
a. Type C intraclass correlation coefficients using a consistency definition-the be-
tween-measure variance is excluded from the denominator variance.
b. The estimator is the same, whether the interaction effect is present or not.
În medie, evaluările celor trei profesori (a doua linie din tabel), pre-
zintă un grad ridicat de acord (0,91), la un interval de încredere 95% cuprins
între 0,88 şi 0,93. Este mai mult decât evident faptul că cei trei profesori au
evaluat consistent studenţii. Dacă vă îndoiaţi de acest lucru, testul F pleacă

345
Statistică aplicată în ştiinţele socio-umane

de la ipoteza nulă a dezacordului total. Faptul că este semnificativ, ne per-


mite să respingem ipoteza nulă şi să susţinem acordul semnificativ între cei
trei profesori (F(159,318)=11,387, p<0,01).
Prima linie a tabelului („Single Measures”) ne arată gradul de acord,
de fapt fidelitatea evaluărilor, dacă s-ar fi utilizat un singur profesor. Desi-
gur, acest coeficient de fidelitate este mai mic în comparaţie cu evaluarea
realizată de comisie (coeficientul de fidelitate are valoarea 0,76), totuşi,
constatăm, în baza testului F, că şi o asemenea evaluare ar fi fost semnifica-
tivă.
Prin urmare, nu mai daţi vina pe profesori şi treceţi la învăţat. Iată că
evaluarea realizată de o comisie nu va duce la note de trecere a examenului.
Glumeam, desigur!

III.2.5 Analiza fidelităţii test-retest (stabilităţii)


Programul SPSS for Windows nu include o procedură specială şi
distinctă prin intermediul căreia să puteţi studia coeficientul de stabilitate,
folosind metoda test-retest. Motivele sunt evidente. În primul rând, metoda
test-retest presupune o corelaţie bivariată între cele două administrări, coe-
ficientul de corelaţie Bravais-Pearson fiind apoi ajustat prin intermediul
celei de-a doua formule Spearman-Brown (formula 3.2). În al doilea rând,
Tabelul 3.29 – Corelaţia Bravais-Pearson între 2 am arătat că această metodă nu este
administrări la interval de 5 luni
altceva decât o formă ajustată a me-
Correlations
Itemul 3 Itemul 4
todei înjumătăţirii. Poate nu în ulti-
Itemul 3 Pearson Correlation 1 ,803** mul rând, din cauza numeroaselor
Sig. (2-tailed) ,000 critici aduse acestei proceduri de
N 160 160 verificare a fidelităţii.
Itemul 4 Pearson Correlation ,803** 1
Sig. (2-tailed) ,000 Foarte pe scurt, vom conside-
N 160 160 ra un test de inteligenţă administrat,
**. Correlation is significant at the 0.01 level (2-
tailed). la un interval de timp de 5 luni, unui

346
Cristian Opariuc-Dan

lot de cercetare format din 160 de subiecţi. Prima administrare a fost înre-
gistrată în baza de date sub numele de „Itemul 3”, iar a doua administrare
sub numele de „Itemul 4”. Ne interesează să aflăm dacă scorurile obţinute
de cei 160 de subiecţi sunt stabile în timp.
În primul rând, vom calcula coeficientul de corelaţie r Bravais-
Pearson între cele două administrări. Desigur, nu vom mai intra în amănun-
tele procedeului de calcul, aceste lucruri fiind deja discutate anterior.
Analizând tabelul 3.29, observăm existenţa unei corelaţii semnifica-
tive, puternice şi pozitive între cele două administrări ale testului de inteli-
genţă (r=0,80, p<0,01).
Coeficientul de stabilitate se calculează, apoi, în baza formulei a do-
ua a lui Spearman-Brown (formula 3.2). Vom avea, deci,

Valoarea coeficientului de stabilitate este 0,88, o valoare, desigur,


semnificativă, care arată o bună stabilitate a rezultatelor în timp.

III.2.6 Consideraţii finale


Am parcurs, împreună, cele mai importante tehnici de analiză ale fi-
delităţii. Aţi văzut că toate metodele se bazează pe corelaţii de diferite ti-
puri. În principiu, dacă stăpâniţi corelaţiile, vă va fi extrem de simplu să
înţelegeţi şi fidelitatea.
De asemenea, am înţeles că analiza fidelităţii nu este un „panaceu”
care să rezolve toate problemele unui instrument de diagnostic sau de cerce-
tare. În acelaşi timp, s-a arătat că nu poate exista o singură metodă suficien-
tă pentru acest lucru. Uneori un instrument poate avea o consistenţă internă
foarte bună, însă poate să prezinte probleme la alte forme de fidelitate sau
poate fi instabil în timp. De aceea, este utilă investigarea mai multor forme

347
Statistică aplicată în ştiinţele socio-umane

de fidelitate. În funcţie de complexitatea instrumentului, se aleg şi metodele


de analiză ale fidelităţii. Totul ţine, de fapt, de experienţa, seriozitatea, crea-
tivitatea şi intuiţia cercetătorului.
Metodele de studiu ale fidelităţii nu sunt folosite niciodată singure.
Ele nu pot releva uni sau multidimensionalitatea unui instrument. Pentru a
stabili acest lucru, vom folosi analiza factorială, scalarea multidimensională,
analiza de cluster. În acelaşi timp, fidelitatea se referă doar la erorile aleato-
rii. În privinţa erorilor sistematice, care ţin de validitate, se pronunţă, alături
de metodele de scalare expuse mai sus, şi altele, cum ar fi regresia, analiza
datelor panel, analiza energiei informaţionale, ecuaţiile structurale ori reţe-
lele neuronale. Despre toate, însă, vom avea ocazia să vorbim.
În capitolul de faţă au fost analizate cele mai cunoscute tehnici din
sfera noastră problematică. Trebuie să ştiţi că acestea nu sunt singurele. Vă
voi enunţa doar două tehnici mai complexe, asta pentru a vă determina să
găsiţi şi dumneavoastră (şi eventual să-mi spuneţi şi mie) altele.
 Coeficientul de fidelitate θ (theta) Armor. A fost dezvoltat de
către Armor şi publicat în anul 1974. Se calculează după
formula ( ), unde p reprezintă numărul de
itemi ai scalei iar λ1 se referă nu la coeficientul similar
Guttman ci la prima şi de obicei cea mai mare valoare
eigenvalue rezultată din analiza componentelor principale
generată de itemii scalei. Această valoare este obţinută în
urma analizei factoriale, demonstrând din nou legătura pu-
ternică între analiza fidelităţii şi analiza factorială. Acest coe-
ficient se interpretează la fel ca oricare alt coeficient de fide-
litate. Oricum, asupra sa vom reveni după ce vom studia câ-
teva lucruri legate de analiza factorială.

348
Cristian Opariuc-Dan

 Coeficientul de fidelitate θ (theta) pentru date ordinale. Are


la bază o matrice de coeficienţi de corelaţie polichorică ce
funcţionează ca date de intrare pentru o analiză factorială pe
componente principale. Metoda foloseşte şi date aflate la un
nivel de măsură ordinal în vederea stabilirii fidelităţii. În ge-
neral, acest coeficient are valori superioare coeficientului de
consistenţă internă α Cronbach.
Ne vom opri aici cu studiul fidelităţii. Informaţii suplimentare puteţi
găsi în literatura de specialitate sau parcurgând bibliografia specifică de la
sfârşitul acestui volum.

În concluzie:
 Fidelitatea se referă la controlul erorilor aleatorii, în timp ce validitatea se ocupă
cu limitarea efectului pe care îl exercită erorile sistematice (nealeatorii);
 Orice scor observat reprezintă suma dintre scorul real şi erorile de măsurare
(erorile aleatorii). Aceasta este ecuaţia fundamentală a teoriei clasice a testului;
 Metoda test-retest vizează analiza stabilităţii scorurilor în timp şi presupune ad-
ministrarea aceluiaşi instrument, aceloraşi subiecţi, după un interval de timp;
 Metoda înjumătăţirii (split-half) presupune împărţirea instrumentului în două
părţi, pe cât posibil egale, şi administrarea celor două forme aceluiaşi lot de sub-
iecţi;
 Metoda consistenţei interne tratează fiecare item ca o mini formă a instrumentului
şi verifică măsura în care toţi aceşti itemi sunt corelaţi;
 Metoda formelor paralele este o variantă a metodei înjumătăţirii şi presupune
echivalenţa celor două părţi sub aspectul varianţelor şi, pe cât posibil, sub aspec-
tul mediilor;
 Metoda acordului între evaluatori urmăreşte identificarea măsurii în care mai
mulţi judecători efectuează evaluări consistente asupra unui grup de subiecţi;
 Fidelitatea nu ne informează asupra unidimensionalităţii scalei, şi doar asupra
modului în care itemii sunt relaţionaţi între ei;
 Nu există un acord între specialişti sub aspectul valorii de la care un instrument
poate fi considerat fidel. Recomandările oscilează în jurul coeficienţilor de la
0,50 la 0,60;

349
Statistică aplicată în ştiinţele socio-umane

Bibliografie
1. Albu, Monica. 2000. Metode şi instrumente de evaluare în
psihologie. Cluj-Napoca : Argonaut, 2000. 973-9350351-8.
2. Bakeman, Roger și Robinson, Byron F. 2004. Understanding
Statistics in the Behavioral Sciences. New Jersey : Lawrence
Erlbaum Associates, 2004. 0-8058-4944-0.
3. Carmines, Edward și Zeller, Richard. 1979. Reliability and
Validity Assessment. Iowa : Sage Publication, Inc, 1979.
9780803913714.
4. Cortina, J.M. 1993. What is coefficient alpha? An examination of
theory and applications. Journal of Applied Psychology. 98-104,
1993, 78.
5. Field, A. 2000. Discovering statistics using SPSS for Windows.
London : Sage, 2000.
6. Fisher, Ronald A. 1971. The design of experiments. New York :
Hafner Press, 1971.
7. Gibbons, Jean Dickinson. 1993. Nonparametric Measures of
Association. Iowa : Sage Publications, Inc, 1993. Vol. 07-091.
9780803946644.
8. Havârneanu, Corneliu Eugen. 2000. Cunoaşterea psihologică a
persoanei. Posibilităţi de utilizare a computerului în psihologia
aplicată. Iaşi : Polirom, 2000.
9. —. 2000. Metodologia cercetării în ştiinţele sociale. Iaşi : Erota,
2000.
10. Kenny, David A. 1987. Statistics for the social and behavioral
sciences. Ontario : Little, Brown and Company, 1987. 0-316-48915-
8.
11. Kirk, Roger E. 1995. Experimental design: Procedures for the
behaioral sciences. 3rd. Pacific Grove : Brooks/Cole, 1995.
12. Kline, P. 1999. The handbook of psychological testing, 2nd Edition.
London : Routledge, 1999.
13. Liebetrau, Albert M. 1983. Measures of Association. Washington :
Sage Publications, 1983. 0-8039-1974-3.

350
Cristian Opariuc-Dan

14. Opariuc-Dan, Cristian. 2009. Statistică aplicată în științele socio-


umane. Noțiuni de bază - Statistici univariate. Cluj-Napoca : ASCR
& Cognitrom, 2009. 9737973631.
15. Radu, Ioan, și alții. 1993. Metodologie psihologică şi analiza
datelor. Cluj-Napoca : Sincron, 1993.
16. Sava, Florin. 2004. Analiza datelor în cercetarea psihologică. Cluj-
Napoca : ASCR, 2004. 973-7973-11-9.
17. Sîntion, Filaret. 2009. Statistică psihologică. Constanța : Europolis,
2009. Vol. 1. 9789736763823.
18. Stan, Aurel. 2002. Testul psihologic - Evoluţie, construcţie,
aplicaţii. Iaşi : Polirom, 2002.
19. Swinscow, T.D.V. și Campbell, M.J. 2002. Statistic at Square One,
10th Edition. Navarra : BMJ Books, 2002. 0-7279-1552-5.
20. Urdan, Timothy. 2005. Statistics in Plain English, 2nd Edition.
New Jersey : Lawrence Erlbaum Associates, 2005. 0-8058-5241-7.
21. Vasilescu, Ilie Puiu. 1992. Statistică informatizată pentru ştiinţele
despre om. Bucureşti : Militară, 1992.

351
Statistică aplicată în ştiinţele socio-umane

Anexe
Anexa 1
Praguri de semnificaţie la diferite valori ale coeficientului de corelaţie a rangurilor
ρ Spearman pentru loturi de cercetare de diferite dimensiuni.

Anexa 1 – Praguri de semnificaţie pentru diferitele valori ale lui ρ Spearman


Pragul de semnificaţie ipoteză unidirecţională
0,05 0,02 0,01 0,005
N
Prag de semnificaţie ipoteză bidirecţională
0,10 0,05 0,02 0,01
4 1,000 - - -
5 0,900 1,000 1,000 -
6 0,829 0,886 0,943 1,000
7 0,714 0,786 0,893 0,929
8 0,643 0,738 0,833 0,881
9 0,600 0,700 0,783 0,833
10 0,564 0,648 0,735 0,794

11 0,536 0,618 0,709 0,755


12 0,503 0,587 0,671 0,727
13 0,484 0,560 0,648 0,703
14 0,464 0,538 0,622 0,675
15 0,443 0,521 0,604 0,654
16 0,429 0,503 0,582 0,635
17 0,414 0,485 0,566 0,615
18 0,401 0,472 0,550 0,600
19 0,391 0,460 0,535 0,584
20 0,380 0,447 0,520 0,570

21 0,370 0,435 0,508 0,556


22 0,361 0,425 0,496 0,544
23 0,353 0,415 0,486 0,532
24 0,344 0,406 0,476 0,521
25 0,337 0,398 0,466 0,511
26 0,331 0,390 0,457 0,501
27 0,324 0,382 0,448 0,491
28 0,317 0,375 0,440 0,483

352
Cristian Opariuc-Dan

29 0,312 0,368 0,433 0,475


30 0,306 0,362 0,425 0,467
35 0,283 0,335 0,394 0,433
40 0,264 0,313 0,368 0,405
45 0,248 0,294 0,347 0,382
50 0,235 0,279 0,329 0,363
60 0,214 0,255 0,300 0,331
70 0,190 0,235 0,278 0,307
80 0,185 0,220 0,260 0,287
90 0,174 0,207 0,245 0,271
100 0,165 0,197 0,233 0,257
SURSA: după (Vasilescu, 1992)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi
din lotul dumneavoastră de cercetare. Dacă nu găsiţi exact numărul de sub-
iecţi dorit, alegeţi numărul imediat inferior (de exemplu, dacă aveţi 21 de sub-
iecţi, alegeţi rândul cu 20 de subiecţi).

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, în funcţie de ipoteza


dumneavoastră (unidirecţională sau bidirecţională). În cazul în care coeficien-
tul dumneavoastră de corelaţie este mai mare decât valoarea înscrisă, atunci
este semnificativ la pragul ales. De exemplu, dacă pe un lot de cercetare de 20
de subiecţi am obţinut un coeficient de corelaţie de 0,68, atunci este semnifi-
cativ la un prag de semnificaţie mai mic de 0,01 (0,68 este mai mare de 0,591,
valoarea de referinţă pentru acest prag).

353
Statistică aplicată în ştiinţele socio-umane

Anexa 2
Praguri de semnificaţie la diferite valori ale coeficientului de corelaţie a rangurilor
τ Kendall pentru loturi de cercetare de diferite dimensiuni.
Anexa 2 – Praguri de semnificaţie pentru diferitele valori ale lui τ Kendall

Pragul de semnificaţie
Pentru ipoteze unidirecţionale
n 0,025 0,01 0,005
Pentru ipoteze bidirecţionale
0,05 0,02 0,01
5 1 1 -
6 0,87 0,89 1
7 0,71 0,81 0,91
8 0,64 0,72 0,79
9 0,56 0,67 0,72
10 0,51 0,60 0,64
11 0,46 0,54 0,60
12 0,43 0,52 0,57
13 0,41 0,49 0,54
14 0,39 0,47 0,52
15 0,38 0,45 0,50
16 0,36 0,43 0,47
17 0,35 0,42 0,46
18 0,34 0,40 0,45
19 0,33 0,39 0,43
20 0,32 0,38 0,42
21 0,31 0,37 0,41
22 0,30 0,36 0,40
23 0,29 0,35 0,39
24 0,29 0,34 0,38
25 0,28 0,33 0,37
26 0,27 0,33 0,36
27 0,27 0,32 0,35
28 0,26 0,31 0,35
29 0,26 0,30 0,34
30 0,25 0,30 0,33
31 0,25 0,29 0,33
32 0,25 0,29 0,33
33 0,24 0,29 0,32

354
Cristian Opariuc-Dan

34 0,24 0,28 0,32


35 0,23 0,28 0,32
36 0,23 0,27 0,31
37 0,23 0,27 0,31
38 0,22 0,26 0,30
39 0,22 0,26 0,30
40 0,22 0,26 0,30
SURSA: după (Vasilescu, 1992)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi
din lotul dumneavoastră de cercetare.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, în funcţie de tipul in-


tervalului, unilateral sau bilateral. În cazul în care coeficientul dumneavoastră
de corelaţie este mai mare decât valoarea înscrisă, atunci este semnificativ la
pragul ales. De exemplu, dacă pe un lot de cercetare de 31 de subiecţi am ob-
ţinut un coeficient de corelaţie de 0,68, atunci este semnificativ la un prag de
semnificaţie mai mic de 0,01 (0,68 este mai mare de 0,33, valoarea de referin-
ţă pentru acest prag).

355
Statistică aplicată în ştiinţele socio-umane

Anexa 3
Praguri de semnificaţie la diferite valori ale coeficientului de contingenţă χ2 pentru
loturi de cercetare de diferite dimensiuni.

Anexa 3 – Praguri de semnificaţie pentru diferitele valori ale lui χ2


Praguri de semnificaţie
df
0,050 0,025 0,01 0,005
1 3.84146 5.02389 6.63490 7.87944
2 5.99146 7.37776 9.21034 10.59663
3 7.81473 9.34840 11.34487 12.83816
4 9.48773 11.14329 13.27670 14.86026
5 11.07050 12.83250 15.08627 16.74960
6 12.59159 14.44938 16.81189 18.54758
7 14.06714 16.01276 18.47531 20.27774
8 15.50731 17.53455 20.09024 21.95495
9 16.91898 19.02277 21.66599 23.58935
10 18.30704 20.48318 23.20925 25.18818
11 19.67514 21.92005 24.72497 26.75685
12 21.02607 23.33666 26.21697 28.29952
13 22.36203 24.73560 27.68825 29.81947
14 23.68479 26.11895 29.14124 31.31935
15 24.99579 27.48839 30.57791 32.80132
16 26.29623 28.84535 31.99993 34.26719
17 27.58711 30.19101 33.40866 35.71847
18 28.86930 31.52638 34.80531 37.15645
19 30.14353 32.85233 36.19087 38.58226
20 31.41043 34.16961 37.56623 39.99685
21 32.67057 35.47888 38.93217 41.40106
22 33.92444 36.78071 40.28936 42.79565
23 35.17246 38.07563 41.63840 44.18128
24 36.41503 39.36408 42.97982 45.55851
25 37.65248 40.64647 44.31410 46.92789
26 38.88514 41.92317 45.64168 48.28988
27 40.11327 43.19451 46.96294 49.64492
28 41.33714 44.46079 48.27824 50.99338
29 42.55697 45.72229 49.58788 52.33562
30 43.77297 46.97924 50.89218 53.67196
SURSA: după (Vasilescu, 1992)

356
Cristian Opariuc-Dan

Anexa 4
Praguri de semnificaţie la diferite valori ale testului t pentru loturi de cercetare de
diferite dimensiuni.

Anexa 4 – Praguri de semnificaţie pentru diferitele valori ale lui t


Valori ale lui t pentru diferite praguri de semnificaţie
ipoteză unidirecţională
0,20 0,10 0,05 0,02 0,01 0,002 0,001
df
Valori ale lui t pentru diferite praguri de semnificaţie
ipoteză bidirecţională
0,10 0,05 0,025 0,01 0,005 0,001 0,0005
1 3,078 6,314 12,706 31,821 63,657 318,309 636,619
2 1,886 2,920 4,303 6,965 9,925 22,327 31,599
3 1,638 2,353 3,182 4,541 5,841 10,215 12,924
4 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 1,476 2,015 2,571 3,365 4,032 5,893 6,869
6 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 1,415 1,895 2,365 2,998 3,499 4,785 5,408
8 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 1,337 1,746 2,120 2,583 2,921 3,686 4,015
17 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 1,330 1,734 2,101 2,552 2,878 3,610 3,922
19 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 1,319 1,714 2,069 2,500 2,807 3,485 3,768
24 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 1,315 1,706 2,056 2,479 2,779 3,435 3,707

357
Statistică aplicată în ştiinţele socio-umane

27 1,314 1,703 2,052 2,473 2,771 3,421 3,690


28 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 1,311 1,699 2,045 2,462 2,756 3,396 3,659
30 1,310 1,697 2,042 2,457 2,750 3,385 3,646
31 1,309 1,696 2,040 2,453 2,744 3,375 3,633
32 1,309 1,694 2,037 2,449 2,738 3,365 3,622
33 1,308 1,692 2,035 2,445 2,733 3,356 3,611
34 1,307 1,691 2,032 2,441 2,728 3,348 3,601
35 1,306 1,690 2,030 2,438 2,724 3,340 3,591
36 1,306 1,688 2,028 2,434 2,719 3,333 3,582
37 1,305 1,687 2,026 2,431 2,715 3,326 3,574
38 1,304 1,686 2,024 2,429 2,712 3,319 3,566
39 1,304 1,685 2,023 2,426 2,708 3,313 3,558
40 1,303 1,684 2,021 2,423 2,704 3,307 3,551
50 1,299 1,676 2,009 2,403 2,678 3,261 3,496
60 1,296 1,671 2,000 2,390 2,660 3,232 3,460
80 1,292 1,664 1,990 2,374 2,639 3,195 3,416
100 1,290 1,660 1,984 2,364 2,626 3,174 3,390
150 1,287 1,655 1,976 2,351 2,609 3,145 3,357
Infinit 1,282 1,645 1,960 2,326 2,576 3,090 3,291
SURSA: după (Vasilescu, 1992)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi
din lotul dumneavoastră de cercetare.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, în funcţie de tipul in-


tervalului, unilateral sau bilateral. În cazul în care coeficientul dumneavoastră
de corelaţie este mai mare decât valoarea înscrisă, atunci este semnificativ la
pragul ales. De exemplu, dacă pe un lot de cercetare de 31 de subiecţi am ob-
ţinut o valoare t de 3,68, atunci este semnificativ la un prag de semnificaţie
mai mic de 0,01 (3,68 este mai mare de 0,37, valoarea de referinţă pentru
acest prag).

358
Cristian Opariuc-Dan

Anexa 5
Valori critice ale testului de concordanţă W Kendall. Sunt furnizate atât pragurile
pentru S cât şi, direct, pragurile pentru W.
Anexa 5 – Valori critice ale testului de concordanţă W Kendall
N
k
3 4 5 6 7
Valori pentru un prag de semnificaţie mai mic de 0,05
S W S W S W S W S W
3 - - - - 64,4 0,716 103,9 0,660 157,3 0,624
4 - - 49,5 0,619 88,4 0,552 143,3 0,512 217,0 0,484
5 - - 62,6 0,501 112,3 0,449 182,2 0,417 276,2 0,395
6 - - 75,7 0,421 136,1 0,378 221,4 0,351 335,2 0,333
8 48,1 0,379 101,7 0,318 183,7 0,287 299,0 0,267 453,1 0,253
10 60,0 0,300 127,8 0,256 231,2 0,231 376,7 0,215 571,0 0,204
15 89,8 0,200 192,9 0,171 349,8 0,155 570,5 0,145 864,9 0,137
20 119,7 0,150 258,0 0,129 468,5 0,117 764,4 0,109 1158,7 0,103
Valori pentru un prag de semnificaţie mai mic de 0,01
3 - - - - 75,6 0,840 122,8 0,780 185,6 0,737
4 - - 61,4 0,768 109,3 0,683 176,2 0,629 265,0 0,592
5 - - 80,5 0,644 142,8 0,571 229,4 0,524 343,8 0,491
6 - - 99,5 0,553 176,1 0,489 282,4 0,448 422,6 0,419
8 66,8 0,522 137,4 0,429 242,7 0,379 388,3 0,347 579,9 0,324
10 85,1 0,425 175,3 0,351 309,1 0,309 494,0 0,282 737,0 0,263
15 131,0 0,291 269,8 0,240 475,2 0,211 758,2 0,193 1129,5 0,179
20 177,0 0,221 364,2 0,182 641,2 0,160 1022,2 0,146 1521,9 0,136
Valori suplimentare când n=3 SURSA: după (Radu, și alții, 1993)
p<0,05 p<0,01
9 54,0 0,333 75,9 0,469
12 71,9 0,250 103,5 0,359
14 83,8 0,214 121,9 0,311
16 95,8 0,187 140,2 0,274
18 107,7 0,166 158,6 0,245

359
Statistică aplicată în ştiinţele socio-umane

Anexa 6
Valori critice privind testarea coeficienţilor de corelaţie r Bravais-Pearson
Anexa 6 – Valori critice ale testului de concordanţă W Kendall
Nivel de semnificaţie pentru ipoteză bidirecţională
df= n-2
0,10 0,05 0,02 0,01
1 0.988 0.997 0.9995 0.9999
2 0.900 0.950 0.980 0.990
3 0.805 0.878 0.934 0.959
4 0.729 0.811 0.882 0.917
5 0.669 0.754 0.833 0.874
6 0.622 0.707 0.789 0.834
7 0.582 0.666 0.750 0.798
8 0.549 0.632 0.716 0.765
9 0.521 0.602 0.685 0.735
10 0.497 0.576 0.658 0.708
11 0.476 0.553 0.634 0.684
12 0.458 0.532 0.612 0.661
13 0.441 0.514 0.592 0.641
14 0.426 0.497 0.574 0.628
15 0.412 0.482 0.558 0.606
16 0.400 0.468 0.542 0.590
17 0.389 0.456 0.528 0.575
18 0.378 0.444 0.516 0.561
19 0.369 0.433 0.503 0.549
20 0.360 0.423 0.492 0.537
21 0.352 0.413 0.482 0.526
22 0.344 0.404 0.472 0.515
23 0.337 0.396 0.462 0.505
24 0.330 0.388 0.453 0.495
25 0.323 0.381 0.445 0.487
26 0.317 0.374 0.437 0.479
27 0.311 0.367 0.430 0.471
28 0.306 0.361 0.423 0.463
29 0.301 0.355 0.416 0.456
30 0.296 0.349 0.409 0.449
35 0.275 0.325 0.381 0.418
40 0.257 0.304 0.358 0.393
45 0.243 0.288 0.338 0.372
50 0.231 0.273 0.322 0.354
60 0.211 0.250 0.295 0.325

360
Cristian Opariuc-Dan

70 0.195 0.232 0.274 0.302


80 0.183 0.217 0.256 0.284
90 0.173 0.205 0.242 0.267
100 0.164 0.195 0.230 0.254
SURSA: după (Vasilescu, 1992)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (df) numărul de grade de
libertate (n-2).

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit. În cazul în care coefi-


cientul dumneavoastră de corelaţie este mai mare decât valoarea înscrisă,
atunci este semnificativ la pragul ales. De exemplu, dacă pe un lot de cerceta-
re de 31 de subiecţi am obţinut o valoare r de 0,68, atunci este semnificativ la
un prag de semnificaţie mai mic de 0,01.

361
Statistică aplicată în ştiinţele socio-umane

Anexa 7
Valori de referinţă privind coeficientul de corelaţie biserial şi triserial
Anexa 7 – Valori de referinţă pentru calculul coeficientului biserial şi triserial
p √ p √ p √
q q q
0,350 0,6142 1,288 1,0583 0,401 0,6213 1,268 0,9644 0,451 0,6254 1,257 0,8779
0,351 0,6144 1,287 1,0564 0,402 0,6214 1,267 0,9623 0,452 0,6254 1,257 0,8762
0,352 0,6145 1,287 1,0544 0,403 0,6215 1,267 0,9605 0,453 0,6255 1,256 0,8746
0,353 0,6147 1,286 1,0525 0,404 0,6216 1,267 0,9587 0,454 0,6255 1,256 0,8729
0,354 0,6149 1,286 1,0506 0,405 0,6218 1,267 0,9570 0,455 0,6256 1,256 0,8712
0,355 0,6151 1,285 1,0487 0,406 0,6219 1,266 0,9552 0,456 0,6256 1,256 0,8695
0,356 0,6152 1,285 1,0468 0,407 0,6220 1,266 0,9534 0,457 0,6257 1,256 0,8679
0,357 0,6154 1,284 1,0449 0,408 0,6221 1,266 0,9517 0,458 0,6257 1,256 0,8662
0,358 0,6155 1,284 1,0430 0,409 0,6222 1,265 0,9499 0,459 0,6258 1,256 0,8646
0,359 0,6157 1,283 1,0411 0,410 0,6223 1,265 0,9482 0,460 0,6258 1,256 0,8629
0,360 0,6158 1,283 1,0392 0,411 0,6224 1,265 0,9464 0,461 0,6258 1,256 0,8612
0,361 0,6160 1,283 1,0373 0,412 0,6225 1,265 0,9446 0,462 0,6259 1,255 0,8596
0,362 0,6162 1,282 1,0354 0,413 0,6225 1,264 0,9429 0,463 0,6259 1,255 0,8579
0,363 0,6163 1,282 1,0336 0,414 0,6226 1,264 0,9411 0,464 0,6260 1,255 0,8563
0,364 0,6165 1,281 1,0317 0,415 0,6227 1,264 0,9394 0,465 0,6260 1,255 0,8546
0,365 0,6166 1,281 1,0289 0,416 0,6228 1,264 0,9376 0,466 0,6260 1,255 0,8530
0,366 0,6168 1,280 1,0279 0,417 0,6229 1,263 0,9359 0,467 0,6261 1,255 0,8513
0,367 0,6169 1,280 1,0261 0,418 0,6230 1,263 0,9342 0,468 0,6261 1,255 0,8497
0,368 0,6171 1,280 1,0242 0,419 0,6231 1,263 0,9342 0,469 0,6261 1,255 0,8480
0,369 0,6172 1,279 1,0223 0,420 0,6233 1,263 0,9307 0,470 0,6262 1,255 0,8464
0,370 0,6174 1,279 1,0205 0,421 0,6233 1,262 0,9290 0,471 0,6262 1,255 0,8448
0,371 0,6175 1,278 1,0186 0,422 0,6234 1,262 0,9272 0,472 0,6262 1,254 0,8431
0,372 0,6177 1,278 1,0167 0,423 0,6234 1,262 0,9255 0,473 0,6263 1,254 0,8415
0,373 0,6178 1,278 1,0149 0,424 0,6235 1,262 0,9237 0,474 0,6263 1,254 0,8399
0,374 0,6179 1,277 1,0130 0,425 0,6236 1,261 0,9221 0,475 0,6263 1,254 0,8382
0,375 0,6181 1,277 1,0112 0,426 0,6237 1,261 0,9203 0,476 0,6263 1,254 0,8366
0,376 0,6182 1,276 1,0093 0,427 0,6238 1,261 0,9186 0,477 0,6264 1,254 0,8350
0,377 0,6184 1,276 1,0075 0,428 0,6239 1,261 0,9169 0,478 0,6264 1,254 0,8333
0,378 0,6185 1,276 1,0057 0,429 0,6239 1,261 0,9152 0,479 0,6264 1,254 0,8317
0,379 0,6186 1,275 1,0038 0,430 0,6240 1,260 0,9134 0,480 0,6264 1,254 0,8301
0,380 0,6188 1,275 1,0020 0,431 0,6241 1,260 0,9117 0,481 0,6265 1,254 0,8285
0,381 0,6189 1,274 1,0002 0,432 0,6242 1,260 0,9100 0,482 0,6265 1,254 0,8268
0,382 0,6190 1,274 0,9983 0,433 0,6242 1,260 0,9083 0,483 0,6265 1,254 0,8252
0,383 0,6192 1,274 0,9965 0,434 0,6243 1,260 0,9066 0,484 0,6265 1,254 0,8236
0,384 0,6193 1,273 0,9947 0,435 0,6244 1,259 0,9049 0,485 0,6265 1,254 0,8220
0,385 0,6194 1,273 0,9929 0,436 0,6244 1,269 0,9032 0,486 0,6266 1,254 0,8204
0,386 0,6196 1,273 0,9910 0,437 0,6245 1,259 0,9015 0,487 0,6266 1,254 0,8188
0,387 0,6197 1,272 0,9892 0,438 0,6246 1,259 0,8998 0,488 0,6266 1,254 0,8171

362
Cristian Opariuc-Dan

0,388 0,6198 1,272 0,9874 0,439 0,6246 1,259 0,8981 0,489 0,6266 1,253 0,8155
0,389 0,6199 1,272 0,9856 0,440 0,6247 1,259 0,8964 0,490 0,6266 1,253 0,8139
0,390 0,6200 1,271 0,9838 0,441 0,6248 1,258 0,8947 0,491 0,6266 1,253 0,8123
0,391 0,6202 1,271 0,9820 0,442 0,6248 1,258 0,8930 0,492 0,6266 1,253 0,8107
0,392 0,6203 1,271 0,9802 0,443 0,6249 1,258 0,8913 0,493 0,6266 1,253 0,8091
0,393 0,6204 1,270 0,9784 0,444 0,6250 1,258 0,8896 0,494 0,6266 1,253 0,8075
0,394 0,6205 1,270 0,9766 0,445 0,6250 1,258 0,8880 0,495 0,6266 1,253 0,8059
0,395 0,6206 1,270 0,9748 0,446 0,6251 1,258 0,8863 0,496 0,6266 1,253 0,8043
0,396 0,6208 1,269 0,9730 0,447 0,6251 1,257 0,8846 0,497 0,6266 1,253 0,8027
0,397 0,6209 1,269 0,9712 0,448 0,6252 1,257 0,8829 0,498 0,6267 1,253 0,8011
0,398 0,6210 1,269 0,9694 0,449 0,6253 1,257 0,8813 0,499 0,6267 1,253 0,7995
0,399 0,6211 1,268 0,9676 0,450 0,6253 1,257 0,8796 0,50 0,6267 1,253 0,7979
0,400 0,6212 1,268 0,9659 SURSA: după (Radu, și alții, 1993)

363
Statistică aplicată în ştiinţele socio-umane

Anexa 8
Valori critice pentru testul U Mann-Whitney la un prag de semnificație p < 0,05.
Pentru a fi semnificativ la acest prag, valoarea U trebuie să fie MAI MICĂ SAU CEL
MULT EGALĂ cu valoarea de referință din acest tabel.

Anexa 8 – Valori de referinţă pentru calculul testului U Mann-Whitney


Eșantionul cu numărul cel mai mare de subiecți n1

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

3 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8

4 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14

5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20

6 - 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
Eșantionul cu numărul cel mai mic de subiecți n2

7 - - 8 10 12 14 16 18 20 22 24 26 28 30 32 34

8 - - - 13 15 17 19 22 24 26 29 31 34 36 38 41

9 - - - - 17 20 23 26 28 31 34 37 39 42 45 48

10 - - - - - 23 26 29 33 36 39 42 45 48 52 55

11 - - - - - - 30 33 37 40 44 47 51 55 58 62

12 - - - - - - - 37 41 45 49 53 57 61 65 69

13 - - - - - - - - 45 50 54 59 63 67 72 76

14 - - - - - - - - - 55 59 64 67 74 78 83

15 - - - - - - - - - - 64 70 75 80 85 90

16 - - - - - - - - - - - 75 81 86 92 98

17 - - - - - - - - - - - - 87 93 99 105

18 - - - - - - - - - - - - - 99 106 112

19 - - - - - - - - - - - - - - 113 119

20 - - - - - - - - - - - - - - - 127

SURSA: după (Vasilescu, 1992)

364
Cristian Opariuc-Dan

Anexa 9
Praguri de semnificaţie pentru coeficientul de corelaţie parţială τxy.z Kendall.
Anexa 9 - Valori critice pentru coeficientul de corelaţie parţială Kendall
n 0,05 0,025 0,01 0,005
3 1 1 1 1
4 0,707 1 1 1
5 0,667 0,802 0,816 1
6 0,600 0,667 0.764 0,866
7 0,527 0,617 0,712 0,761
8 0,484 0,565 0,648 0,713
9 0,443 0,515 0,602 0,660
10 0,413 0,480 0,562 0,614
11 0,387 0,453 0,530 0,581
12 0,365 0,430 0,505 0,548
13 0,346 0,410 0,481 0,527
14 0,331 0,391 0,458 0,503
15 0,317 0,375 0,439 0,482
16 0,305 0,361 0,423 0,466
17 0,294 0,348 0,410 0,450
18 0,284 0,336 0,395 0,434
19 0,275 0,326 0,382 0,421
20 0,267 0,317 0,372 0,410
25 0,235 0,278 0,328 0,362
30 0,211 0,251 0,297 0,328
SURSA: Adaptare după S. Maghsoodloo (1975), „Estimates of the quantiles of Kendall's
partial rank correlation coefficient and additional quantile estimates,” Journal of Statisti-
cal Computation and Simulation 4: 155-164

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit. În cazul în care coefi-


cientul dumneavoastră de corelaţie este mai mare decât valoarea înscrisă,
atunci este semnificativ la pragul ales. De exemplu, dacă pe un lot de cerceta-
re de 13 de subiecţi am obţinut o valoare τ de 0,481, atunci este semnificativ
la un prag de semnificaţie mai mic de 0,01.

365
Statistică aplicată în ştiinţele socio-umane

Anexa 10
Praguri de semnificaţie pentru valoarea de referință s în cazul semnelor, la diferite
valori ale lotului de cercetare (n).

Anexa 10 - Valori critice pentru s – testul semnelor


n p<0,05 p<0,01
6-7 0 0
8 0 0
9-11 1 0
12-14 2 1
15-16 3 2
17 4 2
18-19 4 3
20 5 3
21-22 5 4
23 6 4
24 6 5
25 7 5
26-27 7 6
28 8 6
29 8 7
30-31 9 7
SURSA: după (Radu, și alții, 1993)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, pentru s. Dacă valoa-


rea este mai mică decât valoarea înscrisă, atunci este semnificativ la pragul
ales.

366
Cristian Opariuc-Dan

Anexa 11
Praguri de semnificaţie pentru suma de referință a rangurilor în cazul testului
Wilcoxon, la diferite valori ale lotului de cercetare (n).

Anexa 11 - Valori critice pentru s – testul Wilcoxon


n p<0,05 p<0,01
7 2 0
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 20
17 35 23
18 40 28
19 46 32
20 52 38
SURSA: după (Radu, și alții, 1993)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, pentru s. Dacă valoa-


rea este mai mică decât valoarea înscrisă, atunci este semnificativ la pragul
ales.

367
Statistică aplicată în ştiinţele socio-umane

Anexa 12
Praguri de semnificaţie pentru valorile de referință în cazul testului Romanovski,
la diferite valori ale lotului de cercetare (n) și pentru diferite praguri de semnificație.

Anexa 12 - Valori critice pentru Romanovski


n p<0,05 p<0,01
3 4,93 11,46
4 3,56 6,53
5 3,04 5,04
6 2,78 4,36
7 2,62 3,96
8 2,51 3,71
9 2,43 3,54
10 2,37 3,41
11 2,33 3,31
12 2,29 3,23
13 2,26 3,17
14 2,24 3,12
15 2,22 3,08
16 2,20 3,04
17 2,18 3,01
18 2,17 3,00
19 2,16 2,95
20 2,15 2,93
SURSA: după (Sîntion, 2009)

Mod de utilizare:

 Căutaţi rândul din tabel ce conţine în prima coloană (n) numărul de subiecţi.

 Pe rândul selectat, alegeţi pragul de semnificaţie dorit, pentru R. Dacă valoa-


rea este mai mare decât valoarea înscrisă, atunci este semnificativ la pragul
ales.

368
Cristian Opariuc-Dan

Anexa 13
Funcția de repartiție normală normată (funcția cumulativă F (z) a lui Laplace).
Anexa 13 – Funcția cumulativă F(z) Laplace
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7321 0,7337 0,7380 0,7422 0,7454 0,7486 0,7517 0,7519
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8261 0,8289 0,8315 0,830 0,8365 0,8389
1,0 0,8413 0,8438 0,8161 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8702 0,8719 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8914 0,8962 0,8980 0,8997 0,9015
1,3 0,9023 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9729 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9932 0,9932 0,9934 0,9979
2,5 0,9938 0,9940 0,9941 0,9913 0,9945 0,9916 0,9918 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9977 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9981 0,9983 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

369
Statistică aplicată în ştiinţele socio-umane

Anexa 14
Coeficienții „a” pentru testul de normalitate W Shapiro-Wilk.
Anexa 14 – Coeficienții a pentru testul de normalitate W Shapiro-Wilk
n
2 3 4 5 6 7 8 9 10 -
k
1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6052 0,6052 0,5888 -
2 - 0 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291 -
3 - - - 0 0,0875 0,1401 0,1743 0,1976 0,5141 -
4 - - - - - 0 0,0561 0,0947 0,1224 -
5 - - - - - - - 0 0,0399 -
n
11 12 13 14 15 16 17 18 19 20
k
1 0,5601 0,5475 0,5359 0,5251 0,5150 0,5056 0,4958 0,4886 0,4808 0,4743
2 0,3315 0,3325 0,3325 0,3318 0,3306 0,3290 0,3273 0,3253 0,3232 0,3211
3 0,2260 0,2347 0,2412 0,2460 0,2495 0,2521 0,2540 0,2553 0,2561 0,2565
4 0,1429 0,1586 0,1707 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085
5 0,0695 0,0922 0,1099 0,1240 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686
6 0 0,0303 0,0539 0,0727 0,0880 0,1005 0,1109 0,1137 0,1271 0,1334
7 - - 0 0,0240 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013
8 - - - - 0 0,0196 0,0359 0,0496 0,0612 0,0711
9 - - - - - - 0 0,0163 0,0303 0,0422
10 - - - - - - - - 0 0,0140
n
21 22 23 24 25 26 27 28 29 30
k
1 0,4643 0,4590 0,4542 0,4493 0,4450 0,4407 0,4366 0,4328 0,4291 0,4254
2 0,3185 0,3156 0,3126 0,3098 0,3069 0,3043 0,3018 0,2992 0,2968 0,2944
3 0,2578 0,2571 0,2563 0,2554 0,2543 0,2533 0,2522 0,2510 0,2499 0,2487
4 0,2119 0,2131 0,2139 0,2145 0,2148 0,2151 0,2152 0,2151 0,2150 0,2148
5 0,1736 0,1764 0,1787 0,1807 0,1822 0,1836 0,1848 0,1857 0,1864 0,1870
6 0,1399 0,1443 0,1480 0,1512 0,1539 0,1563 0,1584 0,1601 0,1616 0,1630
7 0,1092 0,1150 0,1201 0,1245 0,1283 0,1316 0,1346 0,1372 0,1395 0,1415
8 0,0804 0,0878 0,0941 0,0997 0,1046 0,1089 0,1128 0,1162 0,1192 ,1219
9 0,0530 0,0618 0,0696 0,0764 0,0823 0,0876 0,0923 0,0965 0,1002 0,1036
10 0,0263 0,0368 0,0459 0,0539 0,0610 0,0672 0,0728 0,0778 0,0822 0,0862
11 0 0,0122 0,0228 0,0321 0,0403 0,0476 0,0540 0,0598 0,0650 0,0697
12 - - 0 0,0107 0,0200 0,0284 0,0358 0,0424 0,0483 0,0537
13 - - - - 0 0,0094 0,0178 0,0253 0,0320 0,0381
14 - - - - - - 0 0,0084 0,0159 0,0227
15 - - - - - - - - 0 0,0076

370
Cristian Opariuc-Dan

n
31 32 33 34 35 36 37 38 39 40
k
1 0,4220 0,4188 0,4156 0,4127 0,4096 0,4068 0,4040 0,4015 0,3989 0,3964
2 0,2921 0,2829 0,2876 0,2854 0,2834 0,2813 0,2794 0,2774 0,2755 0,2737
3 0,2475 0,2463 0,2451 0,2439 0,2427 0,2415 0,2403 0,2391 0,2380 0,2368
4 0,2145 0,2141 0,2137 0,2132 0,2127 0,2121 0,2116 0,2110 0,2101 0,2098
5 0,1874 0,1878 0,1880 0,1882 0,1883 0,1883 0,1883 0,1881 0,1880 0,1878
6 0,1641 0,1651 0,1660 0,1667 0,1673 0,1678 0,1683 0,1680 0,1689 0,1691
7 0,1433 0,1449 0,1463 0,1475 0,1487 0,1496 0,1505 0,1513 0,1520 0,1526
8 0,1243 0,1265 0,1284 0,1301 0,1317 0,1331 0,1344 0,1356 0,1366 0,1376
9 0,1066 0,1093 0,1118 0,1140 0,1160 0,1179 0,1196 0,1211 0,1225 0,1237
10 0,0899 0,0931 0,0961 0,0988 0,1013 0,1036 0,1056 0,1075 0,1092 0,1108
11 0,0739 0,0777 0,0812 0,0844 0,0873 0,0900 0,0924 0,0947 0,0967 0,0986
12 0,0585 0,0629 0,0669 0,0706 0,0739 0,0770 0,0798 0,0824 0,0848 0,0870
13 0,0435 0,0485 0,0530 0,0572 0,0610 0,0645 0,0677 0,0706 0,0733 0,0759
14 0,0289 0,0344 0,0395 0,0441 0,0484 0,0523 0,0559 0,0592 0,0622 0,0651
15 0,0144 0,0206 0,0262 0,0314 0,0631 0,0404 0,0444 0,0481 0,0515 0,0546
16 0 0,0068 0,0131 0,0187 0,0239 0,0287 0,0331 0,0372 0,0409 0,0444
17 - - 0 0,0062 0,0119 0,0172 0,0220 0,0264 0,0305 0,0343
18 - - - - 0 0,0057 0,0110 0,0158 0,0203 0,0244
19 - - - - - - 0 0,0053 0,0101 0,0116
20 - - - - - - - - 0 0,0049
n
41 42 43 44 45 46 47 48 49 50
k
1 0,3940 0,3917 0,3894 0,3872 0,3850 0,3830 0,3808 0,3789 0,3770 0,3751
2 0,2719 0,2701 0,2684 0,2667 0,2651 0,2635 0,2620 0,2604 0,2589 0,2574
3 0,2357 0,2345 0,2334 0,2323 0,2310 0,2303 0,2291 0,2281 0,2271 0,2260
4 0,2091 0,2085 0,2078 0,2072 0,2065 0,2058 0,2052 0,2045 0,2038 0,2032
5 0,1876 0,1874 0,1871 0,1868 0,1865 0,1862 0,1859 0,1855 0,1851 0,1847
6 0,1693 0,1694 0,1695 0,1695 0,1695 0,1695 0,1695 0,1693 0,1692 0,1691
7 0,1531 0,1535 0,1539 0,1512 0,1541 0,1548 0,1550 0,1551 0,1553 0,1554
8 0,1384 0,1392 0,1398 0,1405 0,1410 0,1415 0,1420 0,1423 0,1427 0,1430
9 0,1249 0,1259 0,1269 0,1278 0,1286 0,1293 0,1300 0,1306 0,1312 0,1317
10 0,1123 0,1136 0,1149 0,1160 0,1170 0,1180 0,1189 0,1197 0,1205 0,1212
11 0,1004 0,1020 0,1035 0,1049 0,1062 0,1073 0,1085 0,1095 0,1105 0,1113
12 0,0891 0,0909 0,0927 0,0943 0,0959 0,0972 0,0986 0,0998 0,1010 0,1020
13 0,0782 0,0804 0,0824 0,0824 0,0860 0,0876 0,0892 0,0906 0,0919 0,0932
14 0,0677 0,0701 0,0724 0,0745 0,0765 0,0783 0,0801 0,0817 0,0832 0,0816
15 0,0575 0,0602 0,0628 0,0651 0,0673 0,0694 0,0713 0,0731 0,0718 0,0764
16 0,0476 0,0506 0,0534 0,0560 0,0584 0,0607 0,0628 0,0648 0,0667 0,0685
17 0,0379 0,0411 0,0442 0,0471 0,0497 0,0522 0,0546 0,0568 0,0588 0,0608
18 0,0283 0,0318 0,0352 0,0383 0,0412 0,0439 0,0465 0,0489 0,0511 0,0532
19 0,0188 0,0227 0,0263 0,0296 0,0328 0,0357 0,0385 0,0411 0,0436 0,0459
20 0,0094 0,0136 0,0175 0,0211 0,0245 0,0277 0,0307 0,0335 0,0361 0,0386
21 0 0,0045 0,0087 0,0126 0,0163 0,0197 0,0229 0,0259 0,0288 0,0314
22 - - 0 0,0042 0,0081 0,0118 0,0153 0,0185 0,0215 0,0244
23 - - - - 0 0,0039 0,0076 0,0111 0,0143 0,0174
24 - - - - - - 0 0,0037 0,0071 0,0104
25 - - - - - - - - 0 0,0035

371
Statistică aplicată în ştiinţele socio-umane

Anexa 15
Praguri de semnificație pentru testul de normalitate W Shapiro-Wilk.
Anexa 15 – Valori critice pentru testul de normalitate W Shapiro-Wilk
n 0,01 0,02 0,05
3 0,653 0,756 0,767
4 0,686 0,707 0,748
5 0,687 0,715 0,762
6 0,713 0,743 0,788
7 0,730 0,760 0,803
8 0,749 0,778 0,818
9 0,764 0,791 0,829
10 0,781 0,806 0,842
11 0,792 0,817 0,850
12 0,805 0,828 0,859
13 0,814 0,837 0,866
14 0,825 0,846 0,874
15 0,835 0,855 0,881
16 0,844 0,863 0,887
17 0,851 0,869 0,892
18 0,858 0,871 0,897
19 0,863 0,879 0,901
20 0,868 0,884 0,905
21 0,873 0,888 0,908
22 0,878 0,892 0,911
23 0,881 0,895 0,914
24 0,881 0,898 0,916
25 0,888 0,901 0,918
26 0,891 0,904 0,920
27 0,894 0,906 0,923
28 0,896 0,908 0,924
29 0,898 0,910 0,926
30 0,900 0,912 0,927
31 0,902 0,914 0,929
32 0,904 0,915 0,930
33 0,906 0,917 0,931
34 0,908 0,919 0,933
35 0,910 0,920 0,934
36 0,912 0,922 0,935
37 0,914 0,924 0,936
38 0,916 0,925 0,938
39 0,917 0,927 0,939
40 0,919 0,928 0,940

372
Cristian Opariuc-Dan

41 0,920 0,929 0,941


42 0,922 0,930 0,942
43 0,923 0,932 0,943
44 0,924 0,933 0,944
45 0,926 0,934 0,945
46 0,927 0,935 0,945
47 0,928 0,936 0,946
48 0,929 0,937 0,947
49 0,929 0,937 0,947
50 0,930 0,938 0,947
SURSA: după (Vasilescu, 1992)

373

S-ar putea să vă placă și