Sunteți pe pagina 1din 189

UNITATEA I

INTRODUCERE N STATISTIC
Obiective ........................................................................................................... 10
Cunotine preliminarii ..................................................................................... 10
Resurse necesare i recomandri de studiu ...................................................... 10
Durata medie de parcurgere a unitii .............................................................. 10
1.1 Operaii aritmetice de baz ........................................................................ 12
1.2 Operaii aritmetice cu numere reale .......................................................... 12
1.3 Proprieti ale numerelor reale ................................................................... 14
1.4 Indicatori speciali ai operaiilor aritmetice ................................................ 14
1.5 Statistici descriptive i statistici infereniale .............................................. 16
1.6 Niveluri de msur...................................................................................... 16
Rezumat ............................................................................................................ 20
Cuvinte cheie .................................................................................................... 20
Teste de autoevaluare ....................................................................................... 20
Concluzii ........................................................................................................... 21
10

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;
- s dobndeasc abilitatea de a identifica nivelurile de msur folosite n
statistic ;
Cunotine preliminarii
n statistic sunt folosite metode matematice, de la cele mai simple pn la
cele mai complexe. nelegerea materialului prezentat n acest curs nu cere o
cunoatere avansat a matematicii, ci doar o familiarizare cu aritmetica,
algebra elementar i cu unele simboluri matematice folosite cu precdere n
statistic. n aceast seciune se ntreprinde o scurt trecere n revist a unor
concepte i operaii aritmetice, pe care orice cititor cu o pregtire medie n
domeniul matematicii o poate neglija.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
11

1. INTRODUCERE N STATISTIC
Pentru psiholog i, n general, pentru cercettorul n domeniul tiinelor
omului, statistica este un set de metode i tehnici matematice de organizare i
prelucrare a datelor, folosite cu scopul de a rspunde la anumite ntrebri i de a testa
anumite ipoteze. Datele sunt informaii, n principal numerice, care reprezint
anumite caracteristici. De pild, dac dorim s cunoatem nivelul de anxietate al unui
grup, datele pot fi scoruri pe o scal de anxietate, iar tehnicile statistice ne ajut s
descriem i s nelegem aceste scoruri.

tiinele omului folosesc o mare cantitate de date pentru testarea ipotezelor i


formularea unor teorii. Este important de subliniat, ns, c strngerea datelor nu
este, prin sine, suficient pentru cercetarea tiinific. Chiar i cele mai obiective i
mai atent culese informaii, luate ca atare, nu ne pot spune mare lucru. Pentru a fi
utile, datele trebuie s fie organizate, evaluate i analizate. Fr o bun nelegere a
principiilor analizei statistice i fr o aplicare corespunztoare a tehnicilor statistice,
cercettorul nu va putea nelege semnificaia datelor culese.
Analiza statistic este esenial n psihologie, ca i n celelalte tiine ale
omului. Se poate spune, chiar, c psihologia nu poate exista fr statistic. Pe de alt
parte, rolul statisticii este limitat. Aceste trsturi pot fi explicate n raport cu cele trei
etape principale ale unei cercetri. Astfel, n etapa formulrii problemei de cercetare,
cercettorul formuleaz un enun al unei probleme sau al unei ntrebri la care
cercetarea va ncerca s dea un rspuns.
Problema cercetrii poate s provin din diferite surse, incluznd teorii,
cercetri anterioare i comenzi de cercetare. Odat ce a fost formulat problema
cercetrii, procesul intr ntr-o a doua etap, n care se iau decizii despre proiectul de
cercetare i se aleg metodele i tehnicile de cercetare. n aceast etap, cercettorul
decide ce tipuri de cazuri vor fi incluse n cercetare, ct de multe cazuri vor fi luate n
considerare i n ce mod vor fi investigate acestea. Dup ce au fost investigate toate
cazurile i au fost culese toate datele relevante, statistica devine realmente i n mod
direct important pentru analiza rezultatelor. Este important de reinut c dac
cercettorul i-a formulat greit problema sau a proiectat greit cercetarea, atunci
cele mai sofisticate analize statistice sunt lipsite de valoare.
mprumutnd un principiu din tiina computerelor, putem spune c metodele i
tehnicile statistice se supun regulii IGIG = introduci gunoaie, ies gunoaie. Orict ar
fi de util, statistica nu se poate substitui conceptualizrii riguroase i nici alctuirii
unui proiect de cercetare corespunztor problemei avut n vedere.
Multe persoane care nu sunt cercettori trebuie s fie consumatori avizai de
rezultate de cercetare prelucrate statistic. Statistica ofer adesea suport raional
pentru decizii ale managerilor din sistemul educaional, pentru consilierii
educaionali, pentru psihologii clinicieni i pentru alte persoane ale cror profesii
12

sunt legate ntr-un fel sau altul de tiinele omului. Oricare ar fi motivul pentru care
se utilizeaz metode i tehnici statistice, att cercettorii, ct i consumatorii
cercetrilor trebuie s neleag ce fel de informaii ofer statistica i ce fel de
concluzii pot fi trase din aceste informaii.
n aceast curs, statistica va fi privit ca un set de instrumente, indispensabil
pentru creterea cunoaterii n tiinele omului, iar nu ca un scop n sine. Ca atare,
acest subiect nu va fi abordat matematic. Tehnicile statistice prezentate n
capitolele care urmeaz sunt vzute ca instrumente folosite pentru a rspunde unor
probleme de cercetare specifice psihologiei (altfel spus, aceast carte nu este
destinat statisticianului profesionist, ci psihologului). Pe de alt parte, aceasta nu
nseamn c nu vor fi folosite anumite metode matematice. Aceast carte a fost scris
cu intenia de a furniza ndeajuns material matematic pentru a se putea nelege ce
poate face statistica i cum face statistica ceea ce face.

1.1 Operaii aritmetice de baz

Statistica folosete din plin cele patru operaii aritmetice de baz: adunarea
(+), scderea (), nmulirea i mprirea. Rezultatul unei adunri se numete sum,
iar rezultatul operaiei de scdere se numete diferen. nmulirea a dou numere
poate fi denotat algebric n trei feluri: X Y, (X) (Y) sau pur i simplu XY. Numerele
care sunt nmulite se numesc factori, iar rezultatul operaiei de nmulire se numete
produs. mprirea a dou numere poate fi, de asemenea, denotat n trei feluri: X
Y, X/Y sau
Y
X . n notaia folosit aici, X este numrtorul, Y fiind numitorul.
Rezultatul operaiei de mprire se numete ct.
Este important de reinut relaia dintre nmulire i mprire. Astfel, ctul X/Y
poate fi exprimat ca produsul (X) (1/Y). De exemplu, 15/5 = (15) (1/5) = 3.

1.2 Operaii aritmetice cu numere reale


n aritmetica elementar suntem familiarizai cu numerele pozitive, i.e.
numerele mai mari sau egale cu 0. statistica trebuie s foloseasc ceea ce
matematicienii numesc numere reale.
Numerele reale sunt toate numerele pozitive i negative, de la la +.
Astfel, numerele reale includ nu numai numerele ntregi pozitive i negative, ci i
fraciile i numerele zecimale.
Atunci cnd se folosesc att numere pozitive, ct i numere negative ntr-o
operaie aritmetic, se vorbete despre numere cu semn.
Uneori este nevoie s ignorm semnul algebric, + sau , i s considerm doar
valoarea absolut a numrului valoarea numrului indiferent de semnul algebric.
13

De pild, valoarea absolut (modulul) numrului 7, notat 7, este 7. n valori


absolute, 7= +7= 7.
Semnul algebric din faa unui numr afecteaz rezultatul operaiilor algebrice.
n cele ce urmeaz aceste efecte vor fi urmrite pe msur ce se expun regulile pentru
operaiile aritmetice.
Adunarea
Dac dou numere au acelai semn, se adun valorile absolute i se reine
semnul respectiv:
(10) + (25) = 35
(+15) + (+5) = +20
Dac se adun dou numere care au semne opuse, se scade valoarea absolut a
numrului mai mic din valoarea absolut a celuilalt numr i se reine semnul
numrului care are valoarea absolut mai mare:
(10) + (+15) = +5
(+5) + (25) = 20
Scderea
Cnd se scad numere, se schimb semnul numrului de sczut, dup care se
aplic regulile adunrii:
(10) (+5) = (10) + (5) = 15
(10) (25) = (10) + (+25) = +15
nmulirea

Dac se nmulesc dou numere care au acelai semn, produsul este pozitiv,
iar dac se nmulesc dou numere care au semne diferite, produsul este negativ:
(10) (25) = +250
(10) (+15) = 150
mprirea
Dac se mpart dou numere care au acelai semn, ctul este pozitiv, iar dac
se mpart dou numere care au semne diferite, ctul este negativ:
1025 = +0,40
+1510 = 1,50
14

1.3 Proprieti ale numerelor reale


Numerele reale au trei proprieti importante, care sunt utilizate n formulele
i calculele statistice: comutativitatea, asociativitatea i distributivitatea nmulirii
fa de adunare.
Comutativitatea
Dou numere pot fi adunate sau nmulite n orice ordine, rezultatul fiind acelai:
15 + 5 = 5 + 15 = 20
15 5 = 5 15 = 75
Asociativitatea
Termenii unei adunri sau factorii unui produs pot fi grupai oricum, rezultatul fiind
acelai:
10 + (15 + 5) = (10 + 15) + 5 = 10
(10) (15 5) = (10 15) 5 = 750
Distributivitatea
Produsul unui numr X cu suma a dou numere, Y i Z, este egal cu suma produselor
lui X cu Y i lui X cu Z:
5(10 + 15) = 5(10) + (5 15) = 25

1.4 Indicatori speciali ai operaiilor aritmetice


Doi indicatori speciali ai operaiilor aritmetice apar frecvent n statistic:
exponentul, radicalul i operatorul nsumrii. Exponentul indic puterea la care este
ridicat un numr. Astfel, X2 desemneaz ridicarea la ptrat a numrului X sau, altfel
spus, nmulirea numrului X cu sine: X X, iar X4 desemneaz ridicarea la puterea a
ptrat a numrului X: X X X X.
Radicalul indic extragerea rdcinii unui numr. n statistic apare cel mai
frecvent extragerea rdcinii ptrate a unui numr. Rdcina ptrat a unui numr,
indicat de simbolul , este numrul real prin a crui ridicare la ptrat se obine
numrul iniial. Astfel, 36 = 6, deoarece 62 = 36. Rdcina ptrat a unui numr
poate fi indicat i prin exponentul fracional .. De pild, 36 = 61/2 = 6.
Operatorul nsumrii, simbolizat de majuscula din alfabetul grecesc sigma,
, indic nsumarea a ceea ce urmeaz imediat n expresia respectiv.
Date fiind, de pild, numerele
X1 = 3, X2 = 7, X3 = 4, X4 = 2, X5 = 8,
15

expresia
5

i1

X , citit sum de X indice i de la i = 1 la 5 st pentru suma


X1+ X2 +X3+ X4 + X5 = 3 + 7 + 4 + 2 + 8 = 24
Xi este simbolul general pentru numerele din seria de mai sus. Notaia de sub , i = 1,
indic primul numr din sum, X1 = 3, iar numrul nscris deasupra simbolului
arat pn la al ctelea numr are loc nsumarea, X5 = 8. n general, expresia
i

N
i
i
1

arat c nsumarea ncepe cu primul numr din seria respectiv i se ncheie cu cel
de-al N-lea numr. Adesea, notaiile aflate deasupra i dedesubtul simbolului sunt
omise. ntr-un astfel de caz, indic nsumarea de la primul numr pn la ultimul.
Prezentm n continuare dou reguli privind operatorul nsumrii:
Regula 1
Rezultatul obinut prin aplicarea operatorului la produsul dintre o constant
i o serie de numere este egal cu rezultatul obinut prin nmulirea constantei cu suma
numerelor din serie. n simboluri, dac C este o constant,

N
i
i
1

CX

=
N
i
i
1

CX

Fie constanta 2 i numerele X1 = 1, X2 = 3, X3 = 4, X4 = 7; atunci,

4
1

2
i
i

X = (2 1) + (2 3) + (2 4) + (2 7) = 2 + 6 + 8 + 14 = 30

4
1

2
i

X = 2(1 + 3 + 4 + 7) = 2 15 = 30
Regula 2
Rezultatul obinut prin aplicarea operatorului la suma a dou sau mai multe
serii de cte N numere este egal cu rezultatul obinut prin aplicarea operatorului la
fiecare serie n parte i adunarea sumelor astfel obinute.
n simboluri:
i


N
i
N
i
N
i
iiii
111

XYXY

()
16

Fie seriile X1 = 2, X2 = 5, X3 = 3, X4 = 1 i Y1 = 1, Y2 = 3, Y3 = 4, Y4 = 7; atunci,

N
i
ii
1

XY

( ) (X1 + Y1) + (X2 + Y2) + (X3 + Y3) + (X4 + Y4) =


= (2 + 7) + (5 + 9) + (3 + 6) + (1 + 5) = 9 + 1 + 4 + 9 + 6 + = 38

N
i
N
i

XY

ii
11

= (X1 + X2 + X3 + X4) + (Y1 + Y2 + Y3 + Y4) =


= (2 + 5 + 3 + 1) + (7 + 9 + 6 + 5) = 11 + 27 = 38

1.5 Statistici descriptive i statistici infereniale


Pentru cele ce urmeaz, este necesar s definim termenii variabil, populaie
i eantion. O variabil este orice trstur care i poate schimba valoarea de la caz
la caz. De pild, trsturile sex, vrst i venit sunt variabile O populaie este un
grup ce include toate cazurile de care este interesat cercettorul. De pild, toi
cetenii romni cu drept de vot, toi studenii unei universiti i toate rile
europene sunt populaii n nelesul dat acestui cuvnt n statistic. n cele mai multe
situaii de cercetare, populaiile sunt prea mari pentru a fi cercetate. n astfel de
cazuri se selecteaz o submulime strict a populaiei de referin, numit eantion.
Tehnicile statistice se mpart n dou mari clase: statistici descriptive i
statistici infereniale. Statisticile descriptive sunt utilizate pentru a prezenta,
clasifica i nsuma scorurile (valorile) unei variabile. Dac ne intereseaz descrierea
unei singure variabile, atunci vom folosi statistici descriptive pentru a aranja i
prelucra scorurile acelei variabile astfel nct informaia relevant s poat fi
neleas i evaluat rapid.
Statisticile infereniale sunt utilizate pentru a face generalizri despre o
populaie pe baza studiului unui eantion din acea populaie sau, altfel spus, pentru a
trage concluzii despre caracteristicile unei populaii pe baza caracteristicilor
corespunztoare ale unui eantion din acea populaie.

1.6 Niveluri de msur

Orice tehnic statistic implic utilizarea unor operaii, precum ordonarea


unor cazuri sau nsumarea scorurilor unei variabile. nainte de a utiliza o tehnic
statistic, este necesar msurarea variabilei de interes ntr-un mod sau, altfel spus, la
un nivel de msur care s justifice aplicarea operaiilor respective. De pild, multe
tehnici statistice cer adunarea scorurilor unei variabile. Aceste tehnici pot fi utilizate
numai dac variabila este msurat ntr-un mod care permite operaia matematic a
adunrii. Astfel, alegerea unei tehnici statistice depinde de nivelul la care a fost
msurat variabila. Nivelele de msur ale variabilelor sunt clasificate ntr-o ierarhie,
17

n funcie de complexitatea lor. Aceast ierarhie include, n ordinea cresctoare a


complexitii, nivelele nominal, ordinal, de interval i de raport.
Nivelul nominal
Msurarea unei variabile la nivel nominal const din clasificarea diferitelor
cazuri n categoriile prestabilite ale unei variabile. La nivel nominal, clasificarea este
singura procedur de msurare permis. Variabilele sex, denominaia religioas
(apartenena religioas declarat) i culoarea ochilor sunt exemple de variabile
msurabile numai la nivel nominal. La acest nivel categoriile nu pot fi ordonate dup
vreun criteriu, putnd fi comparate unele cu altele exclusiv dup numrul de cazuri
clasificate n fiecare categorie. De pild, dac dorim s msurm denominaia
religioas pentru un grup de persoane, prestabilim categorii precum Cretinortodox,
Catolic, Protestant .a., dar nu putem ordona aceste categorii de la superior la
inferior sau n vreun alt fel.
Criteriile (regulile) msurrii nominale corecte sunt urmtoarele:
Regula excluderii categoriilor
Categoriile variabilei trebuie s fie reciproc exclusive, ceea ce nseamn c
nici un caz nu trebuie s fac parte din mai mult de o categorie. n raport cu aceast
regul, distingem dou tipuri de erori: (1) cel puin dou categorii au cazuri n
comun, fiecare categorie coninnd i cazuri care nu aparin celeilalte categorii; (2)
cel puin dou categorii se afl n raport de incluziune orice caz care face parte
dintr-o categorie face parte i din cealalt categorie, nu i reciproc.
Regula exhaustivitii categoriilor
Trebuie s apar cte o categorie pentru fiecare manifestare a variabilei
respective sau, altfel spus, fiecare caz de interes trebuie s fac parte dintr-o
categorie. Avnd n vedere complexitatea manifestrilor variabilelor considerate n
tiinele omului, pentru respectarea acestei reguli se obinuiete s se adauge o
categorie Alii/Altele.
Regula omogenitii categoriilor
Categoriile trebuie s fie omogene n termenii proiectului de cercetare
urmrit, ceea ce nseamn c proprietile comune cazurilor repartizate n aceeai
categorie trebuie s fie mai importante n raport cu scopurile cercetrii dect
proprietile care difereniaz acele cazuri. S presupunem, de pild, c indivizii
dintr-o colectivitate sunt clasificai n categoriile: folosete de obicei aspirin
efervescent, folosete de obicei aspirin obinuit, folosete uneori un tip de
aspirin i alteori cellalt tip de aspirin, nu folosete de loc aspirin. Aceste
categorii vor fi apreciate ca omogene de un distribuitor de produse farmaceutice, n
timp ce un distribuitor de cafea va prefera clasificarea acelorai indivizi n

categoriile: consum de obicei cafea natural, consum de obicei cafea solubil,


18

consum uneori un tip de cafea i alteori cellalt tip de cafea, nu consum de loc
cafea.
n legtur cu msurarea nominal, trebuie considerat i un al patrulea criteriu
de acceptabilitate, conform cruia o clasificare trebuie s aib sens teoretic sau, altfel
spus, categoriile trebuie s poat fi folosit pentru explicaie i nelegere. Putem
repartiza, de pild, orice n univers n clasa bursucilor sau n clasa non-bursucilor,
dar o astfel de clasificare nu ar avea nici o importan pentru cunoatere.
Nivelul ordinal
n cazul msurrii la nivel ordinal, pe lng clasificarea cazurilor n categorii,
cazurile repartizate ntr-o categorie sau alta pot fi ordonate, comparndu-le unul cu
altul, de la inferior la superior, n funcie de gradul calitativ n care acestea
posed trstura msurat. De pild, variabila nivel de colarizare este msurabil la
nivel ordinal. Categoriile acestei variabile sunt adesea ordonate conform urmtoarei
scheme: 1. nu a absolvit nici o coal; 2. a absolvit cel mult ciclul obligatoriu de
nvmnt;
3. a absolvit cel mult liceul; 4. a absolvit cel mult cursuri postliceale, neuniversitare;
5. a absolvit cel mult cursuri universitare; 6. a absolvit cursuri post universitare.
Aceste categorii sunt exhaustive i reciproc exclusive i pot fi comparate n termenii
numrului de cazuri pe care le conin. n plus, categoriile i cazurile individuale pot
fi comparate sub aspectul trsturii msurate. Putem spune, de pild, c un individ
clasificat n categoria 2 are un nivel de colarizare inferior unui individ clasificat n
categoria 4, respectiv c un individ clasificat n categoria 4 are un nivel de
colarizare superior unui individ clasificat n categoria 2.
La nivel ordinal, dei exist o distan ntre oricare dou cazuri aflate n
categorii diferite, aceast distan nu poate fi descris n termeni precii. n exemplul
nostru, nu suntem ndreptii s spunem, de pild, c distana dintre un individ aflat
n categoria 2 i un individ aflat n categoria 3 este egal cu distana dintre un individ
aflat n categoria 3 i un individ aflat n categoria 4 i nici c un individ aflat n
categoria 4 are un nivel de colarizare de dou ori mai mare dect un individ aflat n
categoria 2.
ntruct la nivel ordinal nu suntem ndreptii s presupunem c distanele
dintre cazuri sau scoruri sunt egale, iar operaiile de adunare, scdere, nmulire i
mprire pot fi aplicate n mod legitim numai dac intervalele dintre scoruri sunt
egale, aceste operaii nu pot fi aplicate variabilelor msurate la nivel ordinal.
Nivelul de interval
n msurarea la nivel de interval, pe lng clasificare i ordonare, distanele
(intervalele) dintre oricare dou cazuri aflate n categorii succesive sunt egale. Cu
alte cuvinte, la acest nivel variabilele sunt msurabile n uniti care au intervale
19

egale. n legtur cu timbrele dintr-o colecie, anul emiterii este un exemplu de


variabil msurabil la nivel de interval: timbrele repartizate ntr-o categorie sau alta
pot fi numrate, se poate spune c un timbru emis, s zicem, n 1990 este mai recent
dect unul emis n 1930, iar intervalele dintre dou clase succesive sunt egale (un
an). Pe de alt parte, dei distanele dintre oricare dou cazuri aflate n categorii
succesive sunt egale, la acest nivel nu se poate determina msura exact (proporia)

n care un caz aflat ntr-o categorie satisface trstura msurat fa de un caz aflat n
alt clas. n exemplul nostru, nu suntem ndreptii s spunem, de pild, c un
timbru emis n 1990 este de 60 de ori mai recent dect un timbru emis n 1930.
Este de remarcat c dac ntr-o msurare de interval apare un punct zero,
acesta este doar un punct de referin arbitrar i nu un punct zero natural sau absolut,
adic un punct care s reflecte absena caracteristicii msurate. De pild, un
termometru cu lichid dilatabil (mercur, alcool etc.) msoar temperatura pe o scal
de interval (Celsius sau Fahreinheit) n care punctul zero (0C sau 0F) este doar
unul dintre punctele de pe scala de msur folosit i nu indic absena temperaturii.
Ca atare, nu suntem ndreptii s spunem, de pild, c dac ieri temperatura a fost
de +1C i astzi sunt +10C, astzi este de zece ori mai cald ca ieri1.
Un exemplu de scal de interval n psihologie este dat de msurarea unei
trsturi de personalitate, precum nivelul de stabilitate emoional. Nu suntem
ndreptii s spunem c o persoan care a obinut un scor de 20 pe o scal de
personalitate n privina acestei trsturi este de dou ori mai stabil emoional dect o
persoan care a obinut scorul 10, deoarece nu exist un punct zero absolut care s
indice absena trsturii msurate.
La acest nivel sunt permise toate operaiile matematice.
Nivelul de raport
n msurarea la nivel de raport, pe lng toate trsturile unei msurri de
interval, se poate determina msura exact (proporia) n care un caz aflat ntr-o
categorie satisface caracteristica msurat, n raport cu un caz aflat ntr-o alt
categorie i apare un punct zero natural, care reflect absena caracteristicii msurate.
De pild, nregistrarea vechimii n munc a angajailor unei firme n ani mplinii
produce date de raport, deoarece unitatea de msur determin intervale egale,
suntem ndreptii s spunem c un angajat cu 10 ani de vechime n munc, s zicem
are o vechime de dou ori mai mare dect un angajat cu cinci ani de vechime n
munc i exist un punct zero natural (0 ani vechime n munc). Venitul, numrul de
copii i numrul de ani de csnicie sunt alte exemple de variabile msurabile la nivel
de raport.
1 Aceast

situaie nu trebuie s fie confundat cu cea a temperaturii Kelvin, care este temperatura
absolut a unui gaz ideal i este determinat de micarea moleculelor sale. Pe scala Kelvin apare
punctul zero absolut (= 273,16C), n care moleculele gazului sunt n repaus, ceea ce indic
absena caracteristicii respective.

20

Nivelul de msur al variabilei (variabilelor) de interes reprezint un criteriu


necesar (nu i suficient) de selecie a tehnicilor statistice. De pild, calcularea mediei
aritmetice este justificat numai pentru variabilele msurate la nivelele de interval i
de raport, deoarece media aritmetic a unei mulimi de date impune adunarea tuturor
datelor respective i mprirea sumei astfel obinute la numrul total de date.
De notat c n psihologie este uneori dificil de a stabili dac o variabil a fost
msurat la nivel ordinal sau la nivel de interval. ntr-un astfel de caz, este util s se
presupun c variabila a fost msurat la nivel de interval, cci acest nivel permite
aplicarea unor tehnici statistice mai sofisticate dect cele permise la nivel ordinal. O
decizie de acest fel, ns, nu este lipsit de riscuri. n anumite situaii este nevoie s
se dovedeasc faptul c analiza statistic respectiv este corect, de pild prin analize
separate ale datelor la ambele nivele de msur i compararea rezultatelor. Dac

rezultatele astfel obinute sunt substanial diferite, supoziia msurrii la nivel de


interval trebuie s fie abandonat.
Rezumat
tiinele omului folosesc o mare cantitate de date pentru testarea ipotezelor i
formularea unor teorii. Este important de subliniat, ns, c strngerea datelor nu
este, prin sine, suficient pentru cercetarea tiinific. Chiar i cele mai obiective i
mai atent culese informaii, luate ca atare, nu ne pot spune mare lucru. Pentru a fi
utile, datele trebuie s fie organizate, evaluate i analizate. Fr o bun nelegere a
principiilor analizei statistice i fr o aplicare corespunztoare a tehnicilor statistice,
cercettorul nu va putea nelege semnificaia datelor culese.
Cuvinte cheie
Nivel nominal;
Nivel ordinal;
Nivel de interval;
Nivel de raport;
Teste de autoevaluare
1. Definii pe scurt ce nseamn statistica pentru un psiholog. (pg. 19 ).
2. Definii nivelul nominal. (pg.25)
3. Definii nivelul ordinal (pg. 26)
21

4. Definii nivelul de interval (pg. 26 )


5. Definii nivelul de raport (pg. 27 )
Concluzii.
n aceast seciune se ntreprinde o scurt trecere n revist a unor concepte i
operaii aritmetice, pe care orice cititor cu o pregtire medie n domeniul
matematicii o poate neglija.

UNITATEA II
PREZENTAREA DATELOR STATISTICE
Obiective ........................................................................................................... 23
Cunotine preliminarii ..................................................................................... 23
Resurse necesare i recomandri de studiu ...................................................... 23
Durata medie de parcurgere a unitii .............................................................. 23
2.1 Procente i proporii .................................................................................. 24
2.2 Raporturi i rate ......................................................................................... 26
2.3 Distribuii de frecvene ............................................................................... 28
2.4 Diagrame i grafice .................................................................................... 34
Rezumat ............................................................................................................ 40
Cuvinte cheie .................................................................................................... 40
Teste de autoevaluare ....................................................................................... 40
Concluzii ........................................................................................................... 40
23

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;

- s dobndeasc abilitatea de a calcula procente i proporii, raporturi i


rate ;
- s dobndeasc abilitatea de a reprezenta grafic datele statistice .
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
24

2.1 PROCENTE I PROPORII


Imaginai-v c suntei eful unui departament al unei mari companii de
asigurri i c, dorind s prezentai directorului executiv al companiei o problem de
personal cu care v confruntai, i spunei urmtoarele: Oamenii din departamentul
meu nu sunt suficient de bine pltii. Dei din cei 154 de angajai permaneni ai
companiei numai 37 sunt n departamentul meu, din cele 17832 de contracte de
asigurare ncheiate n companie anul trecut, 7321 au fost aduse de angajaii din
departamentul pe care l conduc. Probabil c dup o astfel de prezentare, directorul
executiv ar schia o grimas de plictiseal i ar amna elegant discuia pentru o dat
neprecizat. ntruct este vorba de compararea a cte dou numere (personalul
departamentului fa de numrul total de angajai ai companiei i volumul de munc
din departament fa de volumul total de munc din companie pe timp de un an),
procentele i proporiile ar fi fost modaliti mai convingtoare de prezentare a
informaiei.
Definiiile matematice ale proporiei i procentului sunt urmtoarele:
Formula 2.1 Proporie ( p ) =
n
f
Formula 2.2 Procent (%) = 100
n
f
n care f = frecvena sau numrul de cazuri n fiecare categorie
n = numrul total de cazuri (numrul de cazuri din toate categoriile)
Urmtorul tabel ilustreaz calcularea proporiilor i procentelor:
Tabelul 2.1 Opinia fa de interzicerea fumatului n locurile publice
(date fictive)
Opinia Frecvena
(f)
Proporia
p
Procentul
%

Acord 167 0,621 62,1


Dezacord 72 0,268 26,8
Nu tiu/Nu rspund 30 0,111 11,1
TOTAL 269 1,000 100,0
Pentru a afla proporia cazurilor din prima categorie (De acord cu
interzicerea fumatului n locurile publice), notm c avem aici 167 de cazuri ( f =
167) fa de 269 de cazuri n eantion (n = 269). Astfel:
25

Proporie ( p ) =
n
f=
269
167 = 0, 621
Procednd la fel, aflm proporiile cazurilor din celelalte categorii. Rezultatele pot fi
exprimate sub form de procente. Astfel, procentul de cazuri din cea de-a treia
categorie (Nu tiu/Nu rspund) este
Procent (%) = 100
n
f = 100
269
30 = 11,1%
Exprimarea rezultatelor prin procente i proporii este cu deosebire util
atunci cnd dorim s comparm grupuri de mrimi diferite. S presupunem, de pild,
c am adunat urmtoarele date privind dou universiti:
Tabelul 2.2 Numrul de studeni nscrii pe specializri la dou universiti
(date fictive)
Specializarea Universitatea A Universitatea B
Drept 103 312
tiine Economice 82 279
Psihologie 137 188
Sociologie 93 217
TOTAL 415 996
ntruct numrul total de studeni nscrii difer mult de la o universitate la
alta, compararea numrului relativ de studeni nscrii pe specializri la cele dou
universiti este greu de fcut numai pe baza frecvenelor. Care universitate, de pild,
are cel mai mare numr relativ de studeni nscrii la specializarea Psihologie? Pentru
a nlesni comparaiile de acest fel, calculm procentele de studeni nscrii pe
specializri la cele dou universiti:
Tabelul 2.3 Procentul de studeni nscrii pe specializri la dou universiti
(date fictive)
Specializarea Universitatea A
(%)
Universitatea B
(%)
Drept 24,8 31,3
tiine Economice 19,8 28,0

Psihologie 33,0 18,9


Sociologie 22,4 21,8
TOTAL 100,0
(415)
100,0
(996)
Procentele prezentate n acest tabel permit identificarea att a diferenelor, ct
i a asemnrilor dintre cele dou universiti. De pild, Universitatea A are un
procent mai mare de studeni nscrii la specializarea Psihologie, dei numrul
26

absolut de studeni nscrii la acest profil este mai mic dect la Universitatea B, iar la
specializarea Sociologie, procentele sunt aproape aceleai.
Remarcai c sub fiecare coloan de procente am menionat totalul n date
absolute sau, altfel spus, am menionat dimensiunea eantionului.
n general, dac nu se menioneaz baza de comparaie, atunci procentele i
proporiile nu ne spun nimic sau chiar ne pot induce n eroare. S presupunem, de
pild, c o firm care produce buturi rcoritoare anun c ultimul su produs are cu
20% mai puine calorii. Problema este: 20% mai puin fa de ce? Fr menionarea
bazei de comparaie, pretenia firmei respective este lipsit de sens.
Unele reclame impresioneaz prin prezentarea unor proporii, cum ar fi
Dou din trei persoane prefer marca X de produs mrcii Y. Ce ai gndi despre o
astfel de reclam, dac ai afla c, de fapt, au fost chestionate doar trei persoane?
Cunotinele de statistic i dovedesc utilitatea i n mai buna nelegere i evaluare a
informaiilor statistice prezentate n presa scris sau pe posturile de radio i
televiziune.
O eroare care poate s apar n folosirea procentelor const din ncercarea de
a aduna procentele ca i cum ar fi numere cardinale.
S presupunem de pild, c productorul naional de energie electric anun
creterea preului pe kilowatt cu 50%. Pentru justificarea acestei creteri,
productorul arat c au crescut costurile de producie a energiei electrice, dup cum
urmeaz: preul combustibilului folosit n termocentrale cu 10%, costurile
investiiilor n retehnologizare cu 20% i cheltuielile cu fora de munc cu 10%, n
total, o cretere a costurilor cu 50%. O astfel de justificare este greit. Doar o
cretere cu 50% a tuturor costurilor ar justifica o cretere cu 50% a preului pe
kilowatt.
Revenind la exemplul dat la nceputul aceste seciuni, informaia prezentat
directorului executiv al companiei ar fi fost mai convingtoare dac i-ai fi spus:
Dei n departamentul meu lucreaz doar 24% din angajaii companiei, oamenii mei
au adus 41% din contractele de asigurare ncheiate anul trecut n companie.
2.2 RAPORTURI I RATE
Sconsiderm din nou tabelul 2.2. Ct de muli studeni sunt nscrii la
tiine economice n comparaie cu cei nscrii la Psihologie n Universitatea B?
Putem folosi frecvenele pentru a rspunde la aceast ntrebare, dar un rspuns mai
uor de neles poate fi dat folosind un raport.
Raporturile se calculeaz mprind frecvena cazurilor dintr-o categorie la
frecvena cazurilor din alt categorie, permind astfel compararea categoriilor n

termeni de frecven relativ.


Definiia matematic a raportului este urmtoarea:
27

Formula 2.3 Raport =


j
i

f
f
n care i f = numrul de cazuri din categoria i
j f = numrul de cazuri din categoria j
Raportul ne spune exact n ce msur categoria i depete n numr de cazuri
categoria j. n exemplul nostru, raportul studenilor nscrii la tiine Economice fa
de cei nscrii la Psihologie n Universitatea B este:
Raport =
j
i

f
f
=
188
279 = 1,48
Aceasta nseamn c pentru fiecare student nscris la Psihologie exist 1,48 studeni
nscrii la tiine Economice.
Raporturile pot fi multiplicate cu 100 pentru a elimina virgulele.
Astfel, raportul calculat mai sus poate fi prezentat ca 148, ceea ce nseamn c pentru
fiecare 100 de studeni nscrii la psihologie exist 148 de studeni nscrii la tiine
Economice.
Ratele se calculeaz mprind numrul de cazuri reale (efective) la numrul
de cazuri posibile pentru variabila de interes pe o anumit unitate de timp.
De pild, rata brut a natalitii pentru o populaie se calculeaz mprind numrul
de nscui vii la numrul total de persoane din acea populaie pe an, ctul astfel
obinut fiind nmulit cu 1000.
Se spune c rezultatul este exprimat n promile (0/00). Dac, de pild, ntr-un
ora cu 7000 de locuitori s-au nregistrat ntr-un anumit an 100 de nscui vii, rata
brut a natalitii este
Rata brut a natalitii (0/00) = 1000 0,0143 1000 14,3
7000
100 0/00
Aceasta nseamn c pentru fiecare mie de locuitori au fost n acel an 14,3 nscui
vii.
Ca modaliti de a exprima frecvene relative, procentele, proporiile,
raporturile i ratele sunt utile n special atunci cnd dorim s comparm diferite
grupuri sau/i acelai grup n momente diferite.
28

2.3 DISTRIBUII DE FRECVENE


O distribuie de frecvene este o dispunere a valorilor unei variabile care
arat cte cazuri sunt coninute n fiecare categorie a variabilei respective.
Construirea unei distribuii de frecvene este, de regul, primul pas n orice analiz

statistic. S presupunem c urmtoarele date reprezint scorurile obinute de 180 de


subieci la un test de cunotine:
Tabelul 2.4 Scoruri obinute la un test de cunotine
6
8
5
5
6
5
4
2
6
4
4
5
5
6
5
9
5
6
4
2
3
8
5
0
3
7
4
2
5
3
5
2
5
4
5
7
4
9
6
3
5
4
3

8
4
6
4
9
3
3
4
3
4
0
2
9
4
3
6
0
6
9
5
4
6
4
4
1
6
3
4
4
5
5
5
8
5
5
4
1
3
7
4
9
3
6
4
1
5

2
5
1
5
3
4
9
4
8
6
4
5
5
3
7
4
7
5
0
3
4
4
4
3
9
3
0
4
2
6
1
4
3
3
3
5
1
5
0
5
4
6
3
6
8
5

7
4
3
5
6
5
4
4
7
3
7
5
2
4
9
3
6
4
8
5
6
2
4
4
5
5
5
4
6
5
8
4
5
3
2
5
6
5
5
4
9
4
7
5
5
4

4
3
2
5
0
4
9
5
3
6
2
6
7
5
6
4
2
5
5
5
3
4
6
3
6
5
1
4
8
3
5
4
7
4
8
2
5
4
6
5
6
4
5
5
9
4

6
3
3
5
7
5
4
5
0
4
6
5
6
5
4
4
7
5
3
5
3
5
0
5
0
6
5
6
0
5
3
4
0
5
7
3
9
3
6
6
3
3
8
5
7
5

7
5
6
5
5
4
0
4
6
4
8
6
2
4
0
4
5
4
6
5
6
4
4
4
8
4
8
5
5
4
8
5
2
5
2
4
9
4
9
6
4
5
9
5
2
3

9
5
6
3
8
3
5
6
2
3
7
5
6
5
6
5
5
5
6
4
1
4
7
4
9
6
3
4
1
4
6
4
5
5
5
4
5
4
9
4
7
Datele brute din tabelul 2.4 sunt greu de urmrit i greu de neles. Sub
supoziia c este vorba despre date de interval, putem construi o distribuie de
frecvene listnd scorurile diferite n ordine cresctoare i nregistrnd frecvena de
apariie a fiecrui scor. Distribuia de frecvene astfel obinut este urmtoarea:
29

Tabelul 2.5 Distribuia de frecvene a scorurilor obinute la un test de cunotine


Scorul f Scorul 3 Scorul f
24 1 40 4 56 14
25 1 41 5 57 6
26 0 42 5 58 2
27 0 43 4 59 3
28 0 44 4 60 2
29 1 45 7 61 1
30 1 46 9 62 3
31 0 47 7 63 5
32 2 48 8 64 4
33 3 49 11 65 2
34 1 50 7 66 0
35 2 51 3 67 1
36 4 52 6 68 2
37 5 53 7 69 1
38 4 54 7
39 3 55 12
De notat c aceast distribuie de frecvene red i informaia conform creia n
eantionul considerat nu au fost obinute scorurile 26, 27, 28, 31 i 66, aflate ntre cel
mai mic scor i cel mai mare scor.
n distribuia de frecvene din tabelul 2.5 am inclus toate scorurile diferite
cuprinse ntre cel mai mic scor i cel mai mare scor. Cu alte cuvinte, am clasificat
datele ntr-un numr de grupuri sau clase egal cu numrul de scoruri distincte. Dup
cum arat i acest exemplu, construirea unei distribuii n acest fel are drept rezultat o
list destul de lung i nu tocmai clarificatoare. Atunci cnd numrul de scoruri
distincte este mare, se opteaz pentru o prezentare mai compact (mai puin detaliat)
a datelor, prin gruparea acestora n categorii mai largi, care, n cazul datelor de
interval sau de raport, se numesc intervale de clas. n tabelul 2.6 se prezint o
distribuie de frecvene pentru datele din tabelul 2.4, n care apar 10 intervale de
clas, mrimea fiecrui interval fiind egal cu 5 uniti. Adugnd i o coloan de
procente pentru scorurile din fiecare categorie fa de numrul total de scoruri vom
spori claritatea prezentrii.
Tabelul 2.6 Distribuia de frecvene a scorurilor obinute la un test de cunotine
(mrimea intervalului = 5)
Intervale de clas f %
2024 1 0,56
2529 2 1,11
3034 7 3,89
3539 18 10,00
4044 22 12,22
4549 42 23,33
30

5054 30 16,67
5559 37 20,56
6064 15 8,33

6569 6 3,33
TOTAL 180 100,0
Distribuia de frecvene din tabelul 2.6 evideniaz predominana relativ a
scorurilor din intervalele 4549 (23,33%) i 5559 (20,56%). Pe de alt parte,
gruparea scorurilor n acest tabel conduce la o pierdere de informaie fa de
prezentarea din tabelul 2.5. Nu tim, de pild, ci subieci au obinut, respectiv,
scorurile 35, 36, 37, 38 i 39, ci doar c sunt 18 scoruri n intervalul 3539. Apoi, din
tabelul 2.6 nu reiese c n eantionul considerat nu au fost obinute scorurile 26, 27,
28, 31 i 66. S mai notm c, la rigoare, se poate spune c n distribuia de frecvene
din tabelul 2.5, mrimea fiecrui interval este egal cu o unitate.
n general, regulile de construire a unei distribuii de frecvene pentru date de
interval sau de raport n care se utilizeaz intervale de clas de mrime diferit fa
de datele iniiale sunt urmtoarele:
1. Se decide asupra numrului de intervale de clas care vor fi utilizate.
Numrul de intervale de clas nu trebuie s fie att de mare nct s nu permit
sesizarea predominanei relative a anumitor grupri de scoruri, dar nici att de mic
nct s conduc la pierderea unor informaii semnificative. De regul, se utilizeaz
ntre 5 i 20 de intervale, n funcie de numrul de scoruri din mulimea iniial de
date i de scopurile cercetrii.
2. n funcie de numrul de intervale de clas ales, se stabilete mrimea
intervalelor de clas. n mod obinuit, pentru a se nlesni interpretarea distribuiei de
frecvene, se folosesc intervale de clas de aceeai mrime. Mrimea unui interval de
clas se stabilete mprind diferena dintre cel mai mare scor i cel mai mic scor din
mulimea scorurilor date, numit amplitudine a mulimii respective1, la numrul
intervalelor de clas i rotunjind rezultatul pn la un numr ntreg convenabil.
3. Se stabilete primul interval astfel nct s conin cel mai mic scor
(limita sa inferioar s fie mai mic sau egal cu cel mai mic scor). Ultimul interval
va fi acela care conine cel mai mare scor. Intervalele nu trebuie s se suprapun.
4. Se numr scorurile din fiecare interval de clas i se nregistreaz
rezultatele ntr-o coloan etichetat f (frecvena). La sfritul acestei coloane se
prezint numrul total de scoruri. Pentru mai mult claritate, se poate aduga o
coloan de procente.
Svedem cum au fost aplicate aceste reguli pentru construirea distribuiei de
frecvene din tabelul 2.6. Scorul cel mai mare i scorul cel mai mic fiind, respectiv,
69 i 24, amplitudinea scorurilor este 69 24 = 45. Alegnd un numr de 10
intervale de clas, mrimea fiecrui interval de clas este 45 10 = 4,5 5.
Primul interval, care trebuie s includ cel mai mic scor, poate fi oricare dintre
urmtoarele:
31

2024, 2125, 2226, 2327, 2428


Fiecare dintre aceste intervale conine cinci scoruri2, inclusiv scorul 24, deci poate fi
ales. n exemplul nostru am ales intervalul 2024. Ca atare, urmtorul interval este
2529 .a.m.d. pn la ultimul interval, 6569, care conine cel mai mare scor. De
notat c intervalele din tabelul 24 par a nu fi reciproc exclusive. n realitate lucrurile
nu stau aa. Dac, dup intervalul 2024 ar fi urmat 2428, 2832 .a.m.d., am fi
obinut intervale suprapuse dou cte dou.

Scorul 24, de pild, ar fi fcut parte att din intervalul 2024, ct i din
intervalul 2428. Intervalele de clas din tabelul 2.6 sunt exhaustive (acoper toate
scorurile din mulimea iniial de scoruri) i reciproc exclusive (fiecare scor face
parte dintr-un singur interval).
Distribuiile de frecvene pentru date de interval sau de raport pot conine
dou instrumente ajuttoare n prezentarea datelor: frecvene cumulate i procente
cumulate. Frecvenele cumulate prezint numrul de cazuri dintr-un interval de
clas i din toate intervalele de clas precedente, iar procentele cumulate prezint
procentul de cazuri dintr-un interval de clas i din toate intervalele precedente3.
Tabelul urmtor prezint o coloan de frecvene cumulate i o coloan de procente
cumulate pentru distribuia de frecvene din tabelul 2.6
Tabelul 2.7 Distribuia de frecvene a scorurilor
obinute la un test de cunotine
Intervale de clas f fc % %c
2024 1 1 0,56 0,56
2529 2 3 1,11 1,67
3034 7 10 3,89 5,56
3539 18 28 10,0 15,56
4044 22 50 12,22 27,78
4549 42 92 23,33 51,11
5054 30 122 16,67 67,78
5559 37 159 20,56 88,34
6064 15 174 8,33 96,67
6569 6 180 3,33 100,0
TOTAL 180 100,0
Pentru a construi distribuia de frecvene cumulate din tabelul 2.7 ncepem cu
primul interval de clas, 2024. Pentru acest interval, intrarea n coloana de frecvene
cumulate este identic cu numrul de scoruri din interval, 1. Pentru intervalul imediat
urmtor, 2529, se adun numrul de scoruri din interval, 2, cu numrul de scoruri
att pentru frecvenele cumulate, ct i pentru procentele cumulate, c intervalele de
clas apar n tabel n ordine cresctoare.
3 Considernd,

32

din primul interval, 1, obinndu-se frecvena cumulat a intervalului, 3. Se


procedeaz la fel pentru fiecare interval, adunnd frecvena din intervalul respectiv
cu frecvena cumulat n intervalul imediat anterior.
Evident, frecvena cumulat n ultimul interval de clas este egal cu numrul
total de scoruri.
Construirea coloanei de procente cumulate urmeaz acelai model aditiv cu
cel folosit pentru frecvene cumulate.
Astfel, pentru primul interval, intrarea n coloana de procente cumulate este
identic cu procentul din interval.
Pentru intervalul imediat urmtor, procentul cumulat este procentul scorurilor
din interval plus procentul scorurilor din primul interval .a.m.d. pn la ultimul
interval, n care, evident, procentul cumulat este egal cu 100%.
De notat c aceleai rezultate se obin prin aplicarea formulei 2.2, n care f se
nlocuiete cu fc pentru fiecare interval de clas, n fiind numrul total de scoruri.
Frecvenele i procentele cumulate arat felul n care sunt distribuite cazurile

n plaja de scoruri. De pild, tabelul 2.7 arat c o majoritate semnificativ de


subieci din eantion 122, respectiv 67,78% au obinut scoruri mai mici de 55.
Pn acum am considerat scorurile nregistrate la testul de cunotine ca fiind
date discrete. Msurarea unei variabile produce date discrete, dac nregistrarea
acestora se face n categorii reciproc exclusive (nesuprapuse).
Pentru anumite scopuri4, distribuia unei variabile msurabil la nivel de
interval sau de raport trebuie construit ca o serie continu de categorii parial
suprapuse.
Pentru a obine o distribuie continu de scoruri ale unei astfel de variabile, se
pornete de la limitele intervalele de clas stabilite iniial, numite limite stabilite i,
pe baza acestora, se determin aa-numitele limite reale sau exacte.
Pentru determinarea acestor limite, se mparte la doi distana aritmetic
dintre intervalele de clas stabilite iniial, iar rezultatul astfel obinut se scade din
fiecare limit inferioar stabilit i se adun la fiecare limit superioar stabilit.
Tabelul 2.8 prezint rezultatele aplicrii aceste proceduri la intervalele de clas
stabilite n tabelul 2.6.
ntruct distana aritmetic dintre intervalele de clas din tabelul 2.4 este de
o unitate, limitele reale se afl scznd 0,5 din fiecare limit inferioar i adunnd 0,5
la fiecare limit superioar. n tabelul 2.8 este adugat o coloan etichetat centre
de interval.
Centrele de interval sunt punctele situate exact la mijlocul unui interval i se
afl mprind la doi suma limitelor inferioar i superioar ale intervalului5.
De notat c centrele de interval sunt aceleai, indiferent dac folosim limite
stabilite sau limite reale.
4 De

pild, cum vom vedea n seciunea urmtoare, pentru construirea unei histograme.
de interval sunt utile n construirea histogramelor.

5 Centrele

33

Tabelul 2.8 Distribuia de frecvene a scorurilor obinute la un test de cunotine


(incluznd limite reale i centre de interval)
Intervale de clas Limite reale Centre de interval f
2024 19,524,5 22 1
2529 24,529,5 27 2
3034 29,534,5 32 7
3539 34,539,5 37 18
4044 39,544,5 42 22
4549 44,549,5 47 42
5054 49,554,5 52 30
5559 54,559,5 57 37
6064 59,564,5 62 15
6569 64,569,5 67 6
TOTAL 180
Se poate observa c intervalele de clas cu limite reale se suprapun parial
dou cte dou, astfel c distribuia apare ca fiind continu.
Distribuiile de frecvene se pot construi i pentru variabile msurate la
nivelele nominal sau ordinal.
Pentru fiecare categorie a variabilei respective se numr cazurile i se
prezint subtotalurile, precum i numrul total de cazuri (n).

S presupunem, de pild, c suntem interesai de msurarea variabilei nivel de


colarizare pentru cei 180 de subieci care au rspuns la un test de cunotine i c
decidem s folosim urmtoarea scal ordinal de msur: 1. nu a absolvit nici o
coal; 2. a absolvit cel mult ciclul obligatoriu de nvmnt; 3. a absolvit cel mult
liceul; 4. a absolvit cel mult cursuri postliceale, neuniversitare; 5. a absolvit cel mult
cursuri universitare; 6. a absolvit cursuri post universitare.
Folosind numerele de ordine ale categoriilor drept coduri (etichete), tabelul
2.9 ilustreaz construirea unei distribuii de frecvene pentru variabila menionat.
Tabelul 2.9 Nivelul de colarizare pentru cei 180 de subieci
Nivel de colarizare f %
100
2 61 33,89
3 82 45,56
4 24 13,33
5 7 3,89
6 6 3,33
TOTAL 180 100,0
34

Adugarea unei coloane de procente pentru categorii aduce un spor de


claritate a prezentrii.
De notat c la nivelele nominal i ordinal, frecvenele cumulate i procentele
cumulate sunt lipsite de sens.
De asemenea, ntruct la aceste nivele categoriile sunt ntotdeauna discrete,
nu are sens s se determine limitele de clas reale i centrele de interval.
Singura coloan care poate fi adugat la distribuiile de frecvene pentru variabile la
orice nivel de msur este coloana de procente.
2.4 DIAGRAME I GRAFICE
Diagramele i graficele sunt modaliti de prezentare vizual a datelor
statistice i furnizeaz o imagine global a formei unei distribuii.
Alegerea unei modaliti sau a alteia depinde, n principal, de nivelul de msur
folosit i de scopurile cercetrii.
Diagrame circulare
O diagram circular este pur i simplu un cerc mprit ntr-un numr de
sectoare egal cu numrul de categorii ale variabilei de interes, mrimea fiecrui
sector fiind proporional cu procentajul de cazuri din categoria respectiv.
Diagramele circulare pot fi folosite pentru variabile msurate la nivelele nominal i
ordinal. S presupunem c am nregistrat statusul marital al celor 180 de subieci care
au rspuns la un test de cunotine i c am obinut urmtoarele date:
Tabelul 2.10 Statusul marital pentru cei 180 de subieci
Status marital f %
Celibatar63 35,0
Cstorit 90 50,0
Divorat 27 15,0
TOTAL 180 100,0
Persoan care nu a fost niciodat cstorit
S construim o diagram circular pentru datele din acest tabel. ntruct

circumferina unui cerc are 3600, vom aloca 1260 (35% din 3600) pentru prima
categorie, 1800 (50% din 3600) pentru cea de-a doua categorie i 540 (15 % din 3600)
pentru cea de-a treia categorie.
Obinem urmtoarea diagram circular:
35

Figura 2.1 Statusul marital al celor 180 de subieci


Diagrama din figura 2.1 evideniaz vizual preponderena relativ a
subiecilor cstorii i lipsa relativ a subiecilor divorai din eantionul considerat.
Diagrame cu coloane i diagrame cu linii
Diagramele cu coloane reprezint o alt modalitate de prezentare vizual a
datelor statistice. Ca i diagramele circulare, diagramele cu coloane pot fi folosite
pentru variabile msurate la nivelele nominal i ordinal. ntr-o astfel de diagram,
categoriile variabilei de interes apar pe o ax orizontal (axa absciselor), iar
frecvenele (relative) apar pe axa vertical corespunztoare (axa ordonatelor).
Pe axa orizontal se construiesc attea coloane (dreptunghiuri) cu baze egale
cte categorii sunt de prezentat. nlimea unei coloane este proporional cu
frecvena (relativ) a cazurilor din categoria respectiv.
ntruct la nivelele nominal i ordinal categoriile variabilelor sunt discrete,
coloanele sunt separate ntre ele de o distan egal, de regul, cu . din limea lor.
Diagrama cu coloane din figura 2.2 prezint n procente fa de total statusul marital
al subiecilor din tabelul 2.9.
Figura 2.2 Statusul marital al celor 180 de subieci
36

Decizia de a utiliza o diagram circular sau o diagram cu coloane depinde


de numrul de categorii ale variabilei de interes i de scopul cercetrii.
Dac o variabil are mai mult de ase sau apte categorii, atunci este
preferabil o diagram cu coloane, cci o diagram circular cu prea multe categorii
devine prea aglomerat i deci greu de citit.
Diagramele cu coloane sunt utile n special pentru a prezenta frecvenele
(relative) pentru dou sau mai multe categorii ale unei variabile, cu scopul de a face
unele comparaii. S presupunem, de pild, c dorim s facem o comparaie pe sexe a
numrului de angajai ai unei firme care, n primele ase luni ale unui an, au apelat la
serviciile centrului de consiliere psihologic al firmei.
Figura 2.3 prezint datele (fictive) obinute.
Figura 2.3 Numrul de angajai care au apelat la serviciilecentrului de
consiliere psihologic
Aceast diagram arat c, n timp ce numrul de angajai care au apelat la
serviciile centrului de consiliere psihologic n perioada menionat a fost n cretere,
numrul de apelani femei a crescut mai repede dect numrul de apelani brbai.
Aceeai informaie este prezentat printr-o diagram cu linii n figura 2.4.
Figura 2.4 Numrul de angajai care au apelat la serviciile centrului de
consiliere psihologic
37

Ca i diagramele circulare i diagramele cu coloane, diagramele cu linii,


ndeobte cunoscute sub denumirea de grafice, sunt larg folosite n massmedia
pentru prezentarea diferitelor date statistice.

Histograme i poligoane de frecvene


Histogramele sunt modaliti de prezentare vizual a distribuiilor de
frecvene pentru date de interval sau de raport, asemntoare diagramelor cu coloane.
ntruct ntr-o histogram se folosesc limitele de clas reale ale intervalelor
considerate, coloanele apar n contact dou cte dou. Figura 2.5 prezint o
histogram pentru datele din tabelul 2.7.
Figura 2.5 Histograma scorurilor obinute la un test de cunotine
n general, o histogram se construiete dup cum urmeaz:
38

1. Intervalele de clas sau scorurile se dispun pe axa orizontal (axa


absciselor), utiliznd limite de clas reale.
2. Frecvenele se dispun pe axa vertical (axa ordonatelor).
3. Se construiete cte o coloan pentru fiecare interval, cu nlimea
corespunztoare numrului de cazuri din interval i cu limea
corespunztoare limitelor reale ale intervalului.
4. Se eticheteaz axele.
Alt modalitate obinuit de prezentare vizual a distribuiilor de frecvene
pentru variabile de interval sau de raport este poligonul de frecvene.
Un poligon de frecvene utilizeaz centrele de interval i se construiete dup
cum urmeaz:
1. Se plaseaz cte un punct n dreptul fiecrui centru de interval, la
nlimea corespunztoare frecvenei din intervalul respectiv.
2. Punctele astfel obinute se unesc prin linii drepte.
3. Se nchide poligonul, considerndu-se cte un interval suplimentar cu
frecvena zero la fiecare capt al distribuiei i unind prin linii drepte
punctele extreme cu centrele de interval (aflate pe abscis) ale intervalelor
suplimentare.
4. Se eticheteaz axele.
Pentru simplificarea construciei, pe axa absciselor se pot marca direct
centrele de interval, n locul limitelor de clas.
Dei red aceeai informaie ca i histogramele, poligoanele de frecvene sunt
utile pentru a da o imagine general a unei distribuii de frecvene. Figura urmtoare
prezint un poligon de frecvene care red aceeai informaie ca i histograma din
figura precedent. Figura 2.6 Poligonul de frecvene al scorurilor obinute la un test
de cunotine
39

Ogive
Ogivele, numite i curbe cumulative ale frecvenelor sau poligoane de
frecvene cumulate, prezint vizual frecvenele cumulate sau procentele cumulate
ale unei distribuii O ogiv utilizeaz limitele de clas reale superioare ale
intervalelor (LCRS) i se construiete dup cum urmeaz:
1. LCRS se dispun pe axa absciselor.
2. Frecvenele cumulate sau procentele cumulate se dispun pe axa
ordonatelor.
3. Se plaseaz cte un punct n dreptul fiecrei LCRS, la nlimea
corespunztoare frecvenei cumulate sau procentului cumulat n intervalul

corespunztor acelei LCRS.


4. Punctele astfel obinute se unesc prin linii drepte.
5. Ogiva se nchide la stnga, extinznd o linie dreapt ctre limita de clas
real inferioar a primului interval.
6. Se eticheteaz axele.
Figura 2.7 prezint o ogiv pentru datele din tabelul 2.6.
Figura 2.7 Ogiv pentru scorurile obinute la un test de cunotine
Dup cum vom vedea n capitolul 3, o ogiv poate fi utilizat pentru a afla
diferite puncte de interes ntr-o distribuie de frecvene.
n capitolul 11 vom folosi diagrame de mprtiere, numite i diagrame ale
norilor de puncte sau scatergrame6, care sunt modaliti de prezentare vizual a
corelaiei dintre dou variabile msurate la nivel de interval sau de raport.
6 De

la substantivul din limba englez scatter, care nseamn mprtiere.

40

Rezumat
Funcia de baz a statisticii descriptive este prezentarea clar i concis a
rezultatelor cercetrii. n acest capitol sunt expuse o serie de tehnici de organizare i
prezentare rezumativ a datelor: procente, proporii, raporturi, rate, distribuii de
frecvene, diagrame i grafice.
Cuvinte cheie
Centre de interval;
Frecvena cumulat;
Intervale de clas;
Limite de clas reale;
Ogiva;
Histograma.
Teste de autoevaluare
1. Definii pe scurt procentele (pg. 32 ).
2. Definii pe scurt proporiile (pg.32).
3. Definii raporturile. (pg.34)
4. Definii ce este o distribuie de frecvene (pg. 36)
5. Ce sunt frecvenele cumulate ? (pg. 39 )
Concluzii.
Aceast unitate de studiu asigur o introducere general n problematica
statisticii, prezentnd aspecte teoretice legate de: procente i proporii, raporturi i
rate, distribuii de frecven, diagrame i grafice.
Scopul ei este de a familiariza studentul cu elementele fundamentale ale
acestei discipline.

UNITATEA III
MRIMILE TENDINEI CENTRALE
Obiective. 42
Cunotine preliminarii... 42
Resurse necesare i recomandri de studiu. 42
Durata medie de parcurgere a unitii..... 42
3.1 Media aritmetic .......................... 43

3.2 Mediana .................................................................................................... 45


3.3 Modul ....................................................................................................... 48
3.4 Distribuii simetrice i distribuii asimetrice ............................................ 49
3.5 Media aritmetic ponderat ...................................................................... 51
3.6 Mrimile tendinei centrale pentru date grupate ...................................... 52
3.7 Percentile .................................................................................................. 57
Rezumat ......................................................................................................... 60
Cuvinte cheie ................................................................................................. 60
Teste de autoevaluare ..................................................................................... 61
Concluzii ........................................................................................................ 61
42

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;
- s dobndeasc abilitatea de a calcula media, mediana i modul raporturi
i rate ;
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
43

3.1MEDIA ARITMETIC
Media aritmetic se calculeaz doar pentru variabile msurate la nivel de
interval sau de raport i se definete ca rezultat al mpririi sumei tuturor scorurilor
dintr-o mulime de scoruri la numrul total de scoruri din acea mulime. Simbolul
folosit pentru media aritmetic a unui eantion este X , iar pentru media aritmetic a
unei populaii se folosete litera greceasc (miu). ntruct deocamdat va fi vorba
numai despre eantioane, vom folosi simbolul X . Formula matematic a mediei
aritmetice este urmtoarea:
Formula 3.1 X =
n
Xi
n care i X = suma scorurilor
n = numrul total de scoruri.
Spresupunem, de pild, c am nregistrat vrstele pentru un eantion de 11
persoane i c am obinut urmtoarea distribuie de frecvene:
Tabelul 3.1 Vrstele pentru un eantion de 11 persoane
Vrsta f

16 1
17 4
18 1
19 2
23 3
TOTAL 11
44

S remarcm c avem 11 scoruri, cte unul pentru fiecare persoan din eantion.
Pentru a afla media aritmetic a vrstelor persoanelor din eantion sau, pe scurt,
vrsta medie, trebuie s nsumm toate cele 11 scoruri i s mprim rezultatul
obinut la 11. Pentru a scurta procedura, nmulim fiecare scor cu frecvena cu care
apare, adunm rezultatele nmulirilor i mprim suma astfel obinut la 11:
19
11
209
11
(1 16) (4 17) (1 18) (2 19) (3 23)

n
X
Xi
Astfel, media aritmetic a vrstelor persoanelor din eantionul considerat este 19.
Media aritmetic este mrimea statistic folosit cel mai des n aprecierea
tendinei centrale a unei mulimi de scoruri de interval sau de raport deoarece este
uor de calculat i n plus are urmtoarele proprieti importante, pe care le vom
folosi n unele aplicaii ulterioare.
1. Pentru orice distribuie de scoruri, suma abaterilor scorurilor de la media
lor aritmetic este egal cu zero. Abaterea unui scor Xi fa de media aritmetic X
este diferena Xi X , astfel c aceast proprietate se exprim simbolic dup cum
urmeaz:

(X X ) = 0
i

n cuvinte, suma diferenelor dintre scoruri i media lor aritmetic este egal cu 0.
Aceast proprietate, care este folosit n obinerea unor formule statistice mai
complicate, poate fi exprimat i spunnd c pentru orice distribuie de scoruri,
media aritmetic este punctul n jurul cruia toate scorurile se anuleaz, ceea ce face
din media aritmetic o mrime descriptiv adecvat n msurarea centralitii
scorurilor.
2. Pentru orice distribuie de scoruri, suma ptratelor abaterilor scorurilor fa
de media lor aritmetic este mai mic dect suma ptratelor abaterilor scorurilor fa
de oricare alt scor din distribuie, n simboluri:

(X X )2 (X Xj)2
i

n cuvinte, suma ptratelor diferenelor dintre scoruri i media lor aritmetic este mai
mic dect suma ptratelor diferenelor dintre scoruri i oricare alt scor din
distribuie. Aceast proprietate, care este folosit pentru a defini unele mrimi ale

dispersiei i pentru a calcula unele mrimi ale corelaiei1, poate fi exprimat i


spunnd c media aritmetic este punctul n jurul cruia suma abaterilor ptratice ale
scorurilor este minim. Tabelul 3.2 ilustreaz cele dou proprieti ale mediei
aritmetice pentru distribuia de scoruri din tabelul 3.1, n care X = 19.
1 Vezi

capitolul 11.

45

Tabelul 3.2 Proprieti ale mediei aritmetice pentru datele din tabelul 3.1
i X i X X ( i X X )2 ( i X 17) ( i X 17)2
16 3 9 1 1
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
18 1 1 1 1
19 0 0 2 4
19 0 0 2 4
23 4 16 6 36
23 4 16 6 36
23 4 16 6 36
0 74 118
Se poate constata c suma abaterilor ptratice ale scorurilor fa de media aritmetic
(74) este mai mic dect suma abaterilor ptratice ale scorurilor fa de scorul 17
(118). Aceast relaie are loc pentru oricare alt scor din distribuie. Este important de
reinut c n cazul n care o distribuie are foarte puine scoruri extreme (foarte mari
sau foarte mici), media aritmetic poate deveni o mrime neltoare n aprecierea
centralitii. De pild, mulimea de scoruri 15, 20, 25, 30, 35 are media aritmetic 25,
n timp ce media aritmetic a mulimii 15, 20, 25, 30, 3500 este 718, iar media
aritmetic a mulimii 1, 15, 20, 25, 30, este 18,2. Se poate constata c media
aritmetic este afectat disproporionat de prezena scorurilor 3500 i, respectiv, 1.
Media aritmetic este tras ntotdeauna n direcia scorurilor extreme, mai ales n
direcia celor relativ mari2. Acesta este un motiv pentru care se recurge uneori la o
alt mrime a tendinei centrale: mediana.
3.2MEDIANA
Mediana poate fi determinat att pentru variabile msurate la nivel de
interval sau de raport, ct i pentru variabile msurate la nivel ordinal. Ca i n cazul
mediei aritmetice, i n cazul medianei vom folosi dou simboluri: X~ pentru
mediana unui eantion i m~ pentru mediana unei populaii. De asemenea, ntruct
deocamdat va fi vorba numai despre eantioane, vom folosi simbolul X~ .
2 Aceasta

este sursa glumei numite paradoxul statisticii: dac X are 10 paltoane i Y nu are nici un
palton, atunci X i Y au n medie cte 5 paltoane.

46

Mediana X~ a unei mulimi de scoruri este punctul de mijloc al acelei


mulimi, n sensul c numrul de cazuri cu scoruri mai mici sau egale cu X~ este egal
cu numrul de cazuri cu scoruri mai mari sau egale cu X~ . Pentru a afla mediana unei
mulimi de n scoruri, scorurile respective se aranjeaz mai nti n ordine cresctoare
sau descresctoare. Dac n este impar, atunci mediana este, evident, scorul cazului de

mijloc. Dac n este par, atunci vor fi dou cazuri de mijloc i orice valoare cuprins
ntre cele dou scoruri ale cazurilor de mijloc satisface definiia medianei. ntr-un
astfel de situaie, dac scorurile sunt de interval sau de raport, prin convenie, se ia
drept median media aritmetic a celor dou scoruri ale cazurilor de mijloc.
n exemplu din tabelul 3.1 avem de-a face cu 11 cazuri. Vrsta median este
18, deoarece avem n eantion cinci persoane cu vrste mai mici de 18 ani i cinci
persoane cu vrste mai mari de 18 ani. S presupunem acum c am nregistrat
vrstele pentru un eantion de 7 persoane i c am obinut urmtoarea distribuie de
frecvene: Tabelul 3.3 Vrstele pentru un eantion de 7 persoane
Vrsta f
26 2
28 1
29 1
30 1
32 1
60 1
TOTAL 7
Pentru datele din acest tabel, X~ = 29: trei persoane au vrste mai mici de 29
de ani i alte trei persoane au vrste mai mari de 29 de ani. De remarcat c vrsta
tipic a persoanelor din acest eantion este mai bine reprezentat de vrsta median
dect de media aritmetic a vrstelor, 33, care este tras n sus de scorul 60. Acum,
dac adugm la acest eantion o persoan de 31 de ani, avem 8 cazuri cu scorurile
26, 26, 28, 29, 30, 31, 32 i 60. Astfel, apar dou cazuri de mijloc, unul cu scorul 29
i cellalt cu scorul 30, i orice numr cuprins ntre aceste dou scoruri satisface
definiia medianei. Ca atare, mediana este media aritmetic a scorurilor celor dou
cazuri de mijloc: 29,5.
Urmtoarele dou exemple arat de ce este inclus expresia sau egale n
definiia medianei. S presupunem c am nregistrat numrul de copii pentru un
eantion de 16 familii, rezultatele obinute fiind urmtoarele:
47

Tabelul 3.4 Numrul de copii pentru un eantion de 16 familii


Numr
de copii
f
03
14
27
32
TOTAL 16
n eantionul considerat n tabelul 3.4, 8 familii au 0, 1 sau 2 copii, iar
celelalte 8 familii au cte 2 sau 3 copii, astfel c cea de-a 8-a i cea de-a 9-a familie
(cele dou cazuri de mijloc) au acelai numr de copii: 2. Ca atare, mediana aceste
mulimi de scoruri este 2: 8 familii au fiecare un numr de copii mai mic sau egal cu
2, iar celelalte 8 familii au fiecare un numr de copii mai mare sau egal cu 2.
Tot aa, n mulimea impar de scoruri
1, 2, 3, 5, 5, 5, 7, 10, 12

scorul median este 5, cci avem patru scoruri mai mici sau egale cu 5 (1, 2, 3, 5) i
patru scoruri mai mari sau egale cu 5 (5, 7, 10, 12).
Urmtorul exemplu ilustreaz determinarea medianei pentru variabile de
nivel ordinal. S presupunem c ntr-o cercetare privind modul de petrecere a
timpului liber, 11 subieci au fost solicitai s rspund la ntrebarea Ct de des ai
fost la cinematograf n ultimele ase luni? Rspunsurile la aceast ntrebare au fost
nregistrate pe o scal ordinal cu urmtoarele categorii: 1. Deloc, 2. Foarte rar, 3.
Rar, 4. Des, 5. Foarte des. Aranjnd scorurile n ordine descresctoare, datele sunt
urmtoarele:
Tabelul 3.5 Ct de des mergei la cinematograf?
Subiectul Rspunsul
A Foarte des
B Foarte des
C Foarte des
D Foarte des
E Foarte des
F Des
G Foarte rar
H Foarte rar
I Foarte rar
J Foarte rar
K De loc
48

Avnd un total de 11 cazuri, cazul de mijloc este al 6-lea, F, aa nct rspunsul


median este scorul celui de-al aselea caz: Des. Dac adugm un subiect care d
rspunsul De loc, avem dou cazuri de mijloc: cel de-al 6-lea, F, i cel de-al 7-lea, G.
n aceast situaie, teoretic vorbind, orice rspuns ntre Des i Foarte rar satisface
definiia medianei. Practic, pe scala menionat, ntre Des i Foarte rar avem
rspunsul Rar, pe care l vom considera drept rspuns median: 6 subieci merg la
cinematograf foarte des sau des, iar ceilali ase subieci merg la cinematograf foarte
rar sau deloc.
Dac numrul de cazuri din eantion este relativ mic, identificarea cazului sau
cazurilor de mijloc este neproblematic. Pentru eantioane mari, identificarea
menionat poate fi nlesnit prin folosirea unor calcule simple. Astfel, dup
ordonarea scorurilor, dac n este impar, cazul de mijloc este dat de formula
(n 1) 2; dac n este par, primul caz de mijloc este dat de formula n 2 , iar cel de-al
doilea caz de mijloc de formula (n 2) 1. Ca exerciiu, determinai mediana
scorurilor din tabelul 2.4 din capitolul anterior. (Putei folosi tabelul 2.5? Dac da,
cum? De notat c mediana nu este tras n direcia valorilor extreme, deoarece
aceast mrime ia n considerare doar ordinea scorurilor, nu i magnitudinea efectiv
a acestora3. Relund un exemplu dat mai sus, mulimea de scoruri 15, 20, 25, 30, 35
are aceeai median ca i mulimea 15, 20, 25, 30, 3500: scorul 25. S mai remarcm
c mediana i media aritmetic ale unei mulimi de scoruri pot s coincid, acesta
fiind, de pild, cazul mulimii 15, 20, 25, 30, 35. Mediana nu poate fi determinat
pentru variabile de nivel nominal, deoarece aceste variabile nu au scoruri care s
poat fi ordonate. Mrimea tendinei centrale care poate fi folosit la nivel nominal,

ca i la toate celelalte nivele de msur, este modul.


3.3MODUL
Modul unei mulimi de scoruri (Mo) este scorul care apare cel mai frecvent n
acea mulime. De pild, modul datelor din tabelul 3.4 este 2, deoarece este scorul
care apare de cele mai multe ori n eantionul considerat, iar modul datelor din
tabelul 3.5 sau, altfel spus, rspunsul modal, este Foarte des, deoarece este rspunsul
care apare de cele mai multe ori n raport cu celelalte rspunsuri.
Modul este singura mrime care poate fi folosit n msurarea tendinei
centrale pentru variabile de nivel nominal. Modul unei astfel de variabile este cea
mai mare categorie a sa sau, altfel spus, categoria cu cele mai multe cazuri. De pild,
modul variabilei status marital pentru distribuia din tabelul 2.10 din capitolul
anterior este categoria Cstorit.
3 Acesta

este i motivul pentru care mediana se folosete cu precdere pentru date ordinale.

49

Exemplele date pn acum ilustreaz cazul mulimilor unimodale de scoruri,


adic a mulimilor n care exist un singur scor care apare mai frecvent dect
celelalte. Dac ntr-o mulime de scoruri exist dou astfel de scoruri, ca n exemplul
3, 3, 3, 5, 5, 5, 7, 10, 12,
atunci se spune c mulimea respectiv este bimodal. Desigur, este posibil ca o
mulime de scoruri s aib trei sau mai multe moduri, dup cum este posibil ca o
mulime de scoruri s nu aib mod, fiecare scor din mulimea respectiv aprnd de
un numr egal de ori. Pe de alt parte, este posibil ca o mulime unimodal s nu aib
modul localizat la mijloc.
Fie, de pild, urmtoarea mulime de scoruri:
44, 44, 46, 46, 46, 48, 50, 50, 50, 50, 50.
Modul aceste mulimi este 50, n timp ce mediana este 48, iar media
aritmetic este aproximativ 47,6.
Pretenia c modul este o mrime a tendinei centrale trebuie s fie neleas
n sensul c aceast mrime indic localizarea celei mai mari grupri sau concentrri
de scoruri dintr-o mulime unimodal, ceea ce se poate dovedi important n special
pentru date de nivel nominal.
S presupunem c ultima mulime de scoruri de mai sus reprezint o
nregistrare a msurilor sacourilor vndute ntr-un magazin timp de o sptmn.
Astfel, modul msurilor de sacouri vndute sau, altfel spus, msura modal a
acestora este de mai mare interes pentru directorul magazinului dect mediana
msurilor de sacouri vndute.
Pe de alt parte, s observm c n acest caz, media aritmetic a scorurilor nu
este n nici un fel semnificativ: numerele care indic msuri de sacouri sunt
convenionale, astfel c ele puteau fi nlocuite, de pild, cu litere.
3.4 DISTRIBUII SIMETRICE I DISTRIBUII ASIMETRICE
Dup cum am artat, dac lucrm cu date nominale, singura mrime a
tendinei centrale pe care o putem folosi este modul, dac datele sunt ordinale, putem
folosi att modul, ct i mediana, iar dac datele sunt de interval sau de raport, putem
folosi toate cele trei mrimi ale tendinei centrale.
Dup cum vom vedea n capitolele dedicate statisticii infereniale, la nivel de
interval sau de raport media aritmetic este cu deosebire util pentru trage concluzii
despre caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale

unui eantion din acea populaie. Pentru scopuri descriptive ns, dac lucrm cu date
de interval sau de raport, este recomandabil s folosim toate mrimile tendinei
centrale, deoarece, pe de o parte, ele pot furniza informaii relativ diferite i, pe de
50

alt parte, compararea valorilor mediei aritmetice i medianei furnizeaz informaie


despre forma unei distribuii. Astfel, media aritmetic i mediana au aceeai valoare
numai atunci cnd distribuia este simetric. ntr-un astfel de caz, dac distribuia
este unimodal, atunci i modul are aceeai valoare cu celelalte dou mrimi. S
considerm urmtorul poligon de frecvene rotunjit, care prezint o distribuie de
frecvene simetric: Figura 3.1 O distribuie simetric ( X = X~ )
Frecvena

n aceast distribuie, media aritmetic, mediana i modul apar mpreun n cel mai
nalt punct al curbei. Acest punct este modul, deoarece este punctul n care sunt
nregistrate cele mai multe cazuri, este mediana, deoarece numrul de cazuri
nregistrate la stnga acestui punct este egal cu numrul de cazuri nregistrat la
dreapta sa i este media aritmetic, deoarece scorurile aflate n partea dreapt ntrec
scorul median n aceeai msur n care scorurile aflate n partea stng sunt mai
mici dect scorul median. Atunci cnd o distribuie are doar cteva scoruri foarte
mari sau, altfel spus, scorurile relativ mici sunt predominante, media aritmetic este
mai mare dect mediana. ntr-un astfel de caz, se spune c distribuia respectiv
prezint o asimetrie pozitiv. Figura 3.2 ilustreaz cazul unei distribuii cu asimetrie
pozitiv. Figura 3.2 O distribuie cu asimetrie pozitiv ( X X~ )
Frecvena

Atunci cnd o distribuie are doar cteva scoruri foarte mici sau, altfel spus, scorurile
relativ mari sunt predominante, media aritmetic este mai mic dect mediana. ntrun
astfel de caz, se spune c distribuia respectiv prezint o asimetrie negativ.
Figura 3.3 ilustreaz cazul unei distribuii cu asimetrie negativ.
X , X~
X~ X
~
51

Figura 3.3 O distribuie cu asimetrie negativ ( X X~ )


Frecvena

Dup cum se poate constata, compararea mediei aritmetice cu mediana ne


indic imediat dac distribuia respectiv este sau nu simetric i dac nu, ne indic
sensul asimetriei.
3.5MEDIA ARITMETIC PONDERAT
Spresupunem c ntr-o serie de 140 de studeni sunt 86 de biei i 54 de
fete. tim c la examenul de statistic, media aritmetic a notelor obinute de fete
este 8,45 i media aritmetic a notelor obinute de biei este 7,33. Ne intereseaz
media aritmetic a celor dou grupuri combinate. Dac am calcula pur i simplu
media aritmetic a celor dou medii, am grei, deoarece grupurile difer n privina
numrului de studeni i deci de scoruri. Pentru a afla media aritmetic a celor dou
grupuri combinate, vom calcula media aritmetic ponderat. Pentru aceasta,
nmulim numrul de scoruri din fiecare grup cu media aritmetic a grupului
respectiv, adunm produsele astfel obinute, iar rezultatul l mprim la numrul total
de scoruri. n simboluri:

Formula 3.2
N
nX
X i i
n care ni = numrul de scoruri din fiecare grup
i X = media aritmetic a fiecrui grup
N = numrul total de scoruri
n exemplul nostru avem:
N
nX
X i i =
140
(86 7,33) (54 8,45)
=
140
1086,68 = 7,76
Dac am fi fcut media aritmetic a valorilor 7,33 i 8,45 am fi obinut 7,89,
ceea ce ar fi fost incorect, cci grupurile difer n privina numrului de scoruri.
X X~
52

Evident, media aritmetic ponderat poate fi calculat i pentru mai mult de dou
grupuri.
Este important de remarcat c, aplicate la aceeai mulime de scoruri,
formulele 3.1 i 3.2 produc acelai rezultat. Pentru ilustrare, fie urmtoarea mulime
de 10 scoruri, mprit n dou grupuri: n1 = 5, 5, 5, 6, 7, 7, n2 = 7, 8, 9, 10.
Media aritmetic pentru ntreaga mulime este
X=
n
Xi =
10
(5 3) 6 (7 3) 8 9 10
=
10
69 = 6,90
Acum, mediile aritmetice ale celor dou grupuri sunt, respectiv, 1 X = 5,83 i 2 X =
8,50, astfel c media aritmetic ponderat a celor dou grupuri este
N
nX
X i i =
10
(6 5,83) (4 8,50)
=
10
35 34

=
10
69 = 6,90
nc odat, calculul mediei aritmetice a celor dou medii conduce la un rezultat
greit: 7,16.
3.6 MRIMILE TENDINEI CENTRALE PENTRU DATE GRUPATE
n cele ce urmeaz sunt expuse tehnicile statistice de aflare a mrimilor
tendinei centrale pentru date de interval sau de raport grupate n distribuii de
frecvene. Aceste tehnici i dovedesc utilitatea n dou situaii.
O prim situaie apare atunci cnd trebuie s lucrm cu o mulime mare de
scoruri brute i nu dispunem de un calculator sau de un computer sau decidem c
valorile aproximative ale acestor mrimi sunt suficiente pentru scopurile noastre.
O a doua situaie apare atunci cnd avem de-a face cu date din surse
secundare, deja organizate n distribuii de frecvene cu intervale de clas, fr s
avem acces la scorurile brute iniiale. ntr-o astfel de situaie, ntruct nu cunoatem
modul n care scorurile sunt realmente distribuite, nu putem dect s aproximm
mrimile tendinei centrale ale distribuiilor respective.
Pentru ilustrare, s considerm exemplul privind scorurile obinute de 180 de
subieci la un test de cunotine, pe care am lucrat n capitolul anterior. nainte de a
trece mai departe, prezentm valorile calculate pentru scorurile brute, pentru a le
putea compara cu cele calculate pentru datele grupate.
Astfel, n exemplul nostru avem:
X = 49,22 X~ = 49 Mo = 56
Sconsiderm acum distribuia de frecvene a scorurilor obinute de 180 de
subieci la un teste de cunotine:
Tabelul 3.6 Distribuia de frecvene a scorurilor obinute la un test de cunotine
53

Intervale de clas f
2024 1
2529 2
3034 7
3539 18
4044 22
4549 42
5054 30
5559 37
6064 15
6569 6
TOTAL 180
Media aritmetic pentru date grupate
Pentru a calcula media aritmetic a unei mulimi de scoruri trebuie s
cunoatem dou valori: suma tuturor scorurilor, Xi, i numrul de scoruri, n. n
cazul distribuiei din tabelul 3.6, nu tim dect c n = 180. Deoarece datele au fost
grupate, nu cunoatem distribuia exact a scorurilor individuale i deci nu putem
determina exact Xi.

Sconsiderm primul interval (2024). n acest interval se afl un singur caz,


dar nu tim care este scorul acestuia. Pentru a depi aceast lacun, vom presupune
c scorul acestui caz este situat n centrul intervalului. Aceast presupunere revine la
a spune c scorul cazului din acest interval este 22, acest numr aproximnd scorul
su efectiv. n cel de-al doilea interval (2529) se afl dou cazuri. i aici vom
presupune c scorurile celor dou cazuri sunt situate n centrul intervalului,
presupunere care revine la a spune c fiecare dintre cele dou cazuri are scorul 27.
Sub aceast presupunere, suma scorurilor individuale din cel de-al doilea interval
este 54 (272), acest numr aproximnd suma real a scorurilor individuale din
interval. Procednd la fel pentru celelalte intervale i adunnd apoi rezultatele, vom
obine un numr care aproximeaz suma real a tuturor scorurilor individuale. n
fine, mprind valoarea astfel obinut la numrul de scoruri (180), vom obine
media aritmetic aproximativ a scorurilor.
n general, supoziia calculului mediei aritmetice pentru date grupate este c
n fiecare interval de clas, toate scorurile sunt situate n centrul intervalului
respectiv. Sub aceast supoziie, procedura de calcul este urmtoarea:
1 Pentru fiecare interval i, se calculeaz centrul mi.
2 Numrul de cazuri din fiecare interval, fi, se nmulete cu centrul
intervalului respectiv, mi: fimi.
3 Se calculeaz fimi, iar valoarea astfel obinut se mparte la numrul de
scoruri n.
ntruct fimi Xi, vom avea:
54

Formula 3.3
n
fm
X i i
Pentru a aplica aceast procedur la exemplul nostru, vom aduga dou
coloane la distribuia de frecvene din tabelul 3.6, una pentru centrele de interval i
una pentru produsele dintre centrele de interval i frecvene:
Tabelul 3.7 Calculul mediei aritmetice pentru date grupate
Intervale de clas f m fm
2024 1 22 22
2529 2 27 54
3034 7 32 224
3539 18 37 666
4044 22 42 924
4549 42 47 1974
5054 30 52 1560
5559 37 57 2109
6064 15 62 930
6569 6 67 402
TOTAL 180 8865
Totalul ultimei coloane este valoarea pentru fimi. mprind aceast valoare la
numrul total de cazuri obinem media aritmetic aproximativ a scorurilor:

n
fm
X i i =
180
8865 = 49,25
Dup cum se poate constata, valoarea obinut n acest fel reprezint o deosebit de
bun aproximare a valorii efective a mediei aritmetice.
Mediana pentru date grupate
tim c pentru a afla mediana unei distribuii ordonate de scoruri trebuie s
identificm mai nti cazul sau cazurile de mijloc al distribuiei respective. Atunci
cnd se lucreaz cu date grupate, se introduce o simplificare: cazul de mijloc este
identificat la n2, indiferent dac n este par sau impar. n exemplul nostru, avnd 180
de cazuri n eantion, cazul de mijloc va fi identificat la 1802, i.e. al 90-lea caz. Mai
departe, problema este de a localiza acest caz i apoi de a afla scorul asociat lui.
Evident, atunci cnd datele sunt grupate, cazul de mijloc se afl ntr-un interval de
clas. Supoziia calculului medianei pentru date grupate este c n fiecare interval de
clas, toate scorurile sunt distribuite uniform ntre limitele reale ale intervalului.
Astfel, dup ce identificm intervalul care conine cazul de mijloc, vom afla scorul
respectiv pe baza acestei supoziii. Pentru identificarea intervalului de clas care
conine cazul de mijloc, adugm o coloan de frecvene cumulate la distribuia de
frecvene iniial:
55

Tabelul 3.8 Calculul medianei pentru date grupate


Intervale de clas f fc
2024 1 1
2529 2 3
3034 7 10
3539 18 28
4044 22 50
4549 42 92
5054 30 122
5559 37 159
6064 15 174
6569 6 180
TOTAL 180
Inspectnd coloana de frecvene cumulate, constatm c 50 de cazuri s-au
cumulat sub limita superioar a intervalului 4044 i c 92 de cazuri s-au cumulat
sub limita superioar a intervalului 4549. tim acum c mediana scorul asociat
celui de-al 90-lea caz este o valoare cuprins ntre limita real inferioar i limita
real superioar ale intervalului 4549, adic ntre 44,5 i 49,5. Mai departe,
presupunem c toate cele 42 de cazuri situate n acest interval sunt distribuite
uniform ntre limitele reale ale intervalului, cazul 51 fiind situat la limita real
inferioar (44,5), iar cazul 92 la limita real superioar (49,5). n intervalul care
conine mediana sunt 42 de cazuri, cazul 92, cumulat n acest interval, fiind al 42-lea;
prin urmare, cazul 90 este al 40-lea din cele 42 din interval4. Aceasta revine la a
spune c, pentru a afla al ctelea caz este cazul 90, scdem din 90 frecvena cumulat

a cazurilor aflate sub intervalul n care se afl mediana: 90 50 = 40. Dac, aa cum
am presupus, scorurile sunt distribuite uniform, atunci cazul 90 se afl la 4042 din
distana dintre 44,5 i 49,5. Acum, 4042 din 5 (mrimea intervalului) este 4,76,
astfel nct putem aproxima mediana la 44,5 + 4,76 sau 49,26.
n general, sub supoziia c n fiecare interval de clas toate scorurile sunt distribuite
uniform ntre limitele reale ale intervalului, procedura de calcul a medianei pentru
date grupate este urmtoarea:
1. Se afl cazul de mijloc, dat de n/2.
2. Se construiete o coloan de frecvene cumulate i cu ajutorul acesteia se
identific intervalul care conine cazul de mijloc.
3. Se afl al ctelea caz din interval este cazul de mijloc, scznd din n/2
frecvena cumulat a cazurilor aflate sub intervalul identificat n pasul2.
4. Numrul obinut n pasul 3 se mparte la numrul de cazuri din interval.
5. Numrul obinut n pasul 4 se nmulete cu mrimea intervalului.
6. Numrul obinut n pasul 5 se adun cu limita de clas real inferioar a
intervalului care conine cazul de mijloc. Rezultatul reprezint valoarea
aproximativ a medianei.
4 Cu

alte cuvinte, cazul 51 este primul, 52 al doilea, , 90 al 40-lea.

56

Formula urmtoare rezum aceti pai:


Formula 3.4 i
f
n fc
X LCRI
i
i

~2
X

n care X LCRI ~ = limita de clas real inferioar a intervalului care conine al n2-lea
caz
n = numrul total de cazuri
fci = frecvena cumulat sub intervalul care conine al n2-lea caz
fi = numrul de cazuri din intervalul care conine al n2-lea caz
i = mrimea intervalului care conine al n2-lea caz
Aplicnd aceast formul la exemplul nostru, avem:
i
f
n fc
X LCRI
i
i

~2
= 5
42
(180 2) 50
5 , 44

= 44,5 + 4,76 = 49,26


Vom spune c aproximativ jumtate din subiecii din eantion au obinut un scor mai
mic de 49,26 i jumtate mai mare de 49,26. i de data aceasta se poate constata c
valoarea obinut n acest fel reprezint o foarte bun aproximare a valorii efective a
medianei.
Intervalul modal
Atunci cnd datele sunt grupate, scorul modal efectiv al distribuiei de
frecvene respective nu poate fi determinat. ntr-o astfel de situaie se poate
determina doar intervalul modal intervalul care conine cel mai mare numr de
cazuri , centrul acestui interval fiind considerat modul distribuiei. Pentru o mai
bun aproximare a modului unei distribuii cu date grupate, n cazul n care
distribuia are dou sau mai multe intervale neadiacente n care numrul de scoruri
este mai mare dect n intervalele adiacente, atunci distribuia respectiv este
considerat multimodal (bimodal, trimodal etc.). n exemplul nostru, conform
definiiei stricte, intervalul modal este 4549, astfel c centrul acestui interval, 47,
apare ca mod al distribuiei. Totui, ntruct aici apar dou intervale neadiacente, 45
49 i 5559, n care numrul de scoruri este mai mare dect n intervalele adiacente,
42 i respectiv 37, vom considera c distribuia este bimodal, cele dou moduri fiind
centrele de interval respective: 47 i 57. Se poate constata c intervalul 5559
conine modul efectiv al distribuiei de frecvene, 56.
X

57

3.7 PERCENTILE
Mrimile tendinei centrale furnizeaz informaii despre mulimi de scoruri.
n anumite cazuri ns, cercettorul poate fi interesat de descrierea poziiei unui scor
individual n raport cu celelalte scoruri dintr-o distribuie. Dac, de pild, un subiect
a obinut scorul 47 la un test de cunotine, semnificaia acestui scor poate fi
explicat inclusiv n termenii numrului de subieci din eantionul considerat care au
obinut scoruri mai mici dect 47.
Poziia unui scor individual ntr-o distribuie poate fi determinat cu ajutorul
percentilelor. Cea de-a m-a percentil a unei mulimi de scoruri, Pm, este valoarea
fa de care cel mult m% din scoruri sunt mai mici dect m i cel mult (100 m)%
din scoruri sunt mai mari dect m. ntruct mediana unei mulimi de scoruri este

valoarea fa de care cel mult 50% din scoruri sunt mai mici i cel mult 50% din
scoruri sunt mai mari, mediana este cea de-a 50-a percentil a acelei mulimi. Tot aa
cum exist un nume special pentru cea de-a 50-a percentil a unei mulimi de scoruri,
exist nume speciale pentru percentilele care mpart o mulime ordonat de scoruri n
sferturi i n zecimi: cuartile5 i, respectiv, decile. Lista urmtoare prezint cele mai
utilizate percentile, mpreun cu simbolurile uzuale pentru cuartile i decile
(considernd c este vorba despre o mulime de scoruri ordonat cresctor):
D1 = Prima decil = P10
Q1 = Prima cuartil = P25
Q2 = A doua cuartil = P50 = X~
Q3 = A treia cuartil = P75
D9 = A noua decil = P90
Pentru ilustrare, fie urmtoarea mulime ordonat de 15 scoruri:
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
Q1 X~ Q3
Prima cuartil este valoarea fa de care cel mult 25% din scoruri, i.e. cel mult
(15/100)25 = 3,75 scoruri sunt mai mici i cel mult 75% din scoruri, i.e. cel mult
(15/100)75 = 11,25 scoruri sunt mai mari. Singurul scor care satisface acest criteriu
este 5, deci Q1 = 5. Cea de-a doua cuartil, mediana, este scorul central, i.e. 12. Cea
de-a treia cuartil este valoarea fa de care cel mult 75% din scoruri, i.e. cel mult 11,
25 scoruri sunt mai mici i cel mult 25% din scoruri, i.e. 3,75 scoruri sunt mai mari.
Singurul scor care satisface acest criteriu este 21, deci Q3 = 21.
5 Cuartilele

sunt valori care mpart o mulime ordonat de scoruri n patru pri egale. n practic,
termenul cuartil se folosete adesea pentru referire la unul dintre aceste sferturi.

58

De notat c (n/100)25 = n(0,25), iar (n/100)75 = n(0,75). Ca atare, pentru Q1


putem folosi formula n(0,25), iar pentru Q3 formula n(0,75) sau, echivalent, n
n(0,25). n exemplul nostru, n(0,25) = 3,75 i n(0,75) = n n(0,25) = 11,25.
Uneori, percentila cutat cade ntre dou scoruri din mulimea respectiv.
ntr-un astfel de caz, prin convenie, se alege media aritmetic a celor dou scoruri
pentru a aproxima percentila cutat. S presupunem c ne intereseaz ce-a de-a 20-a
percentil din mulimea de mai sus. Aceasta ar fi valoarea fa de care cel mult 3
scoruri sunt mai mici i cel mult 12 scoruri sunt mai mari. ntruct orice numr
cuprins ntre 4 i 5 (inclusiv) satisface acest criteriu, vom alege 4,50 drept ce-a de-a
20-a percentil. Procedura de calcul a percentilelor pentru date grupate este
asemntoare procedurii de calcul a medianei pentru date grupate. S considerm din
nou distribuia de frecvene a scorurilor obinute la un test de cunotine de 180 de
subieci i s presupunem c ne intereseaz cea de-a 75-a percentil. Pentru a o afla,
vom folosi tabelul 3.8, care include o coloan de frecvene cumulate.
Mai nti, identificm intervalul de clas care conine percentila cutat.
Avnd 180 de scoruri individuale n eantion, P75 este valoarea fa de care cel mult
135 (180 0,75) de scoruri sunt mai mici i cel mult 45 (180 135) de scoruri sunt
mai mari. Ca atare, intervalul de clas care conine percentila cutat este cel care
conine valoarea fa de care cel mult 135 (180 0,75) de scoruri sunt mai mici.
Inspectnd coloana de frecvene cumulate din tabelul 3.8, constatm c 122 de cazuri
sau scoruri s-au cumulat sub limita superioar a intervalului 5054 i c 159 de
cazuri sau scoruri s-au cumulat sub limita superioar a intervalului 5559. tim acum

c P75 este o valoare cuprins ntre limita real inferioar i limita real superioar
ale intervalului 5559, adic ntre 54,5 i 59,5. Mai departe, presupunem c toate
cele 37 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale
ale intervalului, cazul 123 fiind situat la limita real inferioar (54,5), iar cazul 159 la
limita real superioar (59,5). n intervalul care conine P75 sunt 37 de cazuri, cazul
135 fiind al 13-lea: cazul 123 este primul, 124 al doilea, , 135 al 13-lea. Aceasta
revine la a spune c, pentru a afla al ctelea caz este cazul 135, scdem din 135
frecvena cumulat a cazurilor aflate sub intervalul n care se afl cazul 135: 135
122 = 13. Dac, aa cum am presupus, scorurile sunt distribuite uniform, atunci cazul
135 se afl la 1337 din distana dintre 54,5 i 59,5. Acum, 1337 din 5 (mrimea
intervalului) este 1,75, aa nct putem aproxima P75 la 54,5 + 1,75 sau 56,25.
Formula urmtoare rezum paii de calcul al percentilelor pentru date
grupate:
Formula 3.5 Pm LCRIm + i
f
np fc
i
i

n care LCRIm = limita de clas real inferioar a intervalului care conine Pm


n = numrul total de scoruri
p = proporia corespunztoare percentilei cutate Pm
59

fci = frecvena cumulat sub intervalul care conine Pm


fi = numrul de cazuri din intervalul care conine Pm
i = mrimea intervalului
Aplicnd formula 3.5 la exemplul nostru, avem:
P75 54,5 + 5
37
(180 0,75) 122

= 54,5 + 1,75 = 56,25


Spresupunem acum c ne intereseaz procentul de subieci care au obinut
un scor mai mic sau egal cu 47 i c nu dispunem dect de datele grupate din tabelul
3.8. Procentul de cazuri care au un scor mai mic sau egal cu un scor dat se numete
rangul percentilei scorului respectiv.
Pentru a afla rangul percentilei pentru scorul 47, notat RP47, observm mai
nti c acest scor este cuprins n intervalul 4549 i c 50 de cazuri s-au cumulat sub
limita real inferioar a acestui interval, 44,5. Ca i pn acum, vom presupune c
toate cele 42 de cazuri situate n acest interval sunt distribuite uniform ntre limitele
reale ale intervalului. Sub aceast presupunere, proporia de cazuri din interval care

au scoruri mai mici sau egale cu 47 este (47,0 44,5)/5 = 2,5/5 = 0,5. Ca atare, n
acest interval sunt 42 0,5 = 21 de scoruri mai mici sau egale cu 47. Prin urmare,
numrul total de scoruri mai mici sau egale cu 47 este 50 + 21 = 71, iar rangul
percentilei scorului 47 poate fi aproximat la (71/180) 100 = 39,4. Aceasta nseamn
c 39,4% din cazuri au un scor mai mic sau egal cu scorul 47.
Urmtoarea formul rezum paii de calcul al rangului percentilelor pentru
date grupate:
Formula 3.6 RPX 100

n
f
i
X LCRI
fc i
X
i

n care fci = frecvena cumulat sub intervalul care conine scorul X


X = scorul pentru care se determin RPX.
LCRIX = limita de clas real inferioar a intervalului care conine scorul X
i = mrimea intervalului
fi = numrul de cazuri din intervalul care conine scorul X
n = numrul total de cazuri
Aplicnd aceast formul la exemplul nostru, avem:
RP47 100
180
42
5
50 47 44,5

= 100
180
50 21

= 39,4
60

Percentilele i rangul percentilelor pentru date grupate pot fi aproximate i folosind


ogivele. Pentru exemplificare, s folosim ogiva construit n capitolul anterior pentru
scorurile celor 180 de subieci:
Figura 3.4 Ogiv pentru scorurile obinute la un test de cunotine
0
10
20
30
40
50
60
70
80
90
100
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5

Scoruri (limite reale)


Procente cumulate

Pentru a afla, de pild, P58, din punctul 58 de pe axa procentelor trasm o paralel cu
axa scorurilor care s intersecteze curba, iar din punctul de intersecie trasm o
perpendicular pe axa scorurilor. Punctul de intersecie al acestei perpendiculare cu
axa scorurilor este P58. Pentru a afla RP62, din punctul 62 de pe axa scorurilor trasm
o paralel cu axa procentelor care s intersecteze curba, iar din punctul de intersecie
trasm o perpendicular pe axa procentelor. Punctul de intersecie al acestei
perpendiculare cu axa procentelor este RP62.
Rezumat
Utilizarea distribuiilor de frecvene i a tehnicilor grafice de prezentare a
acestora permite relevarea formelor globale ale distribuiilor unor scoruri. Pentru
descrierea mai detaliat a unei distribuii de scoruri, statisticienii folosesc dou tipuri
de mrimi numerice descriptive. Este vorba despre ideea de caz tipic sau central ntro
distribuie, redat prin mrimile tendinei centrale, i despre ideea de varietate
sau eterogenitate a unei distribuii, redat prin mrimile dispersiei. Determinarea
acestor mrimi furnizeaz valori precise care por fi uor interpretate i comparate
ntre ele.
Cuvinte cheie
Media aritmetic;
Mediana;
61

Media aritmetic ponderat;


Marimile tendinei centrale;
Percentile.
Teste de autoevaluare
1. Definii media aritmetic (pg. 51 ).
2. Definii mediana. (pg.54)
3. Definii modul. (pg. 57)
4. Ce trebuie s cunoatem pentru a calcula media aritmetic a unei mulimi de
scoruri? (pg. 63 )
5. Care este procedura de calcul a medianei pentru date grupate ? (pg. 66 )
Concluzii.

Mrimile folosite n mod obinuit pentru msurarea tendinei centrale sunt


media aritmetic, mediana i modul. Fiecare dintre aceste mrimi rezum o
ntreag distribuie de scoruri, descriind cea mai tipic sau central valoare a
distribuiei respective sub forma unui singur numr sau a unei singure categorii

UNITATEA IV
MRIMILE DISPERSIEI
Obiective ........................................................................................................ 63
Cunotine preliminarii .................................................................................. 63
Resurse necesare i recomandri de studiu ................................................... 63
Durata medie de parcurgere a unitii ........................................................... 63
4.1 Indicele variaiei calitative ...................................................................... 64
4.2 Amplitudinea i amplitudinea intercuartilic .......................................... 66
4.3 Abaterea medie i variana ...................................................................... 68
4.4 Abaterea standard i coeficientul de variaie ........................................... 71
4.5 Calculul abaterii standard pentru date grupate ........................................ 72
Rezumat ......................................................................................................... 74
Cuvinte cheie ................................................................................................. 74
Teste de autoevaluare .................................................................................... 74
Concluzii ....................................................................................................... 74
63

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s dobndeasc abilitatea de a calcula procente i proporii, raporturi i
rate ;
- s dobndeasc abilitatea de a reprezenta grafic datele statistice .
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
64

4.1 INDICELE VARIAIEI CALITATIVE


Indicele variaiei calitative (IQV)1 reprezint raportul dintre variaia
observat efectiv ntr-o distribuie de scoruri i variaia maxim posibil pentru acea
distribuie. IQV poate lua valori cuprinse ntre 0,00 (nici o variaie sau variaie nul)
i 1,00 (variaie maxim). Acest indice se folosete n mod obinuit pentru variabile
msurate la nivel nominal, putnd fi utilizat i pentru variabile msurate la celelalte
nivele, dac scorurile respective sunt grupate n distribuii de frecvene.
Pentru ilustrare, s presupunem c un cercettor este interesat n compararea
eterogenitii religioase a trei colectiviti A, B i C , datele obinute fiind cele din

tabelul urmtor:
Tabelul 4.1 Apartenena religioas n trei colectiviti
Denominaia
Colectivitatea
ABC
Cretinortodox 90 60 30
Catolic 0 20 30
Altele 0 10 30
TOTAL 90 90 90
Simpla inspecie a datelor din acest tabel arat c, dintre cele trei colectiviti,
A este cea mai puin eterogen. Mai exact, eterogenitatea religioas n colectivitatea
A este nul, ntruct toi membrii acestei colectiviti sunt cretinortodoci. Apoi,
colectivitatea C este cea mai eterogen, B situndu-se ntre A i C. S vedem acum
cum sunt reflectate aceste observaii de ctre IQV, a crui formul de calcul este
urmtoarea:
1 Prescurtare

de la denumirea acestei mrimi n limba englez: Index of Qualitative Variation.

65

Formula 3.7 IQV =


( 1)
()
2
22

nk
knf
n care k = numrul de categorii
n = numrul total de cazuri din cele k categorii

= suma ptratelor frecvenelor din fiecare categorie


Saplicm aceast formul la fiecare dintre cele trei distribuii de frecvene.
Pentru aceasta, trebuie s calculm mai nti suma ptratelor frecvenelor respective.
Astfel, pentru colectivitatea A, avem:
= 902 + 02 + 02 = 8100
IQV = 0
16200
0
16200
30
8100 2
3(8100 8100)
90 (3 1)
3(90 8100)
2
2

ntruct valorile pentru k i n sunt aceleai n toate cele trei distribuii, IQV
pentru celelalte dou colectiviti poate fi calculat schimbnd doar valorile pentru

f
f

. Pentru colectivitatea B, avem:

= 602 + 202 + 102 = 4100


IQV = 0,74
16200
12000
16200
3 4000
16200
3(8100 4100)

Pentru colectivitatea C:

= 302 + 302 + 302 = 2700

66

IQV = 1,00
16200
16200
16200
3 5400
16200
3(8100 2700)

Dup cum se poate constata, IQV reflect cantitativ i precis observaiile de


mai sus. Colectivitatea A prezint o variaie nul a variabilei msurate (IQV = 0),
colectivitatea C prezint variaia maxim posibil pentru aceste date (IQV = 1,00), iar
colectivitatea B se situeaz ntre A i C, cu o variaie substanial (IQV = 0,74).

4.2 AMPLITUDINEA I AMPLITUDINEA INTERCUARTILIC


Amplitudinea (A) este o mrime a dispersiei uor de calculat, cu care ne-am
ntlnit deja n capitolul anterior, definit drept diferena dintre cel mai mare scor i
cel mai mic scor din mulimea scorurilor date:
A = Xmax Xmin
Pentru datele din tabelul 2.4, de pild, A = 69 24 = 45. n cazul unei distribuii de
frecvene cu date grupate, amplitudinea absolut se aproximeaz prin diferena dintre

limita de clas real superioar a ultimului interval i limita de clas real inferioar
a primului interval2:
A = LCRSmax LCRImin
Astfel, pentru datele din tabelul 3.6, A 69,5 19,5 = 50.
Amplitudinea intercuartilic (Q) se definete ca diferena dintre cea de-a
treia i prima cuartil a unei distribuii de scoruri ordonate cresctor:
Q = Q3 Q1
2 Considernd

intervalele de clas n ordine cresctoare.

67

S considerm din nou un exemplu prezentat n seciunea 3.2. Fie urmtoarea


mulime ordonat de 15 scoruri:
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
Q1 X~ Q3
n acest exemplu, A = 30 2 = 28 i Q = 21 5 = 16.
ntruct ia n considerare doar scorurile extreme dintr-o distribuie, A nu este
o mrime suficient de semnificativ a dispersiei. Pot fi ntlnite distribuii n care
scorurile extreme sunt foarte deprtate de scorurile intermediare, caz n care
aprecierea dispersiei pe baza amplitudinii este o greeal. De asemenea, amplitudinea
nu ofer informaii despre natura scorurilor dintre cele dou extreme: dac scorurile
sunt grupate n centrul distribuiei, dac sunt mprtiate omogen ntre cele dou
scoruri extreme, dac sunt concentrate n dou grupe, cte una lng fiecare extrem,
distribuia fiind bimodal etc. Q ia n considerare 50% dintre cazurile aflate n
centrul distribuiei3 i astfel evit problema de a fi o mrime bazat pe scorurile
extreme. Pe de alt parte, ntruct, ca i A, ia n considerare doar dou scoruri dintr-o
distribuie, Q nu ofer informaie despre natura scorurilor dintre cele dou scoruri
considerate, astfel c mprtete celelalte dezavantaje asociate cu A. Totui, aceste
mrimi sunt utile atunci cnd dorim s obinem rapid o msur a variabilitii unei
distribuii i, mai ales, atunci cnd dorim s realizm rapid o comparaie ntre
variabilitile a dou distribuii cu un numr egal de scoruri. S presupunem, de
pild, c am nregistrat vrstele subiecilor din dou eantioane, obinnd urmtoarele
date:
Eantionul 1 11, 16, 18, 23, 29, 31, 37
Eantionul 2 18, 19, 21, 23, 24, 26, 29
Mediile aritmetice pentru cele dou eantioane sunt 23,57 1 X i 22,86 2 X ,
mediana fiind aceeai pentru ambele eantioane: 23. ntruct amplitudinea vrstelor
din primul eantion, 26, este mai mare dect amplitudinea vrstelor din cel de-al
doilea eantion, 11, primul eantion este mai eterogen din punctul de vedere al
vrstelor.4
c Q1 = P25 i Q3 = P75.
notat c uneori, mrimea A este numit amplitudine absolut, prin contrast cu amplitudinea
relativ (A%), definit ca raportul dintre amplitudinea absolut a unei mulimi de scoruri i media sa
3 Amintii-v
4 De

68

4.3 ABATEREA MEDIE I VARIANA


Mrimile dispersiei expuse n continuare capteaz ideea de variabilitate a unei
distribuii de scoruri de interval sau de raport fa de centrul acelei distribuii, mai
precis, fa de media sa aritmetic i folosesc toate scorurile distribuiei.
tim c ntr-o distribuie de scoruri de interval sau de raport cu media

aritmetic X , diferena Xi X reprezint abaterea scorului Xi fa de media


aritmetic X . O sugestie pentru a obine o mrime mai adecvat a dispersiei ar fi s
nsumm toate abaterile scorurilor individuale fa de medie i s mprim suma
astfel obinut la numrul total de scoruri, n. Mai tim, ns, c pentru orice
distribuie de scoruri, suma abaterilor scorurilor de la media lor aritmetic este egal
cu zero, (Xi X ) = 0, astfel c rezultatul mpririi acestei sume la n ar fi
ntotdeauna 0. Pentru a folosi cumva sugestia menionat, avem la dispoziie dou
posibiliti: sau neglijm semnele abaterilor, considernd valorile absolute ale
acestora5, sau ridicm la ptrat abaterile, ntruct dac se nmulesc dou numere care
au semnul minus, produsul este pozitiv.
Prima posibilitate conduce la o mrime a dispersiei, numit abaterea medie
i notat cu d , a crei formul de calcul este urmtoarea:
Formula 4.2
n
XX
d i

Cea de-a doua posibilitate conduce la o alt mrime a dispersiei, numit varian6,
notat cu s2 atunci cnd este vorba despre un eantion i cu 2 atunci cnd este vorba
despre o populaie. Formula de calcul a varianei pentru populaii este urmtoarea:
Formula 4.3
N
Xi
2
2

( )

m
s
n care = media aritmetic a populaiei
N = numrul total de scoruri din populaie
aritmetic. De obicei, amplitudinea relativ se nmulete cu 100 i se prezint ca procent.
Amplitudinea relativ nu are ntotdeauna sens intuitiv atunci cnd se dorete aprecierea omogenitii
unei singure distribuii; de pild, n cazul eantionului 1 din ultimul exemplu de mai sus, A% = 110%.
5 Revedei capitolul 1, seciunea 1.2.
6 Uneori, aceast mrime este numit chiar dispersie.

69

Formula de calcul a varianei pentru eantioane difer de formula 4.3 sub


dou aspecte: n locul mediei aritmetice a populaiei () apare media aritmetic a
eantionului ( X ), iar la numitor, n locul numrului total de scoruri din populaie (N)
apare numrul total de scoruri din eantion diminuat cu o unitate (n 1)7.
Formula 4.4
1
( )2
2


n
XX
si
Pentru a ilustra calculul abaterii medii i al varianei, vom folosi datele din
tabelul 3.2, adugnd o coloan pentru modulele diferenelor X X i i, pentru o
simplificare pe care o vom folosi ulterior, o coloan pentru ptratele scorurilor
individuale, Xi
2:
Tabelul 4.2 Calculul abaterii medii i al varianei ( X 19 )
iX 2
i X i X X X X i ( i X X )2
16 256 3 3 9
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4
18 324 1 1 1
19 361 0 0 0
19 361 0 0 0
23 529 4 4 16
23 529 4 4 16
23 529 4 4 16
7 Dup

cum vom vedea n capitolele dedicate statisticii infereniale, mrimile statistice pentru
eantioane servesc drept estimatori ai valorilor respective pentru populaie, unii estimatori fiind
nedistorsionai, alii fiind distorsionai. ntruct variana pentru un eantion este un estimator
distorsionat al varianei pentru populaie, numitorul n 1 are rolul de a corecta distorsiunea. Aceleai
consideraii sunt valabile i pentru abaterea standard. n cadrul statisticii descriptive, unii statisticieni
prefer s foloseasc numitorul n, tratnd eantioanele ca i cum ar fi populaii foarte mici.

70

209 4045 0 24 74
Pentru datele din acest exemplu, avem:
n
XX
d i
2,20
11
24
1
( )2
2

XX
s i 7,40
10
74
De notat c variana calculat cu ajutorul formulei 4.3 reprezint ptratul
mediu al abaterilor, i.e. media aritmetic a ptratelor abaterilor scorurilor populaiei
de la media lor aritmetic .
n cazul eantioanelor mari, aplicarea formulei definiionale 4.4 poate fi
greoaie, mai ales dac valoarea pentru X conine zecimale, ceea ce presupune multe
rotunjiri. Din formula 4.4 se pot deduce alte formule de calcul care, aplicate la
aceleai date, produc aceleai rezultate ca i formula 4.4 i care permit calcularea mai
uoar i mai rapid a varianei8. Prezentm n continuare dou astfel de formule, n
care nu mai este nevoie de calcularea diferenelor Xi X .
Formula 4.5
1
22
2

n
X nX
si
Formula 4.6

1
2
2
2

n
n
X
X
s
i
i

Aplicnd formula 4.5 la datele din exemplul de mai sus, avem:


8 Dou

formule de calcul care, aplicate la aceleai date, produc aceleai rezultate se numesc
echivalente algebric.

71

7,40
10
74

10
4045 3971
10
4045 (11 19 )
1
222

n
X nX
si
Dei pare mai complicat dect formula 4.4, formula 4.6 ne scutete de calcularea
mediei aritmetice a scorurilor, astfel nct pentru calcularea varianei cu ajutorul
acestei formule este nevoie doar de scorurile individuale. n exemplul nostru:

7,40
10
74
10
4045 3971
10
11
4045 209
1
22
2

n
n
X
X

s
i
i

Formulele de calcul simplificat al varianei pentru populaii difer de formulele de


mai sus prin aceea c X se nlocuiete cu , iar n 1 devine N.

4.4 ABATEREA STANDARD I COEFICIENTUL DE VARIAIE


Calculul varianei implic ridicarea la ptrat a abaterilor scorurilor individuale
fa de media lor aritmetic (formulele 4.3 i 4.4). n consecin, unitatea ataat
varianei este ptratul unitii ataate scorurilor individuale respective. Dac, de
pild, este vorba despre scoruri exprimate n ani, variana va fi exprimat n ani la
ptrat. Pentru a se obine o mrime a variabilitii care s fie exprimat n aceleai
uniti n care sunt exprimate scorurile respective, se ia rdcina ptrat a varianei, s
sau . Aceast mrime statistic se numete abatere standard i, n cazul
eantioanelor, se definete cu ajutorul urmtoarei formule:
Formula 4.7
1
( )2

n
XX
si
Relaia dintre abaterea standard i varian fiind s s 2 , valoarea abaterii standard
pentru datele din tabelul 4.2 este s 7,40 = 2,72.
Corespunztor formulelor 4.5 i 4.6, avem urmtoarele formule de calcul
simplificat al abaterii standard:
72

Formula 4.8
1
22

n
X nX
si
Formula 4.9

1
2
2


n
n
X
X
s
i
i

Coeficientul de variaie al unei distribuii de scoruri (CV) se definete ca


raportul dintre abaterea standard a distribuiei i media sa aritmetic. De obicei,
coeficientul de variaie se nmulete cu 100 i se prezint ca procent. Astfel, avem:
Formula 4.10 100
X
CV s
n exemplul folosit pn acum, CV = (2,72/19) 100 = 143,16. Evident, n cazul
populaiilor, s se nlocuiete cu , iar Xcu . Coeficientul de variaie este cu
deosebire util atunci cnd se dorete compararea variabilitii a dou distribuii de
scoruri cu medii aritmetice sensibil diferite.

4.5 CALCULUL ABATERII STANDARD PENTRU DATE


GRUPATE
Formula de calcul a abaterii standard pentru date grupate se obine pe baza
formulei 4.9. Pentru a aplica formula 4.9 trebuie s cunoatem trei valori: suma
scorurilor, Xi, suma ptratelor scorurilor, Xi
2, i numrul de scoruri, n. Atunci cnd
datele au fost grupate n distribuii de frecvene nu cunoatem distribuia exact a
scorurilor individuale i deci nu putem determina exact primele dou valori. ntr-un
astfel de caz, suma scorurilor se aproximeaz, ca i pentru media aritmetic,
nmulind numrul de cazuri din fiecare interval, fi, cu centrul intervalului respectiv,
mi, i nsumnd aceste produse: fimi. Suma ptratelor scorurilor se aproximeaz
ridicnd la ptrat centrele de interval, nmulind fiecare ptrat astfel obinut cu
numrul de cazuri din intervalul respectiv i nsumnd aceste produse: fimi
2. Avem
astfel:
Xi fimi
Xi
2 fimi
2

73

Formula care d valoarea aproximativ a abaterii standard pentru date grupate se


obine fcnd substituiile corespunztoare n formula 4.9. Obinem astfel:
Formula 4.11

1
2
2

n
n
fm
fm
s
ii
ii

Pentru ilustrare, vom folosi datele din tabelul 3.7, n care vom aduga dou
coloane: una pentru ptratele centrelor de interval i una pentru produsele dintre
ptratele centrelor de interval i frecvene:
Tabelul 4.3 Calculul abaterii standardpentru date grupate
Intervale de clas f m fm m2 fm2
2024 1 22 22 484 484
2529 2 27 54 729 1458
3034 7 32 224 1024 8428
3539 18 37 666 1369 24642
4044 22 42 924 1764 38808
4549 42 47 1974 2209 92778
5054 30 52 1560 2704 81120
5559 37 57 2109 3249 120213
6064 15 62 930 3844 57660
6569 6 67 402 4489 26934
TOTAL 180 8865 452525
Totalul ultimei coloane este valoarea pentru fimi
2. Aplicnd formula 4.11 la aceste
date obinem:

1
2
2

n
n
fm
fm
s
ii
ii

=
179
180

452525 8865
2

=
179
452525 436601,25
=
=
179
15923,75 = 88,96 = 9,43
74

De notat c, pentru datele negrupate corespunztoare acestui exemplu, abaterea


standard calculat cu ajutorul uneia dintre formulele 4.7 4.9 este egal cu 9,00.
Rezumat
Descrierea unei distribuii de scoruri cu ajutorul mrimilor tendinei centrale
nu epuizeaz informaia relevant statistic despre distribuia respectiv. Pentru
descrierea complet a unei distribuii de scoruri trebuie s considerm i mrimile
dispersiei. Aceste mrimi furnizeaz informaie despre eterogenitatea sau varietatea
unei distribuii de scoruri
Cuvinte cheie
Indicele variaiei calitative;
Amplitudine;
Amplitudine intercuartilic;
Abatere medie;
Abatere standard.
Teste de autoevaluare
1. Ce valori poate lua indicele variaiei calitative? (pg. 75 ).
2. Definii amplitudinea. (pg.77)
3. Definii amplitudinea intercuartilic. (pg. 77)
Concluzii.
n aceast seciune sunt introduse cele mai des folosite mrimi ale dispersiei:
indicele variaiei calitative, amplitudinea i amplitudinea intercuartilic, abaterea
medie, variana, abaterea standard i coeficientul de variaie. Fiecare dintre aceste
mrimi furnizeaz o indicaie precis a eterogenitii unei distribuii de scoruri

UNITATEA V
DISTRIBUIA NORMAL
Obiective ........................................................................................................ 76
Cunotine preliminarii .................................................................................. 76
Resurse necesare i recomandri de studiu ................................................... 76
Durata medie de parcurgere a unitii ........................................................... 76
5.1 Caracteristicile distribuiei normale ......................................................... 77
5. 2 Calculul scorurilor standard .................................................................... 78
5.3 Distribuia normal standard ................................................................... 79
5.4 Utilizarea distribuiei normale standard ................................................... 80
Rezumat ......................................................................................................... 81
Cuvinte cheie ................................................................................................. 81

Teste de autoevaluare .................................................................................... 82


Concluzii ....................................................................................................... 82
76

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s neleag caracteristicile distribuiei normale;
- s dobndeasc abilitatea de a calcula scorurile standard;
- s utilizeze distribuia normal standard .
Cunostine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
77

5.1 CARACTERISTICILE DISTRIBUIEI NORMALE


Distribuia normal este o distribuie teoretic de scoruri unimodal,
simetric i continu. Graficul unei distribuiei normale are form de clopot cu
ambele extremiti extinse la infinit1. Ca atare, un astfel de grafic, numit i curba
normal2, nu atinge axa orizontal sau, altfel spus, este asimptotic fa de axa
orizontal, dup cum se ilustreaz n figura 5.1.
Figura 5.1 Un exemplu de curb normal
Distribuia normal este un model teoretic ce poate fi folosit pentru a descrie
distribuii particulare ale scorurilor unor variabile msurate la nivel de interval sau de
raport, despre care s-a constatat c aproximeaz suficient normalitatea ntr-o
populaie, precum coeficientul de inteligen, rezultatele obinute la diferite teste de
cunotine sau numrul de erori comise n ndeplinirea anumitor sarcini. Scorurile
unor astfel de variabile tind s se grupeze simetric n jurul scorului central, dnd
natere unui grafic de distribuie n form de clopot. Dac distribuia scorurilor unei
variabile ntr-o populaie aproximeaz normalitatea, se spune c variabila respectiv
este normal distribuit n populaia respectiv sau, pe scurt, c variabila respectiv
este normal. Pe de alt parte, dup cum vom vedea n capitolele urmtoare,
distribuia normal poate fi folosit pentru a reprezenta diferite mrimi statistice care
rezult din studierea unor eantioane dintr-o populaie dat, ceea ce permite obinerea
unor concluzii despre valorile pentru populaie pe baza valorilor cunoscute pentru
1 Distribuia

normal a fost studiat pentru prima dat n secolul al XVIII-lea de ctre Abraham De
Moivre. La nceputul secolului al XIX-lea a fost descoperit independent de Carl Friedrich Gauss i
Pierre Simon de Laplace.
2 n onoarea matematicienilor Gauss i Laplace, curba normal este cunoscut i sub numele de
clopotul lui Gauss sau curba GaussLaplace.

78

eantioane. Utilizarea distribuiei normale n statistic face apel la aanumitele


scoruri standard sau scoruri Z.

5.2 CALCULUL SCORURILOR STANDARD

Scorurile standard, numite i scoruri Z, folosesc abaterea standard ca


unitate de msur i descriu poziia relativ a unui scor individual n raport cu
ntreaga mulime de scoruri din care face parte. Formula de calcul pentru scorurile Z
ale unei populaii este urmtoarea:
Formula 5.1
s
m
Z X
Aceast formul transform orice scor brut X n scorul Z corespunztor.
Numrtorul fraciei, X , indic distana n uniti brute a scorului X fa de media
aritmetic. Prin mprirea acestei distane la aflm distana n abateri standard sau
fraciuni de abateri standard a scorului X fa de medie. Corespunztor, formula de
calcul pentru scorurile Z ale unui eantion este urmtoarea:
Formula 5.2
s
ZXX

Pentru ilustrare, s considerm o distribuie de scoruri pentru un eantion, n


care X= 100 i s = 20. n acest caz, scorurile Z corespunztoare scorurilor brute 85,
120 i 150 sunt:
0,75
20
85 100
85

Z
1,00
20
120 100
120

Z
2,50
20
150 100
150

Z
Fiecare dintre aceste scoruri Z arat la cte abateri standard fa de media aritmetic
se afl scorul brut corespunztor. Un scor Z negativ arat c scorul brut se afl sub
media aritmetic, iar un scor Z pozitiv arat c scorul brut este mai mare dect media
aritmetic. Evident, un scor Z egal cu 0 arat c scorul brut corespunztor este egal
cu media aritmetic.
Se demonstreaz c dac toate scorurile unei distribuii particulare se transform n

scoruri Z, atunci:
Forma distribuiei scorurilor Z este aceeai cu cea a distribuiei iniiale;
Media aritmetic a distribuiei scorurilor Z este 0, indiferent de valoarea
mediei aritmetice a distribuiei iniiale;
79
Abaterea

standard a distribuiei scorurilor Z este 1, indiferent de valoarea


abaterii standard a distribuiei iniiale.
Aceste proprieti au fost generalizate n studiul distribuiei normale standard.

5.3 DISTRIBUIA NORMAL STANDARD


Ca i n cazul unei distribuii particulare de scoruri de interval sau de raport,
distribuia normal poate fi descris cu ajutorul mediei sale aritmetice i a abaterii
standard. ntruct oricrei perechi de valori pentru media aritmetic i abaterea
standard i corespunde o distribuie normal, matematic vorbind exist o infinitate de
distribuii normale, ale cror forme exacte depind de mrimile menionate. Pentru a
descrie efectiv distribuiile unor variabile normale, n analiza statistic se consider o
distribuie normal particular, numit distribuia normal standard. Variabila
corespunztoare distribuiei normale standard este numit variabila normal
standard, valorile acestei variabile fiind scoruri Z. Din acest motiv, aceast
distribuie se mai numete i distribuia Z. Prin convenie, media aritmetic a
distribuiei normale standard se ia ca origine a variaiei variabilei normale standard,
ceea ce nseamn c aceast distribuie are media aritmetic egal cu 0. De
asemenea, se consider c abaterea standard a distribuiei normale standard este
egal cu unitatea.Graficul corespunztor distribuiei normale standard este numit
curba normal standard. Aria delimitat de curba normal standard este
proporional cu frecvena scorurilor, astfel c proporia de cazuri cuprinse ntre un
scor Z i media aritmetic poate fi aflat cu ajutorul calculului integral. Statisticienii
au determinat cu precizie aceste arii, rezultatele fiind organizate sub forma unui
tabel, numit tabelul curbei normale standard sau tabelul ariilor de sub curba
normal standard (vezi Anexa A). Schema general a acestui tabel este prezentat
n figura 5.2.
Figura 5.2 Schema tabelului curbei normale standard
Z 0,00 0,01 0,02 0,03 0,04 0,05

0,0 0000
0,1
0,2
0,3
0,4 1736
0,5

80

n corpul tabelului apar numere alctuite din patru cifre. Aceste numere
reprezint ariile cuprinse ntre un scor Z dat i media aritmetic.
Numerele nscrise n prima coloan din stnga, etichetat Z, reprezint
primele dou cifre ale unui scor Z, iar numerele nscrise pe primul rnd de sus

reprezint cea de-a treia cifr. De pild, pentru a afla aria cuprins ntre un scor Z =
0,45 i media aritmetic, se coboar n prima coloan din stnga pn la 0,4 (primele
dou cifre ale scorului Z considerat) i apoi se parcurge spre dreapta rndul respectiv
pn cnd se ajunge sub 0,05 (cea de-a treia cifr).
Numrul gsit la intersecia acestor dou coordonate este 1736, care poate fi
citit sau ca un procent (17,36%), sau ca o proporie (0,1736). n primul caz vom
spune c 17,35% din aria total a curbei normale standard se afl ntre scorul Z =
0,45 i media aritmetic (punct n care Z = 0); n cel de-al doilea caz vom spune c
proporia din aria total a curbei normale standard cuprins ntre scorul Z = 0,45 i
media aritmetic este de 0,1736. ntruct orice curb normal este simetric, aceeai
procedur se aplic i pentru afla aria cuprins ntre un scor Z negativ i media
aritmetic. Astfel, rezultatul de mai sus poate fi interpretat spunnd c 17,35% din
aria total a curbei normale standard se afl ntre scorul Z = 0,45 i media
aritmetic.

5.4 UTILIZAREA DISTRIBUIEI NORMALE STANDARD


Figura 5.3 ilustreaz utilizarea tabelului distribuiei normale standard pentru
determinarea procentelor din aria delimitat de curba normal, aflate ntre un scor Z
dat i media aritmetic (Z = 0).
Figura 5.3 Procente din aria de sub curba normal
68,26

-1 +1
95,44%
-3 -2 +3
34,13% 34,13%
13,59% 13,59%
2,15% 2,15%
0,13% 0,13%
0 +2

81

Abateri standard fa de media aritmetic


De pild, din tabel aflm c ntre Z = +1 i media aritmetic se afl 34,13% din aria
de sub curb (v. intersecia coordonatelor 1,0 i 0,00). ntruct curba este simetric,
procentul din arie cuprins ntre Z = 1 i media aritmetic este tot de 34,13%. Astfel,
ntre 1 abateri standard fa de medie se afl 68,26% din aria total. Similar, ntre Z
= +2 i medie se afl 47,72% din arie, astfel c ntre 2 abateri standard fa de
medie se afl 94,44% din arie.
ntruct un procent relativ mic din aria total se afl peste +3 abateri standard
sau sub 3 abateri standard (0,13%), pentru scopuri practice, ilustrate n cele ce
urmeaz, se consider c distribuia normal se extinde de la Z 3,59 la Z +3,59
sau, altfel spus, la 3,59 abateri standard de o parte i de cealalt a mediei aritmetice,
scorurile Z aflate dincolo de aceste limite fiind considerate a fi egale cu 0.
n cazul variabilelor normal distribuite pentru care cunoatem media
aritmetic i abaterea standard, distribuia normal standard poate fi folosit pentru a
determina diferite procente sau proporii de cazuri n distribuii particulare, precum i
pentru a determina probabilitatea de a selecta la ntmplare un scor cuprins ntr-o
plaj dat de scoruri ale unei distribuii aproximativ normale.
Rezumat
Noiunea de distribuie normal este de mare importan n statistic.

Pe de o parte, distribuia normal poate fi folosit n combinaie cu abaterea


standard pentru a formula enunuri descriptive precise despre distribuiile scorurilor
unor variabile. Pe de alt parte, distribuia normal st la baza multor tehnici
statistice infereniale.
Cuvinte cheie
Distribuia normal standard;
Curba normal standard;
Scoruri standard;
Scoruri Z;
Variabila normal standard.
82

Teste de autoevaluare
1. Definii distribuia normal. (pg. 89 ).
2. Definii scorurile standard. (pg.90)
3. Cum este numit graficul corespunztor distribuiei normale standard? (pg. 91)
4. Cum mai este numit tabelul curbei normale standard? (pg. 91 )
Concluzii.
Distribuia normal este un model teoretic ce poate fi folosit pentru a descrie
distribuii particulare ale scorurilor unor variabile msurate la nivel de interval sau de
raport, despre care s-a constatat c aproximeaz suficient normalitatea ntr-o
populaie, precum coeficientul de inteligen, rezultatele obinute la diferite teste de
cunotine sau numrul de erori comise n ndeplinirea anumitor sarcini. Scorurile
unor astfel de variabile tind s se grupeze simetric n jurul scorului central, dnd
natere unui grafic de distribuie n form de clopot.

UNITATEA VI
EANTIONAREA I DISTRIBUII DE EANTIONARE
Obiective. 84
Cunotine preliminarii... 84
Resurse necesare i recomandri de studiu. 84
Durata medie de parcurgere a unitii. 84
6.1 Procedee de eantionare aleatorie .............................................................. 86
6. 2 Distribuia de eantionare ......................................................................... 88
6. 3 Determinarea probabilitilor pentru medii aritmetice ............................. 90
6. 4 Strategia inferenial ................................................................................. 91
Rezumat 92
Cuvinte cheie 93
Teste de autoevaluare... 93
Concluzii 93
84

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere asupra procedeelor de eantionare aleatorie;
- s dobndeasc abilitatea de a determina probabilitile pentru medii
aritmetice.
- s cunoasc noiunile fundamentale cu care opereaz statisticile

infereniale.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
85

Cercettorii folosesc statistici infereniale pentru a trage concluzii despre


caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale unui
eantion din acea populaie. Folosirea adecvat a acestor tehnici statistice cere ca
eantioanele s fie selectate aleatoriu1 din populaiile de referin. n cazul cel mai
general, un eantion este aleatoriu dac fiecare caz din populaia de referin are
aceeai probabilitate de a fi selectat n eantion cu a oricrui alt caz i selectarea
fiecrui caz este independent de selectarea tuturor celorlalte cazuri. Dac populaia
are, s zicem, 1000 de membri, atunci fiecare membru trebuie s aib o probabilitate
de 1/1000 de a fi selectat. Supoziia fundamental a statisticilor infereniale este
aceea c investigarea unui eantion aleatoriu dintr-o populaie conduce la rezultate
apropiate de cele care ar fi obinute dac ar fi investigat ntreaga populaie i, dup
cum vom vedea, noiunea de distribuie de eantionare furnizeaz o msur a acestei
apropieri. Eantioanele nealeatorii pot fi foarte uor alctuite, dar nu permit
formularea unor concluzii despre populaiile respective, ci doar despre eantioane.
De notat c n acest context, aleatoriu este un termen tehnic, care nu are
acelai neles cu termenul ntmpltor, aa cum este utilizat acesta n limbajul
obinuit. Un eantion aleatoriu nu este alctuit la ntmplare, ci printr-un proces bine
determinat i precis de selecie. De pild, intervievarea unor persoane pe care se
ntmpl s le ntlnim ntr-un supermagazin nu constituie o eantionare aleatorie.
Selecia aleatorie este o condiie necesar pentru obinerea unor eantioane
care s ofere imagini ct mai precise ale populaiilor de referin sau, altfel spus, a
unor eantioane reprezentative pentru populaiile de referin, dar nici mcar cele mai
sofisticate proceduri de selecie aleatorie nu garanteaz 100% c eantionul respectiv
este o reprezentare exact a populaiei din care a fost alctuit. Totui, probabilitatea
ca eantioanele aleatorii s fie reprezentative pentru populaiile de referin este
foarte mare, iar tehnicile statistice permit determinarea precis a probabilitilor
erorilor de reprezentativitate.
nainte de a prezenta rolul eantionrii n statisticile infereniale, vom
prezenta pe scurt cteva dintre cele mai utilizate procedee de eantionare aleatorie.
1 Cuvntul

aleatoriu provine din limba latin, n care substantivul lea nseamn joc cu zaruri sau
ans, iar adjectivul leatrius nseamn de joc, cu referire la jocurile de noroc. Dup cum se tie,
aruncarea cu zarul este experimentul tipic luat n considerare n teoria probabilitilor.

86

6.1 PROCEDEE DE EANTIONARE ALEATORIE


Procedeul fundamental de eantionare aleatorie se numete eantionare

aleatorie simpl. n procesul de selecie a unui eantion aleatoriu simplu, fiecare caz
din populaia de referin are o probabilitate egal de a fi inclus n eantion, iar
selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
Procesul de selecie aleatorie simpl se poate baza pe diferite tipuri de operaii. n
mod tipic, se folosesc tabele cu numere selectate aleatoriu de un computer. Un
exemplu de astfel de tabel este dat n Anexa B. Aceste tabele conin numere alctuite
din cinci cifre, de la 0 la 9. Pentru a folosi un astfel de tabel, se atribuie fiecrui caz
din populaia de referin un numr unic de identificare, dup care se alege la
ntmplare un rnd i o coloan din tabel i, pornind de la acel punct la dreapta sau la
stnga, n sus sau n jos, se citesc numerele, selectnd n eantion cazurile ale cror
numere de identificare corespund cu numerele citite n tabel. Selecia se oprete
atunci cnd s-a ajuns la dimensiunea dorit a eantionului. Pentru ilustrare, s
presupunem c dorim s alctuim un eantion de dimensiune n = 20 dintr-o populaie
de dimensiune N = 600. Mai nti, numerotm membrii populaiei ntr-o ordine
oarecare 001, 002, , 600. Pentru a forma eantionul, considerm doar ultimele trei
cifre ale numerelor din tabel i, evident, ignorm numerele mai mari de 600. Alegem
la ntmplare un rnd i o coloan i ncepem selecia pornind de la numrul
respectiv i mergnd, de pild, n jos pe coloana aleas, pn cnd obinem 20 de
numere. Dac un numr de identificare este selectat mai mult dect o singur dat, se
ignor repetarea i se trece la urmtorul numr din secven2. Eantionul va fi alctuit
din acei membri ai populaiei ale cror numere de identificare au fost astfel selectate.
Statisticienii atrag atenia asupra necesitii de a schimba des tabelul cu
numere aleatorii, dac cercettorul folosete des procedeul menionat: Natura
uman este n aa fel, nct fiecare dintre noi are tendina de a porni aproximativ din
acelai loc i de a parcurge repetat aproximativ aceeai cale. De aceea, folosirea
repetat a aceluiai tabel poate s conduc la selectarea aceluiai ir de numere3.
Svedem acum cum poate fi folosit tabelul cu numere aleatorii pentru a
repartiza aleatoriu un numr de subieci n grupuri. S presupunem c avem 15
subieci i, n vederea unui experiment, dorim s alctuim trei grupuri cu cte cinci
2 De

notat c ignorarea repetrilor implic selecia fr nlocuire, n care, dup ce un membru din
populaia de referin a fost selectat, el este eliminat din populaie. n selecia fr nlocuire,
probabilitatea de selecie crete pe msura efecturii seleciei, ca urmare a micorrii treptate a
dimensiunii populaiei cu cte o unitate. De pild, avnd o populaie de 1000 membri, probabilitile
de selecie fr nlocuire vor fi 1/1000, 1/999, 1/998 .a.m.d. Ca atare, riguros vorbind, ignorarea
repetrilor afecteaz caracterul aleatoriu al procesului de selecie. Totui, dac dimensiunea
eantionului este relativ mic, probabilitatea de a selecta acelai membru din populaia de referin de
dou ori i astfel de a neglija repetrile este foarte mic. Prin contrast, n selecia cu nlocuire, dup ce
un membru din populaia de referin a fost selectat, el nu este eliminat din populaie, astfel c
probabilitatea de selecie rmne constant pe tot parcursul seleciei.
3 G. Keller, B. Warrack, 1991.

87

subieci n fiecare grup. Pentru aceasta, alegem la ntmplare un rnd i o coloan i,


urmnd o anumit direcie, atribuim un numr fiecrui subiect, considernd doar
ultimele dou cifre ale numerelor din tabel. Apoi, considerm subiecii n ordinea
cresctoare a numerelor atribuite i repartizm primii cinci subieci n grupul 1,
urmtorii cinci subieci n grupul 2 i ultimii cinci subieci n grupul 3. Tabelul
urmtor prezint o posibil repartizare de felul menionat:
Subieci Numere atribuite Repartizarea n grupuri

A 10 1
B 37 2
C 08 1
D 09 1
E 12 1
F 66 2
G 31 2
H 85 3
I 63 2
J 73 2
K 98 3
L 11 1
M 83 2
N 88 3
O 99 3
Evident, procedeul poate fi folosit pentru orice numr de grupuri ntr-un experiment.
Procedura de eantionare aleatorie simpl devine incomod, atunci cnd
dimensiunea populaiei de referin este foarte mare (10000, de pild). ntr-un astfel
de caz se poate folosi eantionarea sistematic, numit i selecie mecanic. Mai
nti, se stabilete o fracie de selecie (fracie de eantionare, pas de numrare): K =
N/n, n care N este numrul total de cazuri din populaia de referin, iar n este
dimensiunea dorit a eantionului. De pild, dac N = 10000 i n = 300, K = 34 (K se
rotunjete ntotdeauna pn la un numr ntreg). Dup ce s-a stabilit pasul de
numrare, se listeaz la ntmplare membrii populaiei de referin i se alege la
88

ntmplare, eventual prin tragere la sori, un caz din primele K cazuri care se include
n eantion i apoi se alege fiecare al Klea caz pentru a fi inclus n eantion pn se
ajunge la dimensiunea dorit a eantionului. n exemplul nostru, dac din primele 34
de cazuri a fost ales la ntmplare cazul cu numrul 5, atunci se vor include n
eantion urmtoarele cazuri: 5, 39, 73, 107, .a.m.d. pn la n = 300.
De notat c n cazul eantionrii sistematice, selecia nu mai este
independent, deoarece, cu excepia primului caz, fiecare caz selectat depinde de
numrul de ordine al cazului precedent. De aceea, acest procedeu este considerat ca
fiind cvasialeatoriu. Caracterul aleatoriu este asigurat prin alctuirea ntmpltoare a
listelor din care sunt selectate cazurile.
Un al treilea procedeu de eantionare, eantionarea stratificat, conduce la
creterea cantitii de informaie despre populaie. Pentru a alctui un eantion
aleatoriu stratificat, se clasific populaia de referin dup criterii relevante i se
alctuiesc eantioane aleatorii simple din fiecare clas (strat). De pild, pot fi folosite
criterii precum sexul, vrsta sau ocupaia.
Cititorul interesat de detalii privitoare la procedurile de eantionare descrise
sumar mai sus sau/i de alte procedee de eantionare poate consulta cri despre
eantionare sau manuale de metodologie a cercetrii psihologice.

6.2 DISTRIBUIA DE EANTIONARE


Scopul principal al statisticilor infereniale este generalizarea unor
caracteristici ale eantionului la populaia din care a fost alctuit. Strategia general a

acestor tehnici statistice const din trecerea de la distribuia unui eantion la


distribuia unei populaii prin intermediul noiunii de distribuie de eantionare. tim
c informaia necesar pentru caracterizarea adecvat a unei distribuii include forma
distribuiei, unele mrimi ale tendinei centrale i unele mrimi ale dispersiei
Distribuia unui eantion este empiric (exist n realitate) i cunoscut, eantionul
fiind alctuit de cercettor, n timp ce distribuia populaiei este empiric, dar este
necunoscut. Dup cum vom vedea, distribuia de eantionare este non-empiric
(teoretic nu poate fi obinut niciodat n realitate de ctre cercettor), iar pe baza
legilor de probabilitate pot fi deduse forma, tendina central i dispersia acestei
distribuii, astfel c proprietile sale pot fi exact cunoscute. S explicm.
n capitolul anterior am folosit distribuia normal standard pentru a descrie
distribuii de scoruri ale unor variabile aproximativ normale. n cele ce urmeaz vom
considera mediile aritmetice, nu scorurile individuale, i vom folosi distribuia
normal standard (distribuia Z) pentru a descrie distribuia mediilor aritmetice ( X )
pentru toate eantioanele posibile de dimensiune dat (n), care pot fi obinute
89

aleatoriu dintr-o populaie. Cu alte cuvinte, vom considera c media aritmetic este
ea nsi o variabil, ale crei scoruri sunt mediile aritmetice ale tuturor eantioanelor
aleatorii posibile de dimensiune constant n dintr-o populaie.
Spresupunem c ne intereseaz media aritmetic a vrstelor dintr-o
populaie de dimensiune comparabil cu populaia Romniei. Selectm un eantion
aleatoriu de 100 de persoane din aceast populaie i nregistrm vrstele pentru acest
eantion. Evident, ceea ce am obinut este distribuia vrstelor pentru eantionul
considerat, pentru care putem calcula media aritmetic. Acum, s presupunem c am
selectat (cu nlocuire) toate eantioanele posibile de dimensiune 100 din populaia
respectiv i c am calculat media aritmetic pentru fiecare eantion. Rezultatele pe
care, n principiu, le-am obine n acest fel constituie distribuia mediilor aritmetice
pentru toate eantioanele posibile de dimensiune 100 din populaia de referin.
Aceast distribuie este numit distribuia de eantionare a mediilor aritmetice ale
tuturor eantioanelor aleatorii de dimensiune 100 din populaia de referin. n
general, distribuia de eantionare a mediilor aritmetice se definete ca distribuia
mediilor aritmetice ale tuturor eantioanelor aleatorii de dimensiune constant n din
populaia de referin. n mod similar, se definesc distribuiile de eantionare pentru
alte mrimi statistice (proporii, coeficieni de corelaie etc.), pe care le vom
considera n unele dintre capitolele care urmeaz. n continuare, ne vom concentra
atenia asupra distribuiei de eantionare a mediilor aritmetice.
Ca i distribuiile de frecvene considerate pn acum, distribuia de
eantionare a mediilor aritmetice (i cele ale celorlalte mrimi statistice) are (1) o
form, (2) o medie aritmetic i (3) o abatere standard. Pentru media aritmetic i
abaterea standard a distribuiei de eantionare a mediilor aritmetice vom folosi,
respectiv, simbolurile X m i X s .
Cei trei parametri menionai ai distribuiei de eantionare a mediilor aritmetice
sunt dai de urmtoarea teorem, numit teorema limitei centrale:
Dac se alctuiesc toate eantioanele posibile de dimensiune n dintr-o
populaie cu media aritmetic i abaterea standard , atunci distribuia
de eantionare a mediilor aritmetice ale acestor eantioane are

urmtoarele trei proprieti:


1. Media sa aritmetic, X m , este egal cu media aritmetic a populaiei,
..
2. Abaterea sa standard,s X , este egal cu s n .
3. Cu ct n este mai mare, cu att forma sa aproximeaz mai bine
normalitatea, indiferent de forma distribuiei populaiei.
90

Demonstrarea acestei teoreme depete cadrul propus pentru lucrarea de


fa. Pentru concizia exprimrii, n loc de distribuia de eantionare a mediilor
aritmetice vom scrie n continuare distribuia de eantionare a X .
Teorema limitei centrale arat c, indiferent de forma distribuiei unei
variabile ntr-o populaie, distribuia de eantionare a X va fi aproximativ normal
pentru eantioane suficient de mari. De pild, dac lucrm cu o variabil care
prezint o distribuie asimetric, precum venitul, putem s presupunem c distribuia
de eantionare a X este aproximativ normal pentru eantioane cu n 100, avnd
media aritmetic egal cu cea a populaiei i abaterea standard egal cu s n .
Astfel, teorema limitei centrale elimin constrngerea normalitii pentru populaii.
Dac distribuia unei variabile este aproximativ normal, atunci distribuia de
eantionare a X va fi aproximativ normal chiar i pentru valori mai mici ale lui n.
n fine, teoretic vorbind, dac distribuia unei variabile este riguros normal, atunci
distribuia de eantionare a X va fi normal indiferent de dimensiunea eantionului.

6.3 DETERMINAREA PROBABILITILOR PENTRU MEDII


ARITMETICE
Teorema limitei centrale poate fi utilizat pentru a determina probabilitatea de
a selecta la ntmplare o medie aritmetic a unui eantion de dimensiune dat,
cuprins ntr-o anumit plaj de medii aritmetice. Pentru ilustrare, s considerm o
populaie cu media aritmetic a unei caracteristici aproximativ normale = 117 i
= 14. S presupunem c ne intereseaz probabilitatea ca un eantion aleatoriu cu n =
36 selectat din aceast populaie s aib media aritmetic a caracteristicii respective
cuprins ntre 115 i 120. ntruct variabila considerat este aproximativ normal,
conform punctului 3 al teoremei limitei centrale distribuia de eantionare a X
aproximeaz normalitatea pentru n = 36. Conform punctelor 1 i 2 ale acestei
teoreme, avem:
X m = 117
2,34
36
14
nX
s
s
n paragraful 4.4.2 am lucrat cu formula
s
ZXX

91

pentru a determina probabilitatea de selecie a unui scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale.
Aici, valorile 115 i 120 sunt medii aritmetice. Scorurile Z corespunztoare acestor
valori se calculeaz cu ajutorul urmtoarei formule:
X

X
Z
s
m

n exemplul nostru, avem:


0,85
2,34
115 117
115

Z
1,28
2,34
120 117
120

Z
Din tabelul curbei normale aflm c probabilitatea corespunztoare scorului Z =
0,85 este 0,3023 i c probabilitatea corespunztoare scorului Z = +1,28 este
0,3997. Ca atare, probabilitatea ca un eantion cu n = 36 s aib media aritmetic
ntre 115 i 120 este de 0,7020 (0,3023 + 0,3997).
Snotm i aici c pentru determinarea probabilitilor de selectare a mediilor
aritmetice se utilizeaz aceleai proceduri ilustrate pentru determinarea procentelor
de cazuri. De pild, probabilitatea ca un eantion aleatoriu cu n = 36 selectat din
populaia considerat mai sus s aib media aritmetic peste 120 este de 0,1003
(0,5000 0,3997).
X

6.4 STRATEGIA INFERENIAL


n statisticile infereniale, mrimile statistice pentru populaii sunt numite
parametri i, prin contrast, mrimile statistice pentru eantioane sunt numite pur i
simplu statistici. Figura 6.1 ilustreaz strategia general a statisticilor infereniale4,
pe care o vom folosi n capitolele care urmeaz.
4 Dup

Hinkle, Wiersma i Jurs, 1988.

92

Figura 6.1 Strategia inferenial


Astfel, n general, n statisticile infereniale avem o populaie ai crei
parametri se doresc a fi determinai. Pentru aceasta, selectm un eantion aleatoriu
din acea populaie i calculm statisticile care reflect parametrii corespunztori,
dup care, pe baza distribuiilor de eantionare ale acelor statistici i a legilor de
probabilitate inferm asupra parametrilor populaiei.
Rezumat

Cercettorii folosesc statistici infereniale pentru a trage concluzii despre


caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale unui
eantion din acea populaie. Folosirea adecvat a acestor tehnici statistice cere ca
eantioanele s fie selectate aleatoriu5 din populaiile de referin. n cazul cel mai
general, un eantion este aleatoriu dac fiecare caz din populaia de referin are
aceeai probabilitate de a fi selectat n eantion cu a oricrui alt caz i selectarea
fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
5 Cuvntul

aleatoriu provine din limba latin, n care substantivul lea nseamn joc cu zaruri sau
ans, iar adjectivul leatrius nseamn de joc, cu referire la jocurile de noroc. Dup cum se tie,
aruncarea cu zarul este experimentul tipic luat n considerare n teoria probabilitilor.

Populaie
(parametri)
Eantion
(statistici)
Distribuie
de
eantionare
Selecie aleatorie
Inferen

Cuvinte cheie
Eantionare aleatorie;
Teorema limitei centrale;
Distribuia de eantionare a mediilor aritmetice;
Statistici;
Paramteri;
Teste de autoevaluare
1. Cum se numeste procedeul fundamental de eantionare aleatorie ? (pg. 99 ).
2. Enumerai cele trei proprieti ale distribuiei de eantionare a mediilor
aritmetice. (pg.104)
3. Enumerai regulile de construire a unei distribuii de frecvene (pg 28

UNITATEA VII
PROCEDURI DE ESTIMARE STATISTIC
Obiective. 95
Cunotine preliminarii...... 95
Resurse necesare i recomandri de studiu... 95
Durata medie de parcurgere a unitii... 95
7.1 Caracteristici ale estimatorilor .................................................................... 96
7. 2 Estimarea mediei aritmetice cnd este cunoscut .................................... 98
7. 3 Estimarea mediei aritmetice cnd este necunoscut ................................ 101
7. 4 Estimarea proporiilor ................................................................................ 105
7.5 Dimensiuni ale eantioanelor i nivele de precizie .................................... 107
Rezumat 110
Cuvinte cheie 110
Teste de autoevaluare... 111
Concluzii 111
95

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere a caracteristicilor estimatorilor;
- s dobndeasc abilitatea de estimare a mediei aritmetice cnd este
cunoscut;
- s dobndeasc abilitatea de estimarea a mediei aritmetice cnd este
necunoscut.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
96

7.1 CARACTERISTICI ALE ESTIMATORILOR


Un estimator trebuie s satisfac dou condiii: s fie nedistorsionat i relativ
eficient. Se spune c un estimator este nedistorsionat, dac media aritmetic a
distribuiei sale de eantionare este egal cu media aritmetic a populaiei de
referin.
Conform teoremei limitei centrale, mediile aritmetice ale eantioanelor
satisfac aceast condiie: media aritmetic a distribuiei de eantionare a mediilor
aritmetice, X m , este egal cu media aritmetic a populaiei, . Statisticienii au
demonstrat c i proporiile eantioanelor, p, sunt nedistorsionate, ntruct media
aritmetic a distribuiei de eantionare a proporiilor pentru eantioane, p, este egal
cu proporia populaiei, P. Prin contrast, un estimator este distorsionat, dac media
aritmetic a distribuiei sale de eantionare este diferit de media aritmetic a
populaiei. De pild, abaterea standard a unui eantion este un estimator distorsionat
al abaterii standard a populaiei: de regul, dispersia unui eantion este mai mic
dect cea a populaiei de referin, astfel c s tinde s subestimeze pe . Dup cum
am menionat n capitolul 3, aceast distorsiune poate fi corectat.
Un estimator nedistorsionat permite, ntre altele, determinarea probabilitii
ca o mrime statistic a unui eantion s se afle la o anumit distan fa de
parametrul corespunztor pe care ncercm s-l estimm.
Pentru ilustrare, s presupunem c ne intereseaz venitul mediu al unei
populaii. Pentru aceasta, alctuim un eantion aleatoriu cu n = 500 i calculm
media aritmetic pentru acest eantion. S presupunem c am gsit X 5000000 .
Dup cum am artat, variabila venit prezint o distribuie asimetric.
Cu toate acestea, conform teoremei limitei centrale, distribuia de eantionare
a X pentru eantioane mari (n 100) aproximeaz normalitatea, avnd media
aritmetic, X m , egal cu media aritmetic a populaiei, m . tim c toate curbele
normale conin aproximativ 68% din cazuri ntre 1Z, 95% din cazuri ntre 2Z i

98% din cazuri ntre 3Z fa de medie. Aici, cazurile sunt medii aritmetice ale
eantioanelor, astfel c exist o probabilitate mare (aproximativ 68 de anse din 100)
ca media aritmetic a eantionului considerat, 5000000, s se afle ntre 1Z, o
probabilitate foarte mare (95 din 100) ca aceast medie s se afle ntre 2Z i o
probabilitate extrem de mare (98 din 100) ca aceast medie s se afle ntre 3Z fa
de media aritmetic a distribuiei de eantionare X m , care are aceeai valoare cu m :
97

Figura 7.1 Procente din aria de sub curba normal


De remarcat c n aproximativ 2% din cazuri, media aritmetic de 5000000 se
afl la mai mult de 3Z fa de media aritmetic a distribuiei de eantionare. Practic,
putem spune c media aritmetic de 5000000 nu se afl n acea minoritate.
Cea de-a doua condiie pe care trebuie s o satisfac un estimator, eficiena,
este legat de dispersie. Un estimator este cu att mai eficient, cu ct distribuia de
eantionare este mai grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct
este mai mic abaterea standard a distribuiei de eantionare. S considerm mediile
aritmetice ale eantioanelor. Din teorema limitei centrale tim c abaterea standard a
distribuiei de eantionare a mediilor aritmetice ale eantioanelor, X s , este egal cu
s n , deci X s este invers proporional cu n: cu ct dimensiunea eantionului este
mai mare, cu att este mai mic X s . Ca atare, eficiena mediei aritmetice ca
estimator poate fi mbuntit (= X s poate fi micorat) prin mrirea dimensiunii
eantionului. Pentru ilustrare, s considerm urmtorul exemplu:
Eantionul 1 Eantionul 2
X 5000000 X 5000000
n1 = 100 n2 = 1000
68,26

-1 +1
95,44%
-3 -2 +3
34,13% 34,13%
13,59% 13,59%
2,15% 2,15%
0,13% 0,13%
X m +2

m
98

S presupunem c abaterea standard a populaiei, , este de 275000 (evident,


valoarea lui este rareori cunoscut n realitate). n privina primului eantion,
abaterea standard a distribuiei de eantionare a mediilor aritmetice ale tuturor
eantioanelor cu n = 100 este 275000 100 = 27500. n privina celui de-al doilea
eantion, abaterea standard a distribuiei de eantionare a mediilor aritmetice ale
tuturor eantioanelor cu n = 1000 este considerabil mai mic: 275000 1000 = 8697.
Cea de-a doua distribuie de eantionare este mult mai grupat dect prima
distribuie1.
Rezumnd, ntruct X s este invers proporional cu n, cu ct eantionul este
mai mare, cu att distribuia de eantionare este mai grupat i eficiena estimatorului
este mai mare2.

7.2 ESTIMAREA MEDIEI ARITMETICE CND ESTE

CUNOSCUT
Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se
calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea
parametrului respectiv este egal cu valoarea calculat pentru eantion. n acest tip de
estimare se ine cont faptul c eficiena estimatorului este direct proporional cu
dimensiunea eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie
aproximativ egal cu parametrul corespunztor este cu att mai mare, cu ct
dimensiunea eantionului este mai mare.
Procedura de estimare a intervalelor este relativ mai complicat, dar este mai
sigur, n sensul c, atunci cnd se estimeaz un interval, probabilitatea ca n acel
interval s se afle parametrul de interes este mai mare i poate fi stabilit cu precizie.
Fie o populaie cu media aritmetic i cu abaterea standard . Selectm
aleatoriu un eantion de dimensiune n din aceast populaie i calculm media
aritmetic pentru eantion, X . Conform teoremei limitei centrale, distribuia de
eantionare a mediilor aritmetice ale tuturor eantioanelor posibile de dimensiune n
din populaia de referin este aproximativ normal, cu media aritmetic egal cu cea
a populaiei de referin i cu abaterea standard egal cu s n . Pe baza
caracteristicilor distribuiei de eantionare i a tabelului distribuiei normale standard
putem formula enunuri de probabilitate despre mediile aritmetice ale eantioanelor.
1 Cea

de-a doua distribuie conine aproximativ 68% din mediile aritmetice ale tuturor eantioanelor
posibile ntre 8697 fa de X m , n timp ce prima distribuie conine ce 68% din mediile aritmetice
ntr-un interval mult mai larg: 27500.
2 Aceste relaii precizeaz ideea intuitiv c putem avea mai mult ncredere n rezultatele obinute pe
eantioane mari, dect n cele obinute pe eantioane mici, evident, cu condiia ca i unele i altele s
fie selectate aleatoriu.

99

De pild, din tabel aflm c proporia de cazuri (medii aritmetice ale eantioanelor)
cuprinse ntre Z = 1,96 i media aritmetic este de 0,475. ntruct curba este
simetric, proporia de cazuri cuprinse ntre Z = 1,96 i media aritmetic este tot de
0,475. Astfel, proporia de cazuri cuprinse ntre 1,96 abateri standard fa de medie
este de 0,95, iar proporia de cazuri aflate sub 1,96 i peste 1,96 abateri standard
fa de medie este de 0,05 (0,025 + 0,025):
Acelai lucru ca mai sus poate fi exprimat spunnd c 95% din mediile
aritmetice ale eantioanelor se afl n intervalul dintre m 1,96(s n) i
m 1,96(s n) sau, pe scurt, n intervalul m 1,96(s n) . Structura acestui tip de
enun de probabilitate poate fi folosit pentru a estima valoarea parametrului , prin
construirea unui interval centrat pe valoarea cunoscut pentru eantion, X .
Rezultatul este un interval de ncredere estimat o amplitudine de valori n care
este probabil (nu sigur) s se afle . Astfel, putem estima c exist o probabilitate de
0,95 (sau 95%) ca media aritmetic a populaiei s se afle n intervalul
X 1,96(s n) , ceea ce nseamn c probabilitatea ca media aritmetic a populaiei
s nu se afle n acest interval este de 0,05 (sau 5%).
Probabilitatea ca media aritmetic a populaiei s nu se afle n intervalul
estimat sau, altfel spus, probabilitatea de eroare a estimrii se numete nivel de
semnificaie sau nivel alfa (), iar probabilitatea ca intervalul estimat s conin
media aritmetic a populaiei se numete nivel de ncredere. Dup cum reiese i din

cele de mai sus, nivelul de ncredere este complementarul nivelului alfa, fiind egal cu
1 sau, n procente, cu (1 )100. A stabili, de pild, c = 0,05 nseamn
acelai lucru cu a spune c nivelul de ncredere este de 95%. ntruct probabilitatea
de eroare este mprit n mod egal n extremitatea inferioar i cea superioar a
distribuiei de eantionare, stabilindu-se astfel limita inferioar i limita inferioar de
ncredere, vom nota scorul Z corespunztor nivelului ales cu Z/2. Astfel, n cazul n
care este cunoscut, formula de construire a unui interval de ncredere estimat (IE)
bazat pe media aritmetic a unui eantion este urmtoarea:
0,475 0,475
0,95
1,96 1,96
0,025 0,025
100

Formula 7.1 ( ) 2 IE X Z s n a
Ca exemplu, s presupunem c dorim s estimm media aritmetic zilnic a
orelor de vizionare a programelor TV de ctre femeile casnice. Pentru aceasta,
alctuim un eantion aleatoriu de 200 de femei casnice (n = 200) i aflm c acestea
petrec n medie 6 ore pe zi vizionnd programe TV ( X 6 ). Prin testri extensive
tim c abaterea standard a populaiei pentru vizionarea programelor TV este de
aproximativ 0,7 ( = 0,7). n aceast cercetare suntem dispui s asumm o ans de
a grei de 10%, stabilind = 0,10. Pentru a determina limitele de ncredere inferioar
i superioar, trebuie s scdem 0,05 (i.e. /2) din 0,5 (proporia de cazuri aflate de o
parte i de alta a mediei aritmetice a distribuiei de eantionare). Rezultatul scderii
este 0,450, ceea ce reprezint proporia de cazuri dintre o limit de ncredere i
medie:
Astfel, pentru = 0,10 trebuie s cutm proporia 0,4500 n tabelul distribuiei
normale standard. Gsim ns o proporie de 0,4495, corespunztoare scorului Z/2 =
1,64 i o proporie de 0,4505, corespunztoare scorului Z/2 = 1,65. Scorul Z/2 pe
care l cutm se afl undeva ntre aceste dou scoruri. n aceste condiii, se ia cel
mai mare dintre cele dou scoruri: 1,65. n acest fel, intervalul de ncredere va fi cel
mai mare posibil n circumstanele date. Prin urmare, vom avea:
( ) 6 1,65(0,7 200) 2 IE X Z s n a 6 1,65(0,7/14,14) =
= 6 1,65 0,0495 = 6 0,08
0,450 0,450
0,90
1,65 1,65
0,05 0,05
101

Pe baza mediei aritmetice a eantionului, estimm c femeile casnice petrec n medie


ntre 5,92 (6 0,08) i 6,08 (6 0,08) ore pe zi vizionnd programe TV. O alt
modalitate de a enuna acest interval este 5,92 6,08. Aceast estimare are o
ans de 10% de a fi greit, adic de a nu conine media aritmetic a populaiei.
n principiu, cercettorul poate folosi orice valoare pentru nivelul de
ncredere. Totui, nivelurile de ncredere folosite n mod obinuit sunt 90%, 95% i
99%. n cazul nivelului de ncredere de 99% ne confruntm cu aceeai problem ca

n ultimul exemplu de mai sus. n acest caz, = 0,01 i scznd 0,005 (/2) din 0,5
obinem 0,495. n tabel nu apare proporia 0,4950, dar apar proporiile 0,4949 (Z/2 =
2,57) i 0,4951 (Z/2 = 2,57). Ca mai sus, se ia cel mai mare dintre cele dou
scoruri: 2,58. Tabelul urmtor rezum toate datele de care avem nevoie:
Tabelul 7.1 Niveluri de ncredere i scoruri Z/2
Nivelul de ncredere
(1 ) 100
/2 Z/2
90% 0,10 0,050 1,65
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58

7.3 ESTIMAREA MEDIEI ARITMETICE CND ESTE


NECUNOSCUT. DISTRIBUIA tSTUDENT
n aproape toate situaiile reale de cercetare, valoarea abaterii standard a
populaiei este necunoscut. Se disting aici dou cazuri: cazul n care dimensiunea
eantionului este relativ mare, ceea ce nseamn eantioane cu n 30, i cazul n 30.
n cazul eantioanelor cu n 30, se poate estima prin s (abaterea standard a
eantionului). ntruct, dup cum am vzut, s este un estimator distorsionat pentru ,
formula de construire a intervalului de ncredere estimat este uor modificat fa de
formula 6.1, pentru a se corecta distorsiunea. Astfel, formula modificat pentru
cazurile (reale) n care este necunoscut i n 30 este urmtoarea:
Formula 7.2 ( 1) 2 IE X Z s n a
102

nlocuirea lui n cu n 1 reprezint corecia cerut de faptul c s este un


estimator distorsionat.
Pentru ilustrare, s presupunem c venitul mediu al unui eantion aleatoriu cu
n = 500 este de 5000000 de lei ( X 5000000 ) cu s = 125000. Care este intervalul de
ncredere estimat pentru media aritmetic a populaiei respective, la un nivel de
ncredere de 95% ( = 0,05)?
( 1) 5000000 1,96(125000 500 1) 2 IE X Z s n a
5000000 1,96(125000 22,34) 5000000 1,96 5595,34 =
= 5000000 10967
Pe baza mediei aritmetice a eantionului, estimm c media aritmetic a veniturilor
populaiei este cuprins ntre 4989033 lei (5000000 10967) i 5010967 lei
(5000000 10967) i exist doar 5% anse ca acest interval s nu conin media
aritmetic a populaiei. Atunci cnd eantioanele sunt mici (n 30) i valoarea lui
este necunoscut, distribuia normal standard nu poate fi folosit pentru a descrie
distribuia de eantionare a mediilor aritmetice. Pentru a construi intervale estimate
semnificative n cazul n 30 se folosete o alt distribuie teoretic: distribuia
t-Student3. Ca i n cazul distribuiei normale, graficul distribuiei tStudent, numit
i curba t, este simetric i are form de clopot cu ambele extremiti extinse la
infinit. Spre deosebire de graficul distribuiei normale, forma exact a graficului
distribuiei t depinde de dimensiunea eantionului. Pentru eantioane mici, graficul
distribuiei t este mult mai aplatizat dect cel al distribuiei normale (comparai figura

urmtoare cu oricare dintre graficele de mai sus).


Figura 7.2 Un exemplu de curb t
Pe msur ce dimensiunea eantionului crete, distribuia t seamn din ce n
ce mai mult cu distribuia normal, identificndu-se cu aceasta pentru eantioane
distribuie este datorat lui William S. Gosset, un chimist i statistician care lucra la fabrica
de bere Guiness la nceputul secolului al XX-lea. Gosset a descoperit c pentru eantioanele mici,
distribuiile de eantionare difer de distribuia normal i depind de dimensiunea eantionului
considerat. Gosset i-a publicat rezultatele n 1908 sub pseudonimul Student.
3 Aceast

t=0
103

practic foarte mari (i teoretic infinite). Astfel, ntruct exist o distribuie t specific
pentru fiecare eantion de dimensiune dat, distribuia t este, de fapt, o familie de
distribuii.
Distribuia t particular cerut pentru rezolvarea unei anumite probleme
depinde de un concept matematic numit grade de libertate. Acest concept se refer
la numrul de valori libere s varieze ntr-o distribuie. De pild, dac tim c o
distribuie de cinci scoruri are media aritmetic egal cu 3 i c patru dintre aceste
scoruri sunt 1, 2, 3, i 4, atunci valoarea celui de-al cincilea scor este fixat: 5. n
general, pentru media aritmetic a unui eantion de dimensiune n, o distribuie are n
1 grade de libertate. Fiecare distribuie t este asociat cu un numr unic de grade de
libertate. Mai precis, dac se selecteaz toate eantioanele posibile de dimensiune n
dintr-o populaie normal, atunci distribuia de eantionare a cantitii
1

sn
tX
m
este distribuia tStudent cu n 1 grade de libertate.
Distribuia t va fi utilizat ndeosebi n testarea ipotezelor. Deocamdat vom
descrie tabelul valorilor critice ale distribuiei t, prezentat n Anexa C, i vom
ilustra utilizarea acestui tabel pentru estimarea intervalelor. Schema general a
acestui tabel este prezentat n figura 6.3.
Figura 7.3 Schema tabelului valorilor critice ale distribuiei t
gl t0,10 t0,05 t0,025 t0,01 t0,005
1
2
3

29 2,045
30

104

Tabelul valorilor critice ale distribuiei t specific valorile pentru t, ceea ce


nseamn valorile lui t pentru care aria aflat la dreapta sub curba t este egal cu :
Nivelele sunt dispuse pe primul rnd al tabelului Valorile t sunt date pentru

grade de libertate (gl), dispuse pe prima coloan din stnga, de la 1 la 30 i apoi 40,
60, 120 i . De notat c, pe msur ce numrul de grade de libertate crete,
diferena dintre distribuia t i distribuia normal descrete, precum i c pentru o
infinitate de grade de libertate, distribuia t este identic cu distribuia normal.
Pentru estimarea intervalelor, ca i pentru alte scopuri, avem nevoie de t/2. Aceast
valoare se localizeaz nmulind cu 2 valoarea aflat pe primul rnd. De pild,
pentru n = 30 i = 0,05, numrul de grade de libertate este 29; la intersecia
coloanei de sub t = 0,025 i liniei corespunztoare pentru gl = 29 gsim valoarea
2,045. Astfel, n acest caz, vom spune c valoarea lui t/2 este 2,045.
Formula pentru cazurile n care este necunoscut i n 30 este urmtoarea:
Formula 7.3 ( ) 2 IE X t s n a
Pentru ilustrare, s presupunem c un eantion aleatoriu de 20 de adolesceni cu
dificulti de nvare au obinut urmtoarele rezultate la un test de cunotine la care
scorul maxim ce poate fi obinut este de 40:
Tabelul 7.2 Scoruri obinute la un test de cunotine de ctre 20 de adolesceni
cu dificulti de nvare
18
31
26
24
22
20
32
28
27
33
12
25
23
20
28
30
29
20
19
22
Presupunnd c variabila msurat este normal distribuit n populaia de adolesceni
cu dificulti de nvare, care este intervalul de ncredere estimat pentru media
aritmetic a acestei populaii, la un nivel de ncredere de 99%? Calculm mai nti
media aritmetic a scorurilor din eantion:
t

105

X = 24,45
20

489
n
Xi
Abaterea standard la nivelul eantionului este:
29,4 5,42
19
12515 20 597,8
1
22

n
X nX
si
Pentru n = 20, numrul de grade de libertate este 19; avnd = 0,01, la intersecia
coloanei de sub t = 0,005 i liniei corespunztoare pentru gl = 19 gsim valoarea
2,861. Astfel, valoarea lui t/2 este 2,861. Aplicnd formula 7.3, obinem:
( ) 24,45 2,861(5,42 20) 24,45 3,46 2 IE X t s n a
Astfel, estimm c media aritmetic pe care o cutm este cuprins ntre 21,03 i
27,91 i exist doar 1% anse ca acest interval s nu conin media aritmetic a
populaiei.
De reinut c formula 7.3 poate fi aplicat doar dac variabila de interes este
normal distribuit.

7.4 ESTIMAREA PROPORIILOR


Pe baza teoremei limitei centrale se demonstreaz c proporiile pentru
eantioane (p) au distribuii de eantionare aproximativ normale, cu media aritmetic
(p) egal cu proporia pentru populaie (P) i abaterea standard (p) egal cu
P(1 P) n . Teoretic, formula pentru construirea unui interval estimat bazat pe
proporii ale eantioanelor este urmtoarea:
Formula 7.4
n
IE p Z P(1 P)
2

a
n aceast formul, valorile pentru p i n provin de la eantion, iar valoarea lui Z/2 se
determin la fel ca mai sus. Problema cu aceast formul este c valoarea proporiei
pentru populaie, P, nu este cunoscut. Pentru a rezolva aceast problem, se poate
proceda n dou moduri.
Un prim mod de a rezolva problema const n a stabili c P = 0,5. n aceast
situaie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat c

0,25 este valoarea maxim pe care o poate lua numrtorul fraciei de sub radical,
P(1 P). Stabilind pentru P orice alt valoare diferit de 0,5, valoarea expresiei P(1
P) va fi mai mic dect valoarea pentru P = 0,5. De pild, dac P = 0,4, atunci 1
P = 0,6 i
106

P(1 P) = 0,4 0,6 = 0,24. ntruct P(1 P) are valoarea maxim cnd P = 0,5, ne
asigurm c intervalul obinut va fi cel mai mare posibil pentru p, Z/2 i n date.
Practic, adoptnd aceast soluie, lucrm cu formula urmtoare:
Formula 7.5
n
IE p Z 0,25
a 2
A doua soluie a problemei menionate const din a estima valoarea lui P prin
p, lucrnd cu formula urmtoare:
Formula 7.6
n
IE p Z p(1 p)
2

a
Oricum, formulele de mai sus pot fi folosite doar dac dimensiunea eantionului
considerat estre destul de mare, astfel nct np 5 i n(1 p) 5.
Spresupunem, de pild, c ne dorim s estimm proporia de studeni de la
universitatea X care au lipsit cel puin o zi pe motiv de boal ntr-un anumit semestru
i c dintr-un eantion aleatoriu de 200 de studeni, gsim 30 n aceast situaie.
Astfel, proporia eantionului pe care ne bazm estimarea este p = 30/200 = 0,15. La
un nivel de ncredere de 95%, intervalul estimat cu ajutorul formulei 7.5 este
urmtorul:
0,15 0,07
200
0,25 0,15 1,96 0,25
2
n
IE p Za
Pe baza proporiei de 0,30 a eantionului, estimm c proporia cutat este cuprins
ntre 0,08 i 0,22. Estimarea poate fi exprimat i n termeni de procente, spunnd c
ntre 8% i 22% dintre studenii universitii X au lipsit cel puin o zi pe motiv de
boal n semestrul considerat.
Saplicm acum formula 7.6 la aceleai date, pstrnd nivelul de ncredere
de 95%:


200
0,15 1,96 0,15 0,85
200
(1 ) 0,15 1,96 0,15(1 0,15)
2n
IE p Z p p a
0,15 0,05
200
0,15 1,96 0,13
n acest caz, estimm c proporia cutat este cuprins ntre 0,10 i 0,20 sau, altfel
spus, c ntre 10% i 20% dintre studenii universitii X au lipsit cel puin o zi pe
motiv de boal n semestrul considerat.
De notat c intervalul estimat cu ajutorul formulei 7.5 este mai larg dect cel
estimat cu ajutorul formulei 7.6, astfel c prima estimare este cea mai conservatoare
soluie posibil, cci este mult mai probabil ca intervalele mai largi s conin
parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este
preferabil celei de-a doua estimri.
107

7.5 DIMENSIUNI ALE EANTIOANELOR I NIVELE DE


PRECIZIE
Formulele 7.1 i 7.5 pot fi manipulate algebric pentru a determina
dimensiunea unui eantion la orice nivel de precizie dorit sau, altfel spus, pentru
orice limit de eroare stabilit.
CONTROLUL MRIMII INTERVALULUI ESTIMAT
Mrimea unui interval de ncredere estimat pentru medii aritmetice sau
proporii poate fi controlat prin intermediul a doi termeni ai ecuaiei respective:
nivelul de ncredere, care determin scorul Z/2 sau t/2 corespunztor, i dimensiunea
eantionului.
Relaia dintre nivelul de ncredere i mrimea intervalului este de
proporionalitate direct: cu ct nivelul de ncredere crete, cu att intervalul este mai
mare. Intuitiv, este mult mai probabil ca intervalele mai largi s conin valoarea
pentru populaie, prin urmare putem avea mai mult ncredere n astfel de intervale.
Pentru a ilustra aceast relaie, s considerm din nou exemplul privind estimarea
venitului mediu al unei populaii: n = 500, X 5000000 , s = 125000. La un nivel de
ncredere de 95% am gsit intervalul 5000000 10967 (i.e. acest interval se extinde
la 10967 lei n jurul mediei aritmetice a eantionului). Acum, dac lum un nivel de
ncredere de 99%, scorul Z/2 corespunztor crete la 2,58, iar intervalul se mrete:
IE = 5000000 2,58 5595,34 = 5000000 14436
(intervalul estimat la un nivel de ncredere de 99% se extinde la 14436 lei n jurul
mediei). Exact aceeai relaie se aplic i la proporii.
Relaia dintre dimensiunea eantionului i mrimea intervalului este de
proporionalitate invers: cu ct dimensiunea eantionului este mai mare, cu att
intervalul este mai ngust. Intuitiv, eantioanele mai mari permit estimri mai precise.
Pentru ilustrare, s considerm din nou exemplul privind estimarea venitului mediu,
modificnd doar dimensiunea eantionului: n = 1000 (95%).

IE 5000000 1,96(125000 1000 1) 5000000 1,96 3955,7 5000000 7753


Pentru n = 500, la un nivel de ncredere de 95%, intervalul estimat se extinde la
10967 lei n jurul mediei; pentru n = 1000, toate celelalte rmnnd aceleai,
intervalul estimat se extinde doar la 7753 lei n jurul mediei. Exact aceeai relaie se
aplic i la proporii.
108

De notat c ngustarea intervalului (= creterea preciziei) nu depinde n mod


liniar de dimensiunea eantionului. n exemplul nostru am dublat dimensiunea
eantionului, dar cel de-al doilea interval nu este de dou ori mai ngust dect primul,
ci de aproximativ 1,41 de ori mai ngust. Aceasta nseamn c n trebuie s creasc de
trei sau patru ori pentru a obine o dublare a preciziei. ntruct costul unei cercetri
este direct proporional cu dimensiunea eantionului, un eantion de, s zicem, 10000
de persoane cost aproximativ de dou ori mai mult dect unul de 5000 de persoane,
dar estimarea bazat pe eantionul mai mare nu va fi de dou ori mai precis dect
cea bazat pe eantionul mai mic.
DETERMINAREA DIMENSIUNII EANTIONULUI PENTRU ESTIMAREA
MEDIILOR ARITMETICE
S considerm formula 7.1:
n
IE X Z s
a 2
n aceast formul, membrul ( ) 2 Z s n a reprezint, n fapt, limita de eroare sau
nivelul de precizie a estimrii: ( ) 2 Z s n a este limita inferioar, iar
( ) 2 Z s n a este limita superioar. Notnd limita de eroare cu L, putem scrie
urmtoarea ecuaie:
n
LZs
a 2
Ridicnd la ptrat ambii membri ai ecuaiei, egalitatea se pstreaz:
n
LZ
2
2
2

s
a
Din aceast egalitate l putem obine pe n:
Formula 7.7 2
2

22
2

L
Z
n
s a
Pentru a folosi aceast formul trebuie s cunoatem valoarea lui , or, dup cum am
mai menionat, n aproape toate cazurile aceast valoare nu este cunoscut. Totui,
valoarea lui poate fi aproximat, dac cunoatem amplitudinea variabilei msurate,
A. Astfel, o aproximare conservatoare a lui este A/4.

Silustrm. Un psiholog industrial dorete s estimeze durata medie n care


un muncitor de la o firm de produse electronice execut un anumit reglaj.
Observnd un numr de muncitori care execut reglajul respectiv, psihologul
constat c durata cea mai mic este de 10 minute, iar cea mai mare de 22 de minute.
Ct de mare trebuie s fie eantionul selectat, dac psihologul dorete s estimeze
durata medie de execuie a acelui reglaj cu o precizie de 20 de secunde, la un nivel de
109

ncredere de 95%? n aceast problem, L = 20 i amplitudinea variabilei msurate


este A = 22 10 = 12 minute, astfel c
A/4 = 12/4 = 3 minute = 180 secunde
Acum l putem obine pe n:
311,12 300
20
(1,96) 180
2
22
2
22

L
Z
n
sa
Prin urmare, psihologul trebuie s selecteze un eantion aleatoriu de aproximativ 300
de muncitori pentru a estima durata medie de executare a reglajului respectiv cu o
precizie de 20 de secunde, la un nivel de ncredere de 95%.
Spresupunem acum c se dorete dublarea preciziei de la 20 de secunde la
10 secunde, la acelai nivel de ncredere. n acest caz avem:
1244,48 1244
10
(1,96) 180
2

2
22
2
22

L
Z
n
sa
Se observ c dimensiunea eantionului crete mai repede dect precizia: pentru a
dubla precizia de la 20 de secunde la 10 secunde, dimensiunea eantionului trebuie s
creasc de aproximativ patru ori. Aceast relaie este important pentru planificarea
costurilor unei cercetri. Eantioanele impresionant de mari pot constitui o irosire de
resurse fr un ctig semnificativ n privina preciziei, n raport cu eantioanele mai
2

mici i deci mai ieftine.


DETERMINAREA DIMENSIUNII EANTIONULUI PENTRU ESTIMAREA
PROPORIILOR
Am vzut c, practic, n construirea unui interval estimat pentru proporii
lucrm cu formula
n
IE p Z 0,25
a 2
Aici, limita de eroare a estimrii este
n
Z 0,25
a 2 . Notnd tot cu L limita de eroare a
estimrii, avem ecuaia:
n
L Z 0,25
a 2
Ridicnd la ptrat ambii membri, avem:
n
L Z 2 0,25
2
2
s

110

Din aceast egalitate l obinem pe n:


Formula 7.8 2
2

0,25
L
Z
n s
Spresupunem c un institut de sondare a opiniei publice dorete s estimeze
rezultatul unor alegeri prezideniale nuntrul unei marje de eroare de 3%. Ct de
mare trebuie s fie eantionul cerut pentru a sigura acest nivel de precizie la un nivel
de ncredere de 95%? Exprimnd limita de eroare sub form de proporie, obinem:
1067,11 1000
(0,03)
(1,96) 0,25
2

2
2

n
Prin urmare, pentru a obine o precizie (o limit de eroare a estimrii) de 3%, este
nevoie de un eantion de aproximativ 1000 de persoane.
i aici se poate constata uor c dimensiunea eantionului crete mai repede
dect precizia. Tabelul urmtor prezint relaiile dintre precizie i dimensiunea
eantionului pentru proporii ale eantioanelor:
Tabelul 7.3 Precizia i dimensiunea eantionului ( = 0,05, P = 0,5)
Precizia
(Mrimea intervalului)

Dimensiunea aproximativ
a eantionului
10% 100
7% 200
5% 400
3% 1000
2% 2400
1% 9600
Se poate observa, de pild, c pentru a dubla precizia de la 10% la 5%, dimensiunea
eantionului trebuie s creasc de patru ori.
Rezumat
Un estimator trebuie s satisfac dou condiii: s fie nedistorsionat i relativ
eficient. Se spune c un estimator este nedistorsionat, dac media aritmetic a
distribuiei sale de eantionare este egal cu media aritmetic a populaiei de
referin. Prin contrast, un estimator este distorsionat, dac media aritmetic a
distribuiei sale de eantionare este diferit de media aritmetic a populaiei.
Cuvinte cheie
Estimator distorsionat;
Estimator nedistorsionat;
111

distribuia tStudent;
grade de libertate;
tabelul valorilor critice ale distribuiei t.
Teste de autoevaluare
1. Definii ce este un estimator nedistorsionat (pg. 109).
2. Definii ce este un estimator distorsionat? (pg.109).
3. Definii nivelul de semnificaie sau nivelul alfa (). (pg. 112)
4. Cand se folosete distribuia tStudent? (pg. 115 )
5. La ce se refer conceptul de grade de libertate? (pg. 116 )
Concluzii.
Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se
calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea
parametrului respectiv este egal cu valoarea calculat pentru eantion. n acest tip de
estimare se ine cont de faptul c eficiena estimatorului este direct proporional cu
dimensiunea eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie
aproximativ egal cu parametrul corespunztor este cu att mai mare, cu ct
dimensiunea eantionului este mai mare.

UNITATEA VIII
TESTAREA IPOTEZELOR DESPRE O SINGUR POPULAIE
Obiective. 113
Cunotine preliminarii... 113
Resurse necesare i recomandri de studiu. 113
Durata medie de parcurgere a unitii... 113
8.1 Testul scorurilor z pentru medii aritmetice cnd este cunoscut .............. 114
8.2 Erori n testarea ipotezelor .......................................................................... 120

8.3 Testarea ipotezelor pentru medii aritmetice cnd este necunoscut ......... 122
8.4 Testul scorurilor z pentru proporii ............................................................. 124
Rezumat 126
Cuvinte cheie 126
Teste de autoevaluare... 126
Concluzii 127
113

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere a Testului scorurilor z pentru medii aritmetice cnd
este cunoscut;
- s dobndeasc abilitatea de testarea a ipotezelor pentru medii aritmetice
cnd este necunoscut;
- s dobndeasc abilitatea de a detecta erori n testarea ipotezelor;
- s calculeze testul scorurilor z pentru proporii.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
114

8.1 TESTUL SCORURILOR Z PENTRU MEDII ARITMETICE


CND ESTE CUNOSCUT
Vom prezenta acest test cu ajutorul unui exemplu, pe care l vom folosi i
pentru a introduce noiunile fundamentale ale testelor parametrice: ipotez de nul,
ipotez alternativ, statistic a testului i regul de decizie.
Un cercettor presupune c ntr-un anumit an, media aritmetic a punctajelor
obinute la examenul de rezideniat al medicilor este de 800. Pentru a testa aceast
ipotez, cercettorul alctuiete un eantion aleatoriu de 130 de medici care i-au
susinut rezideniatul n acel an i constat c la nivelul acestui eantion media
aritmetic a punctajului obinut este de 755. Prin investigaii extensive, cercettorul
tie c abaterea standard la nivelul populaiei de referin este de aproximativ 152.
Problema care se pune este dac diferena dintre media aritmetic a eantionului i
valoarea presupus pentru populaie este sau nu statistic semnificativ. Dac
rspunsul este afirmativ, atunci ipoteza fcut poate fi respins. Dac, ns, rspunsul
este negativ, atunci diferena poate fi pus pe seama ntmplrii, astfel c ipoteza
cercettorului nu poate fi respins. Dup cum vom vedea, testul scorurilor Z permite
determinarea matematic a nelesului termenului statistic semnificativ. Datele
problemei sunt, deci, urmtoarele:
Populaie Eantion
H = 800 X 755

= 152 n = 130
Am notat cu H media aritmetic presupus a populaiei, pentru a o deosebi de media
aritmetic efectiv a populaiei, .
Ipoteza de nul, pe care o vom nota H0, specific o anumit valoare pentru
parametrul respectiv. n general, ipoteza de nul despre media aritmetic a unei
populaii are forma
H0: = H
Denumirea de ipotez de nul se justific prin aceea c forma sa poate fi redat
echivalent prin
115

H0: H = 0
n cuvinte, ipoteza de nul enun c nu exist nici o diferen semnificativ
ntre valoarea efectiv a parametrului respectiv i valoarea presupus a acelui
parametru. Dac ipoteza de nul este adevrat, atunci diferena dintre eantion i
populaie nu este semnificativ, putnd fi atribuit ntmplrii.
n mod obinuit, cercettorul este de prere c exist o diferen semnificativ
ntre eantion i populaie i dorete s resping ipoteza de nul ca neadevrat.
Aceast opinie constituie ipoteza alternativ, pe care o vom nota cu Ha. Dac
cercettorul nu are posibilitatea sau nu dorete s prezic sensul diferenei, atunci
ipoteza alternativ ia forma
Ha: H
Dac, ns, sensul diferenei dintre eantion i populaie poate fi prezis sau
dac cercettorul este interesat doar de un singur sens al diferenei, atunci ipoteza
alternativ poate lua una dintre urmtoarele dou forme:
Ha: H
Ha: H
n cazul n care Ha are forma H, se spune c testul este bilateral sau nondirecional,
iar n cazurile n care Ha are una dintre celelalte dou forme, se spune c
testul este unilateral sau direcional. Vom reveni la aceste noiuni ceva mai departe.
S reinem deocamdat c n orice test se decide dac se respinge sau nu se respinge
ipoteza de nul, pe baza dovezilor aduse n sprijinul ipotezei alternative. Astfel, dac
putem respinge H0 ca neadevrat, atunci vom accepta Ha.
Revenind la exemplul nostru, ipoteza de nul este H0: = 800. Din enunul
problemei rezult c nu este vorba despre un sens al diferenei menionate, astfel c
ipoteza alternativ este Ha: 800.
Termenul statistic a testului se refer la formula a crei aplicare n testul
respectiv permite obinerea unei valori ce formeaz baza deciziei asupra ipotezei de
nul. Pentru mediile aritmetice, atunci cnd se cunoate sau se poate aproxima
valoarea lui , statistica testului este dat de urmtoarea formul:
Formula 8.1
n
ZXH
s
m

Snotm c aceast formul este analoag structural formulelor de calcul


pentru transformarea unui scor brut X n scorul Z corespunztor (v. seciunea 4.2),
aici fiind vorba despre scorul Z al unei medii aritmetice. Ca atare, n numitorul
formulei 8.1 apare abaterea standard a distribuiei de eantionare a X , astfel c
aceast formul ne d distana n abateri standard sau fraciuni de abateri standard a
116

mediei aritmetice a eantionului, X , fa de valoarea presupus pentru populaie. n


exemplul nostru, avem
3,36
13,4
45
152 11,40
45
152 130
755 800

n
ZXH
s
m
Din motive care vor deveni imediat evidente, vom desemna rezultatul aplicrii
formulei 8.1 prin Z (obinut). Aici, Z (obinut) = 3,36.
Regula de decizie se refer la o anumit amplitudine de valori pentru
rezultatul statisticii testului, numit zon critic sau zon de respingere, care
conduce la respingerea ipotezei de nul. n cazul testului scorurilor Z pentru medii
aritmetice, zona critic se stabilete cu ajutorul distribuiei de eantionare a X .
Astfel, n exemplul de mai sus, eantionul alctuit este unul dintre toate eantioanele
posibile cu n = 130 din populaia de referin. S presupunem c H0 este adevrat,
Dac s-ar calcula toate mediile aritmetice posibile, atunci teorema limitei centrale
asigur urmtorul rezultat:
n general, cu ct X este mai aproape de centru (diferena dintre X i
m m X este mai mic), cu att vom fi mai nclinai s nu respingem ipoteza de nul i
cu ct X este mai departe de centru (diferena dintre X i m m X este mai mare),
cu att vom fi mai nclinai s respingem ipoteza de nul. Cu alte cuvinte, ipoteza de
nul poate fi respins dac rezultatul statisticii testului este un numr negativ prea
mare sau un numr pozitiv prea mare. nelesul expresiei prea mare se fixeaz
prin alegerea unui nivel de ncredere sau nivel (revedei capitolul anterior). n cazul
ipotezei alternative de forma Ha: H, nivelul ales se mparte n mod egal n cele

dou extremiti ale distribuiei de eantionare:


755 = 800
117

Aria de sub Z/2 plus aria de peste +Z/2 reprezint zona critic: dac scorul Z
corespunztor mediei aritmetice a unui eantion cade n aceast arie (i.e. sub Z/2
sau peste +Z/2), atunci media aritmetic respectiv are prin definiie o probabilitate
de apariie mai mic dect . Scorurile Z/2 i +Z/2 se numesc scoruri Z critice i
se desemneaz, respectiv, prin -Z/2 (critic) i +Z/2 (critic).
Srevenim iari la exemplul nostru i s stabilim = 0,05. tim c pentru
aceast valoare a lui , Z/2 = 1,96. Z (obinut) se afl n zona critic (3,36
1,96), dup cum se ilustreaz n figura urmtoare:
Ca atare, suntem ndreptii s respingem ipoteza de nul: probabilitatea de
apariie a mediei aritmetice a eantionului considerat este mai mic dect 0,05 i deci
nu poate fi atribuit ntmplrii. Cu alte cuvinte, diferena dintre media aritmetic a
eantionului i media aritmetic presupus pentru populaie este statistic
semnificativ (eantionul de rezideni difer semnificativ de populaia din care a fost
selectat), astfel c ipoteza de nul poate fi respins.
De notat c decizia pe care am luat-o (respingerea ipotezei de nul) comport
un element de risc: aceast decizie poate fi greit, ntruct este posibil ca eantionul
Z/2 Z/2
/2 /2
1,96 0 1,96
-3,36
118

considerat s fie unul dintre puinele eantioane nereprezentative pentru populaia de


medici rezideni. O trstur foarte important a testrii ipotezelor const din aceea
c probabilitatea de a lua o decizie greit este cunoscut, fiind dat de nivelul ales.
n exemplul nostru, probabilitatea de a lua o decizie greit este de 0,05. A spune c
probabilitatea de a fi respins greit ipoteza de nul este de 0,05 revine la a spune c
dac am repeta acest test de o infinitate de ori, vom respinge greit H0 doar de 5 ori la
fiecare 100 de repetri. Rezultatul de mai sus poate fi enunat i spunnd c diferena
menionat este statistic semnificativ la un nivel de ncredere de 95%. Ca i pentru
estimarea intervalelor, nivelurile de ncredere folosite n mod obinuit n testarea
ipotezelor sunt 90%, 95% i 99%.
Testul ntreprins n acest exemplu este bilateral sau nedirecional. n general,
ntr-un astfel de test, ipoteza alternativ enun doar c exist o diferen ntre
valoarea efectiv a parametrului respectiv i valoarea presupus pentru acel
parametru. Dup cum am vzut, n cazul unui test bilateral, zona critic specificat
de nivelul se mparte n mod egal n cele dou extremiti ale distribuiei de
eantionare. ntr-un test bilateral, indiferent de nivelul ales, regula de decizie este
urmtoarea:
Se respinge H0, dac Z (obinut) > +Z/2 (critic) sau dac Z (obinut) < -Z/2
(critic)
ntr-un test unilateral sau direcional, dac cercettorul crede c valoarea efectiv a
parametrului este mai mare dect valoarea presupus, Ha ia forma H, iar pentru

un test n sensul opus, Ha ia forma H.. n cazul unui test unilateral, ntreaga zon
critic specificat de nivelul este plasat n extremitatea de interes a distribuiei de
eantionare. De pild, ntr-un test bilateral n care = 0,05, zona critic ncepe de la
Z/2 (critic) = 1,96. ntr-un test unilateral, la acelai nivel , Z (critic) este +1,65
dac este vorba despre extremitatea superioar (dac Ha este de forma H) i este
1,65 dac este vorba despre extremitatea inferioar (dac Ha este de forma H)1.
De notat c aici folosim Z n loc de Z/2, ntruct ntreaga zon critic este plasat
ntr-o singur extremitate a distribuiei de eantionare.
ntr-un test unilateral, indiferent de nivelul ales, dac Ha este de forma
H (test unilateral dreapta), atunci regula de decizie este
Se respinge H0, dac Z (obinut) > +Z (critic)
Dac Ha este de forma H (test unilateral stnga) atunci regula de decizie este
Se respinge H0, dac Z (obinut) < -Z (critic)
0,05 din 0,5 (proporia de cazuri aflate de o parte i de alta a mediei aritmetice a distribuiei
de eantionare). Rezultatul scderii este 0,4500. Conform tabelului distribuiei normale standard,
scorul Z corespunztor acestei proporii este 1,65.
1 Scdem

119

Dup cum rezult i din cele de mai sus, un test unilateral este mai bun
dect unul bilateral, deoarece zona critic este tras mai aproape de media
aritmetic, mbuntind astfel probabilitatea de a respinge H0. Astfel, dac
cercettorul are mai mult experien i mai multe cunotine n legtur cu variabila
investigat, atunci se recomand folosirea unui test unilateral, ceea ce cere o ipotez
alternativ direcional.
Se obinuiete ca testarea ipotezelor statistice s fie organizat sub forma unui
model n n pai, numrul de pai diferind de la un autor la altul n funcie de
anumite opiuni de compactare sau de detaliere a informaiei. n cele ce urmeaz vom
folosi un model n 4 pai, pe care l exemplificm pentru problema tratat mai sus:
Pasul 1. Enunarea ipotezelor
H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test bilateral)
Z/2 (critic) = 1,96
(Zona critic este notat prin scorurile Z care i marcheaz nceputurile).
Pasul 3. Calcularea statisticii testului
3,36
13,4
45
152 11,40
45
152 130
755 800

n
ZXH
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (3,36 1,96), ipoteza de nul
poate fi respins. Diferena dintre eantionul de medici rezideni i populaia de
referin nu poate fi atribuit ntmplrii sau, altfel spus, aceast diferen este
statistic semnificativ (la un nivel de ncredere de 95%).
Pentru a ilustra aplicarea unui test unilateral, s presupunem c cercettorul
din exemplul de mai sus dorete s testeze ipoteza c media aritmetic a populaiei
de rezideni este mai mic dect 800, toate celelalte date fiind aceleai.
n acest caz, cercettorul este interesat doar de extremitatea stng a
distribuiei de eantionare i va plasa ntreaga zon critic n aceast extremitate. n
termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
120

H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test unilateral stnga)
Z (critic) = 1,65
Pasul 3. Calcularea statisticii testului
3,36
13,4
45
152 11,40
45
152 130
755 800

n
ZXH
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (3,36 1,65), ipoteza de nul
poate fi respins i se poate accepta c media aritmetic a populaiei de rezideni este
mai mic dect 800 (la un nivel de ncredere de 95%).

8.2 ERORI N TESTAREA IPOTEZELOR


Atunci cnd decidem s respingem sau s nu respingem ipoteza de nul, sunt
posibile patru situaii, descrise n figura urmtoare:
Figura 8.1 Rezultatele unui test al ipotezelor
H0 adevrat H0 fals
Se respinge
H0
Eroare de
tipul I Decizie corect
Nu se
respinge H0 Decizie corect
Eroare de
tipul II
121

Dup cum se indic n figura 8.1, H0 este n realitate adevrat sau fals i
sunt posibile dou decizii: se respinge H0 sau nu se respinge H0. Ca atare, sunt
posibile dou decizii corecte: respingerea unei ipoteze de nul false i nerespingerea
unei ipoteze de nul adevrate. Corespunztor, sunt posibile dou decizii greite:
respingerea unei ipoteze ne nul care este adevrat, numit eroare de tipul I, i
nerespingerea unei ipoteze de nul care este fals, numit eroare de tipul II.
Probabilitatea de a comite o eroare de tipul I este desemnat prin , iar probabilitatea
de a comite o eroare de tipul II este desemnat prin .
Probabilitatea de a comite o eroare de tipul I este determinat de nivelul
ales. Astfel, atunci cnd se alege un nivel , distribuia de eantionare este mprit
n dou mulimi de rezultate ale eantioanelor posibile: zona critic, ce include toate
rezultatele definite ca improbabile sau rare i care ndreptesc respingerea H0, i
zona necritic, ce const din toate rezultatele definite drept non-rare. Cu ct nivelul
este mai mic, cu att este mai mic zona critic i, corespunztor, este mai mare
distana dintre media aritmetic a distribuiei de eantionare i nceputurile (n cazul
unui test bilateral) sau nceputul (n cazul unui test unilateral) zonei critice. De pild,
dac se alege = 0,05, probabilitatea de a comite o eroare de tipul I este de 0,05:
dac H0 este respins, exist 5 anse din 100 ca aceast decizie s fie greit; dac
= 0,01, probabilitatea de a comite o eroare de tipul I este de 0,01: dac H0 este
respins, exist doar 1 ans din 100 ca aceast decizie s fie greit. Prin urmare,
pentru a minimiza probabilitatea de a comite o eroare de tipul I, trebuie s folosim
nivele foarte mici.
Pe de alt parte, cu ct nivelul este mai mic, cu att este mai mare zona

necritic i, pstrnd celelalte date constante, este mai puin probabil ca rezultatul
obinut pe eantion s cad n zona critic, deci este mai mare probabilitatea de a
comite o eroare de tipul II.
Prin urmare, cele dou probabiliti sunt invers proporionale, nefiind posibil
s le minimizm pe amndou: dac alegem un nivel foarte mic pentru a pentru a
minimiza probabilitatea de a comite o eroare de tipul I, crete probabilitatea de a
comite o eroare de tipul II. Cu alte cuvinte, dac cretem dificultatea de a respinge
ipoteza de nul, probabilitatea de a nu respinge ipoteza de nul atunci cnd aceasta este
fals crete. n mod normal, n tiinele omului se dorete minimizarea probabilitii
erorii de tipul I, socotit a fi mai grav dect eroarea de tipul II, astfel c se aleg
valori mici pentru .
n tabelul urmtor sunt prezentate cteva scoruri Z critice pentru nivele mai
des folosite, att pentru teste bilaterale, ct i pentru teste unilaterale:
Tabelul 8.1 Scoruri Z critice
Niveluri Niveluri , Scoruri Z
critice
122

test bilateral test unilateral


0,20 0,10 1,29
0,10 0,05 1,65
0,05 0,025 1,96
0,01 0,005 2,58
De regul, nivelul = 0,05 este considerat drept un indicator bun al unui rezultat
semnificativ.

8.3 TESTAREA IPOTEZELOR PENTRU MEDII ARITMETICE


CND ESTE NECUNOSCUT
Ca i n privina estimrii intervalelor, n aproape toate situaiile reale de
cercetare, valoarea abaterii standard a populaiei este necunoscut. i aici vom
distinge dou cazuri: cazul n care dimensiunea eantionului este mare, ceea ce
nseamn eantioane cu n 30, i cazul n 30. n cazul eantioanelor cu n 30, se
poate estima prin s, iar n pasul 3 se folosete urmtoarea formul:
Formula 8.2
1

sn
X Z Hm
Aceast formul difer de formula 8.1 prin aceea c este nlocuit cu s, iar n este
nlocuit cu n 1 pentru a se corecta distorsiunea lui s.
n cazul eantioanelor cu n 30, distribuia de eantionare este distribuia
tStudent, prezentat n capitolul 6, iar n pasul 3 se folosete urmtoarea formul:
Formula 8.3
1

sn
X t Hm
Vom spune c este vorba despre testul scorurilor t pentru medii aritmetice i vom
desemna rezultatul aplicrii formulei 8.3 prin t (obinut).
Spresupunem c un cercettor primete informaia neverificat conform
creia media aritmetic a coeficientului de inteligen al participanilor la fazele
naionale ale olimpiadelor de matematic din ultimii 10 ani este de aproximativ 125.
Pentru a testa aceast ipotez, cercettorul selecteaz un eantion aleatoriu de 20 de
olimpici la matematic din ultimii 10 ani i constat c media aritmetic a
coeficientului de inteligen la nivelul eantionului este de 123, abaterea standard la
123

nivelul eantionului fiind de 8. Cercettorul este interesat s determine la un nivel de


ncredere de 99% dac media aritmetic a coeficientului de inteligen al
participanilor la fazele naionale ale olimpiadelor de matematic din ultimii 10 ani
este mai mare de 125. Datele problemei sunt, deci, urmtoarele:
Populaie Eantion
H = 125 X 123
s=8
n = 20
Pasul 1. Enunarea ipotezelor
H0: = 125
Ha: 125
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia t
= 0,01 (test unilateral dreapta)
gl = 20 1 = 19
t (critic) = +2,539
Pasul 3. Calcularea statisticii testului
1,09
8 4,36
2
8 19
125 123
1

sn
t X Hm
Pasul 4. Luarea deciziei
ntruct t (obinut) nu cade n zona critic (+1,09 +2,539), cercettorul nu
poate respinge ipoteza de nul. Pe baza mediei aritmetice a eantionului nu se poate

conchide la un nivel de ncredere de 99% c media aritmetic a coeficientului de


inteligen al participanilor la fazele naionale ale olimpiadelor de matematic din
ultimii 10 ani este mai mare de 125. Rezultatul acestui test este prezentat grafic n
figura urmtoare:
124

n cazul folosirii distribuiei t ca distribuie de eantionare, regulile de decizie


au aceeai structur cu cele ale testului scorurilor Z. Astfel, ntr-un test bilateral,
indiferent de nivelul ales i de numrul de grade de libertate, regula de decizie este
urmtoarea:
Se respinge H0, dac t (obinut) > +t/2 (critic) sau dac t (obinut) < -t/2 (critic)
ntr-un test unilateral dreapta ( H), regula de decizie este
Se respinge H0, dac t (obinut) > +t (critic)
n fine, ntr-un test unilateral stnga ( H), regula de decizie este
Se respinge H0, dac t (obinut) < -t (critic)

8.4 TESTUL SCORURILOR Z PENTRU PROPORII


Atunci cnd variabila de interes nu este de interval sau de raport, astfel nct
s se justifice calcularea mediei aritmetice, se poate utiliza proporia eantionului (p)
n loc de media aritmetic. n cele ce urmeaz, prezentm un test al ipotezelor pentru
proporii, aplicabil n cazul eantioanelor pentru care np 5 i n(1 p) 5.
n acest test, formula de calcul pentru Z (obinut) are aceeai structur cu
formula 7.1: Z (obinut) este egal cu mrimea pentru eantion minus valoarea
presupus pentru parametrul corespunztor, totul de mprit la abaterea standard a
distribuiei de eantionare. Din capitolul anterior, tim c proporiile pentru
eantioane (p) au distribuii de eantionare aproximativ normale, cu media aritmetic
(p) egal cu proporia pentru populaie (P) i abaterea standard (p) egal cu
P(1 P) n . Teoretic, formula de calcul al testului scorurilor Z pentru proporii este
urmtoarea:
0 +2,539
+1,09
125

Formula 8.4
PPn
Z p PH
(1 )

unde PH este proporia presupus pentru populaie. Acum, valoarea proporiei pentru
populaie, P, nu este cunoscut. Ca i n cazul estimrii intervalelor pentru proporii,
putem estima valoarea lui P prin p, lucrnd cu formula urmtoare:
Formula 8.5
ppn
pP
ZH
(1)


Sconsiderm un exemplu. Se pretinde c aproximativ 10% din studenii unei mari
universiti sunt cstorii. Pentru testarea acestei ipoteze, se selecteaz un eantion
aleatoriu de 200 de studeni de la universitatea respectiv i se constat c 24 de
studeni din eantion sunt cstorii. n baza acestui rezultat, se poate spune la un
nivel de ncredere de 95% c mai mult de 10% din studeni sunt necstorii? Datele
problemei sunt urmtoarele:
Populaie Eantion
PH
= 0,10 p= 0,12
n= 200
Folosind formula 8.5, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: P = 0,10
Ha: P 0,10
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test unilateral dreapta)
Z (critic) = +1,65
Pasul 3. Calcularea statisticii testului
1,06
0,0188
0,02
0,12(1 0,12) 300
0,12 0,10
(1 )

ppn
Z p PH
126

Pasul 4. Luarea deciziei


ntruct Z (obinut) nu cade n zona critic (+1,06 +1,65), ipoteza de nul nu
poate fi respins. La nivelul de ncredere de 95% nu se poate spune c mai mult de
10% din studeni sunt necstorii.
Rezumat
Sunt expuse tehnici statistice de testare a ipotezelor despre o singur
populaie. ntr-un astfel de caz, pe baza unei statistici calculate pentru un eantion,
cel mai adesea o medie aritmetic sau o proporie, se trage o concluzie despre
parametrul corespunztor al populaiei de referin. Mai precis, cercetarea const din
alctuirea unui eantion aleatoriu din populaia de referin, culegerea informaiei

relevante din eantion, calcularea valorii unei statistici i compararea acestei valori
cu valoarea presupus a parametrului corespunztor. n aproape toate situaiile de
cercetare vom gsi o anumit diferen ntre cele dou valori, iar tehnicile de testare a
ipotezelor permit s se decid dac diferena este att de mare, nct s justifice
respingerea presupunerii fcute pentru populaie.
Cuvinte cheie
ipotez de nul;
ipotez alternativ;
statistic a testului;
regul de decizie;
eroare de tipul I;
eroare de tipul II.
Teste de autoevaluare
1. Definii ipoteza de nul. (pg. 129 ).
2. Definii ipoteza alternativ. (pg.129).
3. La ce se refer termenul statistic a testului ? (pg. 129).
4. Definii eroarea de tipul I. (pg. 135).
5. Definii eroarea de tipul II. (pg. 135).
127

Concluzii.
Tehnicile de testare a ipotezelor prezentate n acest unitate i n unitaile care
urmeaz sunt teste despre valoarea parametrilor unei populaii i cer ndeplinirea
unor condiii sau supoziii despre populaiile respective, cum este, n principal,
normalitatea. Testele de acest fel se numesc teste parrametrice.

UNITATEA IX
TESTAREA IPOTEZELOR DESPRE DIFERENELE DINTRE
DOU POPULAII
Obiective.... 129
Cunotine preliminarii...... 129
Resurse necesare i recomandri de studiu... 129
Durata medie de parcurgere a unitii... 129
9.1 Testul scorurilor z pentru diferena dintre dou medii aritmetice .............. 130
9. 2 Testul scorurilor t pentru diferena dintre dou medii aritmetice .............. 132
9.3 Testul scorurilor z pentru diferena dintre dou proporii .......................... 134
Rezumat 136
Cuvinte cheie 136
Teste de autoevaluare... 137
Concluzii 137
129

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s neleag Testul scorurilor z pentru diferena dintre dou medii
aritmetice;
- s neleag Testul scorurilor t pentru diferena dintre dou medii
aritmetice;

- s neleag Testul scorurilor z pentru diferena dintre dou proporii.


Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
130

9.1 TESTUL SCORURILOR Z PENTRU DIFERENA DINTRE


DOU MEDII ARITMETICE
Testul expus n aceast seciune este aplicabil dac, pe lng independena
eantioanelor, sunt satisfcute urmtoarele dou condiii (i) nivelul de msur al
variabilei de interes este de interval sau de raport i (ii) cele dou eantioane sunt
relativ mari, ceea ce nseamn n1 30 i n2 30.
Distribuia de eantionare la care ne vom referi n continuare este distribuia
de eantionare a diferenelor dintre mediile aritmetice ale eantioanelor, despre care
se demonstreaz c este normal dac distribuiile de eantionare separate ale
mediilor aritmetice ale eantioanelor sunt normale. Teorema limitei centrale
garanteaz c aceste distribuii de eantionare aproximeaz cu att mai bine
normalitatea, cu ct dimensiunile eantioanelor sunt mai mari. Astfel, atunci cnd
eantioanele sunt mari, pentru descrierea acestei distribuii de eantionare se poate
folosi distribuia Z. Ipoteza de nul este i n acest caz un enun de tipul nici o
diferen, numai c este vorba despre diferena dintre dou populaii sub aspectul
variabilei de interes. Astfel, forma ipotezei de nul este H0: 1 = 2 sau, echivalent,
H0: 1 2 = 0. Ipoteza alternativ corespunde tipului de test, bilateral sau unilateral,
intenionat de cercettor. Pentru un test bilateral, ipoteza alternativ este de forma
Ha: 1 2. Dac testul este unilateral, atunci ipoteza de nul poate lua una dintre
urmtoarele dou forme:
Ha: 1 2
Ha: 1 2
Prima form corespunde unui test unilateral n care ntreaga zon critic este
plasat n extremitatea dreapt a distribuiei de eantionare, iar cea de-a doua form
corespunde unui test unilateral n care ntreaga zon critic este plasat n
extremitatea stng a distribuiei de eantionare. Dac rezultatul statisticii testului
cade n zona critic, atunci ipoteza de nul poate fi respins, fiind acceptat ipoteza
diferenei sub aspectul variabilei de interes. Teoretic, formula de calcul al testului
scorurilor Z pentru diferena dintre dou medii aritmetice este urmtoarea:
Formula 9.1
12
1212

xx
XX

()()

s
mm
n care 1 2 X X = diferena dintre mediile aritmetice ale eantioanelor
1 2 = diferena dintre mediile aritmetice ale populaiilor
131

sx x = abaterea standard a distribuiei de eantionare a diferenelor dintre


mediile aritmetice ale eantioanelor
n formula 9.1, cel de-al doilea termen al numrtorului, 1 2, este necunoscut.
Acest termen se reduce ns la zero, ntruct testul are loc sub presupunerea c
ipoteza de nul, 1 2 = 0, este adevrat. Mai departe, pentru eantioane mari,
distribuia de eantionare a diferenelor dintre mediile aritmetice ale eantioanelor se
definete astfel:
12

2
2
2
1
2
1

nn
xx
ss
s
ntruct valorile abaterilor standard ale populaiilor, 1 i 2, nu sunt aproape
niciodat cunoscute, se utilizeaz abaterile standard ale eantioanelor, cu coreciile
corespunztoare pentru distorsiune. Astfel, formula folosit pentru estimarea abaterii
standard a distribuiei de eantionare n aceast situaie este urmtoarea:
Formula 9.2
1 12
12

2
2
1
2
1
12

n
s
n
s
sx x
Prin urmare, vom lucra practic cu formula urmtoare pentru Z (obinut):
Formula 9.3
1 12
2
2

1
2
1
12

n
s
n
s
XX
Z
Ca i pn acum, vom considera un exemplu. Un cercettor presupune c
brbaii i femeile difer sub aspectul capacitii de rezolvare de probleme. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 127 de
subieci i le administreaz un test de rezolvare de probleme. Eantionul este apoi
mprit n dou subeantioane dup criteriul sex, iar mrimile statistice sunt
calculate pentru fiecare subeantion, datele obinute fiind urmtoarele:
Eantion 1
(brbai)
Eantion 2
(femei)
62 1 X
s1 = 13
65 2 X
s2 = 14
n1 = 324 n2 = 317
Presupunnd c testul de rezolvare de probleme furnizeaz date de interval
sau de raport, se poate aplica testul scorurilor Z pentru semnificaia diferenei dintre
dou medii aritmetice. Se poate observa c scorul mediu al eantionului 1 este mai
mic dect cel al eantionului 2. Prin aplicarea testului menionat se poate afla dac
132

aceast diferen este suficient de mare pentru a ndrepti concluzia c exist o


diferen semnificativ ntre brbai i femei sub aspectul capacitii de rezolvare de
probleme i nu o intervenie a unor factori ntmpltori.
Pasul 1. Enunarea ipotezelor
H0: 1 = 2
Ha: 1 2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test bilateral)
Z/2 (critic) = 1,96
Pasul 3. Calcularea statisticii testului
2,63

1,14
3
316
14
323
13
62 65
11
22
2
2
2
1
2
1
12

n
s
n
s
XX
Z
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (2,63 1,96), ipoteza de nul
poate fi respins, ceea ce reprezint o dovad n sprijinul ipotezei c brbaii i
femeile difer sub aspectul capacitii de rezolvare de probleme. Decizia de a
respinge ipoteza de nul are o probabilitate de doar 0,05 de a fi greit.

9.2 TESTUL SCORURILOR t PENTRU DIFERENA DINTRE


DOU MEDII ARITMETICE
Atunci cnd abaterile standard ale populaiilor nu sunt cunoscute i
eantioanele sunt mici (n1 30 sau/i n2 30), distribuia de eantionare folosit este
distribuia tStudent, cu n1 + n2 2 grade de libertate. Teoretic, formula de calcul al
testului scorurilor t pentru diferena dintre dou medii aritmetice este urmtoarea:
Formula 9.4
12
1212

xx
XX
t

()()

s
mm
Ca mai sus, termenul 1 2 se reduce la zero, ntruct testul are loc sub
presupunerea c ipoteza de nul, 1 2 = 0, este adevrat. n cazul testului prezentat
133

n aceast seciune, formula folosit pentru estimarea abaterii standard a distribuiei


de eantionare este urmtoarea:
Formula 9.5
12
12
12
2
22
2
11

2nn
nn
nn
nsns
xx

s
Astfel, pentru a afla valoarea lui t (obinut) vom folosi urmtoarea formul:
Formula 9.6
12

12
12
12
2
22
2
11
12

2nn
nn
nn
nsns
XX
t

Este important de notat c testul scorurilor t pentru dou medii aritmetice


poate fi folosit doar dac cele dou populaii sunt egal dispersate sau, altfel spus, au

abaterile standard egale (1 = 2). Aceast condiie este necesar pentru a justifica
supoziia de normalitate a distribuiei de eantionare i a estima abaterea standard a
acesteia. Egalitatea dispersiilor poate fi testat formal1. Pentru scopuri practice,
putem considera c supoziia 1 = 2 este satisfcut n msura n care eantioanele
au dimensiuni apropiate2.
Un cercettor presupune c o anumit metod modern de predare a
matematicii conduce la rezultate mai bune dect metodele tradiionale. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 25 de elevi,
pe care l mparte aleatoriu n dou grupuri. Un grup de 12 elevi este repartizat ntr-o
clas n care matematica este predat dup metoda modern, iar cellalt grup de 13
elevi este repartizat ntr-o clas n care matematica este predat dup metode
tradiionale. Dup un an, ambele grupuri primesc acelai test la matematic, obinnd
urmtoarele rezultate:
Grupul 1
(m. modern)
Grupul 2
(m. tradiional)
8,80 1 X
s1 = 1,70
8,20 2 X
s2 = 1,20
n1 = 12 n2 = 13
Mediile aritmetice ale grupurilor difer n sensul prezis (1 2). Aplicarea testului t
arat dac aceast diferen este sau nu statistic semnificativ. Fie = 0,05.
Pasul 1. Enunarea ipotezelor
H0: 1 = 2
de pild, Hinkle, Wiersma i Jurs, 1988, pp. 280 284.
Healey, 1984.

1 Vezi,
2 Vezi

134

Ha: 1 2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia t
= 0,05 (test unilateral)
gl = 12 + 13 2 = 23
t (critic) = +1,714
Pasul 3. Calcularea statisticii testului

156
25
23
12(1,70) 13(1,20)
8,80 8,20
2
22
12
12
12
2
22
2
11
12

nn
nn
nn
nsns
XX
t
0,31
1,92
0,60
1,52 0,4
0,60
2,32 0,16
0,60

Pasul 4. Luarea deciziei


ntruct t (obinut) nu se afl n zona critic (+0,31 +1,714), ipoteza de nul
nu poate fi respins la un nivel de ncredere de 95%. Diferena dintre cele dou
grupuri nu este statistic semnificativ.

9.3 TESTUL SCORURILOR Z PENTRU DIFERENA DINTRE


DOU PROPORII
Testul scorurilor Z pentru semnificaia diferenei dintre dou proporii este
aplicabil atunci cnd eantioanele sunt mari (n1 30 i n2 30) i este asemntor cu
testul pentru medii aritmetice. Ipoteza de nul enun c nu exist nici o diferen
semnificativ ntre populaiile din care sunt alctuite eantioanele, ipoteza alternativ
putnd fi direcional sau non-direcional. Teoretic, formula de calcul al testului
scorurilor Z pentru diferena dintre dou proporii este urmtoarea:
Formula 9.7
12
1212

pp

()()

ZppPP

s
n care p1 p2 = diferena dintre proporiile eantioanelor
P1 P2 = diferena dintre proporiile populaiilor
p1 p2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
proporiile eantioanelor
135

Ca i pentru medii aritmetice, cel de-al doilea termen al numrtorului, P1 P2, se


reduce la zero, ntruct testul are loc sub presupunerea c ipoteza de nul, P1 P2 = 0,
este adevrat. Formula folosit pentru estimarea abaterii standard a distribuiei de
eantionare este urmtoarea:
Formula 9.8
12
12

(1 )
nn
nn
ppPP

s
Cantitatea Pse numete estimare combinat a proporiilor pentru cele dou
populaii i este dat de urmtoarea formul:
Formula 9.9
12

12
1122

nn
Pnpnp

Prin urmare, pentru a afla valoarea lui Z (obinut) vom folosi urmtoarea formul:
Formula 9.10
12
12
12

(1 )
nn
nn
PP
Zpp

Spresupunem c au fost alctuite dou eantioane de studeni, unul de 83 de

studeni de la Universitatea A i cellalt de 103 studeni de la Universitatea B, fiecare


student fiind chestionat n legtur cu problema interzicerii avorturilor i clasificat
ntr-una dintre categoriile: De acord, mpotriv, Nedecis. Proporia studenilor care sau
declarat de acord cu interzicerea avorturilor a fost de 0,34 n primul eantion (A)
i de 0,25 n cel de-al doilea (B). Exist o diferen semnificativ ntre studenii celor
dou universiti sub acest aspect?
Eantion 1
(A)
Eantion 2
(B)
p1 = 0,34 p2 = 0,25
n1 = 83 n2 = 103
Pasul 1. Enunarea ipotezelor
H0: P1 = P2
Ha: P1 P2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
136

Distribuia de eantionare = Distribuia Z


= 0,05 (test bilateral)
Z/2 (critic) = 1,96
Pasul 3. Calcularea statisticii testului
0,29
186
53,97
186
28,22 25,75
83 103
83(0,34) 103(0,25)
12
1122

nn
Pnpnp
1,29
0,07
0,09
83 103
0,29(1 0,29) 83 103
0,34 0,25

(1 )
12
12
12

nn
nn
PP
Zpp
Pasul 4. Luarea deciziei
ntruct Z (obinut) nu cade n zona critic (+1,29 +1,69), nu se poate
respinge ipoteza de nul. Studenii de la cele dou universiti nu difer semnificativ
n privina acordului cu interzicerea avorturilor.
Rezumat
n aceast unitate sunt expuse procedee de testare a ipotezelor privind
diferenele dintre mediile aritmetice a dou populaii, 1 2, i dintre proporiile a
dou populaii, P1 P2.
Problema central n acest caz poate fi formulat dup cum urmeaz:
diferena dintre dou eantioane sub aspectul variabilei de interes este suficient de
mare pentru a putea conchide, cu o probabilitate de eroare cunoscut, c populaiile
reprezentate de eantioane sunt diferite sub aspectul variabilei respective?
Cuvinte cheie
distribuia Z;
distribuia tStudent;
2 grade de libertate;
Testul scorurilor z;
Testul scorurilor t.
137

Teste de autoevaluare
1. Cnd se poate folosi distribuia Z ? (pg.144)
2. Cnd este folosit distribuia tStudent, cu n1 + n2 2 grade de libertate ? (pg.
147).
3. Ce test se aplic pentru semnificaia diferenei dintre dou proporii atunci
cnd eantioanele sunt mari ? (pg.149
Concluzii.
Dou eantioane sunt independente dac selectarea cazurilor pentru un
eantion nu influeneaz selectarea cazurilor pentru cellalt eantion. Astfel, testele
prezentate n acest unitate nu pot fi aplicate atunci cnd ntre cele dou eantioane

exist o dependen de vreun fel sau altul, de pild n situaiile experimentale n care
aceeai subieci sunt testai nainte i dup aplicarea unui tratament.

UNITATEA X
ANALIZA DE VARIAN (ANOVA)
Obiective. 139
Cunotine preliminarii... 139
Resurse necesare i recomandri de studiu. 139
Durata medie de parcurgere a unitii. 139
10.1 ANOVA pentru o variabil independent ................................................ 140
10.2 ANOVA pentru dou variabile independente ......................................... 148
10. 3 ANOVA pentru eantioane dependente .................................................. 157
Rezumat 160
Cuvinte cheie 161
Teste de autoevaluare... 161
Concluzii 161
139

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s cunoasc testul ANOVA pentru o variabil independent;
- s cunoasc testul ANOVA pentru dou variabile independente;
- s cunoasc testul ANOVA pentru eantioane dependente.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
140

10.1 ANOVA PENTRU O VARIABIL INDEPENDENT


nainte de a trece la expunerea testului ANOVA pentru o variabil
independent s notm c ntr-un experiment psihologic, cercettorul manipuleaz
cel puin o variabil i nregistreaz rspunsurile subiecilor n privina unei alte
variabile, cu scopul de a constata eventualul efect al primei variabile asupra celei dea
doua.
De pild, cercettorul poate expune un grup de subieci unor condiii de stres
i un alt grup unor condiii normale, pentru a constata dac stresul influeneaz
ndeplinirea unei anumite sarcini.
Variabila manipulat este numit variabil independent, iar variabila care
este observat i msurat este numit variabil dependent.
Un cercettor presupune c subiecii supui unui interviu vor furniza cu att
mai multe informaii cu caracter personal, cu ct se afl mai aproape de intervievator.

Pentru a verifica aceast presupunere, cercettorul monteaz un experiment la care


particip 15 subieci. Fiecare subiect primete aceleai ntrebri de la acelai
intervievator.
Variabila independent (A) este distana fa de intervievator, cu urmtoarele
categorii: mic (0,5 metri), medie (1,5 metri), mare (2 metri).
Pentru a fi intervievai, subiecii sunt repartizai aleatoriu ntr-una dintre cele
trei categorii ale variabilei independente. Variabila dependent (B) este numrul de
rspunsuri cu caracter personal date de subiect.
Datele obinute, mpreun cu mrimile necesare pentru ANOVA sunt
prezentate n urmtorul tabel:
141

Tabelul 10.1 Calcule iniiale pentru ANOVA, o variabil independent


Distana fa de intervievator
Mic Medie Mare
33
24
31
29
34
21
25
19
27
26
20
13
15
10
14
T1 = 151
n1 = 5
1 X = 30,20

1
2

X = 4623

T = 22801
T2 = 118
n2 = 5
2 X = 23,60
1

2
2

X = 2832

T = 13294
T3 = 72
n3 = 5
3 X = 14,40
2

3
2

X = 1090

T = 5184
Pentru fiecare grup i, Ti este totalul scorurilor individuale, ni este numrul de
subieci, i X este media aritmetic a scorurilor, 2
i X este suma ptratelor scorurilor
individuale, iar 2
i T este ptratul totalului scorurilor. De notat c grupurile obinute
sunt independente, precum i c formulele de calcul care urmeaz sunt aplicabile i
n cazul n care este vorba despre un numr diferit de subieci n fiecare grup.
n ANOVA pentru o variabil independent se consider dou surse de
variaie: (i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat
diferenelor dintre subiecii din fiecare grup, care poate fi atribuit procesului de
eantionare. Pentru nceput, se calculeaz trei sume de ptrate ale abaterilor fa
de medie sau, pe scurt, sume de ptrate. Vom desemna generic prin SS aceste sume
de ptrate1: (1) SSTOTAL suma ptratelor abaterilor fiecrui scor individual fa de
media aritmetic a tuturor scorurilor, numit i marea medie; (2) SSA suma
ptratelor abaterilor fiecrei medii de grup fa de marea medie; (3) SSEROARE suma
ptratelor abaterilor fiecrui scor individual fa de media aritmetic a grupului
respectiv. Litera A din SSA arat c lucrm cu variana sistematic a variabilei
independente A. SSA reflect prima surs de variaie, iar SSEROARE pe cea de-a doua.
3

1 Prescurtarea

uzual de la denumirea din limba englez Sum of squares.

142

Putem calcula aceste abateri direct pe baza datelor din tabel. ntruct astfel de
calcule sunt greoaie, vom utiliza formule simplificate.
Formula 10.1
N
SS X G TOTAL
2
2

n care X 2 = suma ptratelor scorurilor individuale ale tuturor subiecilor din


experiment = 2
1X + 2
2X + 2
3X
G2 = ptratul totalului tuturor scorurilor = 2
1 2 3 (T T T )
N = numrul total de subieci din experiment.
Dac se efectueaz calculele pe hrtie sau cu un calculator de buzunar, este
convenabil s se afle mai nti X 2 pentru scorurile din fiecare grup, aa cum am
fcut n tabelul de mai sus, dup care s se adune aceste sume.
Aplicm formula 10.1:

15
(4623 2823 1090) (151 118 72)

22
2

N
SS X G TOTAL
8545 7752,07 792,93
Atunci cnd calculm SSTOTAL este recomandabil s reinem termenii diferenei, 8545
i 7752,07, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Odat de am calculat SSTOTAL, putem calcula SSA dup urmtoarea formul:
Formula 10.2
n
G
n
T
SS
i
i
A
22

n aceast formul, Ti este un simbol general pentru T1, T2 i T3, iar ni este un
simbol general pentru n1, n2 i n3.
Astfel, odat ce cantitatea i i T 2 n este calculat pentru fiecare grup,
cantitile sunt adunate, dup cum arat simbolul . S notm c a doua parte a
formulei 2, G2/N, a fost deja calculat, atunci cnd am obinut SSTOTAL, aa nct vom
prelua direct rezultatul respectiv n calculul SSA:
143

N
G
n
T
n
T
n
T
n
G
n
T
SS
i
i
A
2
3
2
3
2

2
2
1
2
1
22

7752,07
5
72
5
118
5
1512 2 2
8381,80 7752,07 629,73
i aici vom reine unul dintre termenii diferenei, i anume 8381,80, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:
Formula 10.3
i
i
EROARE

T
SS X
2
2

Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:
8545 8381,80 163,20
2

2
i
i

n
T
SS X
De notat c SSTOTAL = SSA + SSEROARE. Aceast relaie poate fi utilizat pentru
a controla corectitudinea calculelor.
Pasul urmtor n calculul ANOVA const n calcularea a dou medii
aritmetice ale sumelor de ptrate ale abaterilor fa de medie sau, pe scurt, medii
aritmetice ale sumelor de ptrate. Vom desemna generic prin MS aceste medii2: (1)
MSA media aritmetic pentru SSA, numit variana sistematic i (2) MSEROARE
media aritmetic pentru SSEROARE, numit variana de eroare.
Formula 10.4
1

EROARE

k
MS SSA
A

n aceast formul, k este numrul de grupuri, k 1 fiind numrul de grade de


libertate asociate SSA, pe care l vom nota n continuare cu glA.
314,87
2
629,73
31
629,73
1

k
MS SS A
A
2 Prescurtarea

uzual de la denumirea din limba englez Mean squares.

144

Formula 10.5
Nk
SS
MS EROARE
EROARE

Aici, N k reprezint numrul de grade de libertate asociate SSEROARE, pe care l vom


nota n continuare cu glEROARE.
13,60
12
163,20
15 3
163,20

Nk
SS
MS EROARE
EROARE

Distribuia de eantionare n ANOVA este distribuia F (numit astfel n


onoarea britanicului Ronald Fisher (1890-1962), biolog i statistician, inventatorul
ANOVA). Forma aproximativ a unei curbe F este urmtoarea:
Figura 10.1 Un exemplu de curb F
Grade de libertate

Valori ale lui F

Forma exact a unei curbe F depinde de valorile pentru glA i, respectiv, pentru
glEROARE. De notat c folosirea distribuiei F cere ca variabila dependent s fie
normal distribuit n cele k populaii i ca aceste populaii s fie egal dispersate3.
n tabelul distribuiei F (vezi Anexa D) n prima coloan din stnga sunt
trecute gradele de libertate pentru MSEROARE (glEROARE = N k), de la 1 la 120 i . Pe
cea de-a doua coloan din stnga apar nivelele . Pe primul rnd al tabelului apar
gradele de libertate pentru MSA (glA = k 1), de la 1 la 120 i .
omogenitii dispersiei i cea a normalitii distribuiei, mpreun cu ipoteza de nul, spun
c distribuiile la nivelul populaiilor au aceeai form, aceeai medie aritmetic i aceeai abatere
standard sau, cu alte cuvinte, c este vorba despre una i aceeai populaie.
3 Supoziia

145

Figura 10.2 Schema tabelului valorilor critice ale distribuiei F


glEROARE
(gl2)
glA (gl1)
1 2.120
1
2
.
.
120

0,25
0,10
0,05
.
.
.
.
.
.
.

..
..
....
..
..
..
..
..

La intersecia rndului pentru N k grade de libertate i nivelul ales cu coloana


pentru k 1 grade de libertate se gsete F (critic), adic valoarea care marcheaz
nceputul zonei critice n distribuia F. n exemplul nostru, pentru N k = 12 i k 1

= 2, alegnd un nivel = 0,05, F (critic) = 3,8853 sau, rotunjit, 3,89. Valoarea pentru
F (obinut) se calculeaz cu formula urmtoare:
Formula 10.6
EROARE
A

MS
F MS
Dac intervin doar factori ntmpltori, valoarea ateptat pentru F (obinut) este 1,0.
Cu ct este mai mare valoarea pentru F (obinut), cu att este mai mic probabilitatea
ca rezultatele experimentului s se datoreze ntmplrii.
Regula de decizie este urmtoarea:
146

Se respinge H0, dac F (obinut) > F (critic)


n exemplul nostru,
23,15
13,60
314,87
EROARE
A

MS
F MS
ntruct F (obinut) cade n zona critic (23,15 3,89), vom conchide c rezultatele
experimentului sunt semnificative i vom respinge ipoteza c mediile aritmetice sunt
egale la nivelul populaiei.
n termenii modelului n patru pai, testul ANOVA pentru o variabil
independent, n exemplul nostru, decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: 1 = 2 = 3
Ha: Cel puin o medie aritmetic difer de celelalte
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia F
= 0,05
glEROARE = N k = 12
glA = k 1 = 2
F(critic) = 3,89
Pasul 3. Calcularea statisticii testului
Organizarea calculului ANOVA se face cu ajutorul unui tabel de calcule iniiale (v.
tabelul 9.1), precum i al unui tabel ANOVA rezumativ, numit tabel al surselor de
variaie. Forma general a unui astfel de tabel este urmtoarea:
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)

A SSA k 1 MSA
EROARE SSEROARE N k MSEROARE MSA/MSEROARE
TOTAL SSTOTAL N 1
147

n exemplul nostru, avem urmtorul tabel:


Tabelul 10.2 ANOVA rezumativ, o variabil independent
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A 629,73 2 314,87
EROARE 163,20 12 13,60 23,15
TOTAL 792,93 14
Pasul 4. Luarea deciziei
ntruct, F (obinut) cade n zona critic (23,15 3,89), ipoteza de nul este
respins. La nivelul populaiei, mediile aritmetice ale scorurilor corespunztoare
celor trei distane difer semnificativ.
Enunul de probabilitate asociat acestei concluzii este urmtorul:
probabilitatea ca diferena observat ntre mediile aritmetice ale grupurilor s apar
din ntmplare, dac H0 ar fi n realitate adevrat, este mai mic de 0,05.
De notat c n cazul n care se consider mai mult de dou categorii ale
variabilei independente (ca n exemplul nostru n care avem trei grupuri), F (obinut)
nu arat care este grupul care difer semnificativ de celelalte.
O modalitate de a examina diferena dintre dou grupuri este de a utiliza
formula SSA pentru a calcula suma ptratelor i media sumei de ptrate pentru cele
dou grupuri (numrul de grade de libertate n acest caz fiind 2 1) i de a utiliza
cantitatea MSEROARE, calculat anterior, ca eroare de varian pentru calcularea F
(obinut). Au fost dezvoltate i metode mai sofisticate pentru a evalua diferena dintre
dou grupuri, dup ce s-a determinat un F (obinut) semnificativ, numite teste de
comparare multipl post hoc, precum i metode de testare a unor ipoteze specifice
privind diferenele dintre medii, numite comparaii a priori sau comparaii
planificate4.
4 Vezi

Hinkle, Wiersma i Jurs, 1988, capitolul 16.

148

10.2 ANOVA PENTRU DOU VARIABILE INDEPENDENTE


Testul ANOVA pentru dou variabile independente este o extindere a testului
ANOVA pentru o singur variabil independent, cu excepia faptului c formulele
testului expus n aceast seciune sunt aplicabile doar n cazul grupurilor
independente cu acelai numr de subieci n fiecare grup. Vom folosi aceeai
manier de expunere ca mai sus: vom prezenta un exemplu ipotetic, un tabel de
calcule iniiale, formulele de calcul ale testului ANOVA pentru dou variabile

independente, precum i modelul n patru pai specific acestui test.


20 de elevi sunt supui unui experiment privind metodele de instruire n
matematic. Variabila independent, A, este, deci, metoda de instruire. Elevii sunt
repartizai aleatoriu n dou clase: o clas la care se utilizeaz metoda tradiional
(A1) i o clas la care se utilizeaz o metod modern (A2). Variabila independent,
B, este nivelul IQ, cu categoriile : B1 (90) i B2 (90). Informaia prezentat la
cele dou clase este aceeai. La sfritul perioadei de instruire elevii dau acelai test.
Rezultatul (scorul) obinut la acest test este variabila dependent.
Experimentul permite evaluarea a trei efecte: (i) efectul principal al variabilei
A (dac una dintre metode conduce la rezultate diferite fa de cealalt), (ii) efectul
principal al variabilei B (dac elevii cu un IQ superior obin rezultate diferite fa de
ceilali), (iii) interaciunea A B (dac efectul unei variabile independente difer n
funcie de un anumit nivel al celeilalte variabile independente).
Dup cum reiese i din cele de mai sus, un astfel de experiment are mai multe
avantaje. Mai nti, prin analiza simultan a dou variabile independente se
realizeaz, de fapt, dou cercetri altfel distincte.
Pe lng investigarea modului n care diferitele categorii ale celor dou
variabile independente afecteaz variabila dependent, se poate verifica dac nivelele
uneia dintre variabilele independente afecteaz variabila dependent n acelai fel ca
i nivelele celeilalte variabile independente.
Apoi, este vorba despre investigarea interaciunii dintre dou variabile
independente. ntruct, n situaiile reale, efectul unei variabile independente este
adesea afectat de una sau mai multe variabile independente, studiul interaciunii
dintre variabilele independente poate fi un obiectiv foarte important al cercetrii.
Revenind la exemplul nostru ipotetic, datele obinute, mpreun cu mrimile
necesare pentru ANOVA sunt prezentate n urmtorul tabel:
149

Tabelul 10.3 Calcule iniiale pentru ANOVA, dou variabile independente


Metoda (A)
Nivelul IQ (B)
B1 B2
TA1 = 804
nA1 = 10
X A1 = 80,40
Tradiional (A1)
75
70
69
72
68
90
95
89
85
91
TA1B1 = 354

nA1B1 = 5
X A1B1 = 70,80
X 2 A1B1 = 25094
TA1B2 = 450
nA1B2 = 5
X A1B2 = 90,00
X 2 A1B2 = 40552
Modern (A2)
85
87
83
90
89
87
94
93
89
92
TA2 = 788
nA2 = 10
X A2 = 88,90
TA2B1 = 434
nA2B1 = 5
X A2B1 = 86,80
X 2 A2B1 = 37704
TA2B2 = 455
nA2B2 = 5
X A2B2 = 91,00
X 2 A2B2 = 41439
TB1 = 788
nB1 = 10
X B1 = 78,80
TB2 = 905
nB2= 10
X B2 = 90,50
n ANOVA pentru dou variabile independente se testeaz trei ipoteze de nul,
fiecare corespunznd unei surse de variaie:
150

H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice


ale
rezultatelor obinute prin cele dou metode.
H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice
ale
rezultatelor obinute de elevii cu nivele IQ diferite.
H03: La nivelul populaiei nu exist interaciune ntre cele dou variabile.
H01 corespunde variaiei mediilor aritmetice ale scorurilor variabilei dependente din

fiecare categorie a variabilei A. H02 corespunde variaiei mediilor aritmetice ale


scorurilor variabilei dependente din fiecare categorie a variabilei B. H03 corespunde
variaiei mediilor aritmetice ale scorurilor variabilei dependente din categoriile
combinate A B.
n acest caz, se calculeaz cinci sume de ptrate: (1) SSTOTAL, (2) SSA, (3) SSB,
(4) SSA B i (5)SSEROARE.
SSTOTAL se calculeaz cu ajutorul formulei 9.1:
2
22
2
21
2
12
2
11
2
2

XXX
N
SS X G
144789 143312,45 1476,55
20
(354 450 434 455)
(25094 40552 37704 41439)
()
TOTAL A B A B A B A B

2
2
11122122

N
T T T T ABABABAB
i aici, atunci cnd calculm SSTOTAL, este recomandabil s reinem termenii
diferenei, 144789 i 143312,45, pe care i vom folosi pentru simplificarea calculelor
ulterioare.
Formula 10.2 este modificat corespunztor pentru calculul SSA i SSB. Astfel,
SSA se calculeaz cu ajutorul urmtoarei formule:
Formula 10.7
n
G
n
T
SS
a
a
A
22

151

n aceast formul, Ta este un simbol general pentru TA1 i TA2, iar na este un simbol
general pentru nA1 i nA2. Prin urmare, atunci cnd calculm SSA, lum n considerare
doar grupurile variabilei independente A.

143312,45
10
889
10
2 8042 2
2
2
2
1
2
1
22

N
G
n
T
n
T
n
G
n
T
SS
A
A
A
A
a
a
A

143673,70 143312,45 361,25


SSB se calculeaz cu ajutorul urmtoarei formule:
Formula 10.8
n
G
n

T
SS
b
b
B
22

n aceast formul, Tb este un simbol general pentru TB1 i TB2, iar nb este un simbol
general pentru nB1 i nB2. Prin urmare, atunci cnd calculm SSB, lum n considerare
doar grupurile variabilei independente B.

143312,45
10
905
10
2 7882 2
2
2
2
1
2
1
22

N
G
n
T
n
T
n
G
n
T
SS
B
B
B
B
B
B
B

143996,90 143312,45 684,45


Calculm acum SSA B, cu ajutorul urmtoarei formule:
Formula 10.9 A B

ab
ab

SS SS

AB

N
G
n
T
SS
22

n aceast formul, Tab este un simbol general pentru TA1B1, TA1B2, TA2B1 i TA2B2, iar
nab este un simbol general pentru nA1B1, nA1B2, nA2B1 i nA2B2. Prin urmare, atunci cnd
calculm SSA B, lum n considerare grupurile constituite dup categoriile combinate
152

A B.

A B
AB
AB
AB
AB
AB
AB
AB
AB

SS SS

AB

N
G
n
T
n
T
n
T
n
T
SS
2
22
2
22
21
2
21
12
2
12
11
2
11

143312,45 361,25 684,25


5
455
5
434
5
450
5
3542 2 2 2
144639,40 143312,45 361,25 684,45 281,25
i aici vom reine unul dintre termenii diferenei, i anume 144639,40, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:
Formula 10.10
ab
ab
EROARE

T
SS X
2
2

Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA B, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:
144789 144639,40 149,60
2

2
ab
ab

n
T
SS X
De notat c SSTOTAL = SSA + SSB + SSA B + SSEROARE. Aceast relaie poate fi utilizat
pentru a controla corectitudinea calculelor.
Mediile aritmetice ale sumelor de ptrate pentru fiecare surs de varian se
calculeaz prin mprirea sumei de ptrate respectiv la numrul corespunztor de
grade de libertate.
Formula 10.11
1

EROARE

A
A

k
MS SS
A

153

n aceast formul, kA este numrul de grupuri constituite dup categoriile variabilei


A, iar kA 1 este numrul de grade de libertate asociate SSA, notat cu glA. n exemplul
nostru,

361,25
21
361,25
1

A
A

k
MS SS
Formula 10.12
1

B
B

k
MS SS
n formula 12, kB 1 este numrul de grupuri constituite dup categoriile variabilei
B, iar kB 1 este numrul de grade de libertate asociate SSB, notat cu glB. n exemplul
nostru,
684,45
21
684,45
1

B
B

k
MS SS
Formula 10.13
( 1)( 1)
B

AB
B

kk
MS SS
n formula 13, (kA 1)(kB 1) este numrul de grade de libertate asociat SSA B, notat
cu glA B. n exemplul nostru,
281,25
(2 1)(2 1)
AB

281,25
( 1)( 1)
A

AB
B

kk
MS SS
Formula 10.14
AB

AB
EROARE

Nkk
SS
MS

n formula 14, N kAkB este numrul de grade de libertate asociat SSEROARE, notat cu
glEROARE.
EROARE

154

9,35
16
149,60
20 4
149,60

AB
EROARE
EROARE

Nkk

SS
MS
Valoarea pentru F (obinut) se calculeaz pentru fiecare surs de varian
sistematic (efectele principale pentru A, pentru B i pentru interaciunea A B).
Prezentm n continuare formulele de calcul pentru FA (obinut), FB (obinut) i FAB
(obinut), mpreun cu calculele respective, corespunztoare exemplului nostru.
Formula 10.15
EROARE
A

MS
F MS
38,64
9,35
361,25
A

EROARE

MS
F MS
Formula 10.16
A

EROARE
B

MS
F MS
30,08
9,35
684,45
B

EROARE
B

MS
F MS
Formula 10.17
B

EROARE
AB

MS
F MS

30,08
9,35
281,25
AB

EROARE
AB

MS
F MS
Pentru luarea deciziei, fiecare valoare pentru F (obinut) se compar cu F
(critic). ntruct n fiecare caz din exemplul nostru, glEROARE = 16, iar numrul de
grade de libertate din numrtor pentru media aritmetic este egal cu 1 (glA = glB =
AB

155

glAB = 1), pentru = 0,05, F (critic) = 4,4940 sau, rotunjit, 4,495. Deoarece fiecare F
(obinut) este mai mare dect F (critic), toate cele trei ipoteze de nul pot fi respinse.
De notat c toate cele trei ipoteze de nul pot fi respinse (rezultatele experimentului
sunt semnificative) i pentru = 0,01, pentru care F (critic) = 8,53.
n termenii modelului n patru pai, testul ANOVA pentru dou variabile
independente decurge astfel:
Pasul 1 Enunarea ipotezelor
H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice
ale rezultatelor obinute prin cele dou metode.
Ha1: La nivelul populaiei mediile aritmetice ale rezultatelor obinute prin cele
dou metode difer.
H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice
ale rezultatelor obinute de elevii cu nivele IQ diferite.
Ha2: La nivelul populaiei mediile aritmetice ale rezultatelor obinute de elevii
cu nivele IQ diferite difer.
H03: La nivelul populaiei nu exist interaciune ntre cele dou variabile.
Ha3: La nivelul populaiei exist interaciune ntre cele dou variabile.

Pasul 2 Selectarea distribuiei de eantionare i stabilirea zonelor critice.


Distribuia de eantionare = distribuia F
= 0,05
glEROARE = 16
glA = glB = glAB = 1
F (critic) = 4,49
5 Evident,

dac cele trei grade de libertate ar fi fost diferite, am fi avut trei valori pentru F (critic).

156

Pasul 4 Calcularea statisticii testului


Organizarea calculului ANOVA pentru dou variabile independente se face cu
ajutorul unui tabel de calcule iniiale (v. tabelul 10.3), precum i al unui tabel
ANOVA rezumativ (tabel al surselor de variaie). n acest caz, forma general a
unui astfel de tabel este urmtoarea:
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A SSA kA 1 MSA MSA/MSEROARE
B SSB kB 1 MSB MSB/MSEROARE
AB SSAB (kA 1)(kB 1) MSAB MSAB/MSEROARE
EROARE SSEROARE N kAkB MSEROARE
TOTAL SSTOTAL N 1
n exemplul nostru, avem urmtorul tabel:
Tabelul 10.4 ANOVA rezumativ, dou variabile independente
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A 361,25 1 361,25 38,64
B 684,45 1 684,45 73,20
AB 281,25 1 281,25 30,08
EROARE 149,60 16 9,35
TOTAL 1476,55 19
157

Pasul 4 Luarea deciziei


ntruct fiecare valoare pentru F (obinut) este mai mare dect valoarea pentru

F (critic), se resping cele trei ipoteze de nul. Pentru efectul principal al variabilei A,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute
prin cele dou metode difer semnificativ. Pentru efectul principal al variabilei B,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute de
elevii cu nivele IQ diferite difer semnificativ. Enunul de probabilitate asociat
ambelor concluzii este urmtorul: probabilitatea ca diferenele observate ntre
mediile aritmetice ale grupurilor constituite dup categoriile unei variabile
independente s apar din ntmplare, dac H0 respectiv ar fi n realitate adevrat,
este mai mic de 0,05 (i dup cum am vzut, chiar dect 0,01).
Pentru interaciune, concluzia este c la nivelul populaiei exist o
interaciune ntre metoda de instruire i nivelul IQ al subiecilor. Enunul de
probabilitate asociat acestei concluzii este urmtorul: probabilitatea ca diferenele
observate ntre mediile aritmetice ale scorurilor din categoriile combinate ale celor
dou variabile s apar din ntmplare, dac H03 ar fi n realitate adevrat, este mai
mic de 0,05 (i dect 0,01).

10.3 ANOVA PENTRU EANTIOANE DEPENDENTE


Calculele ANOVA considerate pn acum sunt aplicabile doar n cazul
eantioanelor independente. n aceast seciune se prezint calculele ANOVA pentru
cazul eantioanelor dependente. Amintim c n acest caz este vorba fie despre
alctuirea unor eantioane astfel nct selectarea cazurilor pentru un eantion
influeneaz selectarea cazurilor pentru un alt eantion, fie despre situaiile
experimentale n care aceeai subieci sunt testai repetat.
Un cercettor presupune c atractivitatea fizic a candidailor la obinerea
unei slujbe influeneaz judecata asupra competenei profesionale a candidailor.
Variabila independent este deci atractivitatea fizic a candidailor, variabila
dependent fiind judecata asupra competenei profesionale, msurat pe o scal cu
zece puncte. Cercettorul alctuiete un eantion aleatoriu cu opt subieci i le
prezint dou filme, n fiecare film aprnd o femeie care rspunde la un test de
aptitudini mecanice (mbinarea unor piese). Cele dou femei ndeplinesc sarcinile
testului la fel de bine, dar una dintre ele este atractiv fizic, n timp ce cealalt nu este
atractiv fizic. Filmele sunt prezentate de mai multe ori, pentru a se controla efectul
ordonrii. Datele obinute, mpreun cu mrimile necesare pentru ANOVA sunt
prezentate n urmtorul tabel:
158

Tabelul 10.5 Calcule iniiale pentru ANOVA, eantioane dependente


Subieci
Atractivitatea fizic (A)
sT 2
Neatractive (A1) Atractive (A2) Ts
1
2
3
4
5
6
7

8
6
5
5
7
4
3
5
4
8
6
9
6
6
5
5
7
14
11
14
13
10
8
10
11
196
121
196
169
100
64
100
121
TA1 = 39

2
A1 =

201
nA1 = 8
X A1 = 4,88
TA2 = 52

2
A2 =

352
nA2 = 8
X A2 = 6,50

T = 1067
n acest tabel, s T se refer la totalul scorurilor acordate de fiecare subiect pentru cele
s

dou femei, 2
s T este ptratul acestui total, iar 2
s T este suma acestor ptrate pentru
toi subiecii.
Principala diferen dintre ANOVA pentru eantioane dependente i ANOVA
pentru o variabil independent const n aceea c efectul diferenelor dintre subieci
devine o surs de varian. n ANOVA pentru eantioane dependente apar patru surse
de varian i deci se calculeaz patru sume de ptrate: (1) SSTOTAL, (2) SSA, (3)
SSSUBIECI i
(4)SSEROARE. SSTOTAL se calculeaz cu ajutorul formulei 10.1:

N
SS X G TOTAL
2

= (201 + 352)
16
(39 52)2
= 553 517,56 = 35,44
SSA se calculeaz cu ajutorul formulei 10.7:
2

159

n
G
n
T
SS
a
a
A
22

=
8
392 522
517,56 = 10,57
SSSUBIECI se calculeaz cu ajutorul urmtoarei formule:
Formula 10.18
n
G
n
T
SS
S
S
SUBIECTI
22

Termenul nS se refer la numrul de eantioane dependente din experiment sau la


numrul de scoruri pe care le d fiecare subiect, astfel c n exemplul nostru, nS = 2.
517,56 15,94

2
22

1067

n
G
n
T
SS
S
S
SUBIECTI

n fine, SSEROARE se calculeaz cu ajutorul urmtoarei formule:


Formula 10.19 EROARE TOTAL A SUBIECTI SS SS SS SS
35,44 10,57 15,94 8,93 EROARE SS
Conform ipotezei de nul, atractivitatea fizic nu influeneaz judecata asupra
competenei profesionale. Forma general a unui tabel ANOVA rezumativ pentru
eantioane dependente este urmtoarea:
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
160

A SSA k 1 MSA
SUBIECI SSSUBIECI s 1 - MSA/MSEROARE
EROARE SSEROARE (k 1)(s 1) MSEROARE
TOTAL SSTOTAL N 1
Procedurile de calcul pentru mediile sumelor de ptrate i pentru F (obinut) sunt
similare cu cele deja cunoscute. De notat c, n acest caz, media sumei de ptrate i F
(obinut) pentru SSSUBIECI nu se calculeaz. n mod obinuit, nu este necesar s
cunoatem dac exist diferene semnificative ntre subieci. Aflarea cantitii
corespunztoare sursei de varian SSSUBIECI contribuie, ns, la reducerea sursei de
variaie SSEROARE (formula 10.19). n exemplul nostru, avem urmtorul tabel:
Tabelul 10.6 ANOVA rezumativ, eantioane dependente
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A 10,57 1 10,57

8,26
SUBIECI 15,94 7 EROARE 8,93 7 1,28
TOTAL 35,44 15
Lsm ca exerciiu pentru cititor formularea n termenii modelului n patru pai a
testului ANOVA aplicat aici, n principal a deciziei pentru = 0,05, precum i a
enunului de probabilitate asociat concluziei6.
Rezumat
n acest unitate se prezint o procedur de testare a ipotezei conform creia
mediile aritmetice ale k populaii (k 2) sunt egale. Aceast procedur este numit
analiza de varian (ANOVA).
161

Cuvinte cheie
analiza de varian (ANOVA).;
sume de ptrate;
distribuia F;
termenul nS;
Teste de autoevaluare
1. n ANOVA pentru o variabil independent cte surse de variaie se
consider ? (pg.156 ).
2. Care este principala diferen dintre ANOVA pentru eantioane dependente i
ANOVA pentru o variabil independent ? (pg. 173)
3. n ANOVA pentru eantioane dependente apar patru surse de varian, deci
cte sume de ptrate se calculeaz ? (pg. 173 )
4. La ce se refer termenul nS ? (pg. 174 )
Concluzii.
n ANOVA pentru o variabil independent se consider dou surse de
variaie: (i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat
diferenelor dintre subiecii din fiecare grup, care poate fi atribuit procesului de
eantionare. Pentru nceput, se calculeaz trei sume de ptrate ale abaterilor fa
de medie sau, pe scurt, sume de ptrate.
Pasul urmtor n calculul ANOVA const n calcularea a dou medii
aritmetice ale sumelor de ptrate ale abaterilor fa de medie sau, pe scurt, medii
aritmetice ale sumelor de ptrate.
Organizarea calculului ANOVA pentru dou variabile independente se face
cu ajutorul unui tabel de calcule iniiale, precum i al unui tabel ANOVA rezumativ
(tabel al surselor de variaie).

UNITATEA XI
TESTE NONPARAMETRICE
Obiective. 163
Cunotine preliminarii.... 163
Resurse necesare i recomandri de studiu. 163
Durata medie de parcurgere a unitii... 163
11.1 Testele chiptrat (2) .............................................................................. 164
11. 2 Testul McNemar ..................................................................................... 165

11. 3 Testul MannWhitney U ......................................................................... 167


11. 4 Testul medianei ....................................................................................... 172
11.5 Testul iteraiilor ....................................................................................... 174
11.6 TestulWilcoxon T ................................................................................... 178
11.7 Testul KruskalWallis H ......................................................................... 182
Rezumat 184
Cuvinte cheie 184
Teste de autoevaluare... 185
Concluzii 185
163

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s utilizeze Testele chiptrat (2);
- s utilizeze Testul McNemar;
- s utilizeze Testul MannWhitney U;
- s utilizeze Testul Wilcoxon T;
- s utilizeze Testul KruskalWallis H.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
164

11.1 TESTUL CHI-PTRAT (2)


Testul chi-ptrat (2) este aplicabil atunci cnd nivelul de msur este
nominal, datele fiind frecvene numrul de cazuri care fac parte din categoriile
variabilelor (variabilei) considerate. Esena acestui test const din compararea
frecvenelor observate frecvenele efective obinute empiric de ctre cercettor
cu frecvenele teoretice sau ateptate frecvenele calculate sub presupunerea c
ipoteza de nul este adevrat. Testul examineaz msura n care frecvenele
observate sunt sau nu semnificativ diferite de frecvenele care sunt ateptate dac
ipoteza de nul este adevrat.
Distincia dintre frecvenele observate i cele ateptate poate fi neleas cu
ajutorul urmtorului exemplu intuitiv. S presupunem c avem un zar i dorim s
verificm ipoteza c zarul este nemsluit. Pentru aceasta, aruncm zarul de 300 de ori
i observm frecvena de apariie a fiecrei fee. Dac ipoteza menionat este
adevrat, ne-am atepta ca fiecare fa s apar de aproximativ 50 de ori. Acum, s
presupunem c observm urmtoarele frecvene de apariie:
Faa Numr de apariii
1 42
2 55

3 38
4 57
5 64
6 44
Comparnd frecvenele observate cu cele teoretice, suntem ndreptii s spunem c
zarul respectiv este msluit sau diferenele pot fi puse pe seama fluctuaiilor
ntmpltoare?
Testul chiptrat poate fi folosit pentru verificarea independenei a dou
variabile sau pentru verificarea concordanei dintre frecvenele observate i
frecvenele ateptate ale unei singure variabile. Corespunztor, se vorbete despre
165

testul chi-ptrat pentru independen i despre testul chi-ptrat pentru


concordan.

11.2 TESTUL McNEMAR


Testul McNemar este un test nonparametric pentru semnificaia schimbrii.
Acest test utilizeaz distribuia 2 i este aplicabil pentru variabile de nivel nominal,
n cazul a dou eantioane dependente.
Spresupunem c am alctuit un eantion aleatoriu de 38 de femei salariate i
am solicitat n dou momente diferite rspunsul la ntrebarea Credei c
organizaiile feministe v apr interesele? ntrebarea a fost pus nainte i dup ce
femeile din eantion au citit o serie de documente despre astfel de organizaii. Datele
obinute sunt prezentate n urmtorul tabel 2 2:
Tabelul 11.1 Date pentru calculul 2 n cazul a dou eantioane dependente
pentru opinia despre organizaiile feministe
nainte de lectura documentelor
14
A
6
B
16
C
2
D
38
Este important s remarcm ordinea intrrii datelor n acest tabel. Astfel,
celulele A i D trebuie s fie cele care indic schimbarea rspunsurilor de la un
moment la altul de la Da la Nu (A) i, respectiv, de la Nu la Da (D) , iar celulele B
i C trebuie s fie cele care indic absena schimbrii rspunsurilor de la un moment
la altul. ntruct n testul McNemar este vorba despre tabele 2 2, gl = 1.
n acest test ne intereseaz doar celulele care reflect schimbarea opiniei
despre aprarea intereselor femeilor salariate de ctre organizaiile feministe, i.e.
celulele A i D. ipoteza de nul pentru testul McNemar enun c, n cazul populaiei
Da Nu
Nu
Da
Dup

lectura
documentelor
166

de referin, numrul de schimbri ntr-o direcie este egal cu numrul de schimbri


n cealalt direcie. Aceasta nseamn c, presupunnd c ipoteza de nul este
adevrat, frecvena ateptat n celula A va fi egal cu frecvena ateptat n celula
D. ipoteza alternativ enun c numrul de schimbri ntr-o direcie este diferit de
numrul de schimbri n cealalt direcie.
Testul statistic este testul 2 i se poate folosi formula pentru calcularea
valorii lui 2 (obinut), dar formula va fi aplicat doar celulelor A i D. ntruct se
presupune c frecvenele ateptate din aceste dou celule sunt egale, valoarea
ateptat n fiecare dintre aceste dou celule este egal cu (A + D)/2. astfel, formula
de calcul a valorii 2 (obinut) pentru testul McNemar se simplific dup cum
urmeaz:
Formula 11.1
AD
AD

c 2( )
Pentru exemplul de mai sus, testul formal este urmtorul:
Pasul 1. Enunarea ipotezelor
H0: Exist un numr egal de schimbri n ambele direcii
Ha: Numrul de schimbri ntr-o direcie este semnificativ diferit
fa de numrul de schimbri n cealalt direcie
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia 2
= 0,05
gl = 1
2 (critic) = 3,841
Pasul 3. Calcularea statisticii testului
9,00
16
144
16
12
14 2
( )2 (14 2)2 2
2


AD
cAD
Pasul 4. Luarea deciziei
ntruct 2 (obinut) cade n zona critic (9,00 3,841), se poate respinge
ipoteza de nul. Exist o diferen statistic semnificativ ntre numrul de schimbri
ntr-o direcie i numrul de schimbri n cealalt direcie (o diferen care nu poate
167

fi pus pe seama ntmplrii). Din tabelul 10.4 rezult c mai multe femei salariate
i-au schimbat opinia de la Da la Nu dect de la Nu la Da, iar testul arat c aceast
diferen este statistic semnificativ.

11.3 TESTUL MANN-WHITNEY U


Testul Mann-Whitney U este asemntor n multe privine cu testele
parametrice pentru diferena dintre mediile aritmetice a dou eantioane
independente. n ambele cazuri, comparm dou eantioane independente pentru a
face inferene despre diferenele dintre cele dou populaii de referin i comparm
rezultatul calculrii testului statistic cu distribuia de eantionare a rezultatelor tuturor
eantioanelor posibile. Pe de alt parte, acest test se bazeaz pe ordonarea scorurilor
eantioanelor, astfel c este aplicabil la date de nivel ordinal.
Ca i alte teste statistice aplicabile la date de nivel ordinal, testul MannWhitney U folosete atribuirea de ranguri. A atribui ranguri unei mulimi de scoruri
de nivel ordinal nseamn a pune n coresponden respectiva mulime de scoruri cu
numere naturale din mulimea 1, 2, n aa fel nct succesiunea scorurilor s se
pstreze. S presupunem, de pild, c ntr-un inventar de personalitate li se cere
subiecilor s evalueze o serie de propoziii dup urmtoarea scal: Acord puternic,
Acord, Nedecis, Dezacord, Dezacord puternic. Putem atribui ranguri acestor scoruri
dup cum urmeaz:
Acord
puternic
Acord Nedecis Dezacord Dezacord
puternic
54321
ntruct singura semnificaie a atribuirii de ranguri este reflectarea ierarhiei
scorurilor, o alt modalitate de a atribui ranguri n acest exemplu este urmtoarea:
Acord
puternic
Acord Nedecis Dezacord Dezacord
puternic
97531
168

Cu toate acestea, se obinuiete ca diferena dintre dou ranguri imediat succesive s


fie egal cu unitatea.
Testul MannWhitney U comport dou variante, n funcie de dimensiunile
eantioanelor. Prezentm mai nti testul pentru eantioane mici (n1 20 i n2 20).
Spresupunem c ne preocup diferena pe sexe privind nivelul de satisfacie
n raport cu serviciile sociale oferite ntr-un campus universitar. Pentru aceasta,

selectm aleatoriu dou eantioane de studeni, biei i fete, cu n1 = 10 i n2 = 10, i


administrm o scal n care un scor nalt indic un nivel nalt de satisfacie. Scorurile
obinute sunt prezentate n tabelul 10.5.
Tabelul 11.1 Scoruri ale satisfaciei exprimate n raport cu serviciile sociale
oferite ntr-un campus universitar
Eantionul 1 (studente) Eantionul 2 (studeni)
Cazul Scorul Rangul Cazul Scorul Rangul
1 5 1 11 10 3
2 9 2 12 20 8
3 14 4 13 24 9
4 15 5 14 26 11
5 17 6 15 27 12
6 19 7 16 28 13
7 25 10 17 30 14,5
8 30 14,5 18 32 16
9 35 17 19 40 18
10 42 19 20 45 20
R1 =
85,5
R2 =
124,5
Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considerm scorurile combinate ale celor dou eantioane ca
i cum ar fi vorba despre un singur eantion i atribuim ranguri scorurilor combinate,
de la cel mai mic la cel mai mare scor. Astfel, atribuim rangul 1 celui mai mic scor
(5), rangul 2 scorului imediat urmtor (9) .a.m.d. pn la cel mai mare scor (45).
169

Dac ntlnim dou sau mai multe scoruri identice (dou sau mai multe cazuri cu
acelai scor), procedm dup cum urmeaz:
considerm rangurile pe care aceste scoruri le-ar fi avut dac ar fi fost diferite
i imediat succesive;
calculm media aritmetic a acestor ranguri;
atribuim fiecrui scor rangul mediu astfel obinut.
n exemplul nostru, cazurile 8
i 17 au acelai scor, 30. Scorului cazului 8
I-am fi
atribuit rangul 14, iar scorului cazului 17 I-am fi atribuit scorul 15. Prin urmare,
atribuim ambelor scoruri rangul 14,5 ((14 + 15)/2), iar scorului imediat urmtor n
ordine cresctoare (32) i atribuim rangul 16 (rangul pe care l-ar fi avut acest scor,
dac cele dou scoruri 30 ar fi fost diferite). Dup aceast operaie, calculm suma
rangurilor pentru fiecare eantion. Intuitiv vorbind, dac cele dou eantioane
reprezint populaii care nu difer semnificativ ntre ele sub aspectul variabilei
msurate, atunci cele dou sume sunt apropiate ca valoare. Dac, ns, cele dou
eantioane reprezint populaii care difer semnificativ ntre ele sub aspectul
variabilei msurate, atunci cele dou sume sunt mult diferite.
Calcularea statisticii testului presupune mai nti calcularea a dou mrimi

statistice, U1 i U2, cu ajutorul urmtoarelor formule:


Formula 11.2 1
11

2
U n n n (n 1) R

Formula 11.3 2
112

22

2
U n n n (n 1) R

n aceste formule, n1 i n2 sunt, respectiv, dimensiunile celor dou eantioane, iar R1


i R2 sunt, respectiv, sumele rangurilor pentru cele dou eantioane.
Odat calculate cele dou mrimi, U1 i U2, se ia drept valoare pentru U (obinut) cea
mai mic dintre valorile U1, U2: U (obinut) = min (U1, U2).
Pentru a stabili valoarea critic din distribuia de eantionare a valorilor U,
folosim tabelul valorilor critice pentru testul Mann-Whitney U (Anexa F). Pe
primul rnd i pe prima coloan din stnga ale acestui tabel sunt trecute dimensiunile
a dou eantioane. Nivelele sunt date pentru un test unilateral (direcional). n cazul
unui test bilateral (non-direcional), nivelul dat se localizeaz nmulind cu doi
valoarea lui . Valoarea critic, U (critic), se afl la intersecia liniei corespunztoare
dimensiunii unui eantion cu coloana corespunztoare dimensiunii celuilalt eantion
la nivelul ales. n exemplul nostru, avnd n1 = 10 i n2 = 10, pentru = 0,05 (test
non-direcional), U (critic) = 23.
Ipoteza de nul este, ca ntotdeauna, un enun de tipul nici o diferen, dar
este formulat n termeni mai generali dect n cazul testelor parametrice: nu exist
nici o diferen n privina scorurilor populaiilor respective sub aspectul variabilei de
112

170

interes. n exemplul nostru, ipoteza de nul enun c nu exist nici o diferen ntre
studente i studeni sub aspectul satisfaciei exprimate n raport cu serviciile sociale
oferite n campus. De regul, ipoteza alternativ enun c populaiile din care au fost
selectate eantioanele sunt diferite sub aspectul variabilei de interes. Aceast form a
ipotezei de nul conduce la un test nondirecional. Desigur, putem apela la un test
direcional, atunci cnd sensul diferenei poate fi prezis, i.e. atunci cnd putem
prezice c scorurile unei populaii sunt mai mari sau mai mici dect scorurile
celeilalte populaii. ntr-un test nondirecional, regula de decizie este urmtoarea:
Se respinge H0, dac U (obinut) < U (critic)
De remarcat c ipoteza de nul se respinge dac valoarea obinut este mai mic dect
cea critic. Aceast regul difer de regulile de decizie din cele mai multe teste de
semnificaie, n care ipoteza de nul este respins dac valoarea obinut este mai
mare dect cea critic.
Dac se poate prezice c scorurile populaiei 1 sunt mai mari dect cele ale
populaiei 2, regula de decizie este
Se respinge H0, dac U1 < U (critic),

iar dac se poate prezice c scorurile populaiei 1 sunt mai mici dect cele ale
populaiei 2, regula de decizie este
Se respinge H0, dac U2 < U (critic)
Testul formal decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: Satisfacia1 = Satsfacia2
Ha: Satisfacia1 Satisfacia2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia U
= 0,05 (test nedirecional)
U (critic) = 23
Pasul 3. Calcularea statisticii testului
85,5 100 55 85,5 69,5
2
(10 10) 10 11
2
( 1)
1
11
112

U n n n n R
124,5 100 55 124,5 30,5
2
(10 10) 10 11
2
( 1)
2
22

U n n n n R
112

171

min( , ) 30,5 1 2 U U U
Pasul 4. Luarea deciziei
ntruct U (obinut) U (critic) (30,5 23), nu putem respinge ipoteza de nul.
Studentele nu difer semnificativ de studeni sub aspectul nivelului de satisfacie n
raport cu serviciile sociale oferite n campus (la un nivel de ncredere de 95%).
Atunci cnd n1 20 i n2 20, distribuia de eantionare pentru U se apropie
de distribuia normal, astfel nct putem folosi tabelul scorurilor Z pentru a stabili
zona critic. Lund drept cadru modelul n patru pai, n pasul 2, distribuia de
eantionare este distribuia Z, zona critic fiind cea marcat de Z (critic), n funcie de
nivelul ales i de tipul de test (unilateral sau bilateral). Formula pentru Z (obinut)

este urmtoarea:
Formula 11.4
U
U

Z
s
m

n care U = media aritmetic a distribuiei de eantionare a valorilor U pentru toate


eantioanele posibile
U = abaterea standard a distribuiei de eantionare a valorilor U pentru toate
eantioanele posibile
Valorile pentru U i U se calculeaz cu ajutorul urmtoarelor formule:
Formula 11.5
2
1 2n n
Um
Formula 11.6
12
( 1) 1 2 1 2
n n n n
Us
Prin urmare, n pasul 3 lucrm cu urmtoarea formul:
Formula 11.7
12
( 1)
2
1212
12

nnnn
nn
U
Z
172

n fine, n pasul 4 se utilizeaz procedura de decizie cunoscut pentru testul Z.

11.4 TESTUL MEDIANEI


Testul medianei este un test nonparametric pentru egalitatea a dou mediane.
Acest test utilizeaz distribuia 2 i este aplicabil n cazul a dou eantioane
independente, pentru variabile msurate la nivel ordinal.
Spresupunem c ne intereseaz atitudinea femeilor salariate i a celor
casnice fa de micrile feministe. Alctuim un eantion de 10 femei salariate i un
eantion de 10 femei casnice i administrm un chestionar adecvat. Scorurile
obinute sunt prezentate n tabelul 11.3.
Tabelul 11.3 Atitudinea fa de micrile feministe a femeilor salariate i a casnicelor

Eantionul 1 (salariate) Eantionul 2 (casnice)


Cazul Scorul Rangul Cazul Scorul Rangul
1 19 3 11 16 1
2 22 5 12 18 2
3 28 8 13 21 4
4 32 11 14 26 6
5 34 13 15 27 7
6 37 14 16 29 9
7 40 17 17 31 10
8 42 18 18 33 12
9 43 19 19 38 15
10 46 20 20 39 16
Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considernd scorurile combinate ale celor dou eantioane ca
i cum ar fi vorba despre un singur eantion i aflm mediana scorurilor combinate.
Pentru a nlesni aflarea medianei scorurilor combinate este recomandabil s acordm
173

ranguri scorurilor. ntruct avem un numr par de cazuri (20), mediana va fi media
aritmetic a scorurilor celor dou cazuri de mijloc, 31 i 32:
31,5
2
~ 31 32

X
Cu ajutorul unui tabel 2 2, prezentm pentru fiecare eantion numrul de scoruri
aflate deasupra i sub mediana scorurilor combinate:
7
A
3
B
3
C
7
D
20
Fiind un tabel 2 2, numrul de grade de libertate este egal cu 1.
Ipoteza de nul pentru testul medianei enun c populaiile din care au fost
selectate cele dou eantioane au aceeai median ( 1 2
m~ m~ ), iar ipoteza alternativ
enun c medianele celor dou populaii sunt diferite ( 1 2
m~ m~ ).
Pentru un tabel 2 2, notnd celulele ca mai sus, formula de calcul pentru
testul medianei poate fi simplificat, dup cum urmeaz:
Formula 11.8
( )( )( )( )
( )2

ABCDACBD
n AD BC

c
n termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: 1 2
m~ m~
Ha: 1 2
m~ m~
Eantion 1 Eantion 2
Deasupra
medianei
Sub
median
10
10
10 10
174

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice


Distribuia de eantionare = Distribuia 2
= 0,05
gl = 1
2 (critic) = 3,841
Pasul 3. Calcularea statisticii testului
3,20
10 10 10 10
20(7 7 3 3)
( )( )( )( )
( )2 2
2

ABCDACBD
n AD BC c
Pasul 4. Luarea deciziei
ntruct 2 (obinut) nu cade n zona critic (3,20 3,841), nu se poate
respinge ipoteza de nul, ceea ce nseamn c nu exist nici o diferen statistic
semnificativ ntre femeile salariate i cele casnice n privina atitudinii fa de
micrile feministe (la un nivel de ncredere de 95%).

11.5 TESTUL ITERAIILOR


Testul iteraiilor este similar ca logic i form cu testul Testul
MannWhitney U. Ipoteza de nul enun c nu exist o diferen semnificativ ntre
populaiile de referin sub aspectul variabilei de interes. Pentru a aplica acest test, se
combin scorurile celor dou eantioane, dup care aceste scoruri se ordoneaz
cresctor (sau descresctor) ca i cum ar fi vorba despre un singur eantion. Dac
ipoteza de nul este adevrat, atunci scorurile vor fi foarte amestecate i vom avea
multe iteraii. O iteraie (repetare) este orice succesiune de R elemente de acelai fel,
cu R 1. Dac ipoteza de nul este fals, populaiile fiind diferite sub aspectul
variabilei de interes, atunci vor fi foarte puine iteraii.
Pentru a ilustra noiunea de iteraie, s considerm datele din tabelul 11.2 i s
folosim F pentru studente i B pentru studeni. Obinem urmtoarele iteraii:
FFBFFFFBBFBBBBFBFBFB
1 2 3 4 5 6 7 8 9 10 11 12
175

Cele dou litere F din extrema stng reprezint dou studente care au cele mai mici
scoruri din ambele eantioane; urmtoarea liter, B, reprezint un student cu scorul
urmtor n ordine cresctoare .a.m.d. De notat c nici o iteraie alctuit din
elemente de un anumit tip nu se nvecineaz cu o iteraie alctuit din elemente de
acelai tip. Dac, de pild, am considera primul element al iteraiei 3 drept o iteraie
distinct, atunci aceasta s-ar nvecina la dreapta cu o iteraie alctuit din elemente de
acelai tip, F.
Diferena dintre eantioane, i deci dintre populaii, este cu att mai
semnificativ, cu ct numrul de iteraii este mai mic. Cel mai mic numr de iteraii
posibil este, desigur, 2. n exemplul de mai sus, dac toi studenii ar exprima o
satisfacie mai mare dect studentele n raport cu serviciile sociale din campus, am fi
obinut urmtoarele dou iteraii:
BBBBBBBBBBFFFFFFFFFF
12
Evident, numrul maxim posibil de iteraii este egal cu numrul de cazuri din cele
dou eantioane.
Este important de reinut c n aplicarea acestui test, cazurile care nu fac parte
din acelai eantion i au scoruri identice pot crea probleme serioase, deoarece
numrul de iteraii poate fi mult afectat de felul n care sunt aranjate cazurile cu
scoruri identice. Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite
este recomandabil s folosim alt test de semnificaie.
Distribuia de eantionare pentru iteraii aproximeaz normalitatea. Media
aritmetic a acestei distribuii ( R m ) i abaterea sa standard ( R s ) se calculeaz cu
ajutorul urmtoarelor formule:
Formula 11.9 1
2
12
12

nn

nn
Rm
Formula 11.10
( ) ( 1)
2 (2 )
12
2
12
121212

nnnn
nnnnnn
Rs
Statistica testului iteraiilor, Z (obinut), se calculeaz cu urmtoarea formul:
Formula 11.11
R

R
Z
s
m

176

n care R = numrul de iteraii.


Pentru a ilustra aplicarea acestui test, s presupunem c dou eantioane
aleatorii alctuite, respectiv, din brbai i femei au fost chestionate cu privire la
atitudinea fa de politic i politicieni. Scorurile sunt prezentate n urmtorul tabel:
Tabelul 11.4 Atitudinea fa de politic i politicieni pentru
dou eantioane de brbai i, respectiv, femei
Brbai Femei
Cazul Scorul Cazul Scorul
1 1 21 0
2 1 22 0
3 2 23 4
4 2 24 4
5 3 25 6
6 5 26 6
7 5 27 8
8 7 28 12
9 9 29 12
10 10 30 13
11 10 31 14
12 15 32 16
13 17 33 16
14 17 34 21
15 18 35 21
16 19 36 21

17 20 37 25
18 22 38 26
177

19 22 39 27
20 23 40 27
S observm c aici nu exist scoruri identice n eantioane diferite (scorurile
identice n acelai eantion nu au nici o influen asupra numrului de iteraii).
Folosind tot literele B i F, obinem urmtoarele iteraii:
FFBBBBBFFBBFFBFBBBFFFFBFF
1 2 3 4 5 6 7 8 9 10 11
BBBBFFFBBBFFFF
12 13 14 15
n aceste date se afl 15 iteraii i putem acum s aplicm testul formal pentru
semnificaie.
Pasul 1. Enunarea ipotezelor
H0: Atitudinea1 = Atitudinea2
Ha: Atitudinea1 Atitudinea2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05
Z (critic) = 1,96
Pasul 3. Calcularea statisticii testului
1 21
20 20
1 2 20 20
2
12
12

nn
nn
Rm
178

3,12
(20 20) (20 20 1)
2 20 20(2 20 20 20 20
( ) ( 1)
2 (2 )
2
12
2
12
121212

nnnn
nnnnnn
Rs
1,92
3,12
15 21

R
Z
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) Z (critic) (1,92 1,96), rezultatul statisticii testului
nu cade n zona critic. Prin urmare nu putem respinge ipoteza de nul. n exemplul de
mai sus, brbaii i femeile nu difer semnificativ n privina atitudinii fa de politic
i politicieni.
R

11.6 TESTUL WILCOXON T


Testul Wilcoxon T este un test pentru semnificaia diferenei dintre dou
eantioane dependente, aplicabil pentru date de nivel ordinal. Astfel, testul este
folosit n mod obinuit atunci cnd selectarea cazurilor pentru un eantion
influeneaz selectarea cazurilor pentru cellalt eantion, avnd ca rezultat
considerarea unor perechi de cazuri, unul dintr-un eantion, altul din cellalt
eantion, sau n situaii n care aceeai subieci sunt testai nainte i dup un anumit
tratament.
Ca i Testul MannWhitney U, testul Wilcoxon T comport dou variante, n
funcie de dimensiunile eantioanelor. Prezentm mai nti testul pentru eantioane
mici (n1 25 i n2 25).
Pentru ilustrare, s presupunem c ne intereseaz comportamentul agresiv al
adolescenilor cu dificulti de nvare, nainte i dup o serie de edine de
consiliere. Pentru aceasta, am selectat un eantion aleatoriu de 12 adolesceni cu
dificulti de nvare. Msura comportamentului agresiv reprezint media
aprecierilor oferite de cinci consilieri. Aprecierile au fost fcute nainte i dup
tratament. Problema pe care ne-o punem este urmtoarea: comportamentul agresiv al
adolescenilor cu dificulti de nvare poate fi diminuat prin astfel de edine de
consiliere? Dup cum se poate constata, ca i n cazul altor teste nonparametrice,
ipoteza de nul i ipoteza alternativ n cazul testului Wilcoxon T se enun n termeni
generali.

Datele obinute sunt prezentate n tabelul 11.5, n care un scor nalt indic un
comportament agresiv.
Tabelul 11. 5 Scoruri ale comportamentului agresiv pentru adolesceni cu
dificulti de nvare
179

Cazul
Scorul
pretratament
Scorul
posttratament
Scorul
diferen
Rangul
diferenei
Ranguri cu cel
mai puin
frecvent semn
1 36 21 15 11
2 23 24 1 1 1
3 48 36 12 10
4 54 30 24 12
5 40 32 8 7
6 32 35 3 3 3
7 50 43 7 6
8 44 40 4 4
9 36 30 6 5
10 29 27 2 2
11 33 22 11 9
12 45 36 9 8
T (obinut) = 4
Pentru calcularea statisticii testului se procedeaz dup cum urmeaz:
1. Pentru fiecare caz, se calculeaz diferena dintre scorul pretratament i
scorul posttratament; rezultatul scderii se numete scor diferen.
2. Se atribuie ranguri valorilor absolute ale scorurilor diferen (modulelor
scorurilor diferen), ncepnd cu cea mai mic valoare absolut;
rangurile scorurilor diferen pozitive primesc semnul +, iar rangurile
scorurilor diferen negative primesc semnul .
3. Se nsumeaz valorile absolute ale rangurilor cu semnul care are cele mai
puine apariii; rezultatul nsumrii reprezint valoarea pentru T (obinut).
Ca i n cazul testului iteraiilor, n aplicarea testului Wilcoxon T, cazurile
care nu fac parte din acelai eantion i au scoruri identice pot crea probleme
serioase. Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite este
recomandabil s folosim alt test de semnificaie.
180

Pentru a stabili valoarea critic din distribuia de eantionare a valorilor T,


folosim tabelul valorilor T critice, elaborat de Frank Wilcoxon (Anexa G). n acest

tabel sunt date valorile T critice pentru diferite nivele i diferite dimensiuni ale
eantioanelorperechi . n exemplul de fa, cu n = 12, pentru = 0,01 (test
unilateral), T (critic) = 10.
Ipoteza de nul enun c nu exist nici o diferen n privina
comportamentului agresiv al populaiei de adolesceni cu dificulti de nvare,
nainte i dup o serie de edine de consiliere. Ipoteza alternativ, n conformitate cu
datele problemei, enun c agresivitatea adolescenilor cu dificulti de nvare este
diminuat dup respectivele edine de consiliere. Aceast ipotez alternativ
conduce la un test unilateral stnga, n care vom respinge ipoteza de nul dac T
(obinut) T (critic). n cazul unui test unilateral dreapta, se respinge ipoteza e nul
dac T (obinut) T (critic). Pentru un test bilateral, se respinge ipoteza de nul dac T
(obinut) T (critic) sau T (obinut) T (critic).
n termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: Nu exist nici o diferen n privina comportamentului agresiv al
populaiei de adolesceni cu dificulti de nvare, nainte i dup o
serie de edine de consiliere
Ha: Comportamentul populaiei de adolesceni cu dificulti de
nvare
este mai puin agresiv dup edinele de consiliere.
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia T
= 0,01 (test unilateral stnga)
T (critic) = 10
Pasul 3. Calcularea statisticii testului
Dup cum am vzut n tabelul 11.5, calculm scorurile diferen i atribuim
ranguri valorilor absolute ale acestor scoruri ncepnd cu cea mai mic valoare
absolut, pstrnd semnele corespunztoare. Rangurile cu semnul care are cele mai
puine apariii, considerate n valoare absolut, sunt 1 i 3; prin nsumarea acestor
valori, gsim T (obinut) = 4.
Pasul 4. Luarea deciziei
181

ntruct T (obinut) T (critic) (4 10), respingem ipoteza de nul i


conchidem c agresivitatea adolescenilor cu dificulti de nvare poate fi diminuat
prin edinele de consiliere.
Atunci cnd n1 25 i n2 25, distribuia de eantionare pentru T se apropie
de distribuia normal, astfel nct putem folosi tabelul scorurilor Z pentru a stabili
zona critic. n pasul 3, dup ce determinm valoarea pentru T (obinut), folosim mai
nti urmtoarele formule pentru determinarea mediei aritmetice a distribuiei de
eantionare a valorilor T ( T m ) i, respectiv, a abaterii standard a acestei distribuii
( T s ):
Formula 11.12
4
( 1)
n n
Tm

Formula 11.13
24
( 1)(2 1)
n n n
Ts
n aceste formule, n reprezint numrul de cazuri din fiecare eantion sau, altfel spus,
numrul de perechi de cazuri alctuite din cele dou eantioane. Z (obinut) se
calculeaz cu urmtoarea formul:
Formula 11.14
T

T
Z
s
m

Procedura de decizie este cea uzual pentru testul Z.


T

182

11.7 TESTUL KRUSKALWALLIS H


Testul Kruskal-Wallis H este analogul nonparametric al testului ANOVA
pentru o variabil independent i este aplicabil la date de nivel ordinal.
Spresupunem c ne intereseaz diferenele dintre cadrele didactice din
nvmntul primar, cel gimnazial i cel liceal sub aspectul comportamentului
autoritar fa de elevi. Alctuim eantioane din cele trei populaii cu, respectiv, n1 =
6, n2 = 5 i n3 = 6 i administrm subiecilor o scal de autoritate. Datele obinute
sunt prezentate n tabelul 11.6, n care scorurile mari indic un comportament mai
autoritar.
Tabelul 11.6 Comportamentul autoritar al cadrelor didactice
din nvmntul primar, gimnazial i liceal
Cadre didactice din
nvmntul primar
Cadre didactice din
nvmntul gimnazial
Cadre didactice din
nvmntul liceal
Scorul Rangul Scorul Rangul Scorul Rangul
46 1 49 3 58 8
48 2 53 5 63 10
52 4 64 11 65 12
54 6 66 13 70 15
57 7 68 14 71 16
62 9 73 17
R1 = 29 R2 = 46 R3 = 78
Considernd scorurile combinate ale celor trei eantioane i ordonate cresctor,
atribuim rangul 1 celui mai mic scor (46), rangul 2 scorului imediat urmtor (48)
.a.m.d. pn la cel mai mare scor (73). Dac ntlnim dou sau mai multe scoruri
identice, procedm n maniera indicat n cazul testului Mann-Whitney U. Calculm

apoi suma rangurilor pentru fiecare eantion.


Ipoteza de nul pentru testul KruskalWallis H este analog ipotezei de nul
pentru testul ANOVA unifactorial, fiind ns enunat n termeni mai generali: nu
exist nici o diferen n privina scorurilor celor k populaii din care au fost alctuite
eantioanele sau, altfel spus, populaiile din care au fost alctuite eantioanele sunt
183

identice sub aspectul variabilei de interes. Ipoteza alternativ enun c cel puin
dou dintre cele k populaii difer sub aspectul variabilei de interes.
De notat c o condiie de aplicabilitate a acestui test este ca fiecare eantion j
s conin un numr de cazuri nj 5.
Calcularea statisticii testului const din aflarea valorii unei mrimi statistice,
H, cu ajutorul urmtoarei formule:
Formula 11.15

3( 1)
( 1)
12
1
2

N
n
R
NN
H
k
jj
j

n care N = numrul total de cazuri din cele k eantioane


Rj = suma rangurilor din eantionul j, j = 1,2, , k
nj = numrul de cazuri din eantionul j, j = 1,2, , k
Distribuia de eantionare n testul KruskalWallis H este distribuia 2 cu k
1 grade de libertate. Ipoteza de nul este respins dac valoarea lui H este mai mare
dect valoarea critic 2 corespunztoare nivelului ales i numrului de grade de
libertate.
n termenii modelului n 4 pai, testul pentru exemplul de mai sus decurge
dup cum urmeaz:

Pasul 1. Enunarea ipotezelor


H0: Nu exist nici o diferen n privina comportamentului autoritar
fa de elevi al cadrelor didactice de la cele trei nivele de nvmnt.
Ha: Cel puin dou din cele trei populaii de cadre didactice difer sub
aspectul comportamentului autoritar fa de elevi.
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia 2
= 0,05
gl = k 1 = 3 1 = 2
2 (critic) = 5,991
184

Pasul 3. Calcularea statisticii testului

3(17 1) 7,86
6
78
5
46
6
29
17(17 1)
12
3( 1)
( 1)
12
222
1
2

N
n
R
NN
H
k
jj
j

Pasul 4. Luarea deciziei


ntruct H (7,86) 2 (critic) (5,991), putem respinge ipoteza e nul.
Examinarea datelor indic faptul c profesorii de liceu sunt mai autoritari dect cei
din nvmntul gimnazial i primar i profesorii din nvmntul gimnazial sunt
mai autoritari dect cei din nvmntul primar, iar testul arat c aceste diferene
sunt statistic semnificative.
Rezumat
Testul chi-ptrat (2) este aplicabil atunci cnd nivelul de msur este
nominal, datele fiind frecvene numrul de cazuri care fac parte din categoriile
variabilelor (variabilei) considerate.
Testul McNemar este un test nonparametric pentru semnificaia schimbrii.
Testul Mann-Whitney U este asemntor n multe privine cu testele
parametrice pentru diferena dintre mediile aritmetice a dou eantioane
independente.
Testul medianei este un test nonparametric pentru egalitatea a dou mediane.
Testul Wilcoxon T este un test pentru semnificaia diferenei dintre dou
eantioane dependente, aplicabil pentru date de nivel ordinal.
Testul Kruskal-Wallis H este analogul nonparametric al testului ANOVA
pentru o variabil independent i este aplicabil la date de nivel ordinal.
Cuvinte cheie
chiptrat;
Testul McNemar;
185

Testul MannWhitney U;
Testul medianei;
Testul Wilcoxon T;
Testul KruskalWallis H
Teste de autoevaluare
1. Definii Testul chiptrat. (pg. 179).
2. Definii Testul McNemar. (pg.180)
3. Definii Testul medianei. (pg. 187)
4. Definii Testul Wilcoxon T. (pg. 193 )
5. Definii Testul KruskalWallis H. (pg. 197)
Concluzii.
Testele nonparametrice sunt teste de semnificaie care nu necesit supoziii

particulare despre forma distribuiei populaiilor de referin, astfel c pot fi aplicate


n special atunci cnd se lucreaz cu eantioane mici. n al doilea rnd, testele
nonparametrice sunt cu deosebire utile n psihologie, ntruct pot fi aplicate pentru
variabile msurate la nivel nominal sau ordinal.

UNITATEA XII
MRIMI ALE CORELAIEI
Obiective. 187
Cunotine preliminarii... 187
Resurse necesare i recomandri de studiu. 187
Durat medie de parcurgere a unitii. 187
12.1 Noiunea de corelaie ................................................................................ 188
12.2 Mrimi ale corelaiei la nivel nominal ...................................................... 192
12.3 Mrimi ale corelaiei la nivel ordinal ....................................................... 195
12.4 Mrimi ale corelaiei la nivel de interval sau de raport ............................ 202
12.5 Corelaia parial ...................................................................................... 208
12.6 Regresia multipl ...................................................................................... 210
12.7 Corelaia multipl ..................................................................................... 213
Rezumat 214
Cuvinte cheie 214
Teste de autoevaluare... 214
Concluzii 214
187

Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de noiunea de
corelaie ;
- s neleag diferite aspecte legate de mrimi ale corelaiei la nivel
nominal;
- s neleag diferite aspecte legate de mrimi ale corelaiei la nivel
ordinal;
- s cunoasc corelaia parial, regresia multipl i corelaia multipl.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
188

12.1 NOIUNEA DE CORELAIE


Se spune c dou variabile sunt corelate, dac distribuia scorurilor uneia
dintre acestea se schimb sub influena scorurilor celeilalte.

Spresupunem c ne intereseaz relaia dintre satisfacia fa de meseria


practicat i productivitatea muncii pentru muncitorii unei fabrici. Dac aceste dou
variabile sunt corelate, atunci nivelele de productivitate a muncii vor varia sub
influena nivelelor de satisfacie. Tabelul 12.1 prezint relaia n discuie pentru un
eantion de 173 de muncitori (date fictive).
Tabelul 12.1 Productivitatea i satisfacia fa de meseria practicat
Productivitatea
(Y)
Satisfacia fa de
meserie (X)
TOTAL
Sczut Medie nalt
nalt 10 15 27 52
Medie 20 25 18 63
Sczut 30 21 7 58
TOTAL 60 61 52 173
Ca i pn acum, ntr-un tabel cu dubl intrare vom urma convenia tacit de a
lua denumirile categoriilor variabilei independente (X) drept capete de coloane, iar
denumirile categoriilor variabilei dependente (Y) drept capete de rnduri.
ntr-un astfel de tabel, distribuiile de frecvene pe coloan sunt numite
distribuii condiionate ale variabilei dependente, deoarece prezint distribuia
scorurilor variabilei dependente pentru fiecare scor (condiie) al (a) variabilei
independente. De pild, n tabelul 12.1, prima coloan din stnga arat c din 60 de
muncitori cu satisfacie sczut fa de meseria practicat, 10 sunt nalt productivi,
20 sunt mediu productivi, iar 30 au o productivitate sczut. Inspectarea acestor
distribuii condiionate ne permite s observm efectele variabilei independente
asupra variabilei dependente. Astfel, constatm c distribuiile condiionate ale
variabilei productivitate se schimb n funcie de diferitele scoruri ale variabilei
satisfacie. De pild, jumtate dintre muncitorii cu satisfacie sczut fa de meserie
(30) au o productivitate sczut, n timp ce peste jumtate dintre muncitorii cu
189

satisfacie nalt fa de meserie (27) au o productivitate nalt. Aceasta arat c


productivitatea n munc i satisfacia fa de meseria aleas sunt corelate.
n tabelul 12.1, compararea distribuiilor condiionate ale variabilei
dependente este uor de fcut, deoarece marginalele coloanelor au valori apropiate.
n mod obinuit, nu aceasta este situaia i de aceea este util s controlm distribuiile
condiionate care dau totaluri diferite prin calcularea procentelor corespunztoare n
sensul variabilei independente (pe coloane) i apoi s le comparm n sensul
variabilei dependente (pe rnduri). n tabelul 12.2 sunt prezentate procentele pentru
datele din tabelul 12.1 (valori rotunjite), calculate n modul indicat.
Tabelul 12.2 Productivitatea i satisfacia fa de meseria practicat
(n procente)
Productivitatea
(Y)
Satisfacia fa de
meserie (X)

Sczut Medie nalt


nalt 17% 25% 52%
Medie 33 41 35
Sczut 50 34 13
TOTAL 100%
(60)
100%
(61)
100%
(52)
S observm c n tabelul 12.2, marginalele rndurilor au fost omise, iar marginalele
coloanelor, fa de care au fost calculate procentele, sunt prezentate ntre paranteze.
Putem vedea imediat c poziia celulei cu cea mai mare frecven relativ se
schimb de la o coloan la alta. Astfel, pentru muncitorii cu un nivel de satisfacie
sczut, celula cu cea mai mare frecven relativ (50%) se afl pe ultimul rnd;
pentru muncitorii cu un nivel mediu de satisfacie, celula cu ea mai mare frecven
relativ (41%) se afl pe rndul din mijloc; n fine, pentru muncitorii cu un nivel nalt
de satisfacie, celula cu cea mai mare frecven relativ se afl pe primul rnd.
Aceste rezultate ntresc concluzia c exist o corelaie ntre cele dou variabile.
Dac dou variabile nu sunt corelate, atunci distribuiile condiionate ale
variabilei dependente nu se vor modifica de la o coloan la alta sau, altfel spus,
distribuiile variabilei dependente vor fi aceleai pentru fiecare condiie a variabilei
independente. Dac, de pild, n loc de variabila satisfacie am lua variabila culoarea
prului, am obine n fiecare celul, probabil, un procent de aproximativ 33,3%.
Dac dou variabile sunt corelate, iar variabilele respective se afl cel puin la
nivel ordinal, atunci se poate indica un sens al corelaiei. Acesta poate fi pozitiv
(direct) sau negativ (invers). De pild, dac se constat c performanele colare ale
unui eantion de elevi ntr-o anumit perioad sunt cu att mai bune cu ct elevii
respectivi au afectat un numr mai mare de ore pe sptmn studiului individual n
190

acea perioad, atunci se spune c ntre studiul individual i performanele colare


exist o corelaie pozitiv.
Dac se constat c performanele colare ale unui eantion de elevi sunt cu
att mai slabe cu ct elevii respectivi au afectat un numr mai mare de ore pe
sptmn vizionrii emisiunilor TV, atunci se spune c ntre vizionarea emisiunilor
TV i performanele colare exist o corelaie negativ. n general, dou variabile
sunt corelate pozitiv la nivelul unui eantion, dac subiecii din eantion care au
scoruri nalte n privina unei variabile au scoruri nalte i n privina celeilalte
variabile, iar cei care au scoruri joase n privina unei variabile au scoruri joase n
privina celeilalte variabile. Altfel spus, ntr-o corelaie pozitiv, o variabil crete
sau descrete n valoare dup cum crete sau descrete cealalt. Tabelul 12.2. arat c
variabilele satisfacie i productivitatea muncii sunt corelate pozitiv: un nivel nalt de
satisfacie este asociat cu un nivel nalt de productivitate, satisfacia medie este
asociat cu productivitatea medie, iar satisfacia sczut cu productivitatea sczut.
Dou variabile sunt corelate negativ la nivelul unui eantion, dac subiecii din
eantion care au scoruri nalte n privina unei variabile au scoruri joase n privina

celeilalte variabile. Altfel spus, ntr-o corelaie negativ, creterea valorii unei
variabile este nsoit de descreterea valorii celeilalte variabile. Tabelul 12.3
prezint o corelaie negativ ntre nivelul de educaie i vizionarea programelor TV
(date fictive).
Tabelul 12.3 Nivelul de educaie i vizionarea programelor TV
(ilustrare pentru corelaie negativ)
Gradul de urmrire
a programelor TV
Nivelul de educaie
Sczut Mediu nalt
nalt 60% 20% 10%
Mediu 30 60 30
Sczut 10 20 60
TOTAL 100% 100% 100%
Orice corelaie, pozitiv sau negativ, poate fi apreciat dup tria sau
puterea sa. Un caz extrem este cel al corelaiei perfecte. Corelaia dintre dou
variabile este perfect, dac fiecare scor al unei variabile este asociat cu un singur
scor al celeilalte variabile, astfel c scorurile unei variabile pot fi determinate exact
pe baza cunoaterii scorurilor celeilalte variabile. Dac, de pild, ntre nivelul de
educaie i vizionarea programelor TV ar fi o corelaie (negativ) perfect, atunci
ntr-un tabel cu dubl intrare pentru aceste variabile, toate cazurile de pe fiecare
coloan ar fi localizate ntr-o singur celul, ceea ce ar arta c nu exist nici o
variaie a variabilei Y pentru orice scor dat al variabilei X. O astfel de situaie este
prezentat n tabelul 12.4.
191

Tabelul 11.4 Nivelul de educaie i vizionarea programelor TV


(ilustrare pentru corelaie negativ perfect)
Gradul de urmrire
a programelor TV
Nivelul de educaie
Sczut Mediu nalt
nalt 100% 0% 0%
Mediu 0 100 0
Sczut 0 0 100
TOTAL 100% 100% 100%
O corelaie perfect ar putea fi luat drept o dovad puternic pentru o relaie
cauzal ntre variabile, cel puin pentru eantionul respectiv. Rezultatele prezentate n
tabelul 12.4 ar indica faptul c, pentru eantionul considerat, este foarte probabil ca
singura cauz a gradului de urmrire a programelor TV s fie nivelul de educaie. De
asemenea, o corelaie perfect ar permite predicii fr eroare de la o variabil la alta.
De pild, dac am ti c o persoan din eantion are un nivel nalt de educaie, am
putea prezice cu exactitate c gradul de urmrire a programelor TV pentru acea
persoan este sczut. Corelaia perfect este un caz ideal, care nu se ntlnete n
practica cercetrii psihologice, dar care este luat ca reper pentru aprecierea triei
corelaiilor dintre variabilele de interes.
n cele ce urmeaz, vom prezenta o serie de mrimi ale corelaiei, numite

coeficieni de corelaie, pentru diferite nivele de msur. Aproape toate aceste


mrimi sunt concepute astfel nct s aib limita inferioar 0, indicnd cazul nici o
corelaie, i limita superioar 1 pentru nivelul nominal, respectiv 1 pentru celelalte
nivele, indicnd cazurile corelaie pozitiv perfect (+1) sau cazul corelaie
negativ perfect. Acum, valorile coeficienilor de corelaie diferite de 0 i 1 nu au
o interpretare direct precis. S presupunem, de pild, c valoarea unui astfel de
coeficient pentru dou variabile este de 0,40.
Aceasta nseamn c ntre cele dou variabile exist o corelaie important? A decide
ce valoare a unui coeficient de corelaie indic o legtur important ntre variabile
este o chestiune care, pe de o parte, depinde de natura variabilelor considerate i care,
pe de alt parte, este ntructva arbitrar.
n plus, dup cum vom vedea, doi coeficieni de corelaie pot avea valori diferite
pentru aceleai date.
Cu toate acestea, se admite c o interpretare rezonabil a valorii unui coeficient de
corelaie se poate da conform urmtorului tabel1:
1 Adaptat

dup D. E. Hinkle, W. Wiersma i S. G. Jurs, 1988, p. 118.

192

Interpretarea valorii unui coeficient de corelaie


Valoarea coeficientului Interpretarea
+0,90 +0,99 (0,90 1,00) Corelaie pozitiv (negativ) foarte puternic sau
aproape perfect
+0,70 +0,90 (0,70 0,90) Corelaie pozitiv (negativ) puternic
+0,50 +0,70 (0,50 0,70) Corelaie pozitiv (negativ) moderat
+0,30 +0,50 (0,30 0,50) Corelaie pozitiv (negativ) slab pn la moderat
+0,01 +0,30 (0,01 0,30) Corelaie pozitiv (negativ) inexistent sau foarte
slab
De notat c intervalele de valori se suprapun la extremiti, ceea ce arat c
interpretarea valorii unui coeficient de corelaie rmne relativ vag.

12.2 MRIMI ALE CORELAIEI LA NIVEL NOMINAL


Cele mai utilizate mrimi ale corelaiei dintre variabile msurate la nivel
nominal sunt coeficientul , coeficientul de contingen C, coeficientul V al lui
Cramer i coeficientul .
Coeficienii , C i V sunt mrimi ale corelaiei bazate pe 2. Coeficientul se
calculeaz cu ajutorul urmtoarei formule:
Formula 12.1
n
c2
j
Sconsiderm din nou tabelul 10.1, n care se prezentau datele (fictive) ale unui
studiu privind sexul i dominana funcionaloperativ a minilor, reprodus aici ca
tabelul 12.5.
Tabelul 12.5 Sexul i dominana funcional-operativ a minilor
193

Dominana
Sexul
TOTAL

Masculin Feminin
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100
Dup cum am constatat prin aplicarea testului 2, relaia dintre cele dou
variabile este statistic semnificativ, i.e valoarea 2 (obinut) = 18 s-a dovedit a fi
semnificativ la un nivel de ncredere de 95%. Ceea ce ne intereseaz acum este tria
corelaiei. Aplicnd formula 12.1, obinem:
0,42
100
2 18

n
c
j
Valoarea = 0,42 indic o corelaie cel mult moderat ntre sex i dominana
funcionaloperativ a minilor. Relaia dintre aceste variabile este statistic
semnificativ (2), dar nu este puternic. Problema este c ia valori cuprinse ntre 0
(nici o corelaie) i 1 (corelaie perfect) numai pentru tabele 2 2. Pentru tabelele
de mare dimensiune, poate depi valoarea 1, ceea ce face ca interpretarea acestui
coeficient s devin problematic. Oricum, dup cum vom vedea, valoarea lui
obinut pentru exemplul de mai sus este foarte apropiat de valorile obinute prin
calcularea celorlali coeficieni de corelaie menionai.
Coeficientul C se calculeaz cu ajutorul urmtoarei formule:
Formula 12.2 2
2

c
c

n
C
Aplicnd aceast formul la datele din tabelul 12.5, obinem:
0,39
100 18
18
2
2

c
c

n
C
Deficiena coeficientului C este aceea c, fiind o mrime subunitar, nu poate lua
niciodat valoarea 1. Se demonstreaz c pe msur ce dimensiunea tabelului crete,
C tinde ctre 1. De pild, valoarea maxim a lui C este 0,82 pentru un tabel 3 3 i
0,87 pentru un tabel 4 4. De aceea, se recomand folosirea acestui coeficient numai
pentru tabele de mare dimensiune (aproximativ de la 10 linii sau/i coloane n sus).
Coeficientul V se calculeaz cu ajutorul urmtoarei formule:
194

Formula 12.3
( 1)
2

nq
V
c
n care q este cea mai mic dintre valorile numerice r (numr de rnduri) i c (numr
de coloane) pentru tabelul respectiv. Aplicnd formula 12.3 la datele din tabelul 12.5
obinem:
0,42
100(2 1)
18
( 1)
2

nq
V
c
Dup cum se poate constata, rezultatul obinut prin calcularea coeficientului V este
acelai cu cel obinut prin calcularea coeficientului . Coeficientul V are valoarea
maxim 1, dar numai pentru tabele mai mari de 2 2.
Cu toate deficienele lor, ntruct sunt uor de calculat, coeficienii , C i V
pot fi folosii n calitate de primi indici ai importanei unei corelaii.
n situaii de cercetare mai pretenioase se obinuiete s se utilizeze
coeficientul ., care ia valori cuprinse ntre 0 i 1. n cazul n care nu se dorete sau
nu se poate identifica variabila independent, se folosete varianta simetric a
coeficientului , a crui formul de calcul este urmtoarea:
Formula 12.4
mc mr
mc mr
r
y
my
c

x
mx

nnn
nnnn

2
l 11
n care nmx = cea mai mare frecven n coloana x
nmy = cea mai mare frecven n rndul y
nmc = cel mai mare marginal de coloan
nmr = cel mai mare marginal de rnd
Spresupunem c ntr-o cercetare privind relaia dintre apartenena religioas
i atitudinea fa de pedeapsa capital s-au obinut rezultatele din tabelul 12.6.
Tabelul 12.6 Apartenena religioas i atitudinea fa de pedeapsa capital
Atitudinea
Apartenena religioas
Cretinortodox
Catolic Altele
Nici
una
TOTAL
Favorabil 5 10 9 14 38
Neutr 10 14 12 6 42
mpotriv 25 11 4 10 50
TOTAL 40 35 25 30 130
195

Pentru datele din acest tabel avem:


50
40
14 14 25 53
25 14 12 14 65
1
1

mr
mc
r
y

my
c
x
mx

n
n
n
n
Aplicnd formula 12.4, obinem:
0,16
2(130) 40 50
65 53 40 50
2
1 1

mc mr
mc mr
r
y
my
c
x
mx

nnn
nnnn
l
Dac se poate identifica variabila independent, atunci se folosete varianta
asimetric a coeficientului , notat y, a crui formul de calcul este urmtoarea:
Formula 12.5
mr
mr
c
x
mx

nn
nn

l
Considernd exemplul de mai sus, dac cercettorul identific drept variabil
independent apartenena religioas, atunci se obine:
0,19

130 50
1 65 50

mr
mr
c
x
mx

nn
nn
l
Pentru cele mai multe situaii de cercetare, interpretarea celor dou variante
ale coeficientului este similar interpretrii coeficienilor C i V. Pentru exemplul
considerat aici, putem conchide c cele dou variabile sunt corelate, dar c aceast
corelaie este foarte slab2.
y

12.3 MRIMI ALE CORELAIEI LA NIVEL ORDINAL


Vom prezenta patru coeficieni ai corelaiei, utilizabili la nivel ordinal: al lui
Goodman i Kruskal, d al lui Somer, b al lui Kendall i s al lui Spearman3.
Aceti coeficieni iau valori cuprinse ntre 0 i 1 (b numai pentru cazul r = c).
o prezentare detaliat a coeficientului ca o mrime a reducerii proporionale a erorilor
(RPE), vezi Healey, 1984, pp. 223-228.
3 , d i b pot fi interpretai ca mrimi ale RPE (vezi ibidem, cap. 14).
2 Pentru

196

Coeficientul se utilizeaz n situaii de cercetare n care avem dou


variabile msurate la nivel ordinal cu un numr mic de valori (nu mai mult de cinci
sau ase). S presupunem c am obinut urmtoarele date privind vechimea n munc
i descurajarea profesional pentru un eantion de 100 de cadre didactice din
nvmntul primar:
Tabelul 12.7 Vechimea n munc i descurajarea profesional
Nivel de
descurajare
profesional
(Y)
Vechime n munc (X)
Inferioar Medie Superioar
TOTAL
Superior 8 11 21 40
Mediu 10 15 5 30
Inferior 20 6 4 30
TOTAL 38 32 30 100
n cele ce urmeaz, cazurile care fac parte din aceeai categorie a unei

variabile vor fi numite cazuri legate ale variabilei respective.


Pentru a calcula coeficientul , sunt necesare dou cantiti, notate cu Na i
respectiv Nd. Cantitatea Na reprezint numrul total de perechi de cazuri nelegate i
dispuse n aceeai ordine n privina ambelor variabile. Cantitatea Nd reprezint
numrul total de perechi de cazuri nelegate i ordonate diferit n privina celor dou
variabile. Pentru aflarea acestor dou cantiti, vom lucra cu frecvenele celulelor,
considernd celul cu celul.
Pentru nlesnirea referirii la celulele unui tabel n m vom numerota rndurile
de la 1 la n ncepnd de sus n jos i, de asemenea, coloanele de la 1 la m ncepnd de
la stnga la dreapta; pentru fiecare celul, vom folosi o notaie de forma cij, n care i
este numrul rndului, iar j numrul coloanei. Pentru un tabel 3 3, cum este 12.7,
avem:
c11 c12 c13
c21 c22 c23
c31 c32 c33
S observm c dac alctuim perechi selectnd un caz dintr-o celul cij i un
caz dintr-o celul situat pe acelai rnd cu cij, obinem perechi de cazuri legate ale
variabilei Y, iar dac alctuim perechi selectnd un caz dintr-o celul cij i un caz
dintr-o celul situat pe aceeai coloan cu cij, obinem perechi de cazuri legate ale
variabilei X. Evident, dac alctuim perechi din aceeai celul, obinem perechi de
cazuri legate n privina ambelor variabile. Dac, ns, alctuim perechi selectnd un
caz dintr-o celul cij i un caz dintr-o celul situat deasupra i la dreapta celulei cij,
cazurile din perechile astfel obinute sunt nelegate i dispuse n aceeai ordine n
privina ambelor variabile. De pild, dac alctuim o pereche selectnd un caz din
celula c31 i un caz din celula c12, cazul din celula c31 are o vechime mai mic dect
197

cazul din celula c12 i la fel, cazul din celula c31 are un nivel de descurajare
profesional mai mic dect cazul din celula c12. Numrul total de perechi de cazuri
alctuite selectnd un caz din celula c31 i un caz din celula c12 se afl nmulind
frecvenele din cele dou celule: 20 11 = 220. Cu alte cuvinte, contribuia acestor
dou celule la cantitatea Na este de 220 de perechi. Procednd la fel pentru fiecare
dintre celelalte trei celule situate deasupra i la dreapta celulei c31 (c13, c22 i c23) i
adunnd produsele astfel obinute aflm numrul total de perechi de cazuri alctuite
selectnd un caz din celula c31 i un caz din fiecare celul situat deasupra i la
dreapta celulei c31:
(20 11) + (20 21) +(20 15) + (20 5) = 1040
Acelai calcul l putem efectua dup cum urmeaz:
20(11 + 21 + 15 + 5) = 1040
Prin urmare, pentru a afla cantitatea Na, se nmulete frecvena din fiecare
celul cu suma frecvenelor din toate celulele situate deasupra i la dreapta celulei
respective, dup care se adun produsele astfel obinute. De notat c nici una dintre
celulele situate pe primul rnd sau pe ultima coloan nu poate contribui la Na,
deoarece nu exist celule situate deasupra i la dreapta acestora. Calcularea Na pentru
tabelul 12.7 decurge dup cum urmeaz:
Pentru c31: 20(11 + 21 + 15 +5) = 1040
Pentru c32: 6(21 + 5) = 156

Pentru c21: 10(11 + 21) = 320


Pentru c22: 15 21 = 315
Na = 1831
Procedeul de calculare a Nd urmeaz o schem simetric fa de cel pentru Na,
cci dac alctuim perechi selectnd un caz dintr-o celul cij i un caz dintr-o celul
situat deasupra i la stnga celulei cij, cazurile din perechile astfel obinute sunt
nelegate i ordonate diferit n privina ambelor variabile. De pild, dac alctuim o
pereche selectnd un caz din celula c33 i un caz din celula c11, cazul din celula c33
are o vechime mai mare dect cazul din celula c11 i un nivel de descurajare
profesional mai mic dect cazul din celula c11. Prin urmare, pentru a afla cantitatea
Nd, se nmulete frecvena din fiecare celul cu suma frecvenelor din toate celulele
situate deasupra i la stnga celulei respective, dup care se adun produsele astfel
obinute. Ca mai sus, s observm c nici una dintre celulele situate pe primul rnd
sau pe prima coloan nu poate contribui la Nd, deoarece nu exist celule situate
deasupra i la stnga acestora. Calcularea Nd pentru tabelul 12.7 decurge dup cum
urmeaz:
Pentru c33: 4(8 + 11 + 10 +15) = 176
Pentru c32: 6(8 + 10) = 108
198

Pentru c23: 5(8 + 11) = 95


Pentru c22: 15 8 = 120
Nd = 499
n tabelul 12.7, un numr total de 1831 de perechi de cazuri sunt nelegate i dispuse
n aceeai ordine n privina ambelor variabile i un numr total de 499 de perechi de
cazuri sunt nelegate ordonate diferit n privina celor dou variabile.
Coeficientul se calculeaz cu ajutorul urmtoarei formule:
Formula 12.6
ad
ad

NN
NN

g
Valoarea coeficientului pentru datele din tabelul 12.7 este:
0,57
1831 499
1831 499

ad
ad

NN

NNg
Vom conchide c vechimea n munc este corelat moderat cu nivelul de descurajare
profesional, aceast corelaie fiind pozitiv: dac, de pild, tim c A are o vechime
mai mare n munc dect B, suntem ndreptii s spunem c este probabil ca A s
aib un nivel de descurajare profesional mai nalt dect B.
Este important de observat c aplicarea coeficientului presupune (pentru a
obine cantitile Na i Nd) ca tabelul pe care se lucreaz s fie construit n maniera
tabelului 11.7, cu categoriile de pe coloane dispuse n ordine cresctoare de la stnga
la dreapta i categoriile de pe linii dispuse n ordine cresctoare de jos n sus. este o
mrime simetric a corelaiei: valoarea acestui coeficient va fi aceeai indiferent de
variabila care este luat ca independent.
Ca i , coeficienii d al lui Somer i b al lui Kendall se utilizeaz n situaii
de cercetare n care avem dou variabile msurate la nivel ordinal cu un numr mic
de valori i necesit calcularea cantitilor Na i Nd. n plus, aceti coeficieni necesit
calcularea a dou cantiti, notate Ly i respectiv Lx. Cantitatea Ly reprezint numrul
total de perechi de cazuri legate ale variabilei dependente. Cantitatea Lx reprezint
numrul total de perechi de cazuri legate ale variabilei independente.
Numrul total de perechi de cazuri legate ale variabilei dependente, Ly, se
determin aflnd numrul de perechi de cazuri de pe fiecare rnd (prin definiie, toate
cazurile aflate pe acelai rnd sunt legate n privina variabilei dependente) i
adunnd cantitile astfel obinute. Pentru a afla contribuia fiecrui rnd la Ly, se
nmulete frecvena din fiecare celul cu suma frecvenelor din toate celulele situate
la dreapta (pe rndul respectiv), dup care e adun produsele astfel obinute. Evident,
celulele situate pe ultima coloan nu pot contribui la Ly, deoarece nu exist celule
situate la dreapta acestora. Calcularea Ly pentru tabelul 12.7 decurge dup cum
urmeaz:
Pentru rndul 1: 8(11 + 21) + (11 21) = 487
199

Pentru rndul 2: 10(15 + 5) + (15 5) = 275


Pentru rndul 3: 20(6 + 4) + (6 4) = 224
Ly = 986
Numrul total de perechi de cazuri legate ale variabilei independente, Lx, se
determin analog, lucrnd ns pe coloane. Pentru a afla contribuia fiecrei coloane
la Lx, se nmulete frecvena din fiecare celul cu suma frecvenelor din toate
celulele situate dedesubt (pe coloana respectiv), dup care e adun produsele astfel
obinute. Evident celulele situate pe ultimul rnd nu pot contribui la Lx, deoarece nu
exist celule situate dedesubtul acestora. Calcularea Lx pentru tabelul 12.7 decurge
dup cum urmeaz:
Pentru coloana 1: 8(10 + 20) + (10 20) = 440
Pentru coloana 2: 11(15 + 6) + (15 6) = 321
Pentru coloana 3: 21(5 + 4) + (5 4) = 209
Lx = 970
n tabelul 12.7 avem un numr total de 986 de perechi de cazuri legate ale variabilei
dependente i un numr total de 970 de perechi de cazuri legate ale variabilei
independente.
Coeficientul d al lui Somer se calculeaz cu ajutorul urmtoarei formule:

Formula 12.7
ady
ad

NNL
NN
d

Sobservm c aceast formul difer de formula pentru numai prin adunarea


cantitii Ly la numitor, ceea ce face ca d s fie o mrime a corelaiei mai
conservatoare dect , deoarece valoarea lui d va fi ntotdeauna mai mic dect
valoarea lui pentru acelai tabel. Pentru tabelul 12.7, avem:
0,40
1831 449 986
1831 449

ady
ad

NNL
NN
d
Aceast valoare a coeficientului d indic o corelaie pozitiv cel mult moderat ntre
cele dou variabile.
Dup cum se poate constata, coeficientul d este o mrime asimetric a
corelaiei. Dac variabila ale crei categorii sunt capete de rnduri este luat drept
variabil independent, atunci se calculeaz numrul de perechi de cazuri pe coloane
i nu pe rnduri (n notaia noastr, n formula 12.7 se ia Lx n loc de Ly ). n cazul
datelor din tabelului 12.7, valorile cantitilor Lx i Ly sunt apropiate, ceea ce
nseamn c o astfel de schimbare nu ar afecta mult valoarea coeficientului d. n
cazul n care cele dou cantiti sunt sensibil diferite, trebuie s fim precaui n
privina alegerii variabilei dependente, deoarece valoarea lui d poate fi considerabil
afectat de aceast decizie.
200

Coeficientul b al lui Kendall este o mrime simetric a corelaiei, ntruct


ine cont att de Ly, ct i de Lx. Formula sa de calcul este urmtoarea:
Formula 12.8
( a d y )( a d x )
ad

NNLNNL
NN


t
Pentru tabelul 12.7 avem:
0,40
(1831 499 986)(1831 499 970)
1831 499
( )( )

adyadx
ad

NNLNNL
NN
t
Particularitatea coeficientului b const din aceea c poate lua valori cuprinse ntre 0
i 1 doar pentru tabele ptratice (r = c), deci nu se recomand calcularea sa pentru
orice tabel rectangular.
Coeficientul s al lui Spearman se utilizeaz, de regul, n situaii de
cercetare n care avem dou variabile msurate la nivel ordinal, care au o amplitudine
relativ larg de scoruri diferite i puine cazuri legate n privina fiecrei variabile. S
presupunem c dorim s verificm ipoteza conform creia persoanele care practic
jogging au un sentiment mai puternic de respect fa de sine. Pentru aceasta, 10
persoane care practic jogging au fost chestionate cu ajutorul a dou scale, prima
msurnd gradul de implicare n practicarea jogging-ului, cealalt msurnd nivelul
respectului fa de sine. Datele obinute, mpreun cu o serie de calcule cerute de
determinarea coeficientului s, sun prezentate n tabelul 12.8.
Tabelul 12.8 Practicarea jogging-ului i respectul fa de sine
Cazul Nivel de
implicare
Rangul Respect fa
de sine
Rangul d d2
1 18 1 15 3 2 4
2 17 2 18 1 1 1
3 15 3 12 4 1 1
4 12 4 16 2 2 4
5 10 5 6 8 3 9
6 9 6 10 5 1 1
7 8 7,5 8 6 1,5 2,25
8 8 7,5 7 7 0,5 0,25
9595900
b

10 1 10 2 10 0 0
d = 0 d2 =
22,5
201

Mai nti, atribuim ranguri scorurilor fiecrei valori, ncepnd cu cel mai
mare scor. Apoi, pentru fiecare caz, calculm diferena dintre rangul scorului n
privina primei variabile (X) i rangul scorurilor n privina celeilalte variabile (Y) (n
tabel, coloana etichetat d). S observm c suma acestor diferene este 0, ceea ce
nseamn c diferenele negative sunt egale cu cele pozitive, acesta fiind ntotdeauna
cazul. Dac obinem d 0, atunci am greit n atribuirea rangurilor sau/i n
calcularea diferenelor. Fiecare diferen astfel obinut este apoi ridicat la ptrat
pentru a elimina semnele minus (n tabel, coloana d2), dup care se calculeaz suma
acestor diferene ridicate la ptrat, d2.
Formula de calcul a coeficientului s al lui Spearman este urmtoarea:
Formula 12.9
( 1)
162
2

nn
d
sr
n care n este numrul de perechi de ranguri. Aplicnd aceast formul la datele din
tabelul 12.8, obinem:
0,86
10(100 1)
1 6 22,5
( 1)
162
2

nn
d
sr
Acest rezultat indic o corelaie pozitiv puternic ntre cele dou variabile, ceea ce
sprijin ipoteza cercetrii.
n anumite situaii de cercetare ne intereseaz s aflm dac dou variabile
sunt corelate la nivelul populaiei de referin. n cazul variabilelor msurate la nivel

nominal, semnificaia statistic a unei corelaii este judecat, de obicei, prin


intermediul testului 2. De asemenea, testul 2 poate fi aplicat i n cazul corelaiilor
dintre variabile msurate la nivel ordinal. Totui, acest test evideniaz doar
probabilitatea ca frecvenele observate s se datoreze doar ntmplrii i, ca atare, nu
reprezint un test direct al corelaiei4. Pentru coeficienii i s au fost elaborate teste
de semnificaie specifice, n care ipoteza de nul enun c nu exist nici o corelaie la
nivelul populaiei, deci c valorile mrimilor respective sunt egale cu 0: = 0,
respectiv s = 0. Corespunztor, ipoteza alternativ enun c 0 sau, respectiv, c
s 05. Astfel, pentru eantioane cu n 30, distribuia de eantionare pentru
aproximeaz distribuia Z i se folosete urmtoarea formul pentru calcularea
statisticii testului:
Formula 12.10
(1 g 2 )
g

n
NN
Z ad
n sine, 2 nu este o mrime a corelaiei. Dei valorile diferite de 0 ale lui 2 indic existena
unei corelaii, valoarea numeric efectiv pentru 2 (obinut) nu st n nici o legtur necesar cu tria
corelaiei: 2 (obinut) poate avea o valoare mare, n timp ce corelaia efectiv poate fi slab. Cu alte
cuvinte, independena (2) i corelaia sunt dou aspecte diferite. Este perfect posibil ca dou variabile
s fie corelate (2 (obinut) 0) i totui s fie independente, n cazul n care nu putem respinge
ipoteza de nul.
5 Unii autori folosesc simbolurile g i rs, respectiv, pentru i , atunci cnd este vorba despre
eantioane, rezervnd literele greceti pentru cazul populaiilor.
4 Luat

202

Regulile de decizie sunt cele cunoscute pentru testul Z.


n cazul coeficientului s, dac 5 n 30, atunci se folosete tabelul
valorilor critice pentru s (anexa H). Pentru a folosi acest tabel, se identific
valoarea critic a lui s corespunztoare numrului de perechi de ranguri, n, i
nivelului ales. Pentru a putea respinge ipoteza de nul i a conchide c variabilele
respective sunt corelate la nivelul populaiei, valoarea obinut pentru s trebuie s
fie mai mare dect valoarea critic. Dac n 30, atunci distribuia de eantionare
pentru s aproximeaz distribuia t cu gl = n 2 i se folosete urmtoarea formul
pentru calcularea statisticii testului:
Formula 12.11 1 2
2
r
r

n ts

Regulile de decizie sunt cele cunoscute pentru testul t Student.

12.4 MRIMI ALE CORELAIEI LA NIVEL DE INTERVAL


SAU DE RAPORT
Tehnicile statistice folosite pentru analiza corelaiei dintre variabile msurate
la nivel de interval sau de raport se bazeaz pe alte concepte i modaliti de calcul
fa de cele prezentate n seciunea anterioar, dar urmresc s rspund la aceleai
ntrebri privind existena, sensul i tria unei corelaii. n cele ce urmeaz, vom
prezenta diagramele de mprtiere, ecuaia de regresie i coeficientul de corelaie r
al ui Pearson. Diagramele de mprtiere6 sunt modaliti de prezentare vizual a
corelaiei dintre dou variabile msurate la nivel de interval sau de raport i sunt
analoage funcional tabelelor bivariate, ntruct permit sesizarea rapid a multor
trsturi importante ale unei corelaii. Vom ilustra construirea unei diagrame de
mprtiere cu ajutorul unui exemplu. S presupunem c ne intereseaz dac exist o
relaie ntre abilitile de limbaj i cele aritmetice pentru un eantion de 9 elevi din
nvmntul primar. Rezultatele obinute prin aplicarea testelor corespunztoare sunt
prezentate n tabelul 12.9. Tabelul 12.9 Abiliti de limbaj i abiliti aritmetice
Elevul Abiliti de
limbaj (X)
Abiliti
aritmetice (Y)
A 83 95
B 38 70
C 47 34
D 56 66
E 23 45
F 90 100
G 75 58
H 87 71
I 89 68
6 Aceste

diagrame se mai numesc i scatergrame sau diagrame ale norilor de puncte.

203

Pentru a construi o diagram de mprtiere, folosim un sistem de axe rectangulare,


dispunnd valorile variabilei X pe axa orizontal (abscisa) i valorile variabilei Y pe
axa vertical (ordonata). Ambele axe se calibreaz n uniti corespunztoare,
respectiv, scalelor de msur folosite pentru strngerea datelor. Pentru fiecare
pereche de valori (pentru fiecare caz) se plaseaz un punct la intersecia
perpendicularelor respective pe cele dou axe. Diagrama de mprtiere pentru datele
din tabelul 12.9 este prezentat n figura 12.1. Figura 12.1 Abiliti de limbaj i
abiliti aritmetice
0
10
20
30
40
50
60
70
80
90
100

110
120
0 10 20 30 40 50 60 70 80 90 100 110 120

Abiliti de limbaj
Abiliti aritmetice

Fiecare elev este reprezentat printr-un punct plasat la intersecia celor dou scoruri
obinute de acesta. Dispunerea punctelor poate fi pus n eviden prin trasarea unei
linii drepte care s ating fiecare punct sau s treac ct se poate mai aproape posibil
de fiecare punct. Dup cum vom vedea, aceast linie, numit linie de regresie,
poatefi descris precis printr-o ecuaie, dar deocamdat este suficient trasarea sa
aproximativ:
0
10
20
30
40
50
60
70
80
90
100
110
120
0 10 20 30 40 50 60 70 80 90 100 110 120

A b ili
t i a r itm e t i
ce
Abiliti de limbaj

204

Punctele situate deasupra fiecrei valori X pot fi considerate distribuii


condiionate ale lui Y; cu alte cuvinte, punctele reprezint scoruri ale variabilei Y
pentru fiecare scor al variabilei X. Figura 11.1 arat c aceste distribuii condiionate
ale lui Y se modific dup cum se modific X (scorurile Y variaz n funcie de
scorurile X), ceea ce nseamn c cele dou variabile sunt corelate. Existena unei
corelaii este evideniat i de faptul c linia de regresie formeaz un unghi cu axa X
(abscisa). Dac cele dou variabile nu ar fi corelate, scorurile variabilei Y nu s-ar
modifica n funcie de scorurile X, astfel c linia de regresie ar fi paralel cu abscisa.
Sensul corelaiei poate fi detectat prin panta (nclinarea) liniei de regresie fa
de abscis. n exemplul nostru avem o corelaie pozitiv, deoarece elevii cu scoruri
mari n privina variabilei X (abiliti de limbaj) tind s aib scoruri mari n privina
variabilei Y (abiliti aritmetice). Dac ntre cele dou variabile ar fi fost o corelaie
negativ, linia de regresie ar fi fost nclinat n direcia opus, indicnd c scorurile
nalte ale unei variabile sunt asociate cu scoruri mici ale celeilalte variabile.
Tria corelaiei poate fi aproximativ apreciat observnd mprtierea
punctelor n jurul liniei de regresie. ntr-o corelaie perfect, toate punctele s-ar afla
pe linia de regresie. Prin urmare, cu ct punctele sunt mai puin mprtiate n jurul
liniei de regresie, cu att corelaia este mai puternic.
O supoziie esenial care st la baza tehnicilor statistice prezentate n
continuare este aceea c ntre cele dou variabile considerate este o corelaie
linear, ceea ce nseamn c dispunerea punctelor poate fi aproximat printr-o linie
dreapt. Aceast supoziie poate fi testat prin construirea unei diagrame de
mprtiere naintea aplicrii unei tehnici statistice. Dac respectiva corelaie nu este

liniar, atunci supoziiile nivelului de msur de interval sau de raport nu sunt


satisfcute, ceea ce nseamn c variabilele trebuie s fie tratate ca i cum ar fi de
nivel ordinal.
Se demonstreaz c linia care prezint cel mai bine corelaia dintre dou
variabile este descris de urmtoarea formul, numit ecuaia de regresie bivariat:
Formula 12.12 Y a bX
n care Y = scor al variabilei dependente
a = punctul n care linia de regresie intersecteaz axa Y
b = panta liniei de regresie
X = scor al variabilei independente
Parametrul b, numit coeficient de regresie, arat cantitatea de schimbare a lui
Y care corespunde unei uniti de schimbare a lui X. Panta unei linii de regresie poate
fi pozitiv, negativ sau egal cu 0. n cazul b = 0, linia de regresie este paralel cu
205

abscisa (este orizontal), ceea ce nseamn c ntre cele dou variabile nu exist nici
o corelaie. Coeficientul de regresie se calculeaz cu ajutorul urmtoarei formule:
Formula 12.13 2 2n X ( X )
b n XY X Y

n care n = numrul de cazuri


XY = suma produselor dintre cele dou scoruri ale fiecrui caz
X = suma scorurilor variabilei X
Y = suma scorurilor variabilei Y
X2 = suma ptratelor scorurilor variabilei X
Pentru determinarea valorii coeficientului de regresie se poate folosi un tabel de
calcule, ilustrat aici pentru datele din tabelul 12.9.
Tabelul 12.10 Calcule pentru coeficientul de regresie (b)
X Y X2 Y2 XY
83 95 6889 9025 7885
38 70 1444 4900 2660
47 34 2209 1156 1598
56 66 3136 4356 3696
23 45 529 2025 1035
90 100 8100 10000 9000
75 58 5625 3364 4350
87 71 7569 5041 6177
89 68 7921 4624 6052
X = 588 Y = 607 X2 =
43422
Y2 = 44491 XY =
42453
Astfel, n exemplul nostru, avem:
0,56

(9 43422) 588
(9 42453) (588 607)
2 ( )2 2

nXX
b n XY X Y
206

Aceast valoare a parametrului b arat c pentru fiecare unitate de schimbare a lui X,


exist o cretere de 0,56 uniti n privina lui Y. Cu alte cuvinte, o cretere cu o
unitate a scorului n privina abilitilor de limbaj are drept rezultat o cretere cu 0,56
a scorului n privina abilitilor aritmetice.
Parametrul a, numit constanta de regresie, se calculeaz cu ajutorul
urmtoarei formule:
Formula 12.14 a Y bX
n exemplul nostru, avem:
67,4 (0,56 65,3) 30,8
65,3
9
588
67,4
9
607

a
n
XX
n
YY
Aceast valoare a parametrului a arat c linia de regresie intersecteaz axa Y
(ordonata) n punctul n care Y = 30,8. De notat c a poate fi calculat i cu ajutorul
urmtoarei formule, echivalent algebric cu formula 12.14:
Formula 12.15
n
aYbX

n fine, ecuaia de regresie pentru exemplul nostru este:


Y a bX 30,8 (0,56 X )
Linia de regresie poate fi folosit pentru a face predicii asupra scorului unui
caz n privina unei variabile, pornind de la scorul celuilalt caz n privina celeilalte
variabile. Dac se folosete variabila X pentru a face predicii despre variabila Y,
atunci linia de regresie este denumit regresia lui Y asupra lui X. Pentru ilustrare, s
presupunem c, pe baza corelaiei prezentate n figura 11.1, ne intereseaz s aflm
scorul n privina abilitilor aritmetice al unui elev cu scorul 100 n privina
abilitilor de limbaj (observai c eantionul nu conine nici un elev cu scorul 100 la
testul privind abilitile de limbaj). Notm scorul pe care dorim s n aflm (scorul
prezis) cu Y, pentru a-l distinge de scorurile Y efective. Folosind ecuaia de regresie
din exemplul nostru pentru X = 100, obinem:
Y 30,8 (0,56 X ) 30,8 (0,56 100) 86,8
Prin urmare, pe baza regresiei lui Y asupra lui X, prezicem c un elev cu scorul 100 n
privina abilitilor de limbaj va obine scorul 86,8 n privina abilitilor aritmetice.
Coeficientul r al lui Pearson este o mrime a corelaiei lineare dintre dou
variabile msurate la nivel de interval sau de raport, care ia valori cuprinse ntre 0 i
1. Valoarea acestui coeficient poate fi calculat cu ajutorul urmtoarei formule:
207

Formula 12.16
(n X 2 ( X )2 )(n Y 2 ( Y )2 )
r n XY X Y

Pentru a afla valoarea coeficientului r n cazul exemplului de mai sus, folosim


tabelul 12.10, n care am adugat deja o coloan pentru Y2 i am calculat suma
corespunztoare. Astfel, avem:
0,66
((9 43422) 588 )((9 44491) 607 )
(9 42453) (588 607)
22

r
Ca i n cazul celorlali coeficieni ai corelaiei, valorile coeficientului r
diferite de 0 i de 1 nu au o interpretare direct precis. Valorile apropiate de 0 pot
fi interpretate ca indicnd o corelaie foarte slab, iar cele care se apropie de 1 ca
indicnd o corelaie foarte puternic. O interpretare mai direct este dat de
calcularea coeficientului de determinare bivariat, care este pur i simplu r2. n
exemplul nostru, r2 = 0,435. Aceast valoare arat c scorurile obinute n privina
abilitilor de limbaj (X) explic aproximativ 43,5% din variaia total a scorurilor
obinute n privina abilitilor aritmetice, restul de 56,5% din aceast variaie

datorndu-se probabil influenei altor variabile, erorilor de msurare sau ntmplrii.


n condiiile n care eantionul respectiv a fost alctuit aleatoriu, valoarea
coeficientului r al lui Pearson poate fi testat pentru semnificaia la nivelul populaiei
de referin, distribuia de eantionare fiind distribuia t cu gl = n 2. Calcularea
statisticii testului se face cu ajutorul urmtoarei formule:
Formula 12.17 1 2
2
r
trn

Dac variabilele sunt corelate la nivelul eantionului i valoarea lui t (obinut)


cade n zona critic, atunci vom respinge ipoteza de nul i vom conchide c
variabilele respective sunt corelate i la nivelul populaiei (cu probabilitatea dat de
nivelul ales); dac, ns, valoarea lui t (obinut) nu cade n zona critic, atunci nu
suntem ndreptii s conchidem c variabilele sunt corelate la nivelul populaiei.
ntr-un astfel de caz, testul arat c valoarea coeficientului r la nivelul eantionului
poate s apar numai datorit ntmplrii, dac ipoteza de nul este adevrat, i.e. dac
variabilele respective nu sunt corelate la nivelul populaiei. Este important de reinut
c semnificaia valorii coeficientului r poate fi testat cu ajutorul formulei 12.6
numai dac, pe lng supozia de linearitate a corelaiei, este satisfcut att supoziia
c ambele variabile au o distribuie normal (distribuie bivariat normal), ct i
supoziia c abaterile standard ale distribuiilor condiionate ale variabilei Y sunt
aproximativ egale. Pentru aceast ultim supoziie se folosete conceptul de
homoscedasticitate. n mod obinuit, inspectarea vizual a unei diagrame de
mprtiere este suficient pentru a aprecia dac o corelaie se conformeaz
supoziiilor de linearitate i homoscedasticitate. Dup cum am artat, dac
dispunerea punctelor poate fi aproximat printr-o linie dreapt, atunci corelaia poate
fi apreciat ca fiind linear. Pe de alt parte, dac scorurile Y sunt relativ uniform
208

mprtiate deasupra i dedesubtul liniei de regresie, atunci corelaia este


homoscedastic. De pild, dup cum se poate constata imediat, corelaia prezentat
n figura 11.1 este homoscedastic: din cele 9 cazuri, cinci se afl deasupra liniei de
regresie, iar patru dedesubt.
ELEMENTE DE ANALIZ MULTIVARIAT
Unele situaii de cercetare necesit analiza mai multor variabile, chiar dac
cercettorul este interesat n principal de o anumit corelaie bivariat. Tehnicile
prezentate n aceast seciune se refer la corelaia multivariat dintre variabile
msurate la nivel de interval sau de raport i se bazeaz pe coeficientul r al lui
Pearson.

12.5. CORELAIA PARIAL


Metoda corelaiei pariale poate fi folosit atunci cnd cercettorul dorete
s observe influena unei a treia (a patra etc.) variabile asupra unei corelaii bivariate.
n cele ce urmeaz vom folosi urmtoarele simboluri, numite coeficieni de corelaie
parial de ordinul zero:

ryz = coeficientul de corelaie dintre variabila Y i variabila Z


rxy = coeficientul de corelaie dintre variabila X i variabila Y
rxz = coeficientul de corelaie dintre variabila X i variabila Z
Aceti coeficieni se calculeaz cu formula 11.16, fcnd nlocuirile corespunztoare.
Atunci cnd controlm influena unei singure variabile X asupra corelaiei
dintre variabilele Y i Z folosim simbolul ryzx, numit coeficient de corelaie parial
de ordinul nti. ryzx se refer la coeficientul de corelaie parial dintre variabilele Y
i Z sub influena variabilei X (variabila de control). ryzx se calculeaz cu ajutorul
urmtoarei formule:
Formula 12.18
(1 2 )(1 2 )
xy xz
yz xy xz

rr
rrr
r

Pentru ilustrare, s considerm datele din tabelul 12.11, n care se prezint


distribuia a trei variabile, X, Y i Z, mpreun cu valorile parialilor de ordinul zero.
S presupunem c ne intereseaz influena variabilei X asupra corelaiei dintre Y i Z.
Tabelul 12.11 O ilustrare a corelaiei pariale
XYZ
2 12 4
7 14 10
8 18 8
yzx

209

4 15 9
5 14 7
ryz = 0,50 rxy = 0,78 rxz = 0,70
Valoarea ryz = 0,50 indic o corelaie pozitiv moderat ntre variabilele Y i Z.
Aplicnd formula 12.18, obinem:
0,098
(1 (0,78) )(1 (0,70) )
0,5 (0,78 0,70)
(1 2 )(1 2 ) 2 2

xy xz
yz xy xz

rr
rrr
yzx

r
Aceast valoare a coeficientului parial de ordinul nti este mult mai mic dect
valoarea coeficientului parial de ordinul zero ryz = 0,50. Acest rezultat, pe care l
vom nota prin ryzx ryz, arat c dac eliminm influena variabilei X asupra
variabilelor Y i Z, corelaia dintre variabilele Y i Z se reduce de la 0,5 la aproape 0.
ntr-un astfel de caz, se poate ca X s determine att variaia lui Y, ct i variaia lui
Z, relaia dintre Y i Z fiind inautentic (aparent) sau ca variabilele Y i Z s fie
corelate, dar nu direct, ci prin intermediul variabilei X:
sau
n exemplul nostru, valorile rxy = 0,78 i rxz = 0,70 pot fi luate drept un indiciu
probabil al tipului de relaie reprezentat prin diagrama din stnga. De notat c
distincia dintre cele dou tipuri de relaie nu poate fi fcut cu precizie doar pe baza
metodelor statistice. ntr-o situaie real de cercetare, distincia se poate face pe
criterii de coninut al cercetrii respective (ordinea temporal dintre variabile .a).
Un al doilea tip de rezultat posibil este acela n care ryzx i ryz au valori
apropiate. Acest rezultat, pe care l vom nota prin ryzx ryz, arat c dac eliminm
influena variabilei X asupra variabilelor Y i Z, corelaia dintre variabilele Y i Z
rmne neschimbat, sau, altfel spus c X nu influeneaz semnificativ corelaia
dintre Y i Z, relaia dintre variabilele Y i Z fiind direct.
Al treilea tip de rezultat posibil este acela n care valoarea lui ryzx este mult
mai mare dect valoarea lui ryz. Acest rezultat, pe care l vom nota prin ryzx ryz,
arat c variabila luat iniial drept independent i variabila de control (X) au fiecare
n parte o influen separat asupra variabilei dependente i nu sunt corelate una cu
alta. Urmtoarea diagram prezint acest tip de relaie pentru cazul n care Z este
variabila dependent:
X
Y
Z
YXZ
210

Dac se obine acest rezultat, concluzia este c att Y, ct i X sunt variabile


independente, iar urmtoarea etap n analiza statistic este, probabil, utilizarea
regresiei multiple i a corelaiei multiple. Metoda regresiei multiple permite izolarea
influenelor separate ale mai multor variabile independente asupra variabilei
dependente i astfel permite identificarea variabilei independente care are cea mai
puternic influen asupra variabilei dependente, iar metoda corelaiei multiple
permite evidenierea influenelor combinate ale tuturor variabilelor independente
asupra variabilei dependente.

12.6 REGRESIA MULTIPL


Ecuaia de regresie poate fi modificat pentru a include (teoretic) un numr
orict de mare de variabile independente. Aceast tehnic statistic se numete
regresie multipl. n cazul a dou variabile independente, linia de regresie multipl
este descris de urmtoarea formul, numit ecuaia de regresie multipl:
Formula 12.19 1 1 2 2Y a b X b X
n care b1 = panta parial a corelaiei dintre prima variabil independent i Y
b2 = panta parial a corelaiei dintre a doua variabil independent i Y

Parametrii b1 i b2 se calculeaz cu ajutorul urmtoarelor formule:


Formula 12.20 2
12
1 2 12
1

1r
rrr
s
s
b yyy

Formula 12.21 2
1

12
2 1 12
2

1r
rrr
s
s
b yyy

n care sy = abaterea standard a variabilei Y


s1 = abaterea standard a variabilei independente X1
s2 = abaterea standard a variabilei independente X2
r1y = coeficientul de corelaie dintre X1 i Y
r2y = coeficientul de corelaie dintre X2 i Y
Y
X
2

Z
211

r12 = coeficientul de corelaie dintre X1 i X2


Pentru a ilustra calcularea parametrilor b1 i b2, s considerm datele din
tabelul 12.12, n care, pentru un eantion de 15 subieci, se prezint scorurile obinute
naintea unui test (X1), numrul mediu de rspunsuri corecte date la ase ncercri
preliminare (X2) i scorurile post-test (Y).
Tabelul 12.12 O ilustrare pentru dou variabile independente
X1 X2 Y
15 7,70 36
22 8,20 39
16 7,80 35
19 9,30 43
22 8,20 40
20 8,80 42
28 12,10 49
14 8,00 38

18 8,10 36
21 11,20 44
26 9,40 35
14 10,30 43
19 8,50 37
22 7,60 41
20 8,40 40
s1 = 4,06 s2 = 1,34 s3 = 3,92
r1y = 0,39 r2y = 0,77 r12 = 0,45
Aplicnd formulele 12.20 i 12.21, obinem:
0,052
1 (0,45)
0,39 (0,77 0,45)
4,06
3,92
1 22
12
1 2 12
1

r
rrr
s
s
b yyy
2,18
1 (0,45)
0,77 (0,39 0,45)
1,34
3,92
1 22
1

12
2 1 12
2

r
2

rrr
s
s
b yyy
Parametrul a se calculeaz cu ajutorul urmtoarei formule:
Formula 12.22 1 1 2 2a Y b X b X
n exemplul nostru, avem:
19,73
15
1 295
1

n
X X 8,90
15
2 133,6
2

n
X X 39,86
15
598

n
YY
39,86 (0,052 19,73) (2,18 8,90) 19,38 1 1 2 2 a Y b X b X
n fine, ecuaia de regresie multipl pentru exemplul nostru este:
19,38 (0,052 ) (2,18 ) 1 1 2 2 1 2 Y a b X b X X X
212

Acum, s presupunem c ne intereseaz s prezicem scorul post-test al unui


subiect cu scorul pre-test de 25 i media rspunsurilor corecte la ncercrile
preliminare de11,16. Folosind ecuaia de regresie multipl din exemplul nostru
pentru X1 = 25 i X2 = 11,16 obinem:
Y 19,38 (0,052 25) (2,18 11,16) 45
Prin urmare, prezicem c un subiect cu scorurile X1 = 25 i X2 = 11,16 va obine un
scor post-test de 45.
n cele ce urmeaz prezentm o modalitate simplificat de utilizare a metodei
regresiei multiple pentru evaluarea influenelor separate ale variabilelor dependente
asupra variabilei dependente. Pentru o astfel de evaluare se consider scorurile
standardizate ale variabilelor i se utilizeaz coeficienii de regresie standardizai,
simbolizai n general prin . Aceste mrimi, numite i pante pariale standardizate,
arat cantitatea de schimbare a abaterii standard a variabilei Y corespunztoare unei

uniti de schimbare a abaterii standard a unei variabile independente, n timp ce


influenele celorlalte variabile independente sunt controlate. n cazul a dou variabile
independente, aceti coeficieni se calculeaz cu ajutorul urmtoarelor formule:
Formula 12.23
ys
b s1
1 1 b
Formula 12.24
ys
b s2
2 2 b
n care 1 = panta parial standardizat a corelaiei dintre X1 i Y
2 = panta parial standardizat a corelaiei dintre X2 i Y
Ecuaia de regresie multipl standardizat este dat de urmtoarea formul:
Formula 12.25 1 1 2 2Z Z a Zz y b b
n care simbolul Z arat c toate scorurile au fost standardizate. Amintim c formula
de calcul pentru standardizarea scorurilor unui eantion este
s
ZXX

Acum, formula 11.24 poate fi simplificat, ntruct definiia algebric a


parametrului az este 1 1 2 2 a Y b Z b Z z i, dup cum tim, media aritmetic a
oricrei distribuii standardizate de scoruri este 0. Ca atare, az se reduce la 0, astfel c
pentru ecuaia de regresie multipl standardizat putem folosi urmtoarea formul:
Formula 12.26 1 1 2 2Z Z Zy b b
Pentru exemplul de mai sus, valorile coeficienilor de regresie standardizai
sunt:
213

0,74
3,92
2,18 1,34
0,0538
3,92
0,052 4,06
2
22
1
11

y
y

s
bs
s
bs
b

b
Astfel, ecuaia de regresie multipl standardizat pentru acest exemplu este:
(0,0538 ) (0,74 ) 1 2 Z Z Z y
Concluzia este c variabila X2 are o influen mult mai puternic asupra variabilei
dependente dect variabila X1, astfel c prediciile asupra scorurilor standardizate Zy
nu vor fi influenate semnificativ de scorurile Z1.Inspectarea datelor din tabelul 12.12
ofer unele indicii privind explicaia rezultatului obinut. Astfel, putem observa c X2
este puternic corelat cu Y (r2y = 0,77), n timp ce X1 prezint o corelaie slab pn
la moderat cu Y (r1y = 0,39). De notat c dac am fi obinut 1 2, am fi tras
concluzia c variabila X1 are o influen mult mai puternic asupra variabilei
dependente dect variabila X2, iar dac am fi obinut 1 2, am fi tras concluzia c
cele dou variabile independente au aproximativ aceeai influen asupra variabilei
dependente.

12.7 CORELAIA MULTIPL


Metoda corelaiei multiple permite evidenierea influenelor combinate ale
tuturor variabilelor independente asupra variabilei dependente. Pentru aceasta, se
calculeaz coeficientul de corelaie multipl R i coeficientul de determinare
multipl R2. O formul de calcul pentru coeficientul R n cazul a dou variabile
independente este urmtoarea:
Formula 12.27 y yR r r1 1 2 2 b b
Pentru datele din exemplul de mai sus, avem:
(0,0538 0,39) (0,74 0,77 0,77 1 1 2 2 y y R b r b r
Acest rezultat indic o corelaie puternic ntre influenele combinate ale variabilelor
X1 i X2 i variabila Y.
Coeficientul de determinare multipl R2 se interpreteaz n acelai fel ca i
coeficientul de determinare bivariat r2. n exemplul nostru, R2 = 0,59, ceea ce arat
c influena combinat a celor dou variabile independente explic aproximativ
59%din variaia total a scorurilor post-test, restul de 41% din aceast variaie
datorndu-se probabil influenei altor variabile, erorilor de msurare sau ntmplrii.
Rezumat
Dei mrimile corelaiei nu pot fi folosite pentru a dovedi existena relaiilor
cauzale, informaiile furnizate de acestea pot fi folosite ca argumente n favoarea sau
mpotriva existenei relaiilor cauzale. Pe de alt parte, dac dou variabile sunt
corelate, atunci putem aprecia scorurile unei variabile pe baza cunoaterii scorurilor
n privina celeilalte variabile. n psihologie, o astfel de apreciere se numete
predicie. O predicie este cu att mai precis, cu ct corelaia dintre cele dou
variabile este mai puternic.
Cuvinte cheie
corelaii perfecte;
variabile corelate;
coeficientul ;
coeficientul de contingen C;
coeficientul V al lui Cramer.
Teste de autoevaluare
1. Cand sunt dou variabile corelate? (pg. 203 ).
2. Cand corelaia dintre dou variabile este perfect? (pg.205)

3. Definii regresia multipl. (pag.229)


4. Definii metoda corelaiei multiple (pg. 233)
Concluzii.
Mrimile corelaiei sunt mrimi statistice complementare testelor de
semnificaie i permit cuantificarea importanei (triei) unei relaii ntre variabile.
Psihologii sunt interesai s descopere dac exist relaii ntre variabile precum
inteligena i creativitatea, vechimea n munc i satisfacia fa de profesia
practicat, timpul afectat vizionrii emisiunilor TV i performanele colare etc.
Mrimile corelaiei sunt folosite n principal pentru nelegerea relaiilor cauzale
dintre variabile i pentru predicia de la o variabil la alta.

GLOSAR
Date: informaii, n principal numerice, care reprezint anumite caracteristici.
Eantion: o submulime strict a unei populaii.
Nivel de msur: ansamblu de proprieti matematice ale unei variabile, determinat
de procesul prin care variabila a fost msurat.
Populaie: grup care include toate cazurile de care este interesat cercettorul..
Statistica: set de metode i tehnici matematice de organizare i prelucrare a datelor,
folosite cu scopul de a rspunde la anumite ntrebri i de a testa anumite ipoteze.
Statistici descriptive: tehnici statistice utilizate pentru a prezenta, clasifica i nsuma
scorurile (valorile) unei variabile.
Statistici infereniale: tehnici statistice utilizate pentru a face generalizri despre o
populaie pe baza studiului unui eantion din acea populaie sau, altfel spus, pentru a
trage concluzii despre caracteristicile unei populaii prin caracteristicilor
corespunztoare ale unui eantion din acea populaie.
Variabil: orice trstur care i poate schimba valoarea de la caz la caz
Centre de interval: puncte situate exact la mijlocul unui interval de clas.
Diagram circular: cerc mprit ntr-un numr de sectoare egal cu numrul de
categorii ale variabilei de interes, mrimea fiecrui sector fiind proporional cu
procentul de cazuri din categoria respectiv.
Diagram cu coloane: modalitate de prezentare vizual a distribuiei unei variabile,
n care categoriile sunt reprezentate prin coloane cu baza egal, nlimea fiecrei
coloane fiind proporional cu procentul de cazuri din categoria respectiv.
Distribuie de frecvene: dispunere a valorilor unei variabile, care arat cte cazuri
sunt coninute n fiecare categorie a variabilei respective.
Frecven cumulat: numrul de cazuri dintr-un interval de clas i din toate
intervalele precedente.
Histogram: modalitate de prezentare vizual a distribuiilor de frecvene pentru
variabile de interval sau de raport, n care categoriile sunt reprezentate prin coloane
continue cu baza egal cu limitele reale ale inervalelor de clas respective, nimea
fiecrei coloane fiind proporional cu procentul de cazuri din interval.
Intervale de clas: categorii utilizate n cazul distribuiilor de frecvene pentru
variabile de interval sau de raport.
Limite de clas reale: limitele superioar i inferioar ale intervalelor de clas,
folosite atunci cnd distribuia de frecvene respectiv este considerat ca fiint
continu.

Limite stabilite: limitele superioar i inferioar ale intervalelor de clas, aa cum


apar acestea n distribuia de frecvene iniial.
Ogiv: modalitate de prezentare vizual a frecvenelor cumulate sau a procentelor
cumulate ale unei distribuii de frecvene pentru variabile de interval sau de raport.
Procent: numrul de cazuri dintr-o categorie a unei variabile mprit la numrul de
cazuri din toate categoriile variabilei respective, rezultatul fiind nmulit cu 100.
Procent cumulat: procentul de cazuri dintr-un interval de clas i din toate
intervalele precedente.
216
Proporie: numrul de cazuri dintr-o categorie a unei variabile mprit la numrul
de cazuri din toate categoriile variabilei respective.
Raport: numrul de cazuri dintr-o categorie a unei variabile mprit la numrul de
cazuri din alt categorie a variabilei respective.
Rat: numrul de cazuri reale (efective) mprit la numrul de cazuri posibile pentru
variabila de interes pe o anumit unitate de timp.
Abatere standard: rdcina ptrat a ctului dintre suma abaterilor ptratice ale
scorurilor fa de media lor aritmetic i n 1 pentru eantioane sau N pentru
populaii.
Abatere medie: media aritmetic a sumei abaterilor absolute ale scorurilor fa de
media lor aritmetic.
Amplitudinea absolut: diferena dintre cel mai mare scor i cel mai mic scor dintro
mulime de scoruri.
Amplitudine intercuartilic: diferena dintre cea de-a treia i prima cuartil a unei
distribuii de scoruri ordonate cresctor.
Asimetrie: proprietatea unei mulimi de scoruri de a avea puine scoruri foarte mari
(asimetrie pozitiv) sau puine scoruri foarte mici (asimetrie negativ).
Coeficient de variaie: raportul dintre abaterea standard a unei distribuii de scoruri
i media sa aritmetic. De obicei, coeficientul de variaie se nmulete cu 100 i se
prezint ca procent.
Indicele variaiei calitative: raportul dintre variaia observat efectiv ntr-o
distribuie de scoruri i variaia maxim posibil pentru acea distribuie.
Interval modal: intervalul de clas care conine cel mai mare numr de cazuri.
Mrimile tendinei centrale: mrimi statistice care rezum o ntreag distribuie de
scoruri, descriind cea mai tipic sau central valoare a distribuiei respective sub
forma unui singur numr sau a unei singure categorii.
Mrimile dispersiei: mrimi statistice care furnizeaz informaie despre
eterogenitatea sau varietatea unei distribuii de scoruri.
Medie aritmetic ponderat: media aritmetic a mai multor grupuri combinate.
Medie aritmetic: rezultatul mpririi sumei tuturor scorurilor dintr-o mulime de
scoruri la numrul total de scoruri din acea mulime.
Median: punct ntr-o mulime de scoruri fa de care numrul de cazuri cu scoruri
mai mici sau egale este egal cu numrul de cazuri cu scoruri mai mari sau egale .
Mod: scorul care apare cel mai frecvent ntr-o mulime de scoruri.
Percentil: valoarea Pm a unei mulimi de scoruri fa de care cel mult m% din
scoruri sunt mai mici dect m i cel mult (100 m)% din scoruri sunt mai mari dect
m.

Varian: ctul dintre suma abaterilor ptratice ale scorurilor fa de media lor
aritmetic i n 1 pentru eantioane sau N pentru populaii.
Curb normal: grafic al unei distribuii normale; acest grafic are form de
clopot cu ambele extremiti extinse la infinit.
Curba normal standard: graficul corespunztor distribuiei normale standard.
Distribuie normal: distribuie teoretic de scoruri unimodal, simetric i
continu.
217
Distribuia normal standard: distribuie normal particular n care media
aritmetic egal cu 0 i abaterea standard este egal cu unitatea.
Scoruri standard ( scoruri Z): scoruri care folosesc abaterea standard ca unitate
de msur i descriu poziia relativ a unui scor individual n raport cu ntreaga
mulime de scoruri din care face parte.
Tabelul curbei normale standard: tabel n care sunt prezentate sub form de
proporii ariile dintre un scor Z i media aritmetic a distribuiei normale
standard.
Variabila normal standard: variabila corespunztoare distribuiei normale
standard.
Distribuia de eantionare a mediilor aritmetice: distribuia mediilor aritmetice ale
tuturor eantioanelor aleatorii de dimensiune constant n din populaia de referin.
n mod similar, se definesc distribuiile de eantionare pentru alte mrimi statistice
(proporii, coeficieni de corelaie etc.).
Eantionare aleatorie simpl: metod de selecie a unui eantion n care fiecare caz
din populaia de referin are o probabilitate egal de a fi inclus n eantion, iar
selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
Eantionare sistematic: metod de selecie a unui eantion n care primul caz
dintr-o list a populaiei de referin este selectat aleatoriu, dup care este selectat
fiecare al k-lea caz.
Eantionare stratificat: metod de selecie a unui eantion n care populaia de
referin este clasificat dup criterii relevante i se alctuiesc eantioane aleatorii
simple din fiecare clas (strat).
Parametri: mrimi statistice pentru populaii; prin contrast, mrimile statistice
pentru eantioane sunt numite statistici.
Teorema limitei centrale: teorem care specific media aritmetic, abaterea
standard i forma distribuiei de eantionare a mediilor aritmetice.
Curba t: grafic al unei distribuii t; ca i curba normal, curba t este simetric i are
form de clopot cu ambele extremiti extinse la infinit; spre deosebire curba
normal, forma exact a curbei t depinde de dimensiunea eantionului.
Distorsiune: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este nedistorsionat, dac media aritmetic a distribuiei sale de
eantionare este egal cu media aritmetic a populaiei de referin.
Distribuia t: distribuie teoretic ce descrie distribuia de eantionare a mediilor
aritmetice n cazul n care eantioanele sunt mici (n 30) i valoarea lui este
necunoscut.
Eficien: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este cu att mai eficient, cu ct distribuia de eantionare este mai

grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este mai mic abaterea
standard a distribuiei de eantionare.
Grade de libertate: concept care se refer la numrul de valori libere s varieze ntro
distribuie.
218
Curba t: grafic al unei distribuii t; ca i curba normal, curba t este simetric i are
form de clopot cu ambele extremiti extinse la infinit; spre deosebire curba
normal, forma exact a curbei t depinde de dimensiunea eantionului.
Distorsiune: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este nedistorsionat, dac media aritmetic a distribuiei sale de
eantionare este egal cu media aritmetic a populaiei de referin.
Distribuia t: distribuie teoretic ce descrie distribuia de eantionare a mediilor
aritmetice n cazul n care eantioanele sunt mici (n 30) i valoarea lui este
necunoscut.
Eficien: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este cu att mai eficient, cu ct distribuia de eantionare este mai
grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este mai mic abaterea
standard a distribuiei de eantionare.
Grade de libertate: concept care se refer la numrul de valori libere s varieze ntro
distribuie.
Interval de ncredere estimat: amplitudine de valori n care este probabil s se afle
un parametru al populaiei de interes.
Nivel alfa (): Probabilitatea ca un parametru s nu se afle n intervalul estimat sau,
altfel spus, probabilitatea de eroare a estimrii.
Nivel de ncredere: probabilitatea ca intervalul estimat s conin parametrul de
interes.
Proceduri de estimare: tehnici statistice n care pe baza unei statistici calculate
pentru un eantion, numit estimator, se face o apreciere despre parametrul
corespunztor al populaiei de referin.
Punct estimat: o singur valoare calculat pentru un eantion i folosit pentru a
face o apreciere despre parametrul corespunztor al populaiei de referin.
Eroare de tipul I: respingerea unei ipoteze de nul care este adevrat; probabilitatea
de a comite o eroare de tipul I este desemnat prin .
Eroare de tipul II: nerespingerea unei ipoteze de nul care este fals; probabilitatea
de a comite o eroare de tipul II este desemnat prin .
Ipotez alternativ: n contextul statisticilor infereniale, ipotez care enun c
exist o diferen ntre valoarea efectiv a unui parametru i valoarea presupus
pentru acel parametru; dac sensul diferenei poate fi prezis, ipoteza alternativ este
direcional, n caz contrar este nedirecional.
Ipotez de nul: n contextul statisticilor infereniale, ipotez care enun nu exist
nici o diferen semnificativ ntre valoarea efectiv a unui parametru i valoarea
presupus a acelui parametru.
Regul de decizie: enun referitor la o anumit amplitudine de valori pentru
rezultatul statisticii testului, numit zon critic sau zon de respingere, care
conduce la respingerea ipotezei de nul.
Statistic a testului: formula a crei aplicare n testul respectiv permite obinerea

unei valori ce formeaz baza deciziei asupra ipotezei de nul.


219
Teste parametrice: teste statistice despre valoarea parametrilor unei populaii, care
cer ndeplinirea unor condiii sau supoziii despre populaiile respective, cum este, n
principal, normalitatea.
Test bilateral: test statistic n care ipoteza alernativ este non-direcional.
Test unilateral: test statistic n care ipoteza alternativ este direcional.
Eantioane aleatorii independente: eantioane aleatorii alctuite n aa fel nct
selectarea cazurilor pentru un eantion nu influeneaz selectarea cazurilor pentru
cellalt.
Analiza de varian (ANOVA): procedur de testare a ipotezei conform creia
mediile aritmetice ale k populaii (k 2) sunt egale. Testul ANOVA poate fi
considerat drept o extensie a testului privind diferena dintre dou medii
aritmetice.
curbe F: grafic al distribuiei F.
Distribuia F: distribuia de eantionare n testul ANOVA
Celul: intersecia unui rnd cu o coloan ntr-un tabel al contingenelor. Celulele
indic numrul de cazuri clasificate concomitent n cte dou categorii ale celor dou
variabile.
Iteraie: orice succesiune de R elemente de acelai fel, cu R 1.
Marginal: subtotal pentru o coloan i un rnd ntr-un tabel al contingenelor.
Marginalele indic distribuiile de frecvene pentru fiecare categorie a variabilei
respective sau, altfel spus, distribuiile univariate de frecvene ale fiecrei variabile.
Tabel al contingenelor: tabel rectangular n care cazurile dintr-un eantion sunt
clasificate concomitent dup categoriile a dou variabile. Denumirile categoriilor
unei variabile sunt folosite drept titluri de coloane, iar denumirile categoriilor
celeilalte variabile sunt folosite drept titluri de rnduri.
Teste nonparametrice: teste de semnificaie care nu necesit supoziii particulare
despre forma distribuiei populaiilor de referin, astfel c pot fi aplicate n special
atunci cnd se lucreaz cu eantioane mici. Testele nonparametrice sunt cu deosebire
utile n psihologie, ntruct pot fi aplicate pentru variabile msurate la nivel nominal
sau ordinal.
Testul chi-ptrat (2): test non-parametric pentru dou variabile msurate la nivel
nominal i organizate ntr-u tabel al contingenelor. Esena acestui test const din
compararea frecvenelor observate frecvenele efective obinute empiric de ctre
cercettor cu frecvenele teoretice sau ateptate frecvenele calculate sub
presupunerea c ipoteza de nul este adevrat.
Testul iteraiilor: test non-parametric pentru dou variabile msurate la nivel
ordinal.
Testul Kruskal-Wallis H: este analogul nonparametric al testului ANOVA
unifactorial, aplicabil la date de nivel ordinal.
Testul Mann-Whitney U: test non-parametric pentru dou variabile msurate la
nivel ordinal.
220
Testul McNemar: test nonparametric pentru semnificaia schimbrii; acest test
utilizeaz distribuia 2 i este aplicabil pentru variabile de nivel nominal, n cazul a

dou eantioane dependente.


Testul medianei: test nonparametric pentru egalitatea a dou mediane; acest test
utilizeaz distribuia 2 i este aplicabil n cazul a dou eantioane independente,
pentru variabile msurate la nivel ordinal.
Testul Wilcoxon T: test non-parametric pentru semnificaia diferenei dintre dou
eantioane dependente, aplicabil pentru date de nivel ordinal.
Variabile independente reciproc: dou variabile sunt independente reciproc dac,
pentru toate cazurile din eantionul considerat, clasificarea unui caz ntr-o categorie a
unei variabile nu are nici un efect asupra probabilitii ca acel caz s fie clasificat n
oricare dintre categoriile celeilalte variabile.
Coeficientul d al lui Somer: mrime asimetric a corelaiei adecvat pentru cazul a
dou variabile msurate la nivel ordinal cu un numr mic de valori.
Coeficientul de contingen C: mrime a corelaiei bazat pe 2, adecvat pentru
cazul a dou variabile msurate la nivel nominal; se recomand calcularea acestui
coeficient numai pentru tabele de mare dimensiune.
Coeficientul r al lui Pearson: mrime a corelaiei lineare dintre dou variabile
msurate la nivel de interval sau de raport.
Coeficientul V al lui Cramer: mrime a corelaiei bazat pe 2, adecvat pentru
cazul a dou variabile msurate la nivel nominal; se recomand calcularea acestui
coeficient numai pentru tabele mai mari de 2 2.
Coeficientul : mrime simetric a corelaiei adecvat pentru cazul a dou variabile
msurate la nivel ordinal cu un numr mic de valori.
Coeficientul al lui Spearman: mrime a corelaiei adecvat pentru cazul a dou
variabile msurate la nivel ordinal cu o amplitudine relativ larg de scoruri diferite i
puine cazuri legate n privina fiecrei variabile.
Coeficientul b al lui Kendall: mrime simetric a corelaiei adecvat pentru cazul a
dou variabile msurate la nivel ordinal cu un numr mic de valori; se recomand
calcularea acestui coeficient numai pentru tabele ptratice.
Coeficientul : mrime a corelaiei bazat pe 2, adecvat pentru cazul a dou
variabile msurate la nivel nominal; se recomand calcularea acestui coeficient
numai pentru tabele 2 2.
Corelaie: relaie ntre dou sau mai multe variabile; se spune c dou variabile sunt
corelate dac distribuia scorurilor uneia dintre acestea se schimb sub influena
scorurilor celeilalte.
Corelaie negativ: corelaie ntre dou variabile caracterizat prin aceea c scoruri
nalte ale unei variabile sunt asociate cu scoruri joase ale celeilalte variabile sau,
altfel spus, variabilele variaz n sensuri opuse.
Corelaie pozitiv: corelaie ntre dou variabile caracterizat prin aceea c scoruri
nalte ale unei variabile sunt asociate cu scoruri nalte ale celeilalte variabile, iar
scoruri joase ale unei variabile sunt asociate cu scoruri joase ale celeilalte variabile
sau, altfel spus, variabilele variaz n acelai sens.
221
Corelaie liniar: corelaie ntre dou variabile de interval sau de raport caracterizat
prin aceea c dispunerea punctelor n diagrama de mprtiere poate fi aproximat
printr-o linie dreapt.
Corelaie perfect: corelaia dintre dou variabile caracterizat prin aceea c fiecare

scor al unei variabile este asociat cu un singur scor al celeilalte variabile.


Diagrame de mprtiere: modaliti de prezentare vizual a corelaiei dintre dou
variabile msurate la nivel de interval sau de raport.
Ecuaia de regresie bivariat: ecuaie care descrie matematic o linie de regresie.
Linie de regresie: linie dreapt care rezum cel mai bine corelaia dintre dou
variabile de interval sau de raport.
Mrimile corelaiei: mrimi statistice care permit cuantificarea importanei (triei)
unei relaii dintre variabile.
Metoda corelaiei multiple: tehnic multivariat de evideniere a influenelor
combinate ale tuturor variabilelor independente asupra variabilei dependente.
Metoda corelaiei pariale: tehnic multivariat de evideniere a influenei unei a
treia (a patra etc.) variabile asupra unei corelaii bivariate.
Metoda regresiei multiple: tehnic multivariat care permite izolarea influenelor
separate ale mai multor variabile independente asupra variabilei dependente i astfel
permite identificarea variabilei independente care are cea mai puternic influen
asupra variabilei dependente.
Predicie: apreciere a scorurilor unei variabile pe baza cunoaterii scorurilor n
privina altei variabile; o predicie este cu att mai precis, cu ct corelaia dintre cele
dou variabile este mai puternic.