Sunteți pe pagina 1din 254

UNIVERSITATEA TITU MAIORESCU

FACULTATEA DE PSIHOLOGIE

STATISTIC
PSIHOLOGIC I
PRELUCRAREA
INFORMATIZAT A
DATELOR
I
Curs pentru nvmntul la distan

Coordonator de disciplin: Prof. univ. dr. Dumitru Gheorghiu


CUPRINS

1 INTRODUCERE
1.1 Rolul statisticii n cercetarea psihologic
1.2 Matematica de baz
1.2.1 Operaii aritmetice de baz
1.2.2 Operaii aritmetice cu numere reale
1.2.3 Proprieti ale numerelor reale
1.2.4 Indicatori speciali ai operaiilor aritmetice
1.3 Statistici descriptive i statistici infereniale
1.4 Nivele de msur
1.4.1 Nivelul nominal
1.4.2 Nivelul ordinal
1.4.2 Nivelul de interval
1.4.3 Nivelul de raport

2 PREZENTAREA DATELOR STATISTICE


2.1 Procente i proporii
2.2 Raporturi i rate
2.3 Distribuii de frecvene
2.4 Diagrame i grafice

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI


3.1 Mrimile tendinei centrale
3.1.1 Media aritmetic
3.1.2 Mediana
3.1.3 Modul
3.1.4 Distribuii simetrice i distribuii asimetrice
3.1.5 Media aritmetic ponderat
3.1.6 Mrimile tendinei centrale pentru date grupate
3.2 Percentile
3.3 Mrimile dispersiei
3.3.1 Indicele variaiei calitative
3.3.2 Amplitudinea i amplitudinea intercuartilic
3.3.3 Abaterea medie i variana
3.3.4 Abaterea standard i coeficientul de variaie
3.3.5 Calculul abaterii standard pentru date grupate
4 DISTRIBUIA NORMAL
4.1 Caracteristicile distribuiei normale
4.2 Calculul scorurilor standard
4.3 Distribuia normal standard
4.4 Utilizarea distribuiei normale standard
4.4.1 Determinarea procentelor de cazuri
4.4.2 Determinarea probabilitilor pentru scoruri

5 EANTIONAREA I DISTRIBUII DE EANTIONARE


5.1 Procedee de eantionare aleatorie
5.2 Distribuia de eantionare
5.3 Determinarea probabilitilor pentru medii aritmetice
5.4 Strategia inferenial

6 PROCEDURI DE ESTIMARE STATISTIC


6.1 Caracteristici ale estimatorilor
6.2 Estimarea mediei aritmetice cnd este cunoscut
6.3 Estimarea mediei aritmetice cnd este necunoscut.
Distribuia tstudent
6.4 Estimarea proporiilor
6.5 Dimensiuni ale eantioanelor i nivele de precizie
6.5.1 Controlul mrimii intervalului estimat
6.5.2 Determinarea dimensiunii eantionului
pentru estimarea mediilor aritmetice
6.5.3 Determinarea dimensiunii eantionului pentru
estimarea proporiilor

7 TESTAREA IPOTEZELOR DESPRE O SINGUR POPULAIE


7.1 Testul scorurilor z pentru medii aritmetice cnd este cunoscut
7.2 Erori n testarea ipotezelor
7.3 Testarea ipotezelor pentru medii aritmetice cnd este
necunoscut
7.4 Testul scorurilor z pentru proporii

8 TESTAREA IPOTEZELOR DESPRE DIFERENELE


DINTRE DOU POPULAII
8.1 Testul scorurilor z pentru diferena dintre dou medii aritmetice
8.2 Testul scorurilor t pentru diferena dintre dou medii aritmetice
8.3 Testul scorurilor z pentru diferena dintre dou proporii
9 ANALIZA DE VARIAN (ANOVA)
9.1 Anova pentru o variabil independent
9.2 Anova pentru dou variabile independente
9.3 Anova pentru eantioane dependente

10 TESTE NONPARAMETRICE
10.1 Testul chiptrat (2)
10.1.1 Testul chiptrat pentru independen
10.1.1 Testul chiptrat pentru concordan
10.2 Testul McNemar
10.3 Testul MannWhitney U
10.4 Testul medianei
10.5 Testul iteraiilor
10.6 Testul Wilcoxon T
10.7 Testul KruskalWallis H

11 MRIMI ALE CORELAIEI


11.1 Noiunea de corelaie
11.2 Mrimi ale corelaiei la nivel nominal
11.3 Mrimi ale corelaiei la nivel ordinal
11.4 Mrimi ale corelaiei la nivel de interval sau de raport
11.5 Elemente de analiz multivariat
11.5.1 Corelaia parial
11.5.2 Regresia multipl
11.5.3 Corelaia multipl

EXERCIII I PROBLEME

ANEXA A: Tabelul ariilor de sub curba normal


ANEXA B: Tabel cu numere aleatorii
ANEXA C: Tabelul valorilor critice ale distribuiei t
ANEXA D: Tabelul valorilor critice ale distribuiei F
ANEXA E: Tabelul valorilor critice ale distribuiei 2
ANEXA F: Tabelul valorilor critice pentru testul Mann Whitney U
ANEXA G: Tabelul valorilor critice pentru testul Wilcoxon T
ANEXA H: Tabelul valorilor critice pentru s
ANEXA I: Ghid de utilizare a principalelor tehnici statistice
1 INTRODUCERE

Dicionarul explicativ al limbii romne consemneaz mai multe nelesuri ale


cuvntului statistic. Unul dintre acestea este eviden numeric referitoare la diverse
fenomene. La sfritul unei transmisiuni televizate a unui meci de fotbal, de pild, ni se
prezint o statistic privind numrul de uturi pe poart, numrul de cornere, numrul
de cartonae galbene i roii etc. ntr-un alt neles al acestui cuvnt, statistica este o
ramur a matematicii, numit adesea statistic teoretic sau chiar statistic matematic,
al crei obiect de studiu l reprezint elaborarea unor metodele matematice de analiz a
aa-numitelor fenomene de mas, indiferent de natura acestora. Cercettorii din
domeniul tiinelor omului i ale naturii vorbesc despre statistic ntr-un fel diferit, dar
legat de primele dou nelesuri menionate, avnd n vedere aplicarea unor metode
statistice pentru prezentarea i interpretarea rezultatelor unor investigaii specifice.
n aceast carte se prezint, n principal, statistica aplicat n psihologie. Dup
evidenierea rolul statisticii n cercetarea psihologic, se trec n revist cteva operaii
matematice de baz, necesare pentru a nelege statistica. n restul acestui capitol sunt
introduse cteva noiuni fundamentale, folosite n statistic.

1.1 ROLUL STATISTICII N CERCETAREA PSIHOLOGIC

Pentru psiholog i, n general, pentru cercettorul n domeniul tiinelor omului,


statistica este un set de metode i tehnici matematice de organizare i prelucrare a
datelor, folosite cu scopul de a rspunde la anumite ntrebri i de a testa anumite
ipoteze. Datele sunt informaii, n principal numerice, care reprezint anumite
caracteristici. De pild, dac dorim s cunoatem nivelul de anxietate al unui grup,
datele pot fi scoruri pe o scal de anxietate, iar tehnicile statistice ne ajut s descriem i
s nelegem aceste scoruri.
tiinele omului folosesc o mare cantitate de date pentru testarea ipotezelor i
formularea unor teorii. Este important de subliniat, ns, c strngerea datelor nu este,
prin sine, suficient pentru cercetarea tiinific. Chiar i cele mai obiective i mai atent
culese informaii, luate ca atare, nu ne pot spune mare lucru. Pentru a fi utile, datele
trebuie s fie organizate, evaluate i analizate. Fr o bun nelegere a principiilor
analizei statistice i fr o aplicare corespunztoare a tehnicilor statistice, cercettorul
nu va putea nelege semnificaia datelor culese.
Analiza statistic este esenial n psihologie, ca i n celelalte tiine ale omului.
Se poate spune, chiar, c psihologia nu poate exista fr statistic. Pe de alt parte, rolul
statisticii este limitat. Aceste trsturi pot fi explicate n raport cu cele trei etape
principale ale unei cercetri. Astfel, n etapa formulrii problemei de cercetare,
cercettorul formuleaz un enun al unei probleme sau al unei ntrebri la care
cercetarea va ncerca s dea un rspuns. Problema cercetrii poate s provin din diferite
surse, incluznd teorii, cercetri anterioare i comenzi de cercetare. Odat ce a fost
formulat problema cercetrii, procesul intr ntr-o a doua etap, n care se iau decizii
despre proiectul de cercetare i se aleg metodele i tehnicile de cercetare. n aceast
etap, cercettorul decide ce tipuri de cazuri vor fi incluse n cercetare, ct de multe
cazuri vor fi luate n considerare i n ce mod vor fi investigate acestea. Dup ce au fost
investigate toate cazurile i au fost culese toate datele relevante, statistica devine
realmente i n mod direct important pentru analiza rezultatelor. Este important de
reinut c dac cercettorul i-a formulat greit problema sau a proiectat greit
cercetarea, atunci cele mai sofisticate analize statistice sunt lipsite de valoare.
mprumutnd un principiu din tiina computerelor, putem spune c metodele i
tehnicile statistice se supun regulii IGIG = introduci gunoaie, ies gunoaie. Orict ar fi
de util, statistica nu se poate substitui conceptualizrii riguroase i nici alctuirii unui
proiect de cercetare corespunztor problemei avut n vedere.
Multe persoane care nu sunt cercettori trebuie s fie consumatori avizai de
rezultate de cercetare prelucrate statistic. Statistica ofer adesea suport raional pentru
decizii ale managerilor din sistemul educaional, pentru consilierii educaionali, pentru
psihologii clinicieni i pentru alte persoane ale cror profesii sunt legate ntr-un fel sau
altul de tiinele omului. Oricare ar fi motivul pentru care se utilizeaz metode i tehnici
statistice, att cercettorii, ct i consumatorii cercetrilor trebuie s neleag ce fel
de informaii ofer statistica i ce fel de concluzii pot fi trase din aceste informaii.
n aceast carte, statistica va fi privit ca un set de instrumente, indispensabil
pentru creterea cunoaterii n tiinele omului, iar nu ca un scop n sine. Ca atare, acest
subiect nu va fi abordat matematic. Tehnicile statistice prezentate n capitolele care
urmeaz sunt vzute ca instrumente folosite pentru a rspunde unor probleme de
cercetare specifice psihologiei (altfel spus, aceast carte nu este destinat statisticianului
profesionist, ci psihologului). Pe de alt parte, aceasta nu nseamn c nu vor fi folosite
anumite metode matematice. Aceast carte a fost scris cu intenia de a furniza
ndeajuns material matematic pentru a se putea nelege ce poate face statistica i cum
face statistica ceea ce face. Dup ce vei parcurge ntregul material, v vei familiariza
cu avantajele i limitele celor mai frecvent utilizate tehnici statistice i vei ti care
dintre acestea sunt aplicabile unei mulimi date de informaii i unui scop dat al
cercetrii. n cele din urm, vei putea ntreprinde singuri analize statistice de baz ale
datelor strnse din cercetri proprii.
1.2 MATEMATICA DE BAZ

n statistic sunt folosite metode matematice, de la cele mai simple pn la cele


mai complexe. nelegerea materialului prezentat n aceast carte nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic. n aceast seciune se
ntreprinde o scurt trecere n revist a unor concepte i operaii aritmetice, pe care orice
cititor cu o pregtire medie n domeniul matematicii o poate neglija.

1.2.1 OPERAII ARITMETICE DE BAZ

Statistica folosete din plin cele patru operaii aritmetice de baz: adunarea (+),
scderea (), nmulirea i mprirea. Rezultatul unei adunri se numete sum, iar
rezultatul operaiei de scdere se numete diferen. nmulirea a dou numere poate fi
denotat algebric n trei feluri: X Y, (X) (Y) sau pur i simplu XY. Numerele care sunt
nmulite se numesc factori, iar rezultatul operaiei de nmulire se numete produs.
mprirea a dou numere poate fi, de asemenea, denotat n trei feluri: X Y, X/Y sau
X
. n notaia folosit aici, X este numrtorul, Y fiind numitorul. Rezultatul operaiei
Y
de mprire se numete ct.
Este important de reinut relaia dintre nmulire i mprire. Astfel, ctul X/Y
poate fi exprimat ca produsul (X) (1/Y). De exemplu, 15/5 = (15) (1/5) = 3.

1.2.2 OPERAII ARITMETICE CU NUMERE REALE

n aritmetica elementar suntem familiarizai cu numerele pozitive, i.e. numerele


mai mari sau egale cu 0. statistica trebuie s foloseasc ceea ce matematicienii numesc
numere reale. Numerele reale sunt toate numerele pozitive i negative, de la la +.
Astfel, numerele reale includ nu numai numerele ntregi pozitive i negative, ci i
fraciile i numerele zecimale.
Atunci cnd se folosesc att numere pozitive, ct i numere negative ntr-o
operaie aritmetic, se vorbete despre numere cu semn. Uneori este nevoie s ignorm
semnul algebric, + sau , i s considerm doar valoarea absolut a numrului
valoarea numrului indiferent de semnul algebric. De pild, valoarea absolut (modulul)
numrului 7, notat 7, este 7. n valori absolute, 7 = +7 = 7.
Semnul algebric din faa unui numr afecteaz rezultatul operaiilor algebrice. n
cele ce urmeaz aceste efecte vor fi urmrite pe msur ce se expun regulile pentru
operaiile aritmetice.

Adunarea Dac dou numere au acelai semn, se adun valorile absolute i se reine
semnul respectiv:

(10) + (25) = 35
(+15) + (+5) = +20
Dac se adun dou numere care au semne opuse, se scade valoarea absolut a
numrului mai mic din valoarea absolut a celuilalt numr i se reine semnul numrului
care are valoarea absolut mai mare:

(10) + (+15) = +5
(+5) + (25) = 20
Scderea Cnd se scad numere, se schimb semnul numrului de sczut, dup care
se aplic regulile adunrii:

(10) (+5) = (10) + (5) = 15


(10) (25) = (10) + (+25) = +15

nmulirea Dac se nmulesc dou numere care au acelai semn, produsul este
pozitiv, iar dac se nmulesc dou numere care au semne diferite, produsul este negativ:

(10) (25) = +250


(10) (+15) = 150

mprirea Dac se mpart dou numere care au acelai semn, ctul este pozitiv, iar
dac se mpart dou numere care au semne diferite, ctul este negativ:

1025 = +0,40
+1510 = 1,50

1.2.3 PROPRIETI ALE NUMERELOR REALE

Numerele reale au trei proprieti importante, care sunt utilizate n formulele i


calculele statistice: comutativitatea, asociativitatea i distributivitatea nmulirii fa de
adunare.

Comutativitatea Dou numere pot fi adunate sau nmulite n orice ordine,


rezultatul fiind acelai:

15 + 5 = 5 + 15 = 20
15 5 = 5 15 = 75

Asociativitatea Termenii unei adunri sau factorii unui produs pot fi grupai
oricum, rezultatul fiind acelai:

10 + (15 + 5) = (10 + 15) + 5 = 10


(10) (15 5) = (10 15) 5 = 750

Distributivitatea Produsul unui numr X cu suma a dou numere, Y i Z, este egal


cu suma produselor lui X cu Y i lui X cu Z:

5(10 + 15) = 5(10) + (5 15) = 25


1.2.4 INDICATORI SPECIALI AI OPERAIILOR ARITMETICE

Doi indicatori speciali ai operaiilor aritmetice apar frecvent n statistic:


exponentul, radicalul i operatorul nsumrii. Exponentul indic puterea la care este
ridicat un numr. Astfel, X2 desemneaz ridicarea la ptrat a numrului X sau, altfel
spus, nmulirea numrului X cu sine: X X, iar X4 desemneaz ridicarea la puterea a
ptrat a numrului X: X X X X.
Radicalul indic extragerea rdcinii unui numr. n statistic apare cel mai
frecvent extragerea rdcinii ptrate a unui numr. Rdcina ptrat a unui numr,
indicat de simbolul , este numrul real prin a crui ridicare la ptrat se obine
numrul iniial. Astfel, 36 = 6, deoarece 62 = 36. Rdcina ptrat a unui numr poate
fi indicat i prin exponentul fracional . De pild, 36 = 61/2 = 6.
Operatorul nsumrii, simbolizat de majuscula din alfabetul grecesc sigma, ,
indic nsumarea a ceea ce urmeaz imediat n expresia respectiv. Date fiind, de pild,
numerele

X1 = 3, X2 = 7, X3 = 4, X4 = 2, X5 = 8,

5
expresia X
i 1
i , citit sum de X indice i de la i = 1 la 5 st pentru suma

X1 + X2 +X3 + X4 + X5 = 3 + 7 + 4 + 2 + 8 = 24

Xi este simbolul general pentru numerele din seria de mai sus. Notaia de sub , i = 1,
indic primul numr din sum, X1 = 3, iar numrul nscris deasupra simbolului arat
pn la al ctelea numr are loc nsumarea, X5 = 8. n general, expresia

X
i 1
i

arat c nsumarea ncepe cu primul numr din seria respectiv i se ncheie cu cel de-al
N-lea numr. Adesea, notaiile aflate deasupra i dedesubtul simbolului sunt omise.
ntr-un astfel de caz, indic nsumarea de la primul numr pn la ultimul.
Prezentm n continuare dou reguli privind operatorul nsumrii:

Regula 1 Rezultatul obinut prin aplicarea operatorului la produsul dintre o


constant i o serie de numere este egal cu rezultatul obinut prin nmulirea constantei
cu suma numerelor din serie. n simboluri, dac C este o constant,

N N

CX i = C X i
i 1 i 1

Fie constanta 2 i numerele X1 = 1, X2 = 3, X3 = 4, X4 = 7; atunci,


4

2X
i 1
i = (2 1) + (2 3) + (2 4) + (2 7) = 2 + 6 + 8 + 14 = 30
4
2 X i = 2(1 + 3 + 4 + 7) = 2 15 = 30
i 1
Regula 2 Rezultatul obinut prin aplicarea operatorului la suma a dou sau mai
multe serii de cte N numere este egal cu rezultatul obinut prin aplicarea operatorului
la fiecare serie n parte i adunarea sumelor astfel obinute. n simboluri:

N N N

(X
i 1
i Yi ) X i Yi
i 1 i 1

Fie seriile X1 = 2, X2 = 5, X3 = 3, X4 = 1 i Y1 = 1, Y2 = 3, Y3 = 4, Y4 = 7; atunci,

(X
i 1
i Yi ) (X1 + Y1) + (X2 + Y2) + (X3 + Y3) + (X4 + Y4) =

= (2 + 7) + (5 + 9) + (3 + 6) + (1 + 5) = 9 + 1 + 4 + 9 + 6 + = 38
N N

X Y = (X1 + X2 + X3 + X4) + (Y1 + Y2 + Y3 + Y4) =


i 1
i
i 1
i

= (2 + 5 + 3 + 1) + (7 + 9 + 6 + 5) = 11 + 27 = 38

1.3 STATISTICI DESCRIPTIVE I STATISTICI


INFERENIALE

Pentru cele ce urmeaz, este necesar s definim termenii variabil, populaie i


eantion. O variabil este orice trstur care i poate schimba valoarea de la caz la
caz. De pild, trsturile sex, vrst i venit sunt variabile O populaie este un grup ce
include toate cazurile de care este interesat cercettorul. De pild, toi cetenii romni
cu drept de vot, toi studenii unei universiti i toate rile europene sunt populaii n
nelesul dat acestui cuvnt n statistic. n cele mai multe situaii de cercetare,
populaiile sunt prea mari pentru a fi cercetate. n astfel de cazuri se selecteaz o
submulime strict a populaiei de referin, numit eantion.
Tehnicile statistice se mpart n dou mari clase: statistici descriptive i statistici
infereniale. Statisticile descriptive sunt utilizate pentru a prezenta, clasifica i nsuma
scorurile (valorile) unei variabile. Dac ne intereseaz descrierea unei singure variabile,
atunci vom folosi statistici descriptive pentru a aranja i prelucra scorurile acelei
variabile astfel nct informaia relevant s poat fi neleas i evaluat rapid.
Statisticile infereniale sunt utilizate pentru a face generalizri despre o
populaie pe baza studiului unui eantion din acea populaie sau, altfel spus, pentru a
trage concluzii despre caracteristicile unei populaii pe baza caracteristicilor
corespunztoare ale unui eantion din acea populaie.

1.4 NIVELE DE MSUR

Orice tehnic statistic implic utilizarea unor operaii, precum ordonarea unor
cazuri sau nsumarea scorurilor unei variabile. nainte de a utiliza o tehnic statistic,
este necesar msurarea variabilei de interes ntr-un mod sau, altfel spus, la un nivel de
msur care s justifice aplicarea operaiilor respective. De pild, multe tehnici
statistice cer adunarea scorurilor unei variabile. Aceste tehnici pot fi utilizate numai
dac variabila este msurat ntr-un mod care permite operaia matematic a adunrii.
Astfel, alegerea unei tehnici statistice depinde de nivelul la care a fost msurat
variabila. Nivelele de msur ale variabilelor sunt clasificate ntr-o ierarhie, n funcie
de complexitatea lor. Aceast ierarhie include, n ordinea cresctoare a complexitii,
nivelele nominal, ordinal, de interval i de raport.

1.4.1 NIVELUL NOMINAL

Msurarea unei variabile la nivel nominal const din clasificarea diferitelor


cazuri n categoriile prestabilite ale unei variabile. La nivel nominal, clasificarea este
singura procedur de msurare permis. Variabilele sex, denominaia religioas
(apartenena religioas declarat) i culoarea ochilor sunt exemple de variabile
msurabile numai la nivel nominal. La acest nivel categoriile nu pot fi ordonate dup
vreun criteriu, putnd fi comparate unele cu altele exclusiv dup numrul de cazuri
clasificate n fiecare categorie. De pild, dac dorim s msurm denominaia religioas
pentru un grup de persoane, prestabilim categorii precum Cretinortodox, Catolic,
Protestant .a., dar nu putem ordona aceste categorii de la superior la inferior sau n
vreun alt fel.
Criteriile (regulile) msurrii nominale corecte sunt urmtoarele:

Regula excluderii categoriilor Categoriile variabilei trebuie s fie reciproc


exclusive, ceea ce nseamn c nici un caz nu trebuie s fac parte din mai mult de o
categorie. n raport cu aceast regul, distingem dou tipuri de erori: (1) cel puin dou
categorii au cazuri n comun, fiecare categorie coninnd i cazuri care nu aparin
celeilalte categorii; (2) cel puin dou categorii se afl n raport de incluziune orice caz
care face parte dintr-o categorie face parte i din cealalt categorie, nu i reciproc.

Regula exhaustivitii categoriilor Trebuie s apar cte o categorie


pentru fiecare manifestare a variabilei respective sau, altfel spus, fiecare caz de interes
trebuie s fac parte dintr-o categorie. Avnd n vedere complexitatea manifestrilor
variabilelor considerate n tiinele omului, pentru respectarea acestei reguli se
obinuiete s se adauge o categorie Alii/Altele.

Regula omogenitii categoriilor Categoriile trebuie s fie omogene n


termenii proiectului de cercetare urmrit, ceea ce nseamn c proprietile comune
cazurilor repartizate n aceeai categorie trebuie s fie mai importante n raport cu
scopurile cercetrii dect proprietile care difereniaz acele cazuri. S presupunem, de
pild, c indivizii dintr-o colectivitate sunt clasificai n categoriile: folosete de obicei
aspirin efervescent, folosete de obicei aspirin obinuit, folosete uneori un tip de
aspirin i alteori cellalt tip de aspirin, nu folosete de loc aspirin. Aceste categorii
vor fi apreciate ca omogene de un distribuitor de produse farmaceutice, n timp ce un
distribuitor de cafea va prefera clasificarea acelorai indivizi n categoriile: consum de
obicei cafea natural, consum de obicei cafea solubil, consum uneori un tip de
cafea i alteori cellalt tip de cafea, nu consum de loc cafea.

n legtur cu msurarea nominal, trebuie considerat i un al patrulea criteriu de


acceptabilitate, conform cruia o clasificare trebuie s aib sens teoretic sau, altfel spus,
categoriile trebuie s poat fi folosit pentru explicaie i nelegere. Putem repartiza, de
pild, orice n univers n clasa bursucilor sau n clasa non-bursucilor, dar o astfel de
clasificare nu ar avea nici o importan pentru cunoatere.

1.4.2 NIVELUL ORDINAL

n cazul msurrii la nivel ordinal, pe lng clasificarea cazurilor n categorii,


cazurile repartizate ntr-o categorie sau alta pot fi ordonate, comparndu-le unul cu altul,
de la inferior la superior, n funcie de gradul calitativ n care acestea posed
trstura msurat. De pild, variabila nivel de colarizare este msurabil la nivel
ordinal. Categoriile acestei variabile sunt adesea ordonate conform urmtoarei scheme:
1. nu a absolvit nici o coal; 2. a absolvit cel mult ciclul obligatoriu de nvmnt;
3. a absolvit cel mult liceul; 4. a absolvit cel mult cursuri postliceale, neuniversitare; 5.
a absolvit cel mult cursuri universitare; 6. a absolvit cursuri post universitare. Aceste
categorii sunt exhaustive i reciproc exclusive i pot fi comparate n termenii numrului
de cazuri pe care le conin. n plus, categoriile i cazurile individuale pot fi comparate
sub aspectul trsturii msurate. Putem spune, de pild, c un individ clasificat n
categoria 2 are un nivel de colarizare inferior unui individ clasificat n categoria 4,
respectiv c un individ clasificat n categoria 4 are un nivel de colarizare superior unui
individ clasificat n categoria 2.
La nivel ordinal, dei exist o distan ntre oricare dou cazuri aflate n
categorii diferite, aceast distan nu poate fi descris n termeni precii. n exemplul
nostru, nu suntem ndreptii s spunem, de pild, c distana dintre un individ aflat n
categoria 2 i un individ aflat n categoria 3 este egal cu distana dintre un individ aflat
n categoria 3 i un individ aflat n categoria 4 i nici c un individ aflat n categoria 4
are un nivel de colarizare de dou ori mai mare dect un individ aflat n categoria 2.
ntruct la nivel ordinal nu suntem ndreptii s presupunem c distanele
dintre cazuri sau scoruri sunt egale, iar operaiile de adunare, scdere, nmulire i
mprire pot fi aplicate n mod legitim numai dac intervalele dintre scoruri sunt egale,
aceste operaii nu pot fi aplicate variabilelor msurate la nivel ordinal.

1.4.2 NIVELUL DE INTERVAL

n msurarea la nivel de interval, pe lng clasificare i ordonare, distanele


(intervalele) dintre oricare dou cazuri aflate n categorii succesive sunt egale. Cu alte
cuvinte, la acest nivel variabilele sunt msurabile n uniti care au intervale egale. n
legtur cu timbrele dintr-o colecie, anul emiterii este un exemplu de variabil
msurabil la nivel de interval: timbrele repartizate ntr-o categorie sau alta pot fi
numrate, se poate spune c un timbru emis, s zicem, n 1990 este mai recent dect
unul emis n 1930, iar intervalele dintre dou clase succesive sunt egale (un an). Pe de
alt parte, dei distanele dintre oricare dou cazuri aflate n categorii succesive sunt
egale, la acest nivel nu se poate determina msura exact (proporia) n care un caz aflat
ntr-o categorie satisface trstura msurat fa de un caz aflat n alt clas. n
exemplul nostru, nu suntem ndreptii s spunem, de pild, c un timbru emis n 1990
este de 60 de ori mai recent dect un timbru emis n 1930.
Este de remarcat c dac ntr-o msurare de interval apare un punct zero, acesta
este doar un punct de referin arbitrar i nu un punct zero natural sau absolut, adic un
punct care s reflecte absena caracteristicii msurate. De pild, un termometru cu lichid
dilatabil (mercur, alcool etc.) msoar temperatura pe o scal de interval (Celsius sau
Fahreinheit) n care punctul zero (0C sau 0F) este doar unul dintre punctele de pe
scala de msur folosit i nu indic absena temperaturii. Ca atare, nu suntem
ndreptii s spunem, de pild, c dac ieri temperatura a fost de +1C i astzi sunt
+10C, astzi este de zece ori mai cald ca ieri1.
Un exemplu de scal de interval n psihologie este dat de msurarea unei
trsturi de personalitate, precum nivelul de stabilitate emoional. Nu suntem
ndreptii s spunem c o persoan care a obinut un scor de 20 pe o scal de
personalitate n privina acestei trsturi este de dou ori mai stabil emoional dect o
persoan care a obinut scorul 10, deoarece nu exist un punct zero absolut care s
indice absena trsturii msurate.
La acest nivel sunt permise toate operaiile matematice.

1.4.3 NIVELUL DE RAPORT

n msurarea la nivel de raport, pe lng toate trsturile unei msurri de


interval, se poate determina msura exact (proporia) n care un caz aflat ntr-o
categorie satisface caracteristica msurat, n raport cu un caz aflat ntr-o alt categorie
i apare un punct zero natural, care reflect absena caracteristicii msurate. De pild,
nregistrarea vechimii n munc a angajailor unei firme n ani mplinii produce date de
raport, deoarece unitatea de msur determin intervale egale, suntem ndreptii s
spunem c un angajat cu 10 ani de vechime n munc, s zicem are o vechime de dou
ori mai mare dect un angajat cu cinci ani de vechime n munc i exist un punct zero
natural (0 ani vechime n munc). Venitul, numrul de copii i numrul de ani de
csnicie sunt alte exemple de variabile msurabile la nivel de raport.
Nivelul de msur al variabilei (variabilelor) de interes reprezint un criteriu
necesar (nu i suficient) de selecie a tehnicilor statistice. De pild, calcularea mediei
aritmetice este justificat numai pentru variabilele msurate la nivelele de interval i de
raport, deoarece media aritmetic a unei mulimi de date impune adunarea tuturor
datelor respective i mprirea sumei astfel obinute la numrul total de date.
De notat c n psihologie este uneori dificil de a stabili dac o variabil a fost
msurat la nivel ordinal sau la nivel de interval. ntr-un astfel de caz, este util s se
presupun c variabila a fost msurat la nivel de interval, cci acest nivel permite
aplicarea unor tehnici statistice mai sofisticate dect cele permise la nivel ordinal. O
decizie de acest fel, ns, nu este lipsit de riscuri. n anumite situaii este nevoie s se
dovedeasc faptul c analiza statistic respectiv este corect, de pild prin analize
separate ale datelor la ambele nivele de msur i compararea rezultatelor. Dac
rezultatele astfel obinute sunt substanial diferite, supoziia msurrii la nivel de
interval trebuie s fie abandonat.

1
Aceast situaie nu trebuie s fie confundat cu cea a temperaturii Kelvin, care este temperatura absolut
a unui gaz ideal i este determinat de micarea moleculelor sale. Pe scala Kelvin apare punctul zero
absolut (= 273,16C), n care moleculele gazului sunt n repaus, ceea ce indic absena caracteristicii
respective.
Stimulat de predarea statisticii la Facultatea de Psihologie a Universitii Titu
Maiorescu, am conceput aceast carte ca o introducere clar i concis n statistica
aplicat n psihologie. Msura n care am reuit ndeplinirea acestui obiectiv o va da,
firete, cititorul. Pentru aprofundarea unor concepte i metode statistice prezentate aici,
recomand cu deosebire urmtoarele lucrri, din care am preluat multe exemple de
analiz statistic: Joseph F. Healey, Statistics: A Tool for Social Research, Belmont,
California, Wadsworth Publishing Company, 1984; Dennis E. Hinkle, William Wiersma
i Stephen G. Jurs, Applied Statistics for the Behavioral Sciences, Boston, Houghton
Mifflin Company, 1988; Gerald Keller i Brian Warrack, Essentials of Business
Statistics, Belmont, California, Wadsworth Publishing Company, 1991; Leon F.
Marzillier, Elementary Statistics, Wm. C. Brown Publishers, 1990.

GLOSAR

Date: informaii, n principal numerice,


care reprezint anumite caracteristici.
Eantion: o submulime strict a unei
populaii.
Nivel de msur: ansamblu de
proprieti matematice ale unei
variabile, determinat de procesul prin
care variabila a fost msurat.
Populaie: grup care include toate
cazurile de care este interesat
cercettorul..
Statistica: set de metode i tehnici
matematice de organizare i
prelucrare a datelor, folosite cu
scopul de a rspunde la anumite
ntrebri i de a testa anumite ipoteze.
Statistici descriptive: tehnici statistice
utilizate pentru a prezenta, clasifica i
nsuma scorurile (valorile) unei
variabile.
Statistici infereniale: tehnici statistice
utilizate pentru a face generalizri
despre o populaie pe baza studiului
unui eantion din acea populaie sau,
altfel spus, pentru a trage concluzii
despre caracteristicile unei populaii
prin caracteristicilor corespunztoare
ale unui eantion din acea populaie.
Variabil: orice trstur care i poate
schimba valoarea de la caz la caz.
2 PREZENTAREA DATELOR STATISTICE

Funcia de baz a statisticii descriptive este prezentarea clar i concis a


rezultatelor cercetrii. n acest capitol sunt expuse o serie de tehnici de organizare i
prezentare rezumativ a datelor: procente, proporii, raporturi, rate, distribuii de
frecvene, diagrame i grafice.

2.1 PROCENTE I PROPORII

Imaginai-v c suntei eful unui departament al unei mari companii de


asigurri i c, dorind s prezentai directorului executiv al companiei o problem de
personal cu care v confruntai, i spunei urmtoarele: Oamenii din departamentul meu
nu sunt suficient de bine pltii. Dei din cei 154 de angajai permaneni ai companiei
numai 37 sunt n departamentul meu, din cele 17832 de contracte de asigurare ncheiate
n companie anul trecut, 7321 au fost aduse de angajaii din departamentul pe care l
conduc. Probabil c dup o astfel de prezentare, directorul executiv ar schia o grimas
de plictiseal i ar amna elegant discuia pentru o dat neprecizat. ntruct este vorba
de compararea a cte dou numere (personalul departamentului fa de numrul total de
angajai ai companiei i volumul de munc din departament fa de volumul total de
munc din companie pe timp de un an), procentele i proporiile ar fi fost modaliti mai
convingtoare de prezentare a informaiei.
Definiiile matematice ale proporiei i procentului sunt urmtoarele:

f
Formula 2.1 Proporie ( p ) =
n

f
Formula 2.2 Procent (%) = 100
n

n care f = frecvena sau numrul de cazuri n fiecare categorie


n = numrul total de cazuri (numrul de cazuri din toate categoriile)

Urmtorul tabel ilustreaz calcularea proporiilor i procentelor:


Tabelul 2.1 Opinia fa de interzicerea fumatului
n locurile publice (date fictive)

Opinia Frecvena Proporia Procentul


(f) p %
Acord 167 0,621 62,1
Dezacord 72 0,268 26,8
Nu tiu/Nu 30 0,111 11,1
rspund
TOTAL 269 1,000 100,0

Pentru a afla proporia cazurilor din prima categorie (De acord cu interzicerea
fumatului n locurile publice), notm c avem aici 167 de cazuri ( f = 167) fa de 269
de cazuri n eantion (n = 269). Astfel:

f 167
Proporie ( p ) = = = 0, 621
n 269

Procednd la fel, aflm proporiile cazurilor din celelalte categorii. Rezultatele pot fi
exprimate sub form de procente. Astfel, procentul de cazuri din cea de-a treia categorie
(Nu tiu/Nu rspund) este

f 30
Procent (%) = 100 = 100 = 11,1%
n 269

Exprimarea rezultatelor prin procente i proporii este cu deosebire util atunci


cnd dorim s comparm grupuri de mrimi diferite. S presupunem, de pild, c am
adunat urmtoarele date privind dou universiti:

Tabelul 2.2 Numrul de studeni nscrii pe specializri


la dou universiti (date fictive)

Specializarea Universitatea A Universitatea B


Drept 103 312
tiine Economice 82 279
Psihologie 137 188
Sociologie 93 217
TOTAL 415 996

ntruct numrul total de studeni nscrii difer mult de la o universitate la alta,


compararea numrului relativ de studeni nscrii pe specializri la cele dou universiti
este greu de fcut numai pe baza frecvenelor. Care universitate, de pild, are cel mai
mare numr relativ de studeni nscrii la specializarea Psihologie? Pentru a nlesni
comparaiile de acest fel, calculm procentele de studeni nscrii pe specializri la cele
dou universiti:
Tabelul 2.3 Procentul de studeni nscrii pe specializri
la dou universiti (date fictive)

Specializarea Universitatea A Universitatea B


(%) (%)
Drept 24,8 31,3
tiine Economice 19,8 28,0
Psihologie 33,0 18,9
Sociologie 22,4 21,8
TOTAL 100,0 100,0
(415) (996)

Procentele prezentate n acest tabel permit identificarea att a diferenelor, ct i


a asemnrilor dintre cele dou universiti. De pild, Universitatea A are un procent
mai mare de studeni nscrii la specializarea Psihologie, dei numrul absolut de
studeni nscrii la acest profil este mai mic dect la Universitatea B, iar la specializarea
Sociologie, procentele sunt aproape aceleai.
Remarcai c sub fiecare coloan de procente am menionat totalul n date
absolute sau, altfel spus, am menionat dimensiunea eantionului. n general, dac nu se
menioneaz baza de comparaie, atunci procentele i proporiile nu ne spun nimic sau
chiar ne pot induce n eroare. S presupunem, de pild, c o firm care produce buturi
rcoritoare anun c ultimul su produs are cu 20% mai puine calorii. Problema este:
20% mai puin fa de ce? Fr menionarea bazei de comparaie, pretenia firmei
respective este lipsit de sens. Unele reclame impresioneaz prin prezentarea unor
proporii, cum ar fi Dou din trei persoane prefer marca X de produs mrcii Y. Ce ai
gndi despre o astfel de reclam, dac ai afla c, de fapt, au fost chestionate doar trei
persoane? Cunotinele de statistic i dovedesc utilitatea i n mai buna nelegere i
evaluare a informaiilor statistice prezentate n presa scris sau pe posturile de radio i
televiziune.
O eroare care poate s apar n folosirea procentelor const din ncercarea de a
aduna procentele ca i cum ar fi numere cardinale. S presupunem de pild, c
productorul naional de energie electric anun creterea preului pe kilowatt cu 50%.
Pentru justificarea acestei creteri, productorul arat c au crescut costurile de
producie a energiei electrice, dup cum urmeaz: preul combustibilului folosit n
termocentrale cu 10%, costurile investiiilor n retehnologizare cu 20% i cheltuielile cu
fora de munc cu 10%, n total, o cretere a costurilor cu 50%. O astfel de justificare
este greit. Doar o cretere cu 50% a tuturor costurilor ar justifica o cretere cu 50% a
preului pe kilowatt.
Revenind la exemplul dat la nceputul aceste seciuni, informaia prezentat
directorului executiv al companiei ar fi fost mai convingtoare dac i-ai fi spus: Dei
n departamentul meu lucreaz doar 24% din angajaii companiei, oamenii mei au adus
41% din contractele de asigurare ncheiate anul trecut n companie.
2.2 RAPORTURI I RATE

S considerm din nou tabelul 2.2. Ct de muli studeni sunt nscrii la tiine
economice n comparaie cu cei nscrii la Psihologie n Universitatea B? Putem folosi
frecvenele pentru a rspunde la aceast ntrebare, dar un rspuns mai uor de neles
poate fi dat folosind un raport. Raporturile se calculeaz mprind frecvena cazurilor
dintr-o categorie la frecvena cazurilor din alt categorie, permind astfel compararea
categoriilor n termeni de frecven relativ. Definiia matematic a raportului este
urmtoarea:

fi
Formula 2.3 Raport =
fj

n care f i = numrul de cazuri din categoria i


f j = numrul de cazuri din categoria j

Raportul ne spune exact n ce msur categoria i depete n numr de cazuri


categoria j. n exemplul nostru, raportul studenilor nscrii la tiine Economice fa de
cei nscrii la Psihologie n Universitatea B este:

fi 279
Raport = = = 1,48
fj 188

Aceasta nseamn c pentru fiecare student nscris la Psihologie exist 1,48 studeni
nscrii la tiine Economice.
Raporturile pot fi multiplicate cu 100 pentru a elimina virgulele. Astfel, raportul
calculat mai sus poate fi prezentat ca 148, ceea ce nseamn c pentru fiecare 100 de
studeni nscrii la psihologie exist 148 de studeni nscrii la tiine Economice.
Ratele se calculeaz mprind numrul de cazuri reale (efective) la numrul de
cazuri posibile pentru variabila de interes pe o anumit unitate de timp. De pild, rata
brut a natalitii pentru o populaie se calculeaz mprind numrul de nscui vii la
numrul total de persoane din acea populaie pe an, ctul astfel obinut fiind nmulit cu
1000. Se spune c rezultatul este exprimat n promile (0/00). Dac, de pild, ntr-un ora
cu 7000 de locuitori s-au nregistrat ntr-un anumit an 100 de nscui vii, rata brut a
natalitii este

100
Rata brut a natalitii (0/00) = 1000 0,0143 1000 14,3 0/00
7000

Aceasta nseamn c pentru fiecare mie de locuitori au fost n acel an 14,3 nscui vii.
Ca modaliti de a exprima frecvene relative, procentele, proporiile, raporturile
i ratele sunt utile n special atunci cnd dorim s comparm diferite grupuri sau/i
acelai grup n momente diferite.
2.3 DISTRIBUII DE FRECVENE

O distribuie de frecvene este o dispunere a valorilor unei variabile care arat


cte cazuri sunt coninute n fiecare categorie a variabilei respective. Construirea unei
distribuii de frecvene este, de regul, primul pas n orice analiz statistic. S
presupunem c urmtoarele date reprezint scorurile obinute de 180 de subieci la un
test de cunotine:

Tabelul 2.4 Scoruri obinute la un test de cunotine

68 52 69 51 43 36 44 35 54 57 55 56
55 54 54 53 33 48 32 47 47 57 48 56
65 57 64 49 51 56 50 48 53 56 52 55
42 49 41 48 50 24 49 25 53 55 52 56
64 63 63 64 54 45 53 46 50 40 49 41
45 54 44 55 63 55 62 56 50 46 49 47
56 38 55 37 68 46 67 45 65 48 64 49
59 46 58 47 57 58 56 59 60 62 59 63
56 49 55 50 43 45 42 46 53 40 52 41
42 33 41 34 56 32 55 33 40 45 39 46
38 43 37 44 54 56 53 57 57 46 56 45
50 40 49 39 47 55 46 54 39 56 38 55
37 29 36 30 37 49 36 50 36 44 35 45
42 43 41 42 52 47 51 46 63 48 62 49
53 60 52 61 49 55 48 56 38 48 37 47

Datele brute din tabelul 2.4 sunt greu de urmrit i greu de neles. Sub supoziia
c este vorba despre date de interval, putem construi o distribuie de frecvene listnd
scorurile diferite n ordine cresctoare i nregistrnd frecvena de apariie a fiecrui
scor. Distribuia de frecvene astfel obinut este urmtoarea:

Tabelul 2.5 Distribuia de frecvene a scorurilor


obinute la un test de cunotine

Scorul f Scorul 3 Scorul f


24 1 40 4 56 14
25 1 41 5 57 6
26 0 42 5 58 2
27 0 43 4 59 3
28 0 44 4 60 2
29 1 45 7 61 1
30 1 46 9 62 3
31 0 47 7 63 5
32 2 48 8 64 4
33 3 49 11 65 2
34 1 50 7 66 0
35 2 51 3 67 1
36 4 52 6 68 2
37 5 53 7 69 1
38 4 54 7
39 3 55 12
De notat c aceast distribuie de frecvene red i informaia conform creia n
eantionul considerat nu au fost obinute scorurile 26, 27, 28, 31 i 66, aflate ntre cel
mai mic scor i cel mai mare scor.
n distribuia de frecvene din tabelul 2.5 am inclus toate scorurile diferite
cuprinse ntre cel mai mic scor i cel mai mare scor. Cu alte cuvinte, am clasificat datele
ntr-un numr de grupuri sau clase egal cu numrul de scoruri distincte. Dup cum arat
i acest exemplu, construirea unei distribuii n acest fel are drept rezultat o list destul
de lung i nu tocmai clarificatoare. Atunci cnd numrul de scoruri distincte este mare,
se opteaz pentru o prezentare mai compact (mai puin detaliat) a datelor, prin
gruparea acestora n categorii mai largi, care, n cazul datelor de interval sau de raport,
se numesc intervale de clas. n tabelul 2.6 se prezint o distribuie de frecvene pentru
datele din tabelul 2.4, n care apar 10 intervale de clas, mrimea fiecrui interval fiind
egal cu 5 uniti. Adugnd i o coloan de procente pentru scorurile din fiecare
categorie fa de numrul total de scoruri vom spori claritatea prezentrii.

Tabelul 2.6 Distribuia de frecvene a scorurilor


obinute la un test de cunotine
(mrimea intervalului = 5)

Intervale de f %
clas
2024 1 0,56
2529 2 1,11
3034 7 3,89
3539 18 10,00
4044 22 12,22
4549 42 23,33
5054 30 16,67
5559 37 20,56
6064 15 8,33
6569 6 3,33
TOTAL 180 100,0

Distribuia de frecvene din tabelul 2.6 evideniaz predominana relativ a


scorurilor din intervalele 4549 (23,33%) i 5559 (20,56%). Pe de alt parte, gruparea
scorurilor n acest tabel conduce la o pierdere de informaie fa de prezentarea din
tabelul 2.5. Nu tim, de pild, ci subieci au obinut, respectiv, scorurile 35, 36, 37, 38
i 39, ci doar c sunt 18 scoruri n intervalul 3539. Apoi, din tabelul 2.6 nu reiese c n
eantionul considerat nu au fost obinute scorurile 26, 27, 28, 31 i 66. S mai notm c,
la rigoare, se poate spune c n distribuia de frecvene din tabelul 2.5, mrimea fiecrui
interval este egal cu o unitate.
n general, regulile de construire a unei distribuii de frecvene pentru date de
interval sau de raport n care se utilizeaz intervale de clas de mrime diferit fa de
datele iniiale sunt urmtoarele:
1. Se decide asupra numrului de intervale de clas care vor fi utilizate.
Numrul de intervale de clas nu trebuie s fie att de mare nct s nu
permit sesizarea predominanei relative a anumitor grupri de scoruri, dar
nici att de mic nct s conduc la pierderea unor informaii semnificative.
De regul, se utilizeaz ntre 5 i 20 de intervale, n funcie de numrul de
scoruri din mulimea iniial de date i de scopurile cercetrii.

2. n funcie de numrul de intervale de clas ales, se stabilete mrimea


intervalelor de clas. n mod obinuit, pentru a se nlesni interpretarea
distribuiei de frecvene, se folosesc intervale de clas de aceeai mrime.
Mrimea unui interval de clas se stabilete mprind diferena dintre cel
mai mare scor i cel mai mic scor din mulimea scorurilor date, numit
amplitudine a mulimii respective2, la numrul intervalelor de clas i
rotunjind rezultatul pn la un numr ntreg convenabil.

3. Se stabilete primul interval astfel nct s conin cel mai mic scor (limita sa
inferioar s fie mai mic sau egal cu cel mai mic scor). Ultimul interval va
fi acela care conine cel mai mare scor. Intervalele nu trebuie s se
suprapun.

4. Se numr scorurile din fiecare interval de clas i se nregistreaz


rezultatele ntr-o coloan etichetat f (frecvena). La sfritul acestei
coloane se prezint numrul total de scoruri. Pentru mai mult claritate, se
poate aduga o coloan de procente.

S vedem cum au fost aplicate aceste reguli pentru construirea distribuiei de


frecvene din tabelul 2.6. Scorul cel mai mare i scorul cel mai mic fiind, respectiv, 69 i
24, amplitudinea scorurilor este 69 24 = 45. Alegnd un numr de 10 intervale de
clas, mrimea fiecrui interval de clas este 45 10 = 4,5 5. Primul interval, care
trebuie s includ cel mai mic scor, poate fi oricare dintre urmtoarele:

2024, 2125, 2226, 2327, 2428

Fiecare dintre aceste intervale conine cinci scoruri3, inclusiv scorul 24, deci poate fi
ales. n exemplul nostru am ales intervalul 2024. Ca atare, urmtorul interval este 25
29 .a.m.d. pn la ultimul interval, 6569, care conine cel mai mare scor. De notat c
intervalele din tabelul 24 par a nu fi reciproc exclusive. n realitate lucrurile nu stau aa.
Dac, dup intervalul 2024 ar fi urmat 2428, 2832 .a.m.d., am fi obinut intervale
suprapuse dou cte dou. Scorul 24, de pild, ar fi fcut parte att din intervalul 2024,
ct i din intervalul 2428. Intervalele de clas din tabelul 2.6 sunt exhaustive (acoper
toate scorurile din mulimea iniial de scoruri) i reciproc exclusive (fiecare scor face
parte dintr-un singur interval).
Distribuiile de frecvene pentru date de interval sau de raport pot conine dou
instrumente ajuttoare n prezentarea datelor: frecvene cumulate i procente cumulate.
Frecvenele cumulate prezint numrul de cazuri dintr-un interval de clas i din toate
intervalele de clas precedente, iar procentele cumulate prezint procentul de cazuri

2
Vvezi capitolul 3, 3.3.2.
3
Aparent, fiecare interval acoper doar patru scoruri. Pentru a v convinge c nu este aa, numrai-le!
dintr-un interval de clas i din toate intervalele precedente4. Tabelul urmtor prezint o
coloan de frecvene cumulate i o coloan de procente cumulate pentru distribuia de
frecvene din tabelul 2.6.

Tabelul 2.7 Distribuia de frecvene a scorurilor


obinute la un test de cunotine

Intervale de f fc % %c
clas
2024 1 1 0,56 0,56
2529 2 3 1,11 1,67
3034 7 10 3,89 5,56
3539 18 28 10,0 15,56
4044 22 50 12,22 27,78
4549 42 92 23,33 51,11
5054 30 122 16,67 67,78
5559 37 159 20,56 88,34
6064 15 174 8,33 96,67
6569 6 180 3,33 100,0
TOTAL 180 100,0

Pentru a construi distribuia de frecvene cumulate din tabelul 2.7 ncepem cu


primul interval de clas, 2024. Pentru acest interval, intrarea n coloana de frecvene
cumulate este identic cu numrul de scoruri din interval, 1. Pentru intervalul imediat
urmtor, 2529, se adun numrul de scoruri din interval, 2, cu numrul de scoruri din
primul interval, 1, obinndu-se frecvena cumulat a intervalului, 3. Se procedeaz la
fel pentru fiecare interval, adunnd frecvena din intervalul respectiv cu frecvena
cumulat n intervalul imediat anterior. Evident, frecvena cumulat n ultimul interval
de clas este egal cu numrul total de scoruri.
Construirea coloanei de procente cumulate urmeaz acelai model aditiv cu cel
folosit pentru frecvene cumulate. Astfel, pentru primul interval, intrarea n coloana de
procente cumulate este identic cu procentul din interval. Pentru intervalul imediat
urmtor, procentul cumulat este procentul scorurilor din interval plus procentul
scorurilor din primul interval .a.m.d. pn la ultimul interval, n care, evident,
procentul cumulat este egal cu 100%. De notat c aceleai rezultate se obin prin
aplicarea formulei 2.2, n care f se nlocuiete cu fc pentru fiecare interval de clas, n
fiind numrul total de scoruri.
Frecvenele i procentele cumulate arat felul n care sunt distribuite cazurile n
plaja de scoruri. De pild, tabelul 2.7 arat c o majoritate semnificativ de subieci din
eantion 122, respectiv 67,78% au obinut scoruri mai mici de 55.
Pn acum am considerat scorurile nregistrate la testul de cunotine ca fiind
date discrete. Msurarea unei variabile produce date discrete, dac nregistrarea acestora
se face n categorii reciproc exclusive (nesuprapuse). Pentru anumite scopuri5,
distribuia unei variabile msurabil la nivel de interval sau de raport trebuie construit
ca o serie continu de categorii parial suprapuse. Pentru a obine o distribuie continu

4
Considernd, att pentru frecvenele cumulate, ct i pentru procentele cumulate, c intervalele de clas
apar n tabel n ordine cresctoare.
5
De pild, cum vom vedea n seciunea urmtoare, pentru construirea unei histograme.
de scoruri ale unei astfel de variabile, se pornete de la limitele intervalele de clas
stabilite iniial, numite limite stabilite i, pe baza acestora, se determin aa-numitele
limite reale sau exacte. Pentru determinarea acestor limite, se mparte la doi distana
aritmetic dintre intervalele de clas stabilite iniial, iar rezultatul astfel obinut se scade
din fiecare limit inferioar stabilit i se adun la fiecare limit superioar stabilit.
Tabelul 2.8 prezint rezultatele aplicrii aceste proceduri la intervalele de clas stabilite
n tabelul 2.6. ntruct distana aritmetic dintre intervalele de clas din tabelul 2.4
este de o unitate, limitele reale se afl scznd 0,5 din fiecare limit inferioar i
adunnd 0,5 la fiecare limit superioar. n tabelul 2.8 este adugat o coloan etichetat
centre de interval. Centrele de interval sunt punctele situate exact la mijlocul unui
interval i se afl mprind la doi suma limitelor inferioar i superioar ale
intervalului6. De notat c centrele de interval sunt aceleai, indiferent dac folosim
limite stabilite sau limite reale.

Tabelul 2.8 Distribuia de frecvene a scorurilor


obinute la un test de cunotine (incluznd
limite reale i centre de interval)

Intervale de Limite reale Centre de f


clas interval
2024 19,524,5 22 1
2529 24,529,5 27 2
3034 29,534,5 32 7
3539 34,539,5 37 18
4044 39,544,5 42 22
4549 44,549,5 47 42
5054 49,554,5 52 30
5559 54,559,5 57 37
6064 59,564,5 62 15
6569 64,569,5 67 6
TOTAL 180

Se poate observa c intervalele de clas cu limite reale se suprapun parial dou


cte dou, astfel c distribuia apare ca fiind continu.
Distribuiile de frecvene se pot construi i pentru variabile msurate la nivelele
nominal sau ordinal. Pentru fiecare categorie a variabilei respective se numr cazurile
i se prezint subtotalurile, precum i numrul total de cazuri (n). S presupunem, de
pild, c suntem interesai de msurarea variabilei nivel de colarizare pentru cei 180 de
subieci care au rspuns la un test de cunotine i c decidem s folosim urmtoarea
scal ordinal de msur: 1. nu a absolvit nici o coal; 2. a absolvit cel mult ciclul
obligatoriu de nvmnt; 3. a absolvit cel mult liceul; 4. a absolvit cel mult cursuri
postliceale, neuniversitare; 5. a absolvit cel mult cursuri universitare; 6. a absolvit
cursuri post universitare. Folosind numerele de ordine ale categoriilor drept coduri
(etichete), tabelul 2.9 ilustreaz construirea unei distribuii de frecvene pentru variabila
menionat.

6
Centrele de interval sunt utile n construirea histogramelor.
Tabelul 2.9 Nivelul de colarizare
pentru cei 180 de subieci

Nivel de f %
colarizare
1 0 0
2 61 33,89
3 82 45,56
4 24 13,33
5 7 3,89
6 6 3,33
TOTAL 180 100,0

Adugarea unei coloane de procente pentru categorii aduce un spor de claritate a


prezentrii. De notat c la nivelele nominal i ordinal, frecvenele cumulate i procentele
cumulate sunt lipsite de sens. De asemenea, ntruct la aceste nivele categoriile sunt
ntotdeauna discrete, nu are sens s se determine limitele de clas reale i centrele de
interval. Singura coloan care poate fi adugat la distribuiile de frecvene pentru
variabile la orice nivel de msur este coloana de procente.

2.4 DIAGRAME I GRAFICE

Diagramele i graficele sunt modaliti de prezentare vizual a datelor statistice


i furnizeaz o imagine global a formei unei distribuii. Alegerea unei modaliti sau a
alteia depinde, n principal, de nivelul de msur folosit i de scopurile cercetrii.

Diagrame circulare

O diagram circular este pur i simplu un cerc mprit ntr-un numr de


sectoare egal cu numrul de categorii ale variabilei de interes, mrimea fiecrui sector
fiind proporional cu procentajul de cazuri din categoria respectiv. Diagramele
circulare pot fi folosite pentru variabile msurate la nivelele nominal i ordinal.
S presupunem c am nregistrat statusul marital al celor 180 de subieci care au
rspuns la un test de cunotine i c am obinut urmtoarele date:

Tabelul 2.10 Statusul marital pentru cei 180 de subieci

Status f %
marital
Celibatar 63 35,0
Cstorit 90 50,0
Divorat 27 15,0
TOTAL 180 100,0

Persoan care nu a fost niciodat cstorit
S construim o diagram circular pentru datele din acest tabel. ntruct circumferina
unui cerc are 3600, vom aloca 1260 (35% din 3600) pentru prima categorie, 1800 (50%
din 3600) pentru cea de-a doua categorie i 540 (15 % din 3600) pentru cea de-a treia
categorie. Obinem urmtoarea diagram circular:
Figura 2.1 Statusul marital al celor 180 de subieci

Divorai
15%

Cstorii
50%

Celibatari
35%

Diagrama din figura 2.1 evideniaz vizual preponderena relativ a subiecilor cstorii
i lipsa relativ a subiecilor divorai din eantionul considerat.

Diagrame cu coloane i diagrame cu linii

Diagramele cu coloane reprezint o alt modalitate de prezentare vizual a


datelor statistice. Ca i diagramele circulare, diagramele cu coloane pot fi folosite pentru
variabile msurate la nivelele nominal i ordinal. ntr-o astfel de diagram, categoriile
variabilei de interes apar pe o ax orizontal (axa absciselor), iar frecvenele (relative)
apar pe axa vertical corespunztoare (axa ordonatelor). Pe axa orizontal se construiesc
attea coloane (dreptunghiuri) cu baze egale cte categorii sunt de prezentat. nlimea
unei coloane este proporional cu frecvena (relativ) a cazurilor din categoria
respectiv. ntruct la nivelele nominal i ordinal categoriile variabilelor sunt discrete,
coloanele sunt separate ntre ele de o distan egal, de regul, cu din limea lor.
Diagrama cu coloane din figura 2.2 prezint n procente fa de total statusul
marital al subiecilor din tabelul 2.9.

Figura 2.2 Statusul marital al celor 180 de subieci


60

50

40

Procent
30

20

10

0
Cstorii Celibatari Divorai
Status marital
Decizia de a utiliza o diagram circular sau o diagram cu coloane depinde de
numrul de categorii ale variabilei de interes i de scopul cercetrii. Dac o variabil are
mai mult de ase sau apte categorii, atunci este preferabil o diagram cu coloane, cci
o diagram circular cu prea multe categorii devine prea aglomerat i deci greu de citit.
Diagramele cu coloane sunt utile n special pentru a prezenta frecvenele
(relative) pentru dou sau mai multe categorii ale unei variabile, cu scopul de a face
unele comparaii. S presupunem, de pild, c dorim s facem o comparaie pe sexe a
numrului de angajai ai unei firme care, n primele ase luni ale unui an, au apelat la
serviciile centrului de consiliere psihologic al firmei. Figura 2.3 prezint datele
(fictive) obinute.

Figura 2.3 Numrul de angajai care au apelat la serviciile


centrului de consiliere psihologic

30

25

20
Frecvena

Brbai
15
Femei
10

0
ian feb mar apr mai iun

Aceast diagram arat c, n timp ce numrul de angajai care au apelat la serviciile


centrului de consiliere psihologic n perioada menionat a fost n cretere, numrul de
apelani femei a crescut mai repede dect numrul de apelani brbai. Aceeai
informaie este prezentat printr-o diagram cu linii n figura 2.4.

Figura 2.4 Numrul de angajai care au apelat la serviciile


centrului de consiliere psihologic

30

25

20
Frecvena

Brbai
15
Femei
10

0
ian feb mar apr mai iun
Ca i diagramele circulare i diagramele cu coloane, diagramele cu linii,
ndeobte cunoscute sub denumirea de grafice, sunt larg folosite n massmedia
pentru prezentarea diferitelor date statistice.

Histograme i poligoane de frecvene

Histogramele sunt modaliti de prezentare vizual a distribuiilor de frecvene


pentru date de interval sau de raport, asemntoare diagramelor cu coloane. ntruct
ntr-o histogram se folosesc limitele de clas reale ale intervalelor considerate,
coloanele apar n contact dou cte dou. Figura 2.5 prezint o histogram pentru datele
din tabelul 2.7.

Figura 2.5 Histograma scorurilor obinute


la un test de cunotine

45
40
35
30
Frecvena

25
20
15
10
5
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)

n general, o histogram se construiete dup cum urmeaz:

1. Intervalele de clas sau scorurile se dispun pe axa orizontal (axa absciselor),


utiliznd limite de clas reale.

2. Frecvenele se dispun pe axa vertical (axa ordonatelor).

3. Se construiete cte o coloan pentru fiecare interval, cu nlimea


corespunztoare numrului de cazuri din interval i cu limea
corespunztoare limitelor reale ale intervalului.

4. Se eticheteaz axele.

Alt modalitate obinuit de prezentare vizual a distribuiilor de frecvene


pentru variabile de interval sau de raport este poligonul de frecvene. Un poligon de
frecvene utilizeaz centrele de interval i se construiete dup cum urmeaz:
1. Se plaseaz cte un punct n dreptul fiecrui centru de interval, la nlimea
corespunztoare frecvenei din intervalul respectiv.

2. Punctele astfel obinute se unesc prin linii drepte.

3. Se nchide poligonul, considerndu-se cte un interval suplimentar cu


frecvena zero la fiecare capt al distribuiei i unind prin linii drepte
punctele extreme cu centrele de interval (aflate pe abscis) ale intervalelor
suplimentare.

4. Se eticheteaz axele.

Pentru simplificarea construciei, pe axa absciselor se pot marca direct centrele de


interval, n locul limitelor de clas. Dei red aceeai informaie ca i histogramele,
poligoanele de frecvene sunt utile pentru a da o imagine general a unei distribuii
de frecvene.
Figura urmtoare prezint un poligon de frecvene care red aceeai informaie
ca i histograma din figura precedent.

Figura 2.6 Poligonul de frecvene al scorurilor


obinute la un test de cunotine

45
40
35
30
Frecvena

25
20
15
10
5
0
22 27 32 37 42 47 52 57 62 67
Scoruri (centre de interval)

Ogive

Ogivele, numite i curbe cumulative ale frecvenelor sau poligoane de


frecvene cumulate, prezint vizual frecvenele cumulate sau procentele cumulate ale
unei distribuii O ogiv utilizeaz limitele de clas reale superioare ale intervalelor
(LCRS) i se construiete dup cum urmeaz:
1. LCRS se dispun pe axa absciselor.

2. Frecvenele cumulate sau procentele cumulate se dispun pe axa ordonatelor.

3. Se plaseaz cte un punct n dreptul fiecrei LCRS, la nlimea


corespunztoare frecvenei cumulate sau procentului cumulat n intervalul
corespunztor acelei LCRS.

4. Punctele astfel obinute se unesc prin linii drepte.

5. Ogiva se nchide la stnga, extinznd o linie dreapt ctre limita de clas


real inferioar a primului interval.

6. Se eticheteaz axele.

Figura 2.7 prezint o ogiv pentru datele din tabelul 2.6.

Figura 2.7 Ogiv pentru scorurile obinute


la un test de cunotine

100
90
80
Procente cumulate

70
60
50
40
30
20
10
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)

Dup cum vom vedea n capitolul 3, o ogiv poate fi utilizat pentru a afla
diferite puncte de interes ntr-o distribuie de frecvene.
n capitolul 11 vom folosi diagrame de mprtiere, numite i diagrame ale
norilor de puncte sau scatergrame7, care sunt modaliti de prezentare vizual a
corelaiei dintre dou variabile msurate la nivel de interval sau de raport.

7
De la substantivul din limba englez scatter, care nseamn mprtiere.
GLOSAR

Centre de interval: puncte situate exact Ogiv: modalitate de prezentare


la mijlocul unui interval de clas. vizual a frecvenelor cumulate sau a
Diagram circular: cerc mprit ntr- procentelor cumulate ale unei
un numr de sectoare egal cu numrul distribuii de frecvene pentru
de categorii ale variabilei de interes, variabile de interval sau de raport.
mrimea fiecrui sector fiind Procent: numrul de cazuri dintr-o
proporional cu procentul de cazuri categorie a unei variabile mprit la
din categoria respectiv.. numrul de cazuri din toate
Diagram cu coloane: modalitate de categoriile variabilei respective,
prezentare vizual a distribuiei unei rezultatul fiind nmulit cu 100.
variabile, n care categoriile sunt Procent cumulat: procentul de cazuri
reprezentate prin coloane cu baza dintr-un interval de clas i din toate
egal, nlimea fiecrei coloane fiind intervalele precedente.
proporional cu procentul de cazuri Proporie: numrul de cazuri dintr-o
din categoria respectiv. categorie a unei variabile mprit la
Distribuie de frecvene: dispunere a numrul de cazuri din toate
valorilor unei variabile, care arat categoriile variabilei respective.
cte cazuri sunt coninute n fiecare Raport: numrul de cazuri dintr-o
categorie a variabilei respective. categorie a unei variabile mprit la
Frecven cumulat: numrul de numrul de cazuri din alt categorie a
cazuri dintr-un interval de clas i din variabilei respective.
toate intervalele precedente. Rat: numrul de cazuri reale (efective)
Histogram: modalitate de prezentare mprit la numrul de cazuri posibile
vizual a distribuiilor de frecvene pentru variabila de interes pe o
pentru variabile de interval sau de anumit unitate de timp.
raport, n care categoriile sunt
reprezentate prin coloane continue cu
baza egal cu limitele reale ale
inervalelor de clas respective,
nimea fiecrei coloane fiind
proporional cu procentul de cazuri
din interval.
Intervale de clas: categorii utilizate n
cazul distribuiilor de frecvene
pentru variabile de interval sau de
raport.
Limite de clas reale: limitele
superioar i inferioar ale
intervalelor de clas, folosite atunci
cnd distribuia de frecvene
respectiv este considerat ca fiint
continu.
Limite stabilite: limitele superioar i
inferioar ale intervalelor de clas,
aa cum apar acestea n distribuia de
frecvene iniial.
3 MRIMILE TENDINEI CENTRALE
I ALE DISPERSIEI

Utilizarea distribuiilor de frecvene i a tehnicilor grafice de prezentare a


acestora permite relevarea formelor globale ale distribuiilor unor scoruri. Pentru
descrierea mai detaliat a unei distribuii de scoruri, statisticienii folosesc dou tipuri de
mrimi numerice descriptive. Este vorba despre ideea de caz tipic sau central ntr-o
distribuie, redat prin mrimile tendinei centrale, i despre ideea de varietate sau
eterogenitate a unei distribuii, redat prin mrimile dispersiei. Determinarea acestor
mrimi furnizeaz valori precise care por fi uor interpretate i comparate ntre ele.

3.1 MRIMILE TENDINEI CENTRALE

Mrimile folosite n mod obinuit pentru msurarea tendinei centrale sunt media
aritmetic, mediana i modul. Fiecare dintre aceste mrimi rezum o ntreag distribuie
de scoruri, descriind cea mai tipic sau central valoare a distribuiei respective sub
forma unui singur numr sau a unei singure categorii.

3.1.1 MEDIA ARITMETIC

Media aritmetic se calculeaz doar pentru variabile msurate la nivel de


interval sau de raport i se definete ca rezultat al mpririi sumei tuturor scorurilor
dintr-o mulime de scoruri la numrul total de scoruri din acea mulime. Simbolul folosit
pentru media aritmetic a unui eantion este X , iar pentru media aritmetic a unei
populaii se folosete litera greceasc (miu). ntruct deocamdat va fi vorba numai
despre eantioane, vom folosi simbolul X . Formula matematic a mediei aritmetice
este urmtoarea:

Formula 3.1 X =
X i

n
n care X i = suma scorurilor
n = numrul total de scoruri.

S presupunem, de pild, c am nregistrat vrstele pentru un eantion de 11


persoane i c am obinut urmtoarea distribuie de frecvene:
Tabelul 3.1 Vrstele pentru un eantion de 11 persoane

Vrsta f
16 1
17 4
18 1
19 2
23 3
TOTAL 11

S remarcm c avem 11 scoruri, cte unul pentru fiecare persoan din eantion. Pentru
a afla media aritmetic a vrstelor persoanelor din eantion sau, pe scurt, vrsta medie,
trebuie s nsumm toate cele 11 scoruri i s mprim rezultatul obinut la 11. Pentru a
scurta procedura, nmulim fiecare scor cu frecvena cu care apare, adunm rezultatele
nmulirilor i mprim suma astfel obinut la 11:

X
X i

(1 16) (4 17) (1 18) (2 19) (3 23) 209
19
n 11 11

Astfel, media aritmetic a vrstelor persoanelor din eantionul considerat este 19.
Media aritmetic este mrimea statistic folosit cel mai des n aprecierea
tendinei centrale a unei mulimi de scoruri de interval sau de raport deoarece este uor
de calculat i n plus are urmtoarele proprieti importante, pe care le vom folosi n
unele aplicaii ulterioare.

1. Pentru orice distribuie de scoruri, suma abaterilor scorurilor de la media lor


aritmetic este egal cu zero. Abaterea unui scor Xi fa de media aritmetic X este
diferena Xi X , astfel c aceast proprietate se exprim simbolic dup cum urmeaz:

(X i X )=0

n cuvinte, suma diferenelor dintre scoruri i media lor aritmetic este egal cu 0.
Aceast proprietate, care este folosit n obinerea unor formule statistice mai
complicate, poate fi exprimat i spunnd c pentru orice distribuie de scoruri, media
aritmetic este punctul n jurul cruia toate scorurile se anuleaz, ceea ce face din media
aritmetic o mrime descriptiv adecvat n msurarea centralitii scorurilor.

2. Pentru orice distribuie de scoruri, suma ptratelor abaterilor scorurilor fa de


media lor aritmetic este mai mic dect suma ptratelor abaterilor scorurilor fa de
oricare alt scor din distribuie, n simboluri:

(X i X )2 (X i Xj)2

n cuvinte, suma ptratelor diferenelor dintre scoruri i media lor aritmetic este mai
mic dect suma ptratelor diferenelor dintre scoruri i oricare alt scor din distribuie.
Aceast proprietate, care este folosit pentru a defini unele mrimi ale dispersiei i
pentru a calcula unele mrimi ale corelaiei8, poate fi exprimat i spunnd c media
aritmetic este punctul n jurul cruia suma abaterilor ptratice ale scorurilor este
minim.

Tabelul 3.2 ilustreaz cele dou proprieti ale mediei aritmetice pentru
distribuia de scoruri din tabelul 3.1, n care X = 19.

Tabelul 3.2 Proprieti ale mediei aritmetice


pentru datele din tabelul 3.1

Xi Xi X ( X i X )2 ( X i 17) ( X i 17)2
16 3 9 1 1
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
18 1 1 1 1
19 0 0 2 4
19 0 0 2 4
23 4 16 6 36
23 4 16 6 36
23 4 16 6 36
0 74 118

Se poate constata c suma abaterilor ptratice ale scorurilor fa de media aritmetic


(74) este mai mic dect suma abaterilor ptratice ale scorurilor fa de scorul 17 (118).
Aceast relaie are loc pentru oricare alt scor din distribuie.
Este important de reinut c n cazul n care o distribuie are foarte puine scoruri
extreme (foarte mari sau foarte mici), media aritmetic poate deveni o mrime
neltoare n aprecierea centralitii. De pild, mulimea de scoruri 15, 20, 25, 30, 35
are media aritmetic 25, n timp ce media aritmetic a mulimii 15, 20, 25, 30, 3500 este
718, iar media aritmetic a mulimii 1, 15, 20, 25, 30, este 18,2. Se poate constata c
media aritmetic este afectat disproporionat de prezena scorurilor 3500 i, respectiv,
1. Media aritmetic este tras ntotdeauna n direcia scorurilor extreme, mai ales n
direcia celor relativ mari9. Acesta este un motiv pentru care se recurge uneori la o alt
mrime a tendinei centrale: mediana.

3.1.2 MEDIANA

Mediana poate fi determinat att pentru variabile msurate la nivel de interval


sau de raport, ct i pentru variabile msurate la nivel ordinal. Ca i n cazul mediei
~
aritmetice, i n cazul medianei vom folosi dou simboluri: X pentru mediana unui
eantion i ~ pentru mediana unei populaii. De asemenea, ntruct deocamdat va fi
~
vorba numai despre eantioane, vom folosi simbolul X .
8
Vezi capitolul 11.
9
Aceasta este sursa glumei numite paradoxul statisticii: dac X are 10 paltoane i Y nu are nici un
palton, atunci X i Y au n medie cte 5 paltoane.
~
Mediana X a unei mulimi de scoruri este punctul de mijloc al acelei
~
mulimi, n sensul c numrul de cazuri cu scoruri mai mici sau egale cu X este egal cu
~
numrul de cazuri cu scoruri mai mari sau egale cu X . Pentru a afla mediana unei
mulimi de n scoruri, scorurile respective se aranjeaz mai nti n ordine cresctoare
sau descresctoare. Dac n este impar, atunci mediana este, evident, scorul cazului de
mijloc. Dac n este par, atunci vor fi dou cazuri de mijloc i orice valoare cuprins
ntre cele dou scoruri ale cazurilor de mijloc satisface definiia medianei. ntr-un astfel
de situaie, dac scorurile sunt de interval sau de raport, prin convenie, se ia drept
median media aritmetic a celor dou scoruri ale cazurilor de mijloc.
n exemplu din tabelul 3.1 avem de-a face cu 11 cazuri. Vrsta median este 18,
deoarece avem n eantion cinci persoane cu vrste mai mici de 18 ani i cinci persoane
cu vrste mai mari de 18 ani. S presupunem acum c am nregistrat vrstele pentru un
eantion de 7 persoane i c am obinut urmtoarea distribuie de frecvene:

Tabelul 3.3 Vrstele pentru un eantion de 7 persoane

Vrsta f
26 2
28 1
29 1
30 1
32 1
60 1
TOTAL 7

~
Pentru datele din acest tabel, X = 29: trei persoane au vrste mai mici de 29 de ani i
alte trei persoane au vrste mai mari de 29 de ani. De remarcat c vrsta tipic a
persoanelor din acest eantion este mai bine reprezentat de vrsta median dect de
media aritmetic a vrstelor, 33, care este tras n sus de scorul 60. Acum, dac
adugm la acest eantion o persoan de 31 de ani, avem 8 cazuri cu scorurile 26, 26,
28, 29, 30, 31, 32 i 60. Astfel, apar dou cazuri de mijloc, unul cu scorul 29 i cellalt
cu scorul 30, i orice numr cuprins ntre aceste dou scoruri satisface definiia
medianei. Ca atare, mediana este media aritmetic a scorurilor celor dou cazuri de
mijloc: 29,5.
Urmtoarele dou exemple arat de ce este inclus expresia sau egale n
definiia medianei. S presupunem c am nregistrat numrul de copii pentru un
eantion de 16 familii, rezultatele obinute fiind urmtoarele:

Tabelul 3.4 Numrul de copii pentru un


eantion de 16 familii

Numr f
de copii
0 3
1 4
2 7
3 2
TOTAL 16
n eantionul considerat n tabelul 3.4, 8 familii au 0, 1 sau 2 copii, iar celelalte 8 familii
au cte 2 sau 3 copii, astfel c cea de-a 8-a i cea de-a 9-a familie (cele dou cazuri de
mijloc) au acelai numr de copii: 2. Ca atare, mediana aceste mulimi de scoruri este 2:
8 familii au fiecare un numr de copii mai mic sau egal cu 2, iar celelalte 8 familii au
fiecare un numr de copii mai mare sau egal cu 2. Tot aa, n mulimea impar de
scoruri

1, 2, 3, 5, 5, 5, 7, 10, 12

scorul median este 5, cci avem patru scoruri mai mici sau egale cu 5 (1, 2, 3, 5) i patru
scoruri mai mari sau egale cu 5 (5, 7, 10, 12).
Urmtorul exemplu ilustreaz determinarea medianei pentru variabile de nivel
ordinal. S presupunem c ntr-o cercetare privind modul de petrecere a timpului liber,
11 subieci au fost solicitai s rspund la ntrebarea Ct de des ai fost la
cinematograf n ultimele ase luni? Rspunsurile la aceast ntrebare au fost
nregistrate pe o scal ordinal cu urmtoarele categorii: 1. Deloc, 2. Foarte rar, 3. Rar,
4. Des, 5. Foarte des. Aranjnd scorurile n ordine descresctoare, datele sunt
urmtoarele:

Tabelul 3.5 Ct de des mergei la cinematograf?

Subiectul Rspunsul
A Foarte des
B Foarte des
C Foarte des
D Foarte des
E Foarte des
F Des
G Foarte rar
H Foarte rar
I Foarte rar
J Foarte rar
K De loc

Avnd un total de 11 cazuri, cazul de mijloc este al 6-lea, F, aa nct rspunsul median
este scorul celui de-al aselea caz: Des. Dac adugm un subiect care d rspunsul De
loc, avem dou cazuri de mijloc: cel de-al 6-lea, F, i cel de-al 7-lea, G. n aceast
situaie, teoretic vorbind, orice rspuns ntre Des i Foarte rar satisface definiia
medianei. Practic, pe scala menionat, ntre Des i Foarte rar avem rspunsul Rar, pe
care l vom considera drept rspuns median: 6 subieci merg la cinematograf foarte des
sau des, iar ceilali ase subieci merg la cinematograf foarte rar sau deloc.
Dac numrul de cazuri din eantion este relativ mic, identificarea cazului sau
cazurilor de mijloc este neproblematic. Pentru eantioane mari, identificarea
menionat poate fi nlesnit prin folosirea unor calcule simple. Astfel, dup ordonarea
scorurilor, dac n este impar, cazul de mijloc este dat de formula (n 1) 2 ; dac n este
par, primul caz de mijloc este dat de formula n 2 , iar cel de-al doilea caz de mijloc de
formula (n 2) 1 . Ca exerciiu, determinai mediana scorurilor din tabelul 2.4 din
capitolul anterior. (Putei folosi tabelul 2.5? Dac da, cum?)
De notat c mediana nu este tras n direcia valorilor extreme, deoarece
aceast mrime ia n considerare doar ordinea scorurilor, nu i magnitudinea efectiv a
acestora10. Relund un exemplu dat mai sus, mulimea de scoruri 15, 20, 25, 30, 35 are
aceeai median ca i mulimea 15, 20, 25, 30, 3500: scorul 25. S mai remarcm c
mediana i media aritmetic ale unei mulimi de scoruri pot s coincid, acesta fiind, de
pild, cazul mulimii 15, 20, 25, 30, 35.
Mediana nu poate fi determinat pentru variabile de nivel nominal, deoarece
aceste variabile nu au scoruri care s poat fi ordonate. Mrimea tendinei centrale care
poate fi folosit la nivel nominal, ca i la toate celelalte nivele de msur, este modul.

3.1.3 MODUL

Modul unei mulimi de scoruri (Mo) este scorul care apare cel mai frecvent n
acea mulime. De pild, modul datelor din tabelul 3.4 este 2, deoarece este scorul care
apare de cele mai multe ori n eantionul considerat, iar modul datelor din tabelul 3.5
sau, altfel spus, rspunsul modal, este Foarte des, deoarece este rspunsul care apare de
cele mai multe ori n raport cu celelalte rspunsuri.
Modul este singura mrime care poate fi folosit n msurarea tendinei centrale
pentru variabile de nivel nominal. Modul unei astfel de variabile este cea mai mare
categorie a sa sau, altfel spus, categoria cu cele mai multe cazuri. De pild, modul
variabilei status marital pentru distribuia din tabelul 2.10 din capitolul anterior este
categoria Cstorit.
Exemplele date pn acum ilustreaz cazul mulimilor unimodale de scoruri,
adic a mulimilor n care exist un singur scor care apare mai frecvent dect celelalte.
Dac ntr-o mulime de scoruri exist dou astfel de scoruri, ca n exemplul

3, 3, 3, 5, 5, 5, 7, 10, 12,

atunci se spune c mulimea respectiv este bimodal. Desigur, este posibil ca o


mulime de scoruri s aib trei sau mai multe moduri, dup cum este posibil ca o
mulime de scoruri s nu aib mod, fiecare scor din mulimea respectiv aprnd de un
numr egal de ori. Pe de alt parte, este posibil ca o mulime unimodal s nu aib
modul localizat la mijloc. Fie, de pild, urmtoarea mulime de scoruri:

44, 44, 46, 46, 46, 48, 50, 50, 50, 50, 50.

Modul aceste mulimi este 50, n timp ce mediana este 48, iar media aritmetic este
aproximativ 47,6. Pretenia c modul este o mrime a tendinei centrale trebuie s fie
neleas n sensul c aceast mrime indic localizarea celei mai mari grupri sau
concentrri de scoruri dintr-o mulime unimodal, ceea ce se poate dovedi important n
special pentru date de nivel nominal. S presupunem c ultima mulime de scoruri de
mai sus reprezint o nregistrare a msurilor sacourilor vndute ntr-un magazin timp de
o sptmn. Astfel, modul msurilor de sacouri vndute sau, altfel spus, msura
modal a acestora este de mai mare interes pentru directorul magazinului dect mediana
msurilor de sacouri vndute. Pe de alt parte, s observm c n acest caz, media
aritmetic a scorurilor nu este n nici un fel semnificativ: numerele care indic msuri
de sacouri sunt convenionale, astfel c ele puteau fi nlocuite, de pild, cu litere.

10
Acesta este i motivul pentru care mediana se folosete cu precdere pentru date ordinale.
3.1.4 DISTRIBUII SIMETRICE I DISTRIBUII ASIMETRICE

Dup cum am artat, dac lucrm cu date nominale, singura mrime a tendinei
centrale pe care o putem folosi este modul, dac datele sunt ordinale, putem folosi att
modul, ct i mediana, iar dac datele sunt de interval sau de raport, putem folosi toate
cele trei mrimi ale tendinei centrale.
Dup cum vom vedea n capitolele dedicate statisticii infereniale, la nivel de
interval sau de raport media aritmetic este cu deosebire util pentru trage concluzii
despre caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale unui
eantion din acea populaie. Pentru scopuri descriptive ns, dac lucrm cu date de
interval sau de raport, este recomandabil s folosim toate mrimile tendinei centrale,
deoarece, pe de o parte, ele pot furniza informaii relativ diferite i, pe de alt parte,
compararea valorilor mediei aritmetice i medianei furnizeaz informaie despre forma
unei distribuii. Astfel, media aritmetic i mediana au aceeai valoare numai atunci
cnd distribuia este simetric. ntr-un astfel de caz, dac distribuia este unimodal,
atunci i modul are aceeai valoare cu celelalte dou mrimi. S considerm urmtorul
poligon de frecvene rotunjit, care prezint o distribuie de frecvene simetric:
~
Figura 3.1 O distribuie simetric ( X = X )
Frecvena

~
X, X

n aceast distribuie, media aritmetic, mediana i modul apar mpreun n cel mai nalt
punct al curbei. Acest punct este modul, deoarece este punctul n care sunt nregistrate
cele mai multe cazuri, este mediana, deoarece numrul de cazuri nregistrate la stnga
acestui punct este egal cu numrul de cazuri nregistrat la dreapta sa i este media
aritmetic, deoarece scorurile aflate n partea dreapt ntrec scorul median n aceeai
msur n care scorurile aflate n partea stng sunt mai mici dect scorul median.
Atunci cnd o distribuie are doar cteva scoruri foarte mari sau, altfel spus,
scorurile relativ mici sunt predominante, media aritmetic este mai mare dect mediana.
ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie pozitiv.
Figura 3.2 ilustreaz cazul unei distribuii cu asimetrie pozitiv.
~
Figura 3.2 O distribuie cu asimetrie pozitiv ( X X )

Frecvena

~
X X

Atunci cnd o distribuie are doar cteva scoruri foarte mici sau, altfel spus,
scorurile relativ mari sunt predominante, media aritmetic este mai mic dect mediana.
ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie negativ.
Figura 3.3 ilustreaz cazul unei distribuii cu asimetrie negativ.
~
Figura 3.3 O distribuie cu asimetrie negativ ( X X )
Frecvena

~
X X

Dup cum se poate constata, compararea mediei aritmetice cu mediana ne indic


imediat dac distribuia respectiv este sau nu simetric i dac nu, ne indic sensul
asimetriei.

3.1.5 MEDIA ARITMETIC PONDERAT

S presupunem c ntr-o serie de 140 de studeni sunt 86 de biei i 54 de fete.


tim c la examenul de statistic, media aritmetic a notelor obinute de fete este 8,45 i
media aritmetic a notelor obinute de biei este 7,33. Ne intereseaz media aritmetic
a celor dou grupuri combinate. Dac am calcula pur i simplu media aritmetic a celor
dou medii, am grei, deoarece grupurile difer n privina numrului de studeni i deci
de scoruri. Pentru a afla media aritmetic a celor dou grupuri combinate, vom calcula
media aritmetic ponderat. Pentru aceasta, nmulim numrul de scoruri din fiecare
grup cu media aritmetic a grupului respectiv, adunm produsele astfel obinute, iar
rezultatul l mprim la numrul total de scoruri. n simboluri:
Formula 3.2 X
n Xi i

N
n care ni = numrul de scoruri din fiecare grup
X i = media aritmetic a fiecrui grup
N = numrul total de scoruri

n exemplul nostru avem:

X
n X i i
=
(86 7,33) (54 8,45) 1086,68
= = 7,76
N 140 140

Dac am fi fcut media aritmetic a valorilor 7,33 i 8,45 am fi obinut 7,89,


ceea ce ar fi fost incorect, cci grupurile difer n privina numrului de scoruri.
Evident, media aritmetic ponderat poate fi calculat i pentru mai mult de dou
grupuri.
Este important de remarcat c, aplicate la aceeai mulime de scoruri, formulele
3.1 i 3.2 produc acelai rezultat. Pentru ilustrare, fie urmtoarea mulime de 10 scoruri,
mprit n dou grupuri: n1 = 5, 5, 5, 6, 7, 7, n2 = 7, 8, 9, 10. Media aritmetic
pentru ntreaga mulime este

X=
X i
=
(5 3) 6 (7 3) 8 9 10
=
69
= 6,90
n 10 10

Acum, mediile aritmetice ale celor dou grupuri sunt, respectiv, X 1 = 5,83 i X 2 = 8,50,
astfel c media aritmetic ponderat a celor dou grupuri este

X
n X i i
=
(6 5,83) (4 8,50) 35 34
= =
69
= 6,90
N 10 10 10

nc odat, calculul mediei aritmetice a celor dou medii conduce la un rezultat greit:
7,16.

3.1.6 MRIMILE TENDINEI CENTRALE PENTRU DATE GRUPATE

n cele ce urmeaz sunt expuse tehnicile statistice de aflare a mrimilor tendinei


centrale pentru date de interval sau de raport grupate n distribuii de frecvene. Aceste
tehnici i dovedesc utilitatea n dou situaii. O prim situaie apare atunci cnd trebuie
s lucrm cu o mulime mare de scoruri brute i nu dispunem de un calculator sau de un
computer sau decidem c valorile aproximative ale acestor mrimi sunt suficiente
pentru scopurile noastre. O a doua situaie apare atunci cnd avem de-a face cu date din
surse secundare, deja organizate n distribuii de frecvene cu intervale de clas, fr s
avem acces la scorurile brute iniiale. ntr-o astfel de situaie, ntruct nu cunoatem
modul n care scorurile sunt realmente distribuite, nu putem dect s aproximm
mrimile tendinei centrale ale distribuiilor respective.
Pentru ilustrare, s considerm exemplul privind scorurile obinute de 180 de
subieci la un test de cunotine, pe care am lucrat n capitolul anterior. nainte de a trece
mai departe, prezentm valorile calculate pentru scorurile brute, pentru a le putea
compara cu cele calculate pentru datele grupate. Astfel, n exemplul nostru avem:
~
X = 49,22 X = 49 Mo = 56

S considerm acum distribuia de frecvene a scorurilor obinute de 180 de


subieci la un teste de cunotine:

Tabelul 3.6 Distribuia de frecvene a scorurilor


obinute la un test de cunotine

Intervale de f
clas
2024 1
2529 2
3034 7
3539 18
4044 22
4549 42
5054 30
5559 37
6064 15
6569 6
TOTAL 180

Media aritmetic pentru date grupate

Pentru a calcula media aritmetic a unei mulimi de scoruri trebuie s cunoatem


dou valori: suma tuturor scorurilor, Xi, i numrul de scoruri, n. n cazul distribuiei
din tabelul 3.6, nu tim dect c n = 180. Deoarece datele au fost grupate, nu cunoatem
distribuia exact a scorurilor individuale i deci nu putem determina exact Xi.
S considerm primul interval (2024). n acest interval se afl un singur caz,
dar nu tim care este scorul acestuia. Pentru a depi aceast lacun, vom presupune c
scorul acestui caz este situat n centrul intervalului. Aceast presupunere revine la a
spune c scorul cazului din acest interval este 22, acest numr aproximnd scorul su
efectiv. n cel de-al doilea interval (2529) se afl dou cazuri. i aici vom presupune c
scorurile celor dou cazuri sunt situate n centrul intervalului, presupunere care revine la
a spune c fiecare dintre cele dou cazuri are scorul 27. Sub aceast presupunere, suma
scorurilor individuale din cel de-al doilea interval este 54 (272), acest numr
aproximnd suma real a scorurilor individuale din interval. Procednd la fel pentru
celelalte intervale i adunnd apoi rezultatele, vom obine un numr care aproximeaz
suma real a tuturor scorurilor individuale. n fine, mprind valoarea astfel obinut la
numrul de scoruri (180), vom obine media aritmetic aproximativ a scorurilor.
n general, supoziia calculului mediei aritmetice pentru date grupate este c n
fiecare interval de clas, toate scorurile sunt situate n centrul intervalului respectiv. Sub
aceast supoziie, procedura de calcul este urmtoarea:
1. Pentru fiecare interval i, se calculeaz centrul mi.

2. Numrul de cazuri din fiecare interval, fi, se nmulete cu centrul


intervalului respectiv, mi: fimi.

3. Se calculeaz fimi, iar valoarea astfel obinut se mparte la numrul de


scoruri n.

ntruct fimi Xi, vom avea:

Formula 3.3 X
fm i i

Pentru a aplica aceast procedur la exemplul nostru, vom aduga dou coloane
la distribuia de frecvene din tabelul 3.6, una pentru centrele de interval i una pentru
produsele dintre centrele de interval i frecvene:

Tabelul 3.7 Calculul mediei aritmetice


pentru date grupate

Intervale de f m fm
clas
2024 1 22 22
2529 2 27 54
3034 7 32 224
3539 18 37 666
4044 22 42 924
4549 42 47 1974
5054 30 52 1560
5559 37 57 2109
6064 15 62 930
6569 6 67 402
TOTAL 180 8865

Totalul ultimei coloane este valoarea pentru fimi. mprind aceast valoare la numrul
total de cazuri obinem media aritmetic aproximativ a scorurilor:

X
fm i i
=
8865
= 49,25
n 180

Dup cum se poate constata, valoarea obinut n acest fel reprezint o deosebit de bun
aproximare a valorii efective a mediei aritmetice.
Mediana pentru date grupate

tim c pentru a afla mediana unei distribuii ordonate de scoruri trebuie s


identificm mai nti cazul sau cazurile de mijloc al distribuiei respective. Atunci cnd
se lucreaz cu date grupate, se introduce o simplificare: cazul de mijloc este identificat
la n2, indiferent dac n este par sau impar. n exemplul nostru, avnd 180 de cazuri n
eantion, cazul de mijloc va fi identificat la 1802, i.e. al 90-lea caz. Mai departe,
problema este de a localiza acest caz i apoi de a afla scorul asociat lui. Evident, atunci
cnd datele sunt grupate, cazul de mijloc se afl ntr-un interval de clas. Supoziia
calculului medianei pentru date grupate este c n fiecare interval de clas, toate
scorurile sunt distribuite uniform ntre limitele reale ale intervalului. Astfel, dup ce
identificm intervalul care conine cazul de mijloc, vom afla scorul respectiv pe baza
acestei supoziii. Pentru identificarea intervalului de clas care conine cazul de mijloc,
adugm o coloan de frecvene cumulate la distribuia de frecvene iniial:

Tabelul 3.8 Calculul medianei


pentru date grupate

Intervale de f fc
clas
2024 1 1
2529 2 3
3034 7 10
3539 18 28
4044 22 50
4549 42 92
5054 30 122
5559 37 159
6064 15 174
6569 6 180
TOTAL 180

Inspectnd coloana de frecvene cumulate, constatm c 50 de cazuri s-au


cumulat sub limita superioar a intervalului 4044 i c 92 de cazuri s-au cumulat sub
limita superioar a intervalului 4549. tim acum c mediana scorul asociat celui de-
al 90-lea caz este o valoare cuprins ntre limita real inferioar i limita real
superioar ale intervalului 4549, adic ntre 44,5 i 49,5. Mai departe, presupunem c
toate cele 42 de cazuri situate n acest interval sunt distribuite uniform ntre limitele
reale ale intervalului, cazul 51 fiind situat la limita real inferioar (44,5), iar cazul 92 la
limita real superioar (49,5). n intervalul care conine mediana sunt 42 de cazuri, cazul
92, cumulat n acest interval, fiind al 42-lea; prin urmare, cazul 90 este al 40-lea din cele
42 din interval11. Aceasta revine la a spune c, pentru a afla al ctelea caz este cazul 90,
scdem din 90 frecvena cumulat a cazurilor aflate sub intervalul n care se afl
mediana: 90 50 = 40. Dac, aa cum am presupus, scorurile sunt distribuite uniform,
atunci cazul 90 se afl la 4042 din distana dintre 44,5 i 49,5. Acum, 4042 din 5
(mrimea intervalului) este 4,76, astfel nct putem aproxima mediana la 44,5 + 4,76
sau 49,26.

11
Cu alte cuvinte, cazul 51 este primul, 52 al doilea, , 90 al 40-lea.
n general, sub supoziia c n fiecare interval de clas toate scorurile sunt
distribuite uniform ntre limitele reale ale intervalului, procedura de calcul a medianei
pentru date grupate este urmtoarea:

1. Se afl cazul de mijloc, dat de n/2.

2. Se construiete o coloan de frecvene cumulate i cu ajutorul acesteia se


identific intervalul care conine cazul de mijloc.

3. Se afl al ctelea caz din interval este cazul de mijloc, scznd din n/2
frecvena cumulat a cazurilor aflate sub intervalul identificat n pasul2.

4. Numrul obinut n pasul 3 se mparte la numrul de cazuri din interval.

5. Numrul obinut n pasul 4 se nmulete cu mrimea intervalului.

6. Numrul obinut n pasul 5 se adun cu limita de clas real inferioar a


intervalului care conine cazul de mijloc. Rezultatul reprezint valoarea
aproximativ a medianei.

Formula urmtoare rezum aceti pai:


~ n 2 fc i
Formula 3.4 X LCRI X i
fi
n care LCRI X~ = limita de clas real inferioar a intervalului care conine al n2-lea caz
n = numrul total de cazuri
fci = frecvena cumulat sub intervalul care conine al n2-lea caz
fi = numrul de cazuri din intervalul care conine al n2-lea caz
i = mrimea intervalului care conine al n2-lea caz

Aplicnd aceast formul la exemplul nostru, avem:

~ n 2 fc i (180 2) 50
X LCRI X i = 44,5 5 = 44,5 + 4,76 = 49,26
fi 42

Vom spune c aproximativ jumtate din subiecii din eantion au obinut un scor mai
mic de 49,26 i jumtate mai mare de 49,26. i de data aceasta se poate constata c
valoarea obinut n acest fel reprezint o foarte bun aproximare a valorii efective a
medianei.

Intervalul modal

Atunci cnd datele sunt grupate, scorul modal efectiv al distribuiei de frecvene
respective nu poate fi determinat. ntr-o astfel de situaie se poate determina doar
intervalul modal intervalul care conine cel mai mare numr de cazuri , centrul
acestui interval fiind considerat modul distribuiei. Pentru o mai bun aproximare a
modului unei distribuii cu date grupate, n cazul n care distribuia are dou sau mai
multe intervale neadiacente n care numrul de scoruri este mai mare dect n intervalele
adiacente, atunci distribuia respectiv este considerat multimodal (bimodal,
trimodal etc.). n exemplul nostru, conform definiiei stricte, intervalul modal este 45
49, astfel c centrul acestui interval, 47, apare ca mod al distribuiei. Totui, ntruct aici
apar dou intervale neadiacente, 4549 i 5559, n care numrul de scoruri este mai
mare dect n intervalele adiacente, 42 i respectiv 37, vom considera c distribuia este
bimodal, cele dou moduri fiind centrele de interval respective: 47 i 57. Se poate
constata c intervalul 5559 conine modul efectiv al distribuiei de frecvene, 56.

3.2 PERCENTILE

Mrimile tendinei centrale furnizeaz informaii despre mulimi de scoruri. n


anumite cazuri ns, cercettorul poate fi interesat de descrierea poziiei unui scor
individual n raport cu celelalte scoruri dintr-o distribuie. Dac, de pild, un subiect a
obinut scorul 47 la un test de cunotine, semnificaia acestui scor poate fi explicat
inclusiv n termenii numrului de subieci din eantionul considerat care au obinut
scoruri mai mici dect 47.
Poziia unui scor individual ntr-o distribuie poate fi determinat cu ajutorul
percentilelor. Cea de-a m-a percentil a unei mulimi de scoruri, Pm, este valoarea fa
de care cel mult m% din scoruri sunt mai mici dect m i cel mult (100 m)% din
scoruri sunt mai mari dect m. ntruct mediana unei mulimi de scoruri este valoarea
fa de care cel mult 50% din scoruri sunt mai mici i cel mult 50% din scoruri sunt mai
mari, mediana este cea de-a 50-a percentil a acelei mulimi. Tot aa cum exist un
nume special pentru cea de-a 50-a percentil a unei mulimi de scoruri, exist nume
speciale pentru percentilele care mpart o mulime ordonat de scoruri n sferturi i n
zecimi: cuartile12 i, respectiv, decile. Lista urmtoare prezint cele mai utilizate
percentile, mpreun cu simbolurile uzuale pentru cuartile i decile (considernd c este
vorba despre o mulime de scoruri ordonat cresctor):

D1 = Prima decil = P10


Q1 = Prima cuartil = P25
~
Q2 = A doua cuartil = P50 = X
Q3 = A treia cuartil = P75
D9 = A noua decil = P90

Pentru ilustrare, fie urmtoarea mulime ordonat de 15 scoruri:

2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30


~
Q1 X Q3

Prima cuartil este valoarea fa de care cel mult 25% din scoruri, i.e. cel mult
(15/100)25 = 3,75 scoruri sunt mai mici i cel mult 75% din scoruri, i.e. cel mult
(15/100)75 = 11,25 scoruri sunt mai mari. Singurul scor care satisface acest criteriu este
5, deci Q1 = 5. Cea de-a doua cuartil, mediana, este scorul central, i.e. 12. Cea de-a
treia cuartil este valoarea fa de care cel mult 75% din scoruri, i.e. cel mult 11, 25

12
Cuartilele sunt valori care mpart o mulime ordonat de scoruri n patru pri egale. n practic,
termenul cuartil se folosete adesea pentru referire la unul dintre aceste sferturi.
scoruri sunt mai mici i cel mult 25% din scoruri, i.e. 3,75 scoruri sunt mai mari.
Singurul scor care satisface acest criteriu este 21, deci Q3 = 21.
De notat c (n/100)25 = n(0,25), iar (n/100)75 = n(0,75). Ca atare, pentru Q1
putem folosi formula n(0,25), iar pentru Q3 formula n(0,75) sau, echivalent, n n(0,25).
n exemplul nostru, n(0,25) = 3,75 i n(0,75) = n n(0,25) = 11,25.
Uneori, percentila cutat cade ntre dou scoruri din mulimea respectiv.
ntr-un astfel de caz, prin convenie, se alege media aritmetic a celor dou scoruri
pentru a aproxima percentila cutat. S presupunem c ne intereseaz ce-a de-a 20-a
percentil din mulimea de mai sus. Aceasta ar fi valoarea fa de care cel mult 3 scoruri
sunt mai mici i cel mult 12 scoruri sunt mai mari. ntruct orice numr cuprins ntre 4
i 5 (inclusiv) satisface acest criteriu, vom alege 4,50 drept ce-a de-a 20-a percentil.
Procedura de calcul a percentilelor pentru date grupate este asemntoare
procedurii de calcul a medianei pentru date grupate. S considerm din nou distribuia
de frecvene a scorurilor obinute la un test de cunotine de 180 de subieci i s
presupunem c ne intereseaz cea de-a 75-a percentil. Pentru a o afla, vom folosi
tabelul 3.8, care include o coloan de frecvene cumulate.
Mai nti, identificm intervalul de clas care conine percentila cutat. Avnd
180 de scoruri individuale n eantion, P75 este valoarea fa de care cel mult 135 (180
0,75) de scoruri sunt mai mici i cel mult 45 (180 135) de scoruri sunt mai mari. Ca
atare, intervalul de clas care conine percentila cutat este cel care conine valoarea
fa de care cel mult 135 (180 0,75) de scoruri sunt mai mici. Inspectnd coloana de
frecvene cumulate din tabelul 3.8, constatm c 122 de cazuri sau scoruri s-au cumulat
sub limita superioar a intervalului 5054 i c 159 de cazuri sau scoruri s-au cumulat
sub limita superioar a intervalului 5559. tim acum c P75 este o valoare cuprins
ntre limita real inferioar i limita real superioar ale intervalului 5559, adic ntre
54,5 i 59,5. Mai departe, presupunem c toate cele 37 de cazuri situate n acest interval
sunt distribuite uniform ntre limitele reale ale intervalului, cazul 123 fiind situat la
limita real inferioar (54,5), iar cazul 159 la limita real superioar (59,5). n intervalul
care conine P75 sunt 37 de cazuri, cazul 135 fiind al 13-lea: cazul 123 este primul, 124
al doilea, , 135 al 13-lea. Aceasta revine la a spune c, pentru a afla al ctelea caz este
cazul 135, scdem din 135 frecvena cumulat a cazurilor aflate sub intervalul n care se
afl cazul 135: 135 122 = 13. Dac, aa cum am presupus, scorurile sunt distribuite
uniform, atunci cazul 135 se afl la 1337 din distana dintre 54,5 i 59,5. Acum, 1337
din 5 (mrimea intervalului) este 1,75, aa nct putem aproxima P75 la 54,5 + 1,75 sau
56,25.
Formula urmtoare rezum paii de calcul al percentilelor pentru date grupate:

np fc i
Formula 3.5 Pm LCRIm + i
fi
n care LCRIm = limita de clas real inferioar a intervalului care conine Pm
n = numrul total de scoruri
p = proporia corespunztoare percentilei cutate Pm
fci = frecvena cumulat sub intervalul care conine Pm
fi = numrul de cazuri din intervalul care conine Pm
i = mrimea intervalului
Aplicnd formula 3.5 la exemplul nostru, avem:

(180 0,75) 122


P75 54,5 + 5 = 54,5 + 1,75 = 56,25
37

S presupunem acum c ne intereseaz procentul de subieci care au obinut un


scor mai mic sau egal cu 47 i c nu dispunem dect de datele grupate din tabelul 3.8.
Procentul de cazuri care au un scor mai mic sau egal cu un scor dat se numete rangul
percentilei scorului respectiv.
Pentru a afla rangul percentilei pentru scorul 47, notat RP47, observm mai nti
c acest scor este cuprins n intervalul 4549 i c 50 de cazuri s-au cumulat sub limita
real inferioar a acestui interval, 44,5. Ca i pn acum, vom presupune c toate cele
42 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale ale
intervalului. Sub aceast presupunere, proporia de cazuri din interval care au scoruri
mai mici sau egale cu 47 este (47,0 44,5)/5 = 2,5/5 = 0,5. Ca atare, n acest interval
sunt 42 0,5 = 21 de scoruri mai mici sau egale cu 47. Prin urmare, numrul total de
scoruri mai mici sau egale cu 47 este 50 + 21 = 71, iar rangul percentilei scorului 47
poate fi aproximat la (71/180) 100 = 39,4. Aceasta nseamn c 39,4% din cazuri au
un scor mai mic sau egal cu scorul 47.
Urmtoarea formul rezum paii de calcul al rangului percentilelor pentru date
grupate:

X LCRI X
fc i fi
i
Formula 3.6 RPX 100
n
n care fci = frecvena cumulat sub intervalul care conine scorul X
X = scorul pentru care se determin RPX.
LCRIX = limita de clas real inferioar a intervalului care conine scorul X
i = mrimea intervalului
fi = numrul de cazuri din intervalul care conine scorul X
n = numrul total de cazuri

Aplicnd aceast formul la exemplul nostru, avem:

47 44,5
50 42
5 50 21
RP47 100 = 100 = 39,4
180 180

Percentilele i rangul percentilelor pentru date grupate pot fi aproximate i


folosind ogivele. Pentru exemplificare, s folosim ogiva construit n capitolul anterior
pentru scorurile celor 180 de subieci:
Figura 3.4 Ogiv pentru scorurile obinute
la un test de cunotine

100
90
80
Procente cumulate

70
60
50
40
30
20
10
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)

Pentru a afla, de pild, P58, din punctul 58 de pe axa procentelor trasm o paralel cu
axa scorurilor care s intersecteze curba, iar din punctul de intersecie trasm o
perpendicular pe axa scorurilor. Punctul de intersecie al acestei perpendiculare cu axa
scorurilor este P58. Pentru a afla RP62, din punctul 62 de pe axa scorurilor trasm o
paralel cu axa procentelor care s intersecteze curba, iar din punctul de intersecie
trasm o perpendicular pe axa procentelor. Punctul de intersecie al acestei
perpendiculare cu axa procentelor este RP62.

3.3 MRIMILE DISPERSIEI

Descrierea unei distribuii de scoruri cu ajutorul mrimilor tendinei centrale nu


epuizeaz informaia relevant statistic despre distribuia respectiv. Pentru descrierea
complet a unei distribuii de scoruri trebuie s considerm i mrimile dispersiei.
Aceste mrimi furnizeaz informaie despre eterogenitatea sau varietatea unei distribuii
de scoruri.
De pild, o medie aritmetic de 6,33 poate fi obinut dintr-o mulime de scoruri
similare, concentrate n jurul acestei valori precum 6, 6, 7 sau dintr-o mulime de
scoruri nesimilare, mprtiate n raport cu aceast valoare precum 1, 8, 10. n cazul
unor scoruri similare sau cu variabilitate sczut, media aritmetic este mai adecvat
pentru msurarea tendinei centrale dect n cazul unor scoruri nesimilare sau cu
variabilitate nalt. Lund un exemplu pur didactic, informaia conform creia media
aritmetic a vrstelor dintr-un eantion este de 25 de ani este relevant dac vrstele
subiecilor din eantion sunt relativ grupate n jurul aceste valori i este neimportant
dac eantionul respectiv este alctuit din dou grupuri, unul cu vrste cuprinse ntre 1
i 10 ani, cellalt cu vrste cuprinse ntre 40 i 50 de ani.
n aceast seciune sunt introduse cele mai des folosite mrimi ale dispersiei:
indicele variaiei calitative, amplitudinea i amplitudinea intercuartilic, abaterea medie,
variana, abaterea standard i coeficientul de variaie. Fiecare dintre aceste mrimi
furnizeaz o indicaie precis a eterogenitii unei distribuii de scoruri.
3.3.1 INDICELE VARIAIEI CALITATIVE

Indicele variaiei calitative (IQV)13 reprezint raportul dintre variaia observat


efectiv ntr-o distribuie de scoruri i variaia maxim posibil pentru acea distribuie.
IQV poate lua valori cuprinse ntre 0,00 (nici o variaie sau variaie nul) i 1,00
(variaie maxim). Acest indice se folosete n mod obinuit pentru variabile msurate la
nivel nominal, putnd fi utilizat i pentru variabile msurate la celelalte nivele, dac
scorurile respective sunt grupate n distribuii de frecvene.
Pentru ilustrare, s presupunem c un cercettor este interesat n compararea
eterogenitii religioase a trei colectiviti A, B i C , datele obinute fiind cele din
tabelul urmtor:

Tabelul 3.9 Apartenena religioas n trei colectiviti

Colectivitatea
Denominaia A B C
Cretin 90 60 30
ortodox
Catolic 0 20 30
Altele 0 10 30
TOTAL 90 90 90

Simpla inspecie a datelor din acest tabel arat c, dintre cele trei colectiviti, A
este cea mai puin eterogen. Mai exact, eterogenitatea religioas n colectivitatea A este
nul, ntruct toi membrii acestei colectiviti sunt cretinortodoci. Apoi,
colectivitatea C este cea mai eterogen, B situndu-se ntre A i C. S vedem acum cum
sunt reflectate aceste observaii de ctre IQV, a crui formul de calcul este urmtoarea:

k (n 2 f 2 )
Formula 3.7 IQV =
n 2 (k 1)
n care k = numrul de categorii
n = numrul total de cazuri din cele k categorii
f 2 = suma ptratelor frecvenelor din fiecare categorie
S aplicm aceast formul la fiecare dintre cele trei distribuii de frecvene.
Pentru aceasta, trebuie s calculm mai nti suma ptratelor frecvenelor respective.
Astfel, pentru colectivitatea A, avem:

f 2
= 902 + 02 + 02 = 8100

3(90 2 8100) 3(8100 8100) 30 0


IQV = 0
90 (3 1)
2
8100 2 16200 16200

13
Prescurtare de la denumirea acestei mrimi n limba englez: Index of Qualitative Variation.
ntruct valorile pentru k i n sunt aceleai n toate cele trei distribuii, IQV
pentru celelalte dou colectiviti poate fi calculat schimbnd doar valorile pentru
f 2 . Pentru colectivitatea B, avem:
f 2
= 602 + 202 + 102 = 4100

3(8100 4100) 3 4000 12000


IQV = 0,74
16200 16200 16200

Pentru colectivitatea C:

f 2
= 302 + 302 + 302 = 2700

3(8100 2700) 3 5400 16200


IQV = 1,00
16200 16200 16200

Dup cum se poate constata, IQV reflect cantitativ i precis observaiile de mai
sus. Colectivitatea A prezint o variaie nul a variabilei msurate (IQV = 0),
colectivitatea C prezint variaia maxim posibil pentru aceste date (IQV = 1,00), iar
colectivitatea B se situeaz ntre A i C, cu o variaie substanial (IQV = 0,74).

3.3.2 AMPLITUDINEA I AMPLITUDINEA INTERCUARTILIC

Amplitudinea (A) este o mrime a dispersiei uor de calculat, cu care ne-am


ntlnit deja n capitolul anterior, definit drept diferena dintre cel mai mare scor i cel
mai mic scor din mulimea scorurilor date:

A = Xmax Xmin

Pentru datele din tabelul 2.4, de pild, A = 69 24 = 45. n cazul unei distribuii de
frecvene cu date grupate, amplitudinea absolut se aproximeaz prin diferena dintre
limita de clas real superioar a ultimului interval i limita de clas real inferioar a
primului interval14:

A = LCRSmax LCRImin

Astfel, pentru datele din tabelul 3.6, A 69,5 19,5 = 50.


Amplitudinea intercuartilic (Q) se definete ca diferena dintre cea de-a treia
i prima cuartil a unei distribuii de scoruri ordonate cresctor:

Q = Q3 Q1

S considerm din nou un exemplu prezentat n seciunea 3.2. Fie urmtoarea mulime
ordonat de 15 scoruri:

14
Considernd intervalele de clas n ordine cresctoare.
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
~
Q1 X Q3

n acest exemplu, A = 30 2 = 28 i Q = 21 5 = 16.


ntruct ia n considerare doar scorurile extreme dintr-o distribuie, A nu este o
mrime suficient de semnificativ a dispersiei. Pot fi ntlnite distribuii n care scorurile
extreme sunt foarte deprtate de scorurile intermediare, caz n care aprecierea dispersiei
pe baza amplitudinii este o greeal. De asemenea, amplitudinea nu ofer informaii
despre natura scorurilor dintre cele dou extreme: dac scorurile sunt grupate n centrul
distribuiei, dac sunt mprtiate omogen ntre cele dou scoruri extreme, dac sunt
concentrate n dou grupe, cte una lng fiecare extrem, distribuia fiind bimodal etc.
Q ia n considerare 50% dintre cazurile aflate n centrul distribuiei15 i astfel evit
problema de a fi o mrime bazat pe scorurile extreme. Pe de alt parte, ntruct, ca i A,
ia n considerare doar dou scoruri dintr-o distribuie, Q nu ofer informaie despre
natura scorurilor dintre cele dou scoruri considerate, astfel c mprtete celelalte
dezavantaje asociate cu A. Totui, aceste mrimi sunt utile atunci cnd dorim s obinem
rapid o msur a variabilitii unei distribuii i, mai ales, atunci cnd dorim s realizm
rapid o comparaie ntre variabilitile a dou distribuii cu un numr egal de scoruri. S
presupunem, de pild, c am nregistrat vrstele subiecilor din dou eantioane,
obinnd urmtoarele date:

Eantionul 1 11, 16, 18, 23, 29, 31, 37


Eantionul 2 18, 19, 21, 23, 24, 26, 29

Mediile aritmetice pentru cele dou eantioane sunt X 1 23,57 i X 2 22,86 ,


mediana fiind aceeai pentru ambele eantioane: 23. ntruct amplitudinea vrstelor din
primul eantion, 26, este mai mare dect amplitudinea vrstelor din cel de-al doilea
eantion, 11, primul eantion este mai eterogen din punctul de vedere al vrstelor.16

3.3.3 ABATEREA MEDIE I VARIANA

Mrimile dispersiei expuse n continuare capteaz ideea de variabilitate a unei


distribuii de scoruri de interval sau de raport fa de centrul acelei distribuii, mai
precis, fa de media sa aritmetic i folosesc toate scorurile distribuiei.
tim c ntr-o distribuie de scoruri de interval sau de raport cu media aritmetic
X , diferena Xi X reprezint abaterea scorului Xi fa de media aritmetic X . O
sugestie pentru a obine o mrime mai adecvat a dispersiei ar fi s nsumm toate
abaterile scorurilor individuale fa de medie i s mprim suma astfel obinut la
numrul total de scoruri, n. Mai tim, ns, c pentru orice distribuie de scoruri, suma
abaterilor scorurilor de la media lor aritmetic este egal cu zero, ( X i X ) = 0,
astfel c rezultatul mpririi acestei sume la n ar fi ntotdeauna 0. Pentru a folosi cumva

15
Amintii-v c Q1 = P25 i Q3 = P75.
16
De notat c uneori, mrimea A este numit amplitudine absolut, prin contrast cu amplitudinea relativ
(A%), definit ca raportul dintre amplitudinea absolut a unei mulimi de scoruri i media sa aritmetic.
De obicei, amplitudinea relativ se nmulete cu 100 i se prezint ca procent. Amplitudinea relativ nu
are ntotdeauna sens intuitiv atunci cnd se dorete aprecierea omogenitii unei singure distribuii; de
pild, n cazul eantionului 1 din ultimul exemplu de mai sus, A% = 110%.
sugestia menionat, avem la dispoziie dou posibiliti: sau neglijm semnele
abaterilor, considernd valorile absolute ale acestora17, sau ridicm la ptrat abaterile,
ntruct dac se nmulesc dou numere care au semnul minus, produsul este pozitiv.
Prima posibilitate conduce la o mrime a dispersiei, numit abaterea medie i
notat cu d , a crei formul de calcul este urmtoarea:

Formula 3.8 d
X i X
n

Cea de-a doua posibilitate conduce la o alt mrime a dispersiei, numit varian18,
notat cu s2 atunci cnd este vorba despre un eantion i cu 2 atunci cnd este vorba
despre o populaie. Formula de calcul a varianei pentru populaii este urmtoarea:
(X
2
i )
Formula 3.9 2

N
n care = media aritmetic a populaiei
N = numrul total de scoruri din populaie

Formula de calcul a varianei pentru eantioane difer de formula 3.9 sub dou
aspecte: n locul mediei aritmetice a populaiei () apare media aritmetic a eantionului
( X ), iar la numitor, n locul numrului total de scoruri din populaie (N) apare numrul
total de scoruri din eantion diminuat cu o unitate (n 1)19.

Formula 3.10 s2
(X i X )2
n 1

Pentru a ilustra calculul abaterii medii i al varianei, vom folosi datele din
tabelul 3.2, adugnd o coloan pentru modulele diferenelor X i X i, pentru o
simplificare pe care o vom folosi ulterior, o coloan pentru ptratele scorurilor
individuale, Xi2:

Tabelul 3.10 Calculul abaterii medii i al varianei ( X 19 )

Xi Xi
2
Xi X Xi X ( X i X )2
16 256 3 3 9
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4

17
Revedei capitolul 1, seciunea 1.2.
18
Uneori, aceast mrime este numit chiar dispersie.
19
Dup cum vom vedea n capitolele dedicate statisticii infereniale, mrimile statistice pentru eantioane
servesc drept estimatori ai valorilor respective pentru populaie, unii estimatori fiind nedistorsionai, alii
fiind distorsionai. ntruct variana pentru un eantion este un estimator distorsionat al varianei pentru
populaie, numitorul n 1 are rolul de a corecta distorsiunea. Aceleai consideraii sunt valabile i pentru
abaterea standard. n cadrul statisticii descriptive, unii statisticieni prefer s foloseasc numitorul n,
tratnd eantioanele ca i cum ar fi populaii foarte mici.
17 289 2 2 4
18 324 1 1 1
19 361 0 0 0
19 361 0 0 0
23 529 4 4 16
23 529 4 4 16
23 529 4 4 16
209 4045 0 24 74

Pentru datele din acest exemplu, avem:

d
X i X

24
2,20
n 11

s 2

(X i X )2

74
7,40
n 1 10

De notat c variana calculat cu ajutorul formulei 3.9 reprezint ptratul mediu


al abaterilor, i.e. media aritmetic a ptratelor abaterilor scorurilor populaiei de la
media lor aritmetic .
n cazul eantioanelor mari, aplicarea formulei definiionale 3.10 poate fi
greoaie, mai ales dac valoarea pentru X conine zecimale, ceea ce presupune multe
rotunjiri. Din formula 3.10 se pot deduce alte formule de calcul care, aplicate la aceleai
date, produc aceleai rezultate ca i formula 3.10 i care permit calcularea mai uoar i
mai rapid a varianei20. Prezentm n continuare dou astfel de formule, n care nu mai
este nevoie de calcularea diferenelor Xi X .

X
2
i nX 2
Formula 3.11 s 2

n 1

X 2

X
2 i
i
Formula 3.12 s2 n
n 1

Aplicnd formula 3.11 la datele din exemplul de mai sus, avem:

X
2
i nX 2 4045 (11 19 2 ) 4045 3971 74
s 2
7,40
n 1 10 10 10

Dei pare mai complicat dect formula 3.10, formula 3.12 ne scutete de calcularea
mediei aritmetice a scorurilor, astfel nct pentru calcularea varianei cu ajutorul acestei
formule este nevoie doar de scorurile individuale. n exemplul nostru:

20
Dou formule de calcul care, aplicate la aceleai date, produc aceleai rezultate se numesc echivalente
algebric.
X 2
209 2
Xi
2 i
4045
s2 n 11 4045 3971 74 7,40
n 1 10 10 10

Formulele de calcul simplificat al varianei pentru populaii difer de formulele de mai


sus prin aceea c X se nlocuiete cu , iar n 1 devine N.

3.3.4 ABATEREA STANDARD I COEFICIENTUL DE VARIAIE

Calculul varianei implic ridicarea la ptrat a abaterilor scorurilor individuale


fa de media lor aritmetic (formulele 3.9 i 3.10). n consecin, unitatea ataat
varianei este ptratul unitii ataate scorurilor individuale respective. Dac, de pild,
este vorba despre scoruri exprimate n ani, variana va fi exprimat n ani la ptrat.
Pentru a se obine o mrime a variabilitii care s fie exprimat n aceleai uniti n
care sunt exprimate scorurile respective, se ia rdcina ptrat a varianei, s sau .
Aceast mrime statistic se numete abatere standard i, n cazul eantioanelor, se
definete cu ajutorul urmtoarei formule:

Formula 3.13 s
(X i X )2
n 1

Relaia dintre abaterea standard i varian fiind s s 2 , valoarea abaterii standard


pentru datele din tabelul 3.10 este s 7,40 = 2,72.
Corespunztor formulelor 3.11 i 3.12, avem urmtoarele formule de calcul
simplificat al abaterii standard:

X
2
i nX 2
Formula 3.14 s
n 1

X 2

X
2 i
i
Formula 3.15 s n
n 1

Coeficientul de variaie al unei distribuii de scoruri (CV) se definete ca


raportul dintre abaterea standard a distribuiei i media sa aritmetic. De obicei,
coeficientul de variaie se nmulete cu 100 i se prezint ca procent. Astfel, avem:

s
Formula 3.16 CV 100
X

n exemplul folosit pn acum, CV = (2,72/19) 100 = 143,16. Evident, n cazul


populaiilor, s se nlocuiete cu , iar X cu . Coeficientul de variaie este cu deosebire
util atunci cnd se dorete compararea variabilitii a dou distribuii de scoruri cu medii
aritmetice sensibil diferite.
3.3.5 CALCULUL ABATERII STANDARD PENTRU DATE GRUPATE

Formula de calcul a abaterii standard pentru date grupate se obine pe baza


formulei 3.15. Pentru a aplica formula 3.15 trebuie s cunoatem trei valori: suma
scorurilor, Xi, suma ptratelor scorurilor, Xi2, i numrul de scoruri, n. Atunci cnd
datele au fost grupate n distribuii de frecvene nu cunoatem distribuia exact a
scorurilor individuale i deci nu putem determina exact primele dou valori. ntr-un
astfel de caz, suma scorurilor se aproximeaz, ca i pentru media aritmetic, nmulind
numrul de cazuri din fiecare interval, fi, cu centrul intervalului respectiv, mi, i
nsumnd aceste produse: fimi. Suma ptratelor scorurilor se aproximeaz ridicnd la
ptrat centrele de interval, nmulind fiecare ptrat astfel obinut cu numrul de cazuri
din intervalul respectiv i nsumnd aceste produse: fimi2. Avem astfel:

Xi fimi

Xi2 fimi2

Formula care d valoarea aproximativ a abaterii standard pentru date grupate se obine
fcnd substituiile corespunztoare n formula 3.15. Obinem astfel:

f m 2

fm 2 i i
i i
Formula 3.17 s n
n 1

Pentru ilustrare, vom folosi datele din tabelul 3.7, n care vom aduga dou
coloane: una pentru ptratele centrelor de interval i una pentru produsele dintre
ptratele centrelor de interval i frecvene:

Tabelul 3.11 Calculul abaterii standard


pentru date grupate

Intervale de f m fm m2 fm2
clas
2024 1 22 22 484 484
2529 2 27 54 729 1458
3034 7 32 224 1024 8428
3539 18 37 666 1369 24642
4044 22 42 924 1764 38808
4549 42 47 1974 2209 92778
5054 30 52 1560 2704 81120
5559 37 57 2109 3249 120213
6064 15 62 930 3844 57660
6569 6 67 402 4489 26934
TOTAL 180 8865 452525
Totalul ultimei coloane este valoarea pentru fimi2. Aplicnd formula 3.17 la aceste date
obinem:

f m 2
8865 2
fm 2 i i
452525
180 = 452525 436601,25 =
i i
s n =
n 1 179 179
15923,75
= = 88,96 = 9,43
179

De notat c, pentru datele negrupate corespunztoare acestui exemplu, abaterea standard


calculat cu ajutorul uneia dintre formulele 3.13 3.15 este egal cu 9,00.

Pentru a descrie adecvat o distribuie de scoruri trebuie s rspundem la trei


ntrebri: Care este forma distribuiei? Care este scorul su mediu? Ct de variate sunt
scorurile? Modalitile de rspuns la prima ntrebare au fost discutate n capitolul 2.
Rspunsurile la ce-a de-a doua ntrebare au fost abordate n prima parte a acestui
capitol. Am vzut c n statistic, scor mediu are trei nelesuri diferite, crora le
corespund trei mrimi statistice: media aritmetic, mediana i modul. Media aritmetic,
aplicabil numai pentru date de interval sau de raport, exprim scorul tipic al unei
distribuii. Mediana poate fi folosit i pentru nivelul ordinal de msur i reflect
scorul central al unei distribuii. Modul poate fi folosit la orice nivel de msur i
reprezint cel mai ntlnit scor ntr-o distribuie. n plus, am prezentat modaliti de
descriere a poziiei scorurilor individuale ntr-o distribuie de interval sau de raport:
percentilele i rangul percentilelor. n capitolul urmtor vom prezenta un alt cadru de
referin pentru interpretarea scorurilor individuale: scorurile standard.
n cea de-a doua parte a acestui capitol am prezentat modaliti de a rspunde la
cea de-a treia ntrebare: indicele variaiei calitative, amplitudinea i amplitudinea
intercuartilic, abaterea medie, variana, abaterea standard i coeficientul de variaie.
Abaterea standard este cea mai des folosit mrime a dispersiei pentru date de interval i
de raport, avnd avantajul de a fi exprimat n aceleai uniti de msur ca i scorurile
respective. Valoarea abaterii standard este cu att mai mare, cu ct distribuia scorurilor
este mai eterogen sau, altfel spus, cu ct variabilitatea distribuiei este mai mare.
Reciproc, valoarea abaterii standard este cu att mai mic, cu ct distribuia scorurilor
este mai omogen sau, altfel spus, cu ct variabilitatea distribuiei este mai mic. Dac
fiecare caz ntr-o distribuie ar avea acelai scor, atunci abaterea standard pentru
distribuia respectiv ar fi 0. Astfel, abaterea standard nu are limit superioar, iar limita
sa inferioar este 0. Abaterea standard i dovedete utilitatea mai ales atunci cnd se
dorete compararea a dou sau mai multe distribuii. De asemenea, dup cum vom
vedea n capitolul urmtor, abaterea standard este implicat i n calculul scorurilor
standard i n noiunea de distribuie normal standard.

GLOSAR
Abatere standard: rdcina ptrat a Medie aritmetic: rezultatul mpririi
ctului dintre suma abaterilor sumei tuturor scorurilor dintr-o
ptratice ale scorurilor fa de media mulime de scoruri la numrul total
lor aritmetic i n 1 pentru de scoruri din acea mulime.
eantioane sau N pentru populaii. Median: punct ntr-o mulime de
Abatere medie: media aritmetic a scoruri fa de care numrul de cazuri
sumei abaterilor absolute ale cu scoruri mai mici sau egale este
scorurilor fa de media lor egal cu numrul de cazuri cu scoruri
aritmetic. mai mari sau egale .
Amplitudinea absolut: diferena Mod: scorul care apare cel mai frecvent
dintre cel mai mare scor i cel mai ntr-o mulime de scoruri.
mic scor dintr-o mulime de scoruri. Percentil: valoarea Pm a unei mulimi
Amplitudine intercuartilic: diferena de scoruri fa de care cel mult m%
dintre cea de-a treia i prima cuartil din scoruri sunt mai mici dect m i
a unei distribuii de scoruri ordonate cel mult (100 m)% din scoruri sunt
cresctor. mai mari dect m.
Asimetrie: proprietatea unei mulimi de Varian: ctul dintre suma abaterilor
scoruri de a avea puine scoruri foarte ptratice ale scorurilor fa de media
mari (asimetrie pozitiv) sau puine lor aritmetic i n 1 pentru
scoruri foarte mici (asimetrie eantioane sau N pentru populaii.
negativ).
Coeficient de variaie: raportul dintre
abaterea standard a unei distribuii de
scoruri i media sa aritmetic. De
obicei, coeficientul de variaie se
nmulete cu 100 i se prezint ca
procent.
Indicele variaiei calitative: raportul
dintre variaia observat efectiv ntr-o
distribuie de scoruri i variaia
maxim posibil pentru acea
distribuie.
Interval modal: intervalul de clas care
conine cel mai mare numr de
cazuri.
Mrimile tendinei centrale: mrimi
statistice care rezum o ntreag
distribuie de scoruri, descriind cea
mai tipic sau central valoare a
distribuiei respective sub forma unui
singur numr sau a unei singure
categorii.
Mrimile dispersiei: mrimi statistice
care furnizeaz informaie despre
eterogenitatea sau varietatea unei
distribuii de scoruri.
Medie aritmetic ponderat: media
aritmetic a mai multor grupuri
combinate.
4 DISTRIBUIA NORMAL

Noiunea de distribuie normal este de mare importan n statistic. Pe de o


parte, distribuia normal poate fi folosit n combinaie cu abaterea standard pentru a
formula enunuri descriptive precise despre distribuiile scorurilor unor variabile. Pe de
alt parte, distribuia normal st la baza multor tehnici statistice infereniale.

4.1 CARACTERISTICILE DISTRIBUIEI NORMALE

Distribuia normal este o distribuie teoretic de scoruri unimodal, simetric


i continu. Graficul unei distribuiei normale are form de clopot cu ambele extremiti
extinse la infinit21. Ca atare, un astfel de grafic, numit i curba normal22, nu atinge
axa orizontal sau, altfel spus, este asimptotic fa de axa orizontal, dup cum se
ilustreaz n figura 4.1.

Figura 4.1 Un exemplu de curb normal

Distribuia normal este un model teoretic ce poate fi folosit pentru a descrie


distribuii particulare ale scorurilor unor variabile msurate la nivel de interval sau de
raport, despre care s-a constatat c aproximeaz suficient normalitatea ntr-o populaie,
precum coeficientul de inteligen, rezultatele obinute la diferite teste de cunotine sau
numrul de erori comise n ndeplinirea anumitor sarcini. Scorurile unor astfel de
variabile tind s se grupeze simetric n jurul scorului central, dnd natere unui grafic de
distribuie n form de clopot. Dac distribuia scorurilor unei variabile ntr-o populaie
aproximeaz normalitatea, se spune c variabila respectiv este normal distribuit n
populaia respectiv sau, pe scurt, c variabila respectiv este normal. Pe de alt parte,
dup cum vom vedea n capitolele urmtoare, distribuia normal poate fi folosit pentru
a reprezenta diferite mrimi statistice care rezult din studierea unor eantioane dintr-o
populaie dat, ceea ce permite obinerea unor concluzii despre valorile pentru populaie

21
Distribuia normal a fost studiat pentru prima dat n secolul al XVIII-lea de ctre Abraham De
Moivre. La nceputul secolului al XIX-lea a fost descoperit independent de Carl Friedrich Gauss i
Pierre Simon de Laplace.
22
n onoarea matematicienilor Gauss i Laplace, curba normal este cunoscut i sub numele de clopotul
lui Gauss sau curba GaussLaplace.
pe baza valorilor cunoscute pentru eantioane. Utilizarea distribuiei normale n
statistic face apel la aanumitele scoruri standard sau scoruri Z.

4.2 CALCULUL SCORURILOR STANDARD

Scorurile standard, numite i scoruri Z, folosesc abaterea standard ca unitate


de msur i descriu poziia relativ a unui scor individual n raport cu ntreaga mulime
de scoruri din care face parte. Formula de calcul pentru scorurile Z ale unei populaii
este urmtoarea:

X
Formula 4.1 Z

Aceast formul transform orice scor brut X n scorul Z corespunztor. Numrtorul


fraciei, X , indic distana n uniti brute a scorului X fa de media aritmetic. Prin
mprirea acestei distane la aflm distana n abateri standard sau fraciuni de abateri
standard a scorului X fa de medie. Corespunztor, formula de calcul pentru scorurile Z
ale unui eantion este urmtoarea:

X X
Formula 4.2 Z
s

Pentru ilustrare, s considerm o distribuie de scoruri pentru un eantion, n care


X = 100 i s = 20. n acest caz, scorurile Z corespunztoare scorurilor brute 85, 120 i
150 sunt:

85 100
Z 85 0,75
20

120 100
Z 120 1,00
20

150 100
Z 150 2,50
20

Fiecare dintre aceste scoruri Z arat la cte abateri standard fa de media aritmetic se
afl scorul brut corespunztor. Un scor Z negativ arat c scorul brut se afl sub media
aritmetic, iar un scor Z pozitiv arat c scorul brut este mai mare dect media
aritmetic. Evident, un scor Z egal cu 0 arat c scorul brut corespunztor este egal cu
media aritmetic.
Se demonstreaz c dac toate scorurile unei distribuii particulare se transform
n scoruri Z, atunci:

Forma distribuiei scorurilor Z este aceeai cu cea a distribuiei iniiale;


Media aritmetic a distribuiei scorurilor Z este 0, indiferent de valoarea mediei
aritmetice a distribuiei iniiale;
Abaterea standard a distribuiei scorurilor Z este 1, indiferent de valoarea
abaterii standard a distribuiei iniiale.

Aceste proprieti au fost generalizate n studiul distribuiei normale standard.

4.3 DISTRIBUIA NORMAL STANDARD

Ca i n cazul unei distribuii particulare de scoruri de interval sau de raport,


distribuia normal poate fi descris cu ajutorul mediei sale aritmetice i a abaterii
standard. ntruct oricrei perechi de valori pentru media aritmetic i abaterea standard
i corespunde o distribuie normal, matematic vorbind exist o infinitate de distribuii
normale, ale cror forme exacte depind de mrimile menionate. Pentru a descrie efectiv
distribuiile unor variabile normale, n analiza statistic se consider o distribuie
normal particular, numit distribuia normal standard. Variabila corespunztoare
distribuiei normale standard este numit variabila normal standard, valorile acestei
variabile fiind scoruri Z. Din acest motiv, aceast distribuie se mai numete i
distribuia Z. Prin convenie, media aritmetic a distribuiei normale standard se ia ca
origine a variaiei variabilei normale standard, ceea ce nseamn c aceast distribuie
are media aritmetic egal cu 0. De asemenea, se consider c abaterea standard a
distribuiei normale standard este egal cu unitatea.
Graficul corespunztor distribuiei normale standard este numit curba normal
standard. Aria delimitat de curba normal standard este proporional cu frecvena
scorurilor, astfel c proporia de cazuri cuprinse ntre un scor Z i media aritmetic
poate fi aflat cu ajutorul calculului integral. Statisticienii au determinat cu precizie
aceste arii, rezultatele fiind organizate sub forma unui tabel, numit tabelul curbei
normale standard sau tabelul ariilor de sub curba normal standard (vezi Anexa
A). Schema general a acestui tabel este prezentat n figura 4.2.

Figura 4.2 Schema tabelului curbei normale standard

Z 0,00 0,01 0,02 0,03 0,04 0,05


0,0 0000
0,1
0,2
0,3
0,4 1736
0,5

n corpul tabelului apar numere alctuite din patru cifre. Aceste numere
reprezint ariile cuprinse ntre un scor Z dat i media aritmetic. Numerele nscrise n
prima coloan din stnga, etichetat Z, reprezint primele dou cifre ale unui scor Z, iar
numerele nscrise pe primul rnd de sus reprezint cea de-a treia cifr. De pild, pentru
a afla aria cuprins ntre un scor Z = 0,45 i media aritmetic, se coboar n prima
coloan din stnga pn la 0,4 (primele dou cifre ale scorului Z considerat) i apoi se
parcurge spre dreapta rndul respectiv pn cnd se ajunge sub 0,05 (cea de-a treia
cifr). Numrul gsit la intersecia acestor dou coordonate este 1736, care poate fi citit
sau ca un procent (17,36%), sau ca o proporie (0,1736). n primul caz vom spune c
17,35% din aria total a curbei normale standard se afl ntre scorul Z = 0,45 i media
aritmetic (punct n care Z = 0); n cel de-al doilea caz vom spune c proporia din aria
total a curbei normale standard cuprins ntre scorul Z = 0,45 i media aritmetic este
de 0,1736. ntruct orice curb normal este simetric, aceeai procedur se aplic i
pentru afla aria cuprins ntre un scor Z negativ i media aritmetic. Astfel, rezultatul de
mai sus poate fi interpretat spunnd c 17,35% din aria total a curbei normale standard
se afl ntre scorul Z = 0,45 i media aritmetic.

4.4 UTILIZAREA DISTRIBUIEI NORMALE STANDARD

Figura 4.3 ilustreaz utilizarea tabelului distribuiei normale standard pentru


determinarea procentelor din aria delimitat de curba normal, aflate ntre un scor Z dat
i media aritmetic (Z = 0).

Figura 4.3 Procente din aria de sub curba normal


34,13% 34,13%

68,26

13,59% 13,59%

2,15% 2,15%
0,13% 95,44% 0,13%

-3 -1 0 +1 +2 +3
-2

Abateri standard fa de media aritmetic

De pild, din tabel aflm c ntre Z = +1 i media aritmetic se afl 34,13% din aria de
sub curb (v. intersecia coordonatelor 1,0 i 0,00). ntruct curba este simetric,
procentul din arie cuprins ntre Z = 1 i media aritmetic este tot de 34,13%. Astfel,
ntre 1 abateri standard fa de medie se afl 68,26% din aria total. Similar, ntre Z =
+2 i medie se afl 47,72% din arie, astfel c ntre 2 abateri standard fa de medie se
afl 94,44% din arie.
ntruct un procent relativ mic din aria total se afl peste +3 abateri standard
sau sub 3 abateri standard (0,13%), pentru scopuri practice, ilustrate n cele ce
urmeaz, se consider c distribuia normal se extinde de la Z 3,59 la Z +3,59 sau,
altfel spus, la 3,59 abateri standard de o parte i de cealalt a mediei aritmetice, scorurile
Z aflate dincolo de aceste limite fiind considerate a fi egale cu 0.
n cazul variabilelor normal distribuite pentru care cunoatem media aritmetic
i abaterea standard, distribuia normal standard poate fi folosit pentru a determina
diferite procente sau proporii de cazuri n distribuii particulare, precum i pentru a
determina probabilitatea de a selecta la ntmplare un scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale.

4.4.1 DETERMINAREA PROCENTELOR DE CAZURI

S considerm o distribuie de scoruri a variabilei coeficient de inteligen (IQ)


pentru un eantion de1000 de subieci cu X = 100 i s = 20, ilustrat n figura 4.4.

Figura 4.4 Distribuia scorurilor IQ pentru


un eantion de 1000 de subieci
34,13% 34,13%

68,26

13,59% 13,59%

2,15% 2,15%
0,13% 95,44% 0,13%

40 6 80 120 140 160

Uniti IQ

S presupunem c ne intereseaz procentul de cazuri cu scoruri IQ mai mici dect 115.


Calculm mai nti scorul Z corespunztor scorului brut 115:

115 100
Z 0,75
20

Din tabelul curbei normale aflm c aria dintre scorul Z = +0,75 i media aritmetic
reprezint 27,34% din aria total. ntruct aria aflat sub media aritmetic reprezint
50% din aria total, procentul de subieci cu scoruri IQ mai mici dect 115 este de
74,34% (27,34% + 50%). Acest rezultat poate fi exprimat i n numr de cazuri,
spunnd c aproximativ 743 de subieci din eantionul considerat (74,34% din 1000) au
scoruri IQ mai mici dect 115.
S presupunem acum c ne intereseaz procentul de cazuri cu scoruri IQ mai
mici dect 75. Scorul Z corespunztor scorului brut 75 este

75 100
Z 1,25
20

Pentru a afla aria de sub un scor Z negativ, aria dintre scor i media aritmetic se scade
din 50% (aria aflat la stnga mediei). Din tabelul curbei normale aflm c aria dintre
scorul Z = 1,25 i media aritmetic reprezint 39,44% din aria total. Astfel, procentul
de subieci cu scoruri CI mai mici dect 75 este de 10,56% (50% 39,44%), ceea ce
nseamn c aproximativ 394 de subieci (39,44% din 1000) au scoruri IQ mai mici
dect 75.
Acelai model de calcul se utilizeaz pentru a afla aria situat deasupra unui scor
Z pozitiv. S presupunem c ne intereseaz procentul de cazuri cu scoruri mai mari
dect 150. tim c scorul Z corespunztor acestui scor brut este +2,50. Din tabelul
curbei normale aflm c aria dintre scorul Z = +2,50 i media aritmetic reprezint
47,98% din aria total, astfel c procentul de subieci cu scoruri mai mari dect 150 este
de 2,02% (50% 47,98%). Aceasta nseamn c aproximativ 20 de subieci (2,02% din
1000) au scoruri IQ mai mari dect 150.
n general, ariile situate peste sau sub un anumit scor Z se determin conform
urmtoarelor reguli:

1. Pentru a determina aria aflat sub un scor Z negativ sau peste un scor Z
pozitiv, aria dintre scorul respectiv i media aritmetic se scade din 50%.

2. Pentru a determina aria aflat sub un scor Z pozitiv sau peste un scor Z
negativ, aria dintre scorul respectiv i media aritmetic se adun cu 50%.

S vedem acum felul n care se determin ariile, respectiv procentele de cazuri


dintre dou scoruri. S presupunem c ne intereseaz procentul de subieci cu scoruri IQ
cuprinse ntre 95 i 125. Scorurile Z corespunztoare acestor scoruri brute sunt

95 100
Z 95 0,25
20

125 100
Z 110 1,25
20

Din tabelul curbei normale aflm c aria dintre scorul Z = 0,25 i media aritmetic
reprezint 9,87% din aria total i c aria dintre scorul Z = +1,25 i media aritmetic
reprezint 39,44% din aria total. Fiind vorba despre scoruri aflate de o parte i de alta a
mediei, aria dintre scoruri se determin adunnd ariile dintre fiecare scor i media
aritmetic. Astfel, procentul de subieci cu scoruri IQ cuprinse ntre 95 i 125 este de
49,31% (9,87% + 39,44%). Aceasta nseamn c aproximativ 439 de subieci au scoruri
IQ cuprinse ntre 95 i 125.
Pentru a determina aria dintre dou scoruri aflate de aceeai parte a mediei
aritmetice, se determin mai nti ariile dintre fiecare scor i medie, dup care aria mai
mic se scade din aria mai mare. S presupunem c ne intereseaz procentul de subieci
cu scoruri IQ cuprinse ntre 115 i 125. tim c scorul Z corespunztoare scorurilor
brute 115 i 125 sunt, respectiv, +0,75 i +1,25. tim, de asemenea, c ntre Z = +0,75 i
media aritmetic se afl 27,34% din aria total i c ntre Z = +1,25 i media aritmetic
se afl 39,44% din aria total. Prin urmare, procentul de subieci cu scoruri IQ cuprinse
ntre 115 i 125 este de 12,10% (39,44% 27,34%), ceea ce nseamn c aproximativ
121 de subieci au scoruri IQ cuprinse ntre 115 i 125. Acelai model de calcul se
utilizeaz atunci cnd ambele scoruri se afl sub medie.

4.4.2 DETERMINAREA PROBABILITILOR PENTRU SCORURI

Tabelul curbei normale standard poate fi utilizat pentru a determina


probabilitatea de a selecta la ntmplare un scor cuprins ntr-o plaj dat de scoruri ale
unei distribuii aproximativ normale. nainte de a considera acest tip de utilizare, s
examinm pe scurt noiunea de probabilitate.
Pentru a estima probabilitatea producerii unui eveniment, trebuie s definim
evenimentele care reprezint cazuri favorabile. Un caz favorabil este un caz n care se
produce evenimentul a crui probabilitate de apariie dorim s o estimm sau, pe scurt,
un caz care realizeaz acel eveniment. S presupunem c ntr-o urn sunt n bile de
culori diferite, dintre care exact m sunt albe i c ne intereseaz probabilitatea de a
extrage de la prima ncercare o bil alb. Evenimentul fiind apariia unei bile albe, cazul
favorabil este extragerea unei bile albe. Fa de cazul favorabil, vom spune c
extragerea unei bile de orice culoare este un caz egal posibil. Avem astfel m cazuri
favorabile i n cazuri egal posibile. Probabilitatea teoretic a unui eveniment E, notat
Pr(E) se definete ca raportul dintre numrul m al cazurilor favorabile i numrul n al
cazurilor egal posibile:

m
Pr E
n

Pentru ilustrare, s presupunem c n urn se afl 52 de bile de culori diferite,


dintre care una singur este alb. ntruct m = 1 i n = 52, probabilitatea de a extrage de
la prima ncercare o bil alb este 1/52. Aceast fracie poate fi exprimat i ca
proporie, mprind numrtorul la numitor: (1/52) = 0,0192. Vom spune c apariia
bilei albe la o singur extragere se produce n proporie de 0,0192. n tiinele omului,
probabilitile sunt exprimate n mod obinuit ca proporii i vom urma aceast
convenie n continuare.
Este important de remarcat c, gndite astfel, probabilitile au un neles precis:
pe termen lung, cazurile favorabile se afl ntr-o anumit relaie proporional cu
numrul total de cazuri. n exemplul nostru, probabilitatea de 0,0192 ca bila alb s
apar la o singur extragere nseamn de fapt c din 10000 de extrageri a cte unei bile
din urna complet, proporia de extrageri a bilei albe va fi de 0,0192 sau, altfel spus, c
din 10000 de extrageri a cte unei bile din urna complet, bila alb va aprea de 192 de
ori, celelalte 9808 extrageri producnd bile de alte culori.
Acum, din cele de mai sus tim c pentru orice distribuie particular
aproximativ normal, proporiile prezentate n tabelul curbei normale standard ne dau
frecvena relativ a cazurilor cu scoruri cuprinse ntre un anumit scor i media
aritmetic, precum i c probabilitatea unui eveniment este frecvena relativ a cazurilor
care realizeaz acel eveniment. Prin urmare, proporiile din tabelul curbei normale
standard pot fi interpretate ca probabiliti i pot fi folosite pentru a determina
probabilitatea de selecie a unui scor cuprins ntr-o plaj dat de scoruri ale unei
distribuii aproximativ normale.
Considernd din nou distribuia variabilei coeficient de inteligen cu care am
lucrat mai sus, s presupunem c ne intereseaz probabilitatea ca un subiect ales la
ntmplare s aib un scor IQ cuprins ntre 95 i scorul mediu de 100 (aici, cazul
favorabil este selectarea unui subiect al crui scor se afl n amplitudinea de scoruri
specificat23). Scorul Z corespunztor scorului brut de 95 este 0,25 i, conform
tabelului curbei normale standard, proporia din arie cuprins ntre scorul Z = 0,25 i
media aritmetic este de 0,0987. Aceast proporie este probabilitatea cutat. Vom
spune c probabilitatea ca un subiect ales la ntmplare s aib un scor IQ cuprins ntre
95 i 100 este de 0,0987 sau, rotunjit, de 0,1 sau de unu la zece.
De notat c pentru determinarea probabilitilor de selectare a scorurilor se
utilizeaz aceleai proceduri ilustrate mai sus pentru determinarea procentelor de cazuri,
diferena fiind aceea c proporiile din tabelul curbei normale standard sunt interpretate
ca probabiliti. De pild, probabilitatea ca un subiect ales la ntmplare din eantionul
considerat s aib un scor IQ peste 95 este de 0,5987 (0,5000 + 0,0987).
S mai notm c, ntruct n distribuia normal standard cele mai multe scoruri
sunt grupate n jurul mediei aritmetice, frecvena acestora scznd pe msur ce ne
ndeprtm de medie, dac vom selecta la ntmplare un numr de scoruri dintr-o
distribuie aproximativ normal, vom selecta mai des scoruri apropiate de media
aritmetic i mai rar scoruri aflate mult sub sau peste medie.

GLOSAR

5 EANTIONAREA I DISTRIBUII DE
EANTIONARE

Dup cum am artat n capitolul 1, cercettorii folosesc statistici infereniale


pentru a trage concluzii despre caracteristicile unei populaii pe baza caracteristicilor
corespunztoare ale unui eantion din acea populaie. Folosirea adecvat a acestor
tehnici statistice cere ca eantioanele s fie selectate aleatoriu24 din populaiile de
referin. n cazul cel mai general, un eantion este aleatoriu dac fiecare caz din
populaia de referin are aceeai probabilitate de a fi selectat n eantion cu a oricrui
alt caz i selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
Dac populaia are, s zicem, 1000 de membri, atunci fiecare membru trebuie s aib o
probabilitate de 1/1000 de a fi selectat. Supoziia fundamental a statisticilor infereniale
este aceea c investigarea unui eantion aleatoriu dintr-o populaie conduce la rezultate
apropiate de cele care ar fi obinute dac ar fi investigat ntreaga populaie i, dup cum
vom vedea, noiunea de distribuie de eantionare furnizeaz o msur a acestei
23
Determinarea probabilitii cutate cu ajutorul formulei de calcul pentru probabiliti ar conduce la
construirea unei fracii care s aib drept numrtor numrul de subieci ale cror scoruri se afl n
amplitudinea specificat i drept numitor numrul total de subieci.
24
Cuvntul aleatoriu provine din limba latin, n care substantivul lea nseamn joc cu zaruri sau
ans, iar adjectivul leatrius nseamn de joc, cu referire la jocurile de noroc. Dup cum se tie,
aruncarea cu zarul este experimentul tipic luat n considerare n teoria probabilitilor.
apropieri. Eantioanele nealeatorii pot fi foarte uor alctuite, dar nu permit formularea
unor concluzii despre populaiile respective, ci doar despre eantioane.
De notat c n acest context, aleatoriu este un termen tehnic, care nu are
acelai neles cu termenul ntmpltor, aa cum este utilizat acesta n limbajul
obinuit. Un eantion aleatoriu nu este alctuit la ntmplare, ci printr-un proces bine
determinat i precis de selecie. De pild, intervievarea unor persoane pe care se
ntmpl s le ntlnim ntr-un supermagazin nu constituie o eantionare aleatorie.
Selecia aleatorie este o condiie necesar pentru obinerea unor eantioane care
s ofere imagini ct mai precise ale populaiilor de referin sau, altfel spus, a unor
eantioane reprezentative pentru populaiile de referin, dar nici mcar cele mai
sofisticate proceduri de selecie aleatorie nu garanteaz 100% c eantionul respectiv
este o reprezentare exact a populaiei din care a fost alctuit. Totui, probabilitatea ca
eantioanele aleatorii s fie reprezentative pentru populaiile de referin este foarte
mare, iar tehnicile statistice permit determinarea precis a probabilitilor erorilor de
reprezentativitate.
nainte de a prezenta rolul eantionrii n statisticile infereniale, vom prezenta
pe scurt cteva dintre cele mai utilizate procedee de eantionare aleatorie.
5.1 PROCEDEE DE EANTIONARE ALEATORIE

Procedeul fundamental de eantionare aleatorie se numete eantionare


aleatorie simpl. n procesul de selecie a unui eantion aleatoriu simplu, fiecare caz
din populaia de referin are o probabilitate egal de a fi inclus n eantion, iar
selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri. Procesul
de selecie aleatorie simpl se poate baza pe diferite tipuri de operaii. n mod tipic, se
folosesc tabele cu numere selectate aleatoriu de un computer. Un exemplu de astfel de
tabel este dat n Anexa B. Aceste tabele conin numere alctuite din cinci cifre, de la 0
la 9. Pentru a folosi un astfel de tabel, se atribuie fiecrui caz din populaia de referin
un numr unic de identificare, dup care se alege la ntmplare un rnd i o coloan din
tabel i, pornind de la acel punct la dreapta sau la stnga, n sus sau n jos, se citesc
numerele, selectnd n eantion cazurile ale cror numere de identificare corespund cu
numerele citite n tabel. Selecia se oprete atunci cnd s-a ajuns la dimensiunea dorit a
eantionului. Pentru ilustrare, s presupunem c dorim s alctuim un eantion de
dimensiune n = 20 dintr-o populaie de dimensiune N = 600. Mai nti, numerotm
membrii populaiei ntr-o ordine oarecare 001, 002, , 600. Pentru a forma eantionul,
considerm doar ultimele trei cifre ale numerelor din tabel i, evident, ignorm
numerele mai mari de 600. Alegem la ntmplare un rnd i o coloan i ncepem
selecia pornind de la numrul respectiv i mergnd, de pild, n jos pe coloana aleas,
pn cnd obinem 20 de numere. Dac un numr de identificare este selectat mai mult
dect o singur dat, se ignor repetarea i se trece la urmtorul numr din secven25.
Eantionul va fi alctuit din acei membri ai populaiei ale cror numere de identificare
au fost astfel selectate.
Statisticienii atrag atenia asupra necesitii de a schimba des tabelul cu numere
aleatorii, dac cercettorul folosete des procedeul menionat: Natura uman este n aa
fel, nct fiecare dintre noi are tendina de a porni aproximativ din acelai loc i de a
parcurge repetat aproximativ aceeai cale. De aceea, folosirea repetat a aceluiai tabel
poate s conduc la selectarea aceluiai ir de numere26.
S vedem acum cum poate fi folosit tabelul cu numere aleatorii pentru a
repartiza aleatoriu un numr de subieci n grupuri. S presupunem c avem 15 subieci
i, n vederea unui experiment, dorim s alctuim trei grupuri cu cte cinci subieci n
fiecare grup. Pentru aceasta, alegem la ntmplare un rnd i o coloan i, urmnd o
anumit direcie, atribuim un numr fiecrui subiect, considernd doar ultimele dou
cifre ale numerelor din tabel. Apoi, considerm subiecii n ordinea cresctoare a
numerelor atribuite i repartizm primii cinci subieci n grupul 1, urmtorii cinci
subieci n grupul 2 i ultimii cinci subieci n grupul 3. Tabelul urmtor prezint o
posibil repartizare de felul menionat:

25
De notat c ignorarea repetrilor implic selecia fr nlocuire, n care, dup ce un membru din
populaia de referin a fost selectat, el este eliminat din populaie. n selecia fr nlocuire, probabilitatea
de selecie crete pe msura efecturii seleciei, ca urmare a micorrii treptate a dimensiunii populaiei cu
cte o unitate. De pild, avnd o populaie de 1000 membri, probabilitile de selecie fr nlocuire vor fi
1/1000, 1/999, 1/998 .a.m.d. Ca atare, riguros vorbind, ignorarea repetrilor afecteaz caracterul
aleatoriu al procesului de selecie. Totui, dac dimensiunea eantionului este relativ mic, probabilitatea
de a selecta acelai membru din populaia de referin de dou ori i astfel de a neglija repetrile este
foarte mic. Prin contrast, n selecia cu nlocuire, dup ce un membru din populaia de referin a fost
selectat, el nu este eliminat din populaie, astfel c probabilitatea de selecie rmne constant pe tot
parcursul seleciei.
26
G. Keller, B. Warrack, 1991.
Subieci Numere Repartizarea n
atribuite grupuri
A 10 1
B 37 2
C 08 1
D 09 1
E 12 1
F 66 2
G 31 2
H 85 3
I 63 2
J 73 2
K 98 3
L 11 1
M 83 2
N 88 3
O 99 3

Evident, procedeul poate fi folosit pentru orice numr de grupuri ntr-un experiment.
Procedura de eantionare aleatorie simpl devine incomod, atunci cnd
dimensiunea populaiei de referin este foarte mare (10000, de pild). ntr-un astfel de
caz se poate folosi eantionarea sistematic, numit i selecie mecanic. Mai nti, se
stabilete o fracie de selecie (fracie de eantionare, pas de numrare): K = N/n, n care
N este numrul total de cazuri din populaia de referin, iar n este dimensiunea dorit a
eantionului. De pild, dac N = 10000 i n = 300, K = 34 (K se rotunjete ntotdeauna
pn la un numr ntreg). Dup ce s-a stabilit pasul de numrare, se listeaz la
ntmplare membrii populaiei de referin i se alege la ntmplare, eventual prin
tragere la sori, un caz din primele K cazuri care se include n eantion i apoi se alege
fiecare al Klea caz pentru a fi inclus n eantion pn se ajunge la dimensiunea dorit a
eantionului. n exemplul nostru, dac din primele 34 de cazuri a fost ales la ntmplare
cazul cu numrul 5, atunci se vor include n eantion urmtoarele cazuri: 5, 39, 73, 107,
.a.m.d. pn la n = 300.
De notat c n cazul eantionrii sistematice, selecia nu mai este independent,
deoarece, cu excepia primului caz, fiecare caz selectat depinde de numrul de ordine al
cazului precedent. De aceea, acest procedeu este considerat ca fiind cvasialeatoriu.
Caracterul aleatoriu este asigurat prin alctuirea ntmpltoare a listelor din care sunt
selectate cazurile.
Un al treilea procedeu de eantionare, eantionarea stratificat, conduce la
creterea cantitii de informaie despre populaie. Pentru a alctui un eantion aleatoriu
stratificat, se clasific populaia de referin dup criterii relevante i se alctuiesc
eantioane aleatorii simple din fiecare clas (strat). De pild, pot fi folosite criterii
precum sexul, vrsta sau ocupaia.
Cititorul interesat de detalii privitoare la procedurile de eantionare descrise
sumar mai sus sau/i de alte procedee de eantionare poate consulta cri despre
eantionare sau manuale de metodologie a cercetrii psihologice.
5.2 DISTRIBUIA DE EANTIONARE

Scopul principal al statisticilor infereniale este generalizarea unor caracteristici


ale eantionului la populaia din care a fost alctuit. Strategia general a acestor tehnici
statistice const din trecerea de la distribuia unui eantion la distribuia unei populaii
prin intermediul noiunii de distribuie de eantionare. tim c informaia necesar
pentru caracterizarea adecvat a unei distribuii include forma distribuiei, unele mrimi
ale tendinei centrale i unele mrimi ale dispersiei Distribuia unui eantion este
empiric (exist n realitate) i cunoscut, eantionul fiind alctuit de cercettor, n timp
ce distribuia populaiei este empiric, dar este necunoscut. Dup cum vom vedea,
distribuia de eantionare este non-empiric (teoretic nu poate fi obinut niciodat n
realitate de ctre cercettor), iar pe baza legilor de probabilitate pot fi deduse forma,
tendina central i dispersia acestei distribuii, astfel c proprietile sale pot fi exact
cunoscute. S explicm.
n capitolul anterior am folosit distribuia normal standard pentru a descrie
distribuii de scoruri ale unor variabile aproximativ normale. n cele ce urmeaz vom
considera mediile aritmetice, nu scorurile individuale, i vom folosi distribuia normal
standard (distribuia Z) pentru a descrie distribuia mediilor aritmetice ( X ) pentru toate
eantioanele posibile de dimensiune dat (n), care pot fi obinute aleatoriu dintr-o
populaie. Cu alte cuvinte, vom considera c media aritmetic este ea nsi o variabil,
ale crei scoruri sunt mediile aritmetice ale tuturor eantioanelor aleatorii posibile de
dimensiune constant n dintr-o populaie.
S presupunem c ne intereseaz media aritmetic a vrstelor dintr-o populaie
de dimensiune comparabil cu populaia Romniei. Selectm un eantion aleatoriu de
100 de persoane din aceast populaie i nregistrm vrstele pentru acest eantion.
Evident, ceea ce am obinut este distribuia vrstelor pentru eantionul considerat,
pentru care putem calcula media aritmetic. Acum, s presupunem c am selectat (cu
nlocuire) toate eantioanele posibile de dimensiune 100 din populaia respectiv i c
am calculat media aritmetic pentru fiecare eantion. Rezultatele pe care, n principiu,
le-am obine n acest fel constituie distribuia mediilor aritmetice pentru toate
eantioanele posibile de dimensiune 100 din populaia de referin. Aceast distribuie
este numit distribuia de eantionare a mediilor aritmetice ale tuturor eantioanelor
aleatorii de dimensiune 100 din populaia de referin. n general, distribuia de
eantionare a mediilor aritmetice se definete ca distribuia mediilor aritmetice ale
tuturor eantioanelor aleatorii de dimensiune constant n din populaia de referin. n
mod similar, se definesc distribuiile de eantionare pentru alte mrimi statistice
(proporii, coeficieni de corelaie etc.), pe care le vom considera n unele dintre
capitolele care urmeaz. n continuare, ne vom concentra atenia asupra distribuiei de
eantionare a mediilor aritmetice.
Ca i distribuiile de frecvene considerate pn acum, distribuia de eantionare
a mediilor aritmetice (i cele ale celorlalte mrimi statistice) are (1) o form, (2) o medie
aritmetic i (3) o abatere standard. Pentru media aritmetic i abaterea standard a
distribuiei de eantionare a mediilor aritmetice vom folosi, respectiv, simbolurile X i
X.
Cei trei parametri menionai ai distribuiei de eantionare a mediilor aritmetice
sunt dai de urmtoarea teorem, numit teorema limitei centrale:

Dac se alctuiesc toate eantioanele posibile de dimensiune n dintr-o


populaie cu media aritmetic i abaterea standard , atunci distribuia de
eantionare a mediilor aritmetice ale acestor eantioane are urmtoarele
trei proprieti:

1. Media sa aritmetic, X , este egal cu media aritmetic a populaiei, ..


2. Abaterea sa standard, X , este egal cu n.
3. Cu ct n este mai mare, cu att forma sa aproximeaz mai bine
normalitatea, indiferent de forma distribuiei populaiei.

Demonstrarea acestei teoreme depete cadrul propus pentru lucrarea de fa.


Pentru concizia exprimrii, n loc de distribuia de eantionare a mediilor aritmetice
vom scrie n continuare distribuia de eantionare a X .
Teorema limitei centrale arat c, indiferent de forma distribuiei unei variabile
ntr-o populaie, distribuia de eantionare a X va fi aproximativ normal pentru
eantioane suficient de mari. De pild, dac lucrm cu o variabil care prezint o
distribuie asimetric, precum venitul, putem s presupunem c distribuia de
eantionare a X este aproximativ normal pentru eantioane cu n 100, avnd media
aritmetic egal cu cea a populaiei i abaterea standard egal cu n . Astfel, teorema
limitei centrale elimin constrngerea normalitii pentru populaii. Dac distribuia unei
variabile este aproximativ normal, atunci distribuia de eantionare a X va fi
aproximativ normal chiar i pentru valori mai mici ale lui n. n fine, teoretic vorbind,
dac distribuia unei variabile este riguros normal, atunci distribuia de eantionare a
X va fi normal indiferent de dimensiunea eantionului.

5.3 DETERMINAREA PROBABILITILOR PENTRU

MEDII ARITMETICE

Teorema limitei centrale poate fi utilizat pentru a determina probabilitatea de a


selecta la ntmplare o medie aritmetic a unui eantion de dimensiune dat, cuprins
ntr-o anumit plaj de medii aritmetice. Pentru ilustrare, s considerm o populaie cu
media aritmetic a unei caracteristici aproximativ normale = 117 i = 14. S
presupunem c ne intereseaz probabilitatea ca un eantion aleatoriu cu n = 36 selectat
din aceast populaie s aib media aritmetic a caracteristicii respective cuprins ntre
115 i 120. ntruct variabila considerat este aproximativ normal, conform punctului 3
al teoremei limitei centrale distribuia de eantionare a X aproximeaz normalitatea
pentru n = 36. Conform punctelor 1 i 2 ale acestei teoreme, avem:

X = 117

14
X 2,34
n 36
n paragraful 4.4.2 am lucrat cu formula

X X
Z
s

pentru a determina probabilitatea de selecie a unui scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale. Aici, valorile 115 i 120 sunt medii
aritmetice. Scorurile Z corespunztoare acestor valori se calculeaz cu ajutorul
urmtoarei formule:

X X
Z
X

n exemplul nostru, avem:

115 117
Z 115 0,85
2,34

120 117
Z 120 1,28
2,34

Din tabelul curbei normale aflm c probabilitatea corespunztoare scorului Z = 0,85


este 0,3023 i c probabilitatea corespunztoare scorului Z = +1,28 este 0,3997. Ca
atare, probabilitatea ca un eantion cu n = 36 s aib media aritmetic ntre 115 i 120
este de 0,7020 (0,3023 + 0,3997).
S notm i aici c pentru determinarea probabilitilor de selectare a mediilor
aritmetice se utilizeaz aceleai proceduri ilustrate pentru determinarea procentelor de
cazuri. De pild, probabilitatea ca un eantion aleatoriu cu n = 36 selectat din populaia
considerat mai sus s aib media aritmetic peste 120 este de 0,1003 (0,5000
0,3997).

5.4 STRATEGIA INFERENIAL

n statisticile infereniale, mrimile statistice pentru populaii sunt numite


parametri i, prin contrast, mrimile statistice pentru eantioane sunt numite pur i
simplu statistici. Figura 5.1 ilustreaz strategia general a statisticilor infereniale27, pe
care o vom folosi n capitolele care urmeaz.

Figura 5.1 Strategia inferenial

Populaie E ti
(parametri)

27
Dup Hinkle, Wiersma i Jurs, 1988.
Distribuie
de
eantionare

Astfel, n general, n statisticile infereniale avem o populaie ai crei parametri


se doresc a fi determinai. Pentru aceasta, selectm un eantion aleatoriu din acea
populaie i calculm statisticile care reflect parametrii corespunztori, dup care, pe
baza distribuiilor de eantionare ale acelor statistici i a legilor de probabilitate inferm
asupra parametrilor populaiei.

GLOSAR

Distribuia de eantionare a mediilor standard i forma distribuiei de


aritmetice: distribuia mediilor eantionare a mediilor aritmetice.
aritmetice ale tuturor eantioanelor
aleatorii de dimensiune constant n
din populaia de referin. n mod
similar, se definesc distribuiile de
eantionare pentru alte mrimi
statistice (proporii, coeficieni de
corelaie etc.).
Eantionare aleatorie simpl: metod
de selecie a unui eantion n care
fiecare caz din populaia de referin
are o probabilitate egal de a fi inclus
n eantion, iar selectarea fiecrui caz
este independent de selectarea
tuturor celorlalte cazuri.
Eantionare sistematic: metod de
selecie a unui eantion n care primul
caz dintr-o list a populaiei de
referin este selectat aleatoriu, dup
care este selectat fiecare al k-lea caz.
Eantionare stratificat: metod de
selecie a unui eantion n care
populaia de referin este clasificat
dup criterii relevante i se alctuiesc
eantioane aleatorii simple din fiecare
clas (strat).
Parametri: mrimi statistice pentru
populaii; prin contrast, mrimile
statistice pentru eantioane sunt
numite statistici.
Teorema limitei centrale: teorem care
specific media aritmetic, abaterea
6 PROCEDURI DE ESTIMARE STATISTIC

Statisticile infereniale se clasific n dou categorii principale: proceduri de


estimare i proceduri de testare a ipotezelor. n procedurile de estimare, care fac
obiectul acestui capitol, pe baza unei statistici calculate pentru un eantion se face o
apreciere despre parametrul corespunztor al populaiei de referin. n testarea
ipotezelor, care face obiectul capitolelor urmtoare, se verific (se testeaz) o ipotez
despre populaie prin raportare la rezultatele obinute pe un eantion.
La rndul lor, procedurile de estimare sunt de dou tipuri: puncte estimate i
intervale estimate. Un punct estimat este o singur valoare calculat pentru un eantion
i folosit pentru a estima parametrul corespunztor al populaiei de referin. Un
interval estimat este o amplitudine de valori n care este probabil s se afle un
parametru al populaiei de interes. Lund drept exemplu sondajele electorale, a spune c
38% din electorat va vota pentru candidatul X nseamn a raporta un punct estimat, n
timp ce a spune c ntre 35% i 42% din electorat va vota pentru candidatul X nseamn
a raporta un interval estimat. n ambele tipuri de proceduri, statisticile calculate pentru
eantioane servesc drept estimatori. De pild, media aritmetic pentru un eantion este
un estimator al mediei aritmetice a populaiei de referin.

6.1 CARACTERISTICI ALE ESTIMATORILOR

Un estimator trebuie s satisfac dou condiii: s fie nedistorsionat i relativ


eficient. Se spune c un estimator este nedistorsionat, dac media aritmetic a
distribuiei sale de eantionare este egal cu media aritmetic a populaiei de referin.
Conform teoremei limitei centrale, mediile aritmetice ale eantioanelor satisfac aceast
condiie: media aritmetic a distribuiei de eantionare a mediilor aritmetice, X , este
egal cu media aritmetic a populaiei, . Statisticienii au demonstrat c i proporiile
eantioanelor, p, sunt nedistorsionate, ntruct media aritmetic a distribuiei de
eantionare a proporiilor pentru eantioane, p, este egal cu proporia populaiei, P.
Prin contrast, un estimator este distorsionat, dac media aritmetic a distribuiei sale de
eantionare este diferit de media aritmetic a populaiei. De pild, abaterea standard a
unui eantion este un estimator distorsionat al abaterii standard a populaiei: de regul,
dispersia unui eantion este mai mic dect cea a populaiei de referin, astfel c s tinde
s subestimeze pe . Dup cum am menionat n capitolul 3, aceast distorsiune poate fi
corectat.
Un estimator nedistorsionat permite, ntre altele, determinarea probabilitii ca o
mrime statistic a unui eantion s se afle la o anumit distan fa de parametrul
corespunztor pe care ncercm s-l estimm. Pentru ilustrare, s presupunem c ne
intereseaz venitul mediu al unei populaii. Pentru aceasta, alctuim un eantion
aleatoriu cu n = 500 i calculm media aritmetic pentru acest eantion. S presupunem
c am gsit X 5000000 . Dup cum am artat, variabila venit prezint o distribuie
asimetric. Cu toate acestea, conform teoremei limitei centrale, distribuia de
eantionare a X pentru eantioane mari (n 100) aproximeaz normalitatea, avnd
media aritmetic, X , egal cu media aritmetic a populaiei, . tim c toate curbele
normale conin aproximativ 68% din cazuri ntre 1Z, 95% din cazuri ntre 2Z i 98%
din cazuri ntre 3Z fa de medie. Aici, cazurile sunt medii aritmetice ale eantioanelor,
astfel c exist o probabilitate mare (aproximativ 68 de anse din 100) ca media
aritmetic a eantionului considerat, 5000000, s se afle ntre 1Z, o probabilitate foarte
mare (95 din 100) ca aceast medie s se afle ntre 2Z i o probabilitate extrem de
mare (98 din 100) ca aceast medie s se afle ntre 3Z fa de media aritmetic a
distribuiei de eantionare X , care are aceeai valoare cu :

Figura 6.1 Procente din aria de sub curba normal


34,13% 34,13%

68,26

13,59% 13,59%

2,15% 2,15%
0,13% 95,44% 0,13%

-3 -2 -1 X +1 +2 +3

De remarcat c n aproximativ 2% din cazuri, media aritmetic de 5000000 se afl la


mai mult de 3Z fa de media aritmetic a distribuiei de eantionare. Practic, putem
spune c media aritmetic de 5000000 nu se afl n acea minoritate.
Cea de-a doua condiie pe care trebuie s o satisfac un estimator, eficiena, este
legat de dispersie. Un estimator este cu att mai eficient, cu ct distribuia de
eantionare este mai grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este
mai mic abaterea standard a distribuiei de eantionare. S considerm mediile
aritmetice ale eantioanelor. Din teorema limitei centrale tim c abaterea standard a
distribuiei de eantionare a mediilor aritmetice ale eantioanelor, X , este egal cu
n , deci X este invers proporional cu n: cu ct dimensiunea eantionului este
mai mare, cu att este mai mic X . Ca atare, eficiena mediei aritmetice ca estimator
poate fi mbuntit (= X poate fi micorat) prin mrirea dimensiunii eantionului.
Pentru ilustrare, s considerm urmtorul exemplu:
Eantionul 1 Eantionul 2
X 5000000 X 5000000
n1 = 100 n2 = 1000

S presupunem c abaterea standard a populaiei, , este de 275000 (evident, valoarea


lui este rareori cunoscut n realitate). n privina primului eantion, abaterea standard
a distribuiei de eantionare a mediilor aritmetice ale tuturor eantioanelor cu n = 100
este 275000 100 = 27500. n privina celui de-al doilea eantion, abaterea standard a
distribuiei de eantionare a mediilor aritmetice ale tuturor eantioanelor cu n = 1000
este considerabil mai mic: 275000 1000 = 8697. Cea de-a doua distribuie de
eantionare este mult mai grupat dect prima distribuie28.
Rezumnd, ntruct X este invers proporional cu n, cu ct eantionul este mai
mare, cu att distribuia de eantionare este mai grupat i eficiena estimatorului este
mai mare29.

6.2 ESTIMAREA MEDIEI ARITMETICE CND ESTE


CUNOSCUT

Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se


calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea parametrului
respectiv este egal cu valoarea calculat pentru eantion. n acest tip de estimare se ine
cont faptul c eficiena estimatorului este direct proporional cu dimensiunea
eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie aproximativ egal
cu parametrul corespunztor este cu att mai mare, cu ct dimensiunea eantionului este
mai mare.
Procedura de estimare a intervalelor este relativ mai complicat, dar este mai
sigur, n sensul c, atunci cnd se estimeaz un interval, probabilitatea ca n acel
interval s se afle parametrul de interes este mai mare i poate fi stabilit cu precizie.
Fie o populaie cu media aritmetic i cu abaterea standard . Selectm
aleatoriu un eantion de dimensiune n din aceast populaie i calculm media
aritmetic pentru eantion, X . Conform teoremei limitei centrale, distribuia de
eantionare a mediilor aritmetice ale tuturor eantioanelor posibile de dimensiune n din
populaia de referin este aproximativ normal, cu media aritmetic egal cu cea a
populaiei de referin i cu abaterea standard egal cu n . Pe baza caracteristicilor
distribuiei de eantionare i a tabelului distribuiei normale standard putem formula
enunuri de probabilitate despre mediile aritmetice ale eantioanelor. De pild, din tabel
aflm c proporia de cazuri (medii aritmetice ale eantioanelor) cuprinse ntre Z =
1,96 i media aritmetic este de 0,475. ntruct curba este simetric, proporia de
cazuri cuprinse ntre Z = 1,96 i media aritmetic este tot de 0,475. Astfel, proporia de

28
Cea de-a doua distribuie conine aproximativ 68% din mediile aritmetice ale tuturor eantioanelor
posibile ntre 8697 fa de X , n timp ce prima distribuie conine ce 68% din mediile aritmetice ntr-
un interval mult mai larg: 27500.
29
Aceste relaii precizeaz ideea intuitiv c putem avea mai mult ncredere n rezultatele obinute pe
eantioane mari, dect n cele obinute pe eantioane mici, evident, cu condiia ca i unele i altele s fie
selectate aleatoriu.
cazuri cuprinse ntre 1,96 abateri standard fa de medie este de 0,95, iar proporia de
cazuri aflate sub 1,96 i peste 1,96 abateri standard fa de medie este de 0,05 (0,025
+ 0,025):

0,025 0,025
0,475 0,475

0,95
1,96 1,96

Acelai lucru ca mai sus poate fi exprimat spunnd c 95% din mediile aritmetice ale
eantioanelor se afl n intervalul dintre 1,96( n ) i 1,96( n ) sau, pe
scurt, n intervalul 1,96( n ) . Structura acestui tip de enun de probabilitate poate
fi folosit pentru a estima valoarea parametrului , prin construirea unui interval centrat
pe valoarea cunoscut pentru eantion, X . Rezultatul este un interval de ncredere
estimat o amplitudine de valori n care este probabil (nu sigur) s se afle . Astfel,
putem estima c exist o probabilitate de 0,95 (sau 95%) ca media aritmetic a
populaiei s se afle n intervalul X 1,96( n ) , ceea ce nseamn c probabilitatea
ca media aritmetic a populaiei s nu se afle n acest interval este de 0,05 (sau 5%).
Probabilitatea ca media aritmetic a populaiei s nu se afle n intervalul estimat
sau, altfel spus, probabilitatea de eroare a estimrii se numete nivel de semnificaie
sau nivel alfa (), iar probabilitatea ca intervalul estimat s conin media aritmetic a
populaiei se numete nivel de ncredere. Dup cum reiese i din cele de mai sus,
nivelul de ncredere este complementarul nivelului alfa, fiind egal cu 1 sau, n
procente, cu (1 )100. A stabili, de pild, c = 0,05 nseamn acelai lucru cu a
spune c nivelul de ncredere este de 95%. ntruct probabilitatea de eroare este
mprit n mod egal n extremitatea inferioar i cea superioar a distribuiei de
eantionare, stabilindu-se astfel limita inferioar i limita inferioar de ncredere, vom
nota scorul Z corespunztor nivelului ales cu Z/2. Astfel, n cazul n care este
cunoscut, formula de construire a unui interval de ncredere estimat (IE) bazat pe media
aritmetic a unui eantion este urmtoarea:

Formula 6.1 IE X Z 2 ( n)

Ca exemplu, s presupunem c dorim s estimm media aritmetic zilnic a


orelor de vizionare a programelor TV de ctre femeile casnice. Pentru aceasta, alctuim
un eantion aleatoriu de 200 de femei casnice (n = 200) i aflm c acestea petrec n
medie 6 ore pe zi vizionnd programe TV ( X 6 ). Prin testri extensive tim c
abaterea standard a populaiei pentru vizionarea programelor TV este de aproximativ
0,7 ( = 0,7). n aceast cercetare suntem dispui s asumm o ans de a grei de 10%,
stabilind = 0,10. Pentru a determina limitele de ncredere inferioar i superioar,
trebuie s scdem 0,05 (i.e. /2) din 0,5 (proporia de cazuri aflate de o parte i de alta a
mediei aritmetice a distribuiei de eantionare). Rezultatul scderii este 0,450, ceea ce
reprezint proporia de cazuri dintre o limit de ncredere i medie:

0,05 0,05
0,450 0,450

0,90
1,65 1,65

Astfel, pentru = 0,10 trebuie s cutm proporia 0,4500 n tabelul distribuiei normale
standard. Gsim ns o proporie de 0,4495, corespunztoare scorului Z/2 = 1,64 i o
proporie de 0,4505, corespunztoare scorului Z/2 = 1,65. Scorul Z/2 pe care l cutm
se afl undeva ntre aceste dou scoruri. n aceste condiii, se ia cel mai mare dintre cele
dou scoruri: 1,65. n acest fel, intervalul de ncredere va fi cel mai mare posibil n
circumstanele date. Prin urmare, vom avea:

IE X Z 2 ( n ) 6 1,65(0,7 200 ) 6 1,65(0,7/14,14) =


= 6 1,65 0,0495 = 6 0,08

Pe baza mediei aritmetice a eantionului, estimm c femeile casnice petrec n medie


ntre 5,92 (6 0,08) i 6,08 (6 0,08) ore pe zi vizionnd programe TV. O alt
modalitate de a enuna acest interval este 5,92 6,08. Aceast estimare are o ans
de 10% de a fi greit, adic de a nu conine media aritmetic a populaiei.
n principiu, cercettorul poate folosi orice valoare pentru nivelul de ncredere.
Totui, nivelurile de ncredere folosite n mod obinuit sunt 90%, 95% i 99%. n cazul
nivelului de ncredere de 99% ne confruntm cu aceeai problem ca n ultimul exemplu
de mai sus. n acest caz, = 0,01 i scznd 0,005 (/2) din 0,5 obinem 0,495. n tabel
nu apare proporia 0,4950, dar apar proporiile 0,4949 (Z/2 = 2,57) i 0,4951 (Z/2 =
2,57). Ca mai sus, se ia cel mai mare dintre cele dou scoruri: 2,58. Tabelul urmtor
rezum toate datele de care avem nevoie:

Tabelul 6.1 Niveluri de ncredere i scoruri Z/2

Nivelul de ncredere /2
Z/2
(1 ) 100
90% 0,10 0,050 1,65
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58
6.3 ESTIMAREA MEDIEI ARITMETICE CND ESTE
NECUNOSCUT. DISTRIBUIA tSTUDENT

n aproape toate situaiile reale de cercetare, valoarea abaterii standard a


populaiei este necunoscut. Se disting aici dou cazuri: cazul n care dimensiunea
eantionului este relativ mare, ceea ce nseamn eantioane cu n 30, i cazul n 30.
n cazul eantioanelor cu n 30, se poate estima prin s (abaterea standard a
eantionului). ntruct, dup cum am vzut, s este un estimator distorsionat pentru ,
formula de construire a intervalului de ncredere estimat este uor modificat fa de
formula 6.1, pentru a se corecta distorsiunea. Astfel, formula modificat pentru cazurile
(reale) n care este necunoscut i n 30 este urmtoarea:

Formula 6.2 IE X Z 2 ( s n 1)

nlocuirea lui n cu n 1 reprezint corecia cerut de faptul c s este un estimator


distorsionat.
Pentru ilustrare, s presupunem c venitul mediu al unui eantion aleatoriu cu n
= 500 este de 5000000 de lei ( X 5000000 ) cu s = 125000. Care este intervalul de
ncredere estimat pentru media aritmetic a populaiei respective, la un nivel de
ncredere de 95% ( = 0,05)?

IE X Z 2 ( s n 1) 5000000 1,96(125000 500 1)


5000000 1,96(125000 22,34) 5000000 1,96 5595,34 =
= 5000000 10967

Pe baza mediei aritmetice a eantionului, estimm c media aritmetic a veniturilor


populaiei este cuprins ntre 4989033 lei (5000000 10967) i 5010967 lei (5000000
10967) i exist doar 5% anse ca acest interval s nu conin media aritmetic a
populaiei.
Atunci cnd eantioanele sunt mici (n 30) i valoarea lui este necunoscut,
distribuia normal standard nu poate fi folosit pentru a descrie distribuia de
eantionare a mediilor aritmetice. Pentru a construi intervale estimate semnificative n
cazul n 30 se folosete o alt distribuie teoretic: distribuia tStudent30. Ca i n
cazul distribuiei normale, graficul distribuiei tStudent, numit i curba t, este simetric
i are form de clopot cu ambele extremiti extinse la infinit. Spre deosebire de graficul
distribuiei normale, forma exact a graficului distribuiei t depinde de dimensiunea
eantionului. Pentru eantioane mici, graficul distribuiei t este mult mai aplatizat dect
cel al distribuiei normale (comparai figura urmtoare cu oricare dintre graficele de mai
sus).

30
Aceast distribuie este datorat lui William S. Gosset, un chimist i statistician care lucra la fabrica de
bere Guiness la nceputul secolului al XX-lea. Gosset a descoperit c pentru eantioanele mici,
distribuiile de eantionare difer de distribuia normal i depind de dimensiunea eantionului considerat.
Gosset i-a publicat rezultatele n 1908 sub pseudonimul Student.
Figura 6.2 Un exemplu de curb t

t=0

Pe msur ce dimensiunea eantionului crete, distribuia t seamn din ce n ce mai


mult cu distribuia normal, identificndu-se cu aceasta pentru eantioane practic foarte
mari (i teoretic infinite). Astfel, ntruct exist o distribuie t specific pentru fiecare
eantion de dimensiune dat, distribuia t este, de fapt, o familie de distribuii.
Distribuia t particular cerut pentru rezolvarea unei anumite probleme depinde
de un concept matematic numit grade de libertate. Acest concept se refer la numrul
de valori libere s varieze ntr-o distribuie. De pild, dac tim c o distribuie de cinci
scoruri are media aritmetic egal cu 3 i c patru dintre aceste scoruri sunt 1, 2, 3, i 4,
atunci valoarea celui de-al cincilea scor este fixat: 5. n general, pentru media
aritmetic a unui eantion de dimensiune n, o distribuie are n 1 grade de libertate.
Fiecare distribuie t este asociat cu un numr unic de grade de libertate. Mai precis,
dac se selecteaz toate eantioanele posibile de dimensiune n dintr-o populaie
normal, atunci distribuia de eantionare a cantitii

X
t
s n 1

este distribuia tStudent cu n 1 grade de libertate.


Distribuia t va fi utilizat ndeosebi n testarea ipotezelor. Deocamdat vom
descrie tabelul valorilor critice ale distribuiei t, prezentat n Anexa C, i vom ilustra
utilizarea acestui tabel pentru estimarea intervalelor. Schema general a acestui tabel
este prezentat n figura 6.3.

Figura 6.3 Schema tabelului valorilor critice ale distribuiei t

gl t0,10 t0,05 t0,025 t0,01 t0,005


1
2
3

29 2,045
30

Tabelul valorilor critice ale distribuiei t specific valorile pentru t, ceea ce
nseamn valorile lui t pentru care aria aflat la dreapta sub curba t este egal cu :

Nivelele sunt dispuse pe primul rnd al tabelului Valorile t sunt date pentru grade de
libertate (gl), dispuse pe prima coloan din stnga, de la 1 la 30 i apoi 40, 60, 120 i .
De notat c, pe msur ce numrul de grade de libertate crete, diferena dintre
distribuia t i distribuia normal descrete, precum i c pentru o infinitate de grade de
libertate, distribuia t este identic cu distribuia normal. Pentru estimarea intervalelor,
ca i pentru alte scopuri, avem nevoie de t/2. Aceast valoare se localizeaz nmulind
cu 2 valoarea aflat pe primul rnd. De pild, pentru n = 30 i = 0,05, numrul de
grade de libertate este 29; la intersecia coloanei de sub t = 0,025 i liniei
corespunztoare pentru gl = 29 gsim valoarea 2,045. Astfel, n acest caz, vom spune c
valoarea lui t/2 este 2,045.
Formula pentru cazurile n care este necunoscut i n 30 este urmtoarea:

Formula 6.3 IE X t 2 ( s n)

Pentru ilustrare, s presupunem c un eantion aleatoriu de 20 de adolesceni cu


dificulti de nvare au obinut urmtoarele rezultate la un test de cunotine la care
scorul maxim ce poate fi obinut este de 40:

Tabelul 6.2 Scoruri obinute la un test de cunotine


de ctre 20 de adolesceni cu dificulti de nvare

18 20 12 30
31 32 25 29
26 28 23 20
24 27 20 19
22 33 28 22

Presupunnd c variabila msurat este normal distribuit n populaia de adolesceni cu


dificulti de nvare, care este intervalul de ncredere estimat pentru media aritmetic a
acestei populaii, la un nivel de ncredere de 99%? Calculm mai nti media aritmetic
a scorurilor din eantion:

X =
X i

489
24,45
n 20

Abaterea standard la nivelul eantionului este:


s
X i
2
nX 2

12515 20 597,8
29,4 5,42
n 1 19

Pentru n = 20, numrul de grade de libertate este 19; avnd = 0,01, la intersecia
coloanei de sub t = 0,005 i liniei corespunztoare pentru gl = 19 gsim valoarea 2,861.
Astfel, valoarea lui t/2 este 2,861. Aplicnd formula 6.3, obinem:

IE X t 2 ( s n ) 24,45 2,861(5,42 20 ) 24,45 3,46

Astfel, estimm c media aritmetic pe care o cutm este cuprins ntre 21,03 i 27,91
i exist doar 1% anse ca acest interval s nu conin media aritmetic a populaiei.
De reinut c formula 6.3 poate fi aplicat doar dac variabila de interes este
normal distribuit.

6.4 ESTIMAREA PROPORIILOR

Pe baza teoremei limitei centrale se demonstreaz c proporiile pentru


eantioane (p) au distribuii de eantionare aproximativ normale, cu media aritmetic
(p) egal cu proporia pentru populaie (P) i abaterea standard (p) egal cu
P(1 P) n . Teoretic, formula pentru construirea unui interval estimat bazat pe
proporii ale eantioanelor este urmtoarea:

P(1 P)
Formula 6.4 IE p Z 2
n
n aceast formul, valorile pentru p i n provin de la eantion, iar valoarea lui Z/2 se
determin la fel ca mai sus. Problema cu aceast formul este c valoarea proporiei
pentru populaie, P, nu este cunoscut. Pentru a rezolva aceast problem, se poate
proceda n dou moduri.
Un prim mod de a rezolva problema const n a stabili c P = 0,5. n aceast
situaie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat c 0,25
este valoarea maxim pe care o poate lua numrtorul fraciei de sub radical, P(1 P).
Stabilind pentru P orice alt valoare diferit de 0,5, valoarea expresiei P(1 P) va fi
mai mic dect valoarea pentru P = 0,5. De pild, dac P = 0,4, atunci 1 P = 0,6 i
P(1 P) = 0,4 0,6 = 0,24. ntruct P(1 P) are valoarea maxim cnd P = 0,5, ne
asigurm c intervalul obinut va fi cel mai mare posibil pentru p, Z/2 i n date. Practic,
adoptnd aceast soluie, lucrm cu formula urmtoare:

0,25
Formula 6.5 IE p Z 2
n
A doua soluie a problemei menionate const din a estima valoarea lui P prin p,
lucrnd cu formula urmtoare:

p (1 p )
Formula 6.6 IE p Z 2
n
Oricum, formulele de mai sus pot fi folosite doar dac dimensiunea eantionului
considerat estre destul de mare, astfel nct np 5 i n(1 p) 5.
S presupunem, de pild, c ne dorim s estimm proporia de studeni de la
universitatea X care au lipsit cel puin o zi pe motiv de boal ntr-un anumit semestru i
c dintr-un eantion aleatoriu de 200 de studeni, gsim 30 n aceast situaie. Astfel,
proporia eantionului pe care ne bazm estimarea este p = 30/200 = 0,15. La un nivel
de ncredere de 95%, intervalul estimat cu ajutorul formulei 6.5 este urmtorul:

0,25 0,25
IE p Z 2 0,15 1,96 0,15 0,07
n 200

Pe baza proporiei de 0,30 a eantionului, estimm c proporia cutat este cuprins


ntre 0,08 i 0,22. Estimarea poate fi exprimat i n termeni de procente, spunnd c
ntre 8% i 22% dintre studenii universitii X au lipsit cel puin o zi pe motiv de boal
n semestrul considerat.
S aplicm acum formula 6.6 la aceleai date, pstrnd nivelul de ncredere de
95%:

p (1 p ) 0,15(1 0,15) 0,15 0,85


IE p Z 2 0,15 1,96 0,15 1,96
n 200 200
0,13
0,15 1,96 0,15 0,05
200

n acest caz, estimm c proporia cutat este cuprins ntre 0,10 i 0,20 sau, altfel
spus, c ntre 10% i 20% dintre studenii universitii X au lipsit cel puin o zi pe motiv
de boal n semestrul considerat.
De notat c intervalul estimat cu ajutorul formulei 6.5 este mai larg dect cel
estimat cu ajutorul formulei 6.6, astfel c prima estimare este cea mai conservatoare
soluie posibil, cci este mult mai probabil ca intervalele mai largi s conin
parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este
preferabil celei de-a doua estimri.

6.5 DIMENSIUNI ALE EANTIOANELOR I NIVELE DE


PRECIZIE

Formulele 6.1 i 6.5 pot fi manipulate algebric pentru a determina dimensiunea


unui eantion la orice nivel de precizie dorit sau, altfel spus, pentru orice limit de
eroare stabilit.

6.5.1 CONTROLUL MRIMII INTERVALULUI ESTIMAT

Mrimea unui interval de ncredere estimat pentru medii aritmetice sau proporii
poate fi controlat prin intermediul a doi termeni ai ecuaiei respective: nivelul de
ncredere, care determin scorul Z/2 sau t/2 corespunztor, i dimensiunea eantionului.
Relaia dintre nivelul de ncredere i mrimea intervalului este de
proporionalitate direct: cu ct nivelul de ncredere crete, cu att intervalul este mai
mare. Intuitiv, este mult mai probabil ca intervalele mai largi s conin valoarea pentru
populaie, prin urmare putem avea mai mult ncredere n astfel de intervale. Pentru a
ilustra aceast relaie, s considerm din nou exemplul privind estimarea venitului
mediu al unei populaii: n = 500, X 5000000 , s = 125000. La un nivel de ncredere de
95% am gsit intervalul 5000000 10967 (i.e. acest interval se extinde la 10967 lei n
jurul mediei aritmetice a eantionului). Acum, dac lum un nivel de ncredere de 99%,
scorul Z/2 corespunztor crete la 2,58, iar intervalul se mrete:

IE = 5000000 2,58 5595,34 = 5000000 14436

(intervalul estimat la un nivel de ncredere de 99% se extinde la 14436 lei n jurul


mediei). Exact aceeai relaie se aplic i la proporii.
Relaia dintre dimensiunea eantionului i mrimea intervalului este de
proporionalitate invers: cu ct dimensiunea eantionului este mai mare, cu att
intervalul este mai ngust. Intuitiv, eantioanele mai mari permit estimri mai precise.
Pentru ilustrare, s considerm din nou exemplul privind estimarea venitului mediu,
modificnd doar dimensiunea eantionului: n = 1000 (95%).

IE 5000000 1,96(125000 1000 1) 5000000 1,96 3955,7 5000000 7753

Pentru n = 500, la un nivel de ncredere de 95%, intervalul estimat se extinde la 10967


lei n jurul mediei; pentru n = 1000, toate celelalte rmnnd aceleai, intervalul estimat
se extinde doar la 7753 lei n jurul mediei. Exact aceeai relaie se aplic i la proporii.
De notat c ngustarea intervalului (= creterea preciziei) nu depinde n mod
liniar de dimensiunea eantionului. n exemplul nostru am dublat dimensiunea
eantionului, dar cel de-al doilea interval nu este de dou ori mai ngust dect primul, ci
de aproximativ 1,41 de ori mai ngust. Aceasta nseamn c n trebuie s creasc de trei
sau patru ori pentru a obine o dublare a preciziei. ntruct costul unei cercetri este
direct proporional cu dimensiunea eantionului, un eantion de, s zicem, 10000 de
persoane cost aproximativ de dou ori mai mult dect unul de 5000 de persoane, dar
estimarea bazat pe eantionul mai mare nu va fi de dou ori mai precis dect cea
bazat pe eantionul mai mic.

6.5.2 DETERMINAREA DIMENSIUNII EANTIONULUI PENTRU


ESTIMAREA MEDIILOR ARITMETICE

S considerm formula 6.1:


IE X Z 2
n

n aceast formul, membrul Z 2 ( n ) reprezint, n fapt, limita de eroare sau


nivelul de precizie a estimrii: Z 2 ( n ) este limita inferioar, iar Z 2 ( n)
este limita superioar. Notnd limita de eroare cu L, putem scrie urmtoarea ecuaie:

L Z 2
n
Ridicnd la ptrat ambii membri ai ecuaiei, egalitatea se pstreaz:

2
L2 Z 2 2
n

Din aceast egalitate l putem obine pe n:

Z 2 2 2
Formula 6.7 n
L2

Pentru a folosi aceast formul trebuie s cunoatem valoarea lui , or, dup cum am
mai menionat, n aproape toate cazurile aceast valoare nu este cunoscut. Totui,
valoarea lui poate fi aproximat, dac cunoatem amplitudinea variabilei msurate, A.
Astfel, o aproximare conservatoare a lui este A/4.
S ilustrm. Un psiholog industrial dorete s estimeze durata medie n care un
muncitor de la o firm de produse electronice execut un anumit reglaj. Observnd un
numr de muncitori care execut reglajul respectiv, psihologul constat c durata cea
mai mic este de 10 minute, iar cea mai mare de 22 de minute. Ct de mare trebuie s
fie eantionul selectat, dac psihologul dorete s estimeze durata medie de execuie a
acelui reglaj cu o precizie de 20 de secunde, la un nivel de ncredere de 95%? n aceast
problem, L = 20 i amplitudinea variabilei msurate este A = 22 10 = 12 minute,
astfel c
A/4 = 12/4 = 3 minute = 180 secunde

Acum l putem obine pe n:

Z 2 2 2 (1,96) 2 180 2
n 311,12 300
L2 20 2

Prin urmare, psihologul trebuie s selecteze un eantion aleatoriu de aproximativ 300 de


muncitori pentru a estima durata medie de executare a reglajului respectiv cu o precizie
de 20 de secunde, la un nivel de ncredere de 95%.
S presupunem acum c se dorete dublarea preciziei de la 20 de secunde la 10
secunde, la acelai nivel de ncredere. n acest caz avem:

Z 2 2 2 (1,96) 2 180 2
n 1244,48 1244
L2 10 2

Se observ c dimensiunea eantionului crete mai repede dect precizia: pentru a dubla
precizia de la 20 de secunde la 10 secunde, dimensiunea eantionului trebuie s creasc
de aproximativ patru ori. Aceast relaie este important pentru planificarea costurilor
unei cercetri. Eantioanele impresionant de mari pot constitui o irosire de resurse fr
un ctig semnificativ n privina preciziei, n raport cu eantioanele mai mici i deci
mai ieftine.
6.5.3 DETERMINAREA DIMENSIUNII EANTIONULUI PENTRU
ESTIMAREA PROPORIILOR

Am vzut c, practic, n construirea unui interval estimat pentru proporii lucrm


cu formula

0,25
IE p Z 2
n

0,25
Aici, limita de eroare a estimrii este Z 2 . Notnd tot cu L limita de eroare a
n
estimrii, avem ecuaia:

0,25
L Z 2
n
Ridicnd la ptrat ambii membri, avem:

0,25
L2 Z 2 2
n

Din aceast egalitate l obinem pe n:


Z 2 2 0,25
Formula 6.8 n
L2

S presupunem c un institut de sondare a opiniei publice dorete s estimeze


rezultatul unor alegeri prezideniale nuntrul unei marje de eroare de 3%. Ct de mare
trebuie s fie eantionul cerut pentru a sigura acest nivel de precizie la un nivel de
ncredere de 95%? Exprimnd limita de eroare sub form de proporie, obinem:

(1,96) 2 0,25
n 1067,11 1000
(0,03) 2

Prin urmare, pentru a obine o precizie (o limit de eroare a estimrii) de 3%, este
nevoie de un eantion de aproximativ 1000 de persoane.
i aici se poate constata uor c dimensiunea eantionului crete mai repede
dect precizia. Tabelul urmtor prezint relaiile dintre precizie i dimensiunea
eantionului pentru proporii ale eantioanelor:

Tabelul 6.3 Precizia i dimensiunea eantionului


( = 0,05, P = 0,5)

Precizia Dimensiunea
(Mrimea aproximativ
intervalului) a eantionului
10% 100
7% 200
5% 400
3% 1000
2% 2400
1% 9600
Se poate observa, de pild, c pentru a dubla precizia de la 10% la 5%, dimensiunea
eantionului trebuie s creasc de patru ori.

GLOSAR

Curba t: grafic al unei distribuii t; ca i Nivel de ncredere: probabilitatea ca


curba normal, curba t este simetric intervalul estimat s conin
i are form de clopot cu ambele parametrul de interes.
extremiti extinse la infinit; spre Proceduri de estimare: tehnici
deosebire curba normal, forma statistice n care pe baza unei
exact a curbei t depinde de statistici calculate pentru un eantion,
dimensiunea eantionului. numit estimator, se face o apreciere
Distorsiune: criteriu folosit pentru despre parametrul corespunztor al
selectarea unei mrimi statistice ca populaiei de referin.
estimator; o mrime statistic este Punct estimat: o singur valoare
nedistorsionat, dac media calculat pentru un eantion i
aritmetic a distribuiei sale de folosit pentru a face o apreciere
eantionare este egal cu media despre parametrul corespunztor al
aritmetic a populaiei de referin. populaiei de referin.
Distribuia t: distribuie teoretic ce
descrie distribuia de eantionare a
mediilor aritmetice n cazul n care
eantioanele sunt mici (n 30) i
valoarea lui este necunoscut.
Eficien: criteriu folosit pentru
selectarea unei mrimi statistice ca
estimator; o mrime statistic este cu
att mai eficient, cu ct distribuia
de eantionare este mai grupat n
jurul mediei sale aritmetice sau, altfel
spus, cu ct este mai mic abaterea
standard a distribuiei de eantionare.
Grade de libertate: concept care se
refer la numrul de valori libere s
varieze ntr-o distribuie.
Interval de ncredere estimat:
amplitudine de valori n care este
probabil s se afle un parametru al
populaiei de interes.
Nivel alfa (): Probabilitatea ca un
parametru s nu se afle n intervalul
estimat sau, altfel spus, probabilitatea
de eroare a estimrii.
7 TESTAREA IPOTEZELOR DESPRE
O SINGUR POPULAIE

n acest capitol sunt expuse tehnici statistice de testare a ipotezelor despre o


singur populaie. ntr-un astfel de caz, pe baza unei statistici calculate pentru un
eantion, cel mai adesea o medie aritmetic sau o proporie, se trage o concluzie despre
parametrul corespunztor al populaiei de referin. Mai precis, cercetarea const din
alctuirea unui eantion aleatoriu din populaia de referin, culegerea informaiei
relevante din eantion, calcularea valorii unei statistici i compararea acestei valori cu
valoarea presupus a parametrului corespunztor. n aproape toate situaiile de cercetare
vom gsi o anumit diferen ntre cele dou valori, iar tehnicile de testare a ipotezelor
permit s se decid dac diferena este att de mare, nct s justifice respingerea
presupunerii fcute pentru populaie.
Tehnicile de testare a ipotezelor prezentate n acest capitol i n capitolele care
urmeaz sunt teste despre valoarea parametrilor unei populaii i cer ndeplinirea unor
condiii sau supoziii despre populaiile respective, cum este, n principal, normalitatea.
Testele de acest fel se numesc teste parametrice.

7.1 TESTUL SCORURILOR Z PENTRU MEDII ARITMETICE


CND ESTE CUNOSCUT

Vom prezenta acest test cu ajutorul unui exemplu, pe care l vom folosi i pentru
a introduce noiunile fundamentale ale testelor parametrice: ipotez de nul, ipotez
alternativ, statistic a testului i regul de decizie.
Un cercettor presupune c ntr-un anumit an, media aritmetic a punctajelor
obinute la examenul de rezideniat al medicilor este de 800. Pentru a testa aceast
ipotez, cercettorul alctuiete un eantion aleatoriu de 130 de medici care i-au
susinut rezideniatul n acel an i constat c la nivelul acestui eantion media
aritmetic a punctajului obinut este de 755. Prin investigaii extensive, cercettorul tie
c abaterea standard la nivelul populaiei de referin este de aproximativ 152. Problema
care se pune este dac diferena dintre media aritmetic a eantionului i valoarea
presupus pentru populaie este sau nu statistic semnificativ. Dac rspunsul este
afirmativ, atunci ipoteza fcut poate fi respins. Dac, ns, rspunsul este negativ,
atunci diferena poate fi pus pe seama ntmplrii, astfel c ipoteza cercettorului nu
poate fi respins. Dup cum vom vedea, testul scorurilor Z permite determinarea
matematic a nelesului termenului statistic semnificativ. Datele problemei sunt, deci,
urmtoarele:

Populaie Eantion
H = 800 X 755
= 152 n = 130
Am notat cu H media aritmetic presupus a populaiei, pentru a o deosebi de media
aritmetic efectiv a populaiei, .
Ipoteza de nul, pe care o vom nota H0, specific o anumit valoare pentru
parametrul respectiv. n general, ipoteza de nul despre media aritmetic a unei populaii
are forma

H0: = H

Denumirea de ipotez de nul se justific prin aceea c forma sa poate fi redat


echivalent prin

H0: H = 0

n cuvinte, ipoteza de nul enun c nu exist nici o diferen semnificativ ntre


valoarea efectiv a parametrului respectiv i valoarea presupus a acelui parametru.
Dac ipoteza de nul este adevrat, atunci diferena dintre eantion i populaie nu este
semnificativ, putnd fi atribuit ntmplrii.
n mod obinuit, cercettorul este de prere c exist o diferen semnificativ
ntre eantion i populaie i dorete s resping ipoteza de nul ca neadevrat. Aceast
opinie constituie ipoteza alternativ, pe care o vom nota cu Ha. Dac cercettorul nu
are posibilitatea sau nu dorete s prezic sensul diferenei, atunci ipoteza alternativ ia
forma

Ha: H

Dac, ns, sensul diferenei dintre eantion i populaie poate fi prezis sau dac
cercettorul este interesat doar de un singur sens al diferenei, atunci ipoteza alternativ
poate lua una dintre urmtoarele dou forme:

Ha: H
Ha: H

n cazul n care Ha are forma H, se spune c testul este bilateral sau non-
direcional, iar n cazurile n care Ha are una dintre celelalte dou forme, se spune c
testul este unilateral sau direcional. Vom reveni la aceste noiuni ceva mai departe. S
reinem deocamdat c n orice test se decide dac se respinge sau nu se respinge
ipoteza de nul, pe baza dovezilor aduse n sprijinul ipotezei alternative. Astfel, dac
putem respinge H0 ca neadevrat, atunci vom accepta Ha.
Revenind la exemplul nostru, ipoteza de nul este H0: = 800. Din enunul
problemei rezult c nu este vorba despre un sens al diferenei menionate, astfel c
ipoteza alternativ este Ha: 800.
Termenul statistic a testului se refer la formula a crei aplicare n testul
respectiv permite obinerea unei valori ce formeaz baza deciziei asupra ipotezei de nul.
Pentru mediile aritmetice, atunci cnd se cunoate sau se poate aproxima valoarea lui ,
statistica testului este dat de urmtoarea formul:
X H
Formula 7.1 Z
n

S notm c aceast formul este analoag structural formulelor de calcul pentru


transformarea unui scor brut X n scorul Z corespunztor (v. seciunea 4.2), aici fiind
vorba despre scorul Z al unei medii aritmetice. Ca atare, n numitorul formulei 7.1 apare
abaterea standard a distribuiei de eantionare a X , astfel c aceast formul ne d
distana n abateri standard sau fraciuni de abateri standard a mediei aritmetice a
eantionului, X , fa de valoarea presupus pentru populaie. n exemplul nostru, avem

X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4

Din motive care vor deveni imediat evidente, vom desemna rezultatul aplicrii formulei
7.1 prin Z (obinut). Aici, Z (obinut) = 3,36.
Regula de decizie se refer la o anumit amplitudine de valori pentru rezultatul
statisticii testului, numit zon critic sau zon de respingere, care conduce la
respingerea ipotezei de nul. n cazul testului scorurilor Z pentru medii aritmetice, zona
critic se stabilete cu ajutorul distribuiei de eantionare a X . Astfel, n exemplul de
mai sus, eantionul alctuit este unul dintre toate eantioanele posibile cu n = 130 din
populaia de referin. S presupunem c H0 este adevrat, Dac s-ar calcula toate
mediile aritmetice posibile, atunci teorema limitei centrale asigur urmtorul rezultat:

755 = 800

n general, cu ct X este mai aproape de centru (diferena dintre X i X este mai


mic), cu att vom fi mai nclinai s nu respingem ipoteza de nul i cu ct X este mai
departe de centru (diferena dintre X i X este mai mare), cu att vom fi mai
nclinai s respingem ipoteza de nul. Cu alte cuvinte, ipoteza de nul poate fi respins
dac rezultatul statisticii testului este un numr negativ prea mare sau un numr
pozitiv prea mare. nelesul expresiei prea mare se fixeaz prin alegerea unui nivel
de ncredere sau nivel (revedei capitolul anterior). n cazul ipotezei alternative de
forma Ha: H, nivelul ales se mparte n mod egal n cele dou extremiti ale
distribuiei de eantionare:
/2 /2

Z/2 Z/2

Aria de sub Z/2 plus aria de peste +Z/2 reprezint zona critic: dac scorul Z
corespunztor mediei aritmetice a unui eantion cade n aceast arie (i.e. sub Z/2 sau
peste +Z/2), atunci media aritmetic respectiv are prin definiie o probabilitate de
apariie mai mic dect . Scorurile Z/2 i +Z/2 se numesc scoruri Z critice i se
desemneaz, respectiv, prin Z/2 (critic) i +Z/2 (critic).
S revenim iari la exemplul nostru i s stabilim = 0,05. tim c pentru
aceast valoare a lui , Z/2 = 1,96. Z (obinut) se afl n zona critic (3,36 1,96),
dup cum se ilustreaz n figura urmtoare:

1,96 0 1,96
-3,36
Ca atare, suntem ndreptii s respingem ipoteza de nul: probabilitatea de apariie a
mediei aritmetice a eantionului considerat este mai mic dect 0,05 i deci nu poate fi
atribuit ntmplrii. Cu alte cuvinte, diferena dintre media aritmetic a eantionului i
media aritmetic presupus pentru populaie este statistic semnificativ (eantionul de
rezideni difer semnificativ de populaia din care a fost selectat), astfel c ipoteza de
nul poate fi respins.
De notat c decizia pe care am luat-o (respingerea ipotezei de nul) comport un
element de risc: aceast decizie poate fi greit, ntruct este posibil ca eantionul
considerat s fie unul dintre puinele eantioane nereprezentative pentru populaia de
medici rezideni. O trstur foarte important a testrii ipotezelor const din aceea c
probabilitatea de a lua o decizie greit este cunoscut, fiind dat de nivelul ales. n
exemplul nostru, probabilitatea de a lua o decizie greit este de 0,05. A spune c
probabilitatea de a fi respins greit ipoteza de nul este de 0,05 revine la a spune c dac
am repeta acest test de o infinitate de ori, vom respinge greit H0 doar de 5 ori la fiecare
100 de repetri. Rezultatul de mai sus poate fi enunat i spunnd c diferena
menionat este statistic semnificativ la un nivel de ncredere de 95%. Ca i pentru
estimarea intervalelor, nivelurile de ncredere folosite n mod obinuit n testarea
ipotezelor sunt 90%, 95% i 99%.
Testul ntreprins n acest exemplu este bilateral sau nedirecional. n general,
ntr-un astfel de test, ipoteza alternativ enun doar c exist o diferen ntre valoarea
efectiv a parametrului respectiv i valoarea presupus pentru acel parametru. Dup
cum am vzut, n cazul unui test bilateral, zona critic specificat de nivelul se
mparte n mod egal n cele dou extremiti ale distribuiei de eantionare. ntr-un test
bilateral, indiferent de nivelul ales, regula de decizie este urmtoarea:

Se respinge H0, dac Z (obinut) +Z/2 (critic) sau dac Z (obinut) Z/2 (critic)

ntr-un test unilateral sau direcional, dac cercettorul crede c valoarea efectiv a
parametrului este mai mare dect valoarea presupus, Ha ia forma H, iar pentru un
test n sensul opus, Ha ia forma H.. n cazul unui test unilateral, ntreaga zon
critic specificat de nivelul este plasat n extremitatea de interes a distribuiei de
eantionare. De pild, ntr-un test bilateral n care = 0,05, zona critic ncepe de la
Z/2 (critic) = 1,96. ntr-un test unilateral, la acelai nivel , Z (critic) este +1,65 dac
este vorba despre extremitatea superioar (dac Ha este de forma H) i este 1,65
dac este vorba despre extremitatea inferioar (dac Ha este de forma H)31. De notat
c aici folosim Z n loc de Z/2, ntruct ntreaga zon critic este plasat ntr-o singur
extremitate a distribuiei de eantionare.
ntr-un test unilateral, indiferent de nivelul ales, dac Ha este de forma H
(test unilateral dreapta), atunci regula de decizie este

Se respinge H0, dac Z (obinut) +Z (critic)

Dac Ha este de forma H (test unilateral stnga) atunci regula de decizie este

Se respinge H0, dac Z (obinut) Z (critic)

Dup cum rezult i din cele de mai sus, un test unilateral este mai bun dect
unul bilateral, deoarece zona critic este tras mai aproape de media aritmetic,
mbuntind astfel probabilitatea de a respinge H0. Astfel, dac cercettorul are mai
mult experien i mai multe cunotine n legtur cu variabila investigat, atunci se
recomand folosirea unui test unilateral, ceea ce cere o ipotez alternativ direcional.
Se obinuiete ca testarea ipotezelor statistice s fie organizat sub forma unui
model n n pai, numrul de pai diferind de la un autor la altul n funcie de anumite
opiuni de compactare sau de detaliere a informaiei. n cele ce urmeaz vom folosi un
model n 4 pai, pe care l exemplificm pentru problema tratat mai sus:

31
Scdem 0,05 din 0,5 (proporia de cazuri aflate de o parte i de alta a mediei aritmetice a distribuiei de
eantionare). Rezultatul scderii este 0,4500. Conform tabelului distribuiei normale standard, scorul Z
corespunztor acestei proporii este 1,65.
Pasul 1. Enunarea ipotezelor

H0: = 800
Ha: 800

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia Z


= 0,05 (test bilateral)
Z/2 (critic) = 1,96

(Zona critic este notat prin scorurile Z care i marcheaz nceputurile).

Pasul 3. Calcularea statisticii testului

X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4

Pasul 4. Luarea deciziei

ntruct Z (obinut) se afl n zona critic (3,36 1,96), ipoteza de nul poate fi
respins. Diferena dintre eantionul de medici rezideni i populaia de referin nu
poate fi atribuit ntmplrii sau, altfel spus, aceast diferen este statistic semnificativ
(la un nivel de ncredere de 95%).

Pentru a ilustra aplicarea unui test unilateral, s presupunem c cercettorul din


exemplul de mai sus dorete s testeze ipoteza c media aritmetic a populaiei de
rezideni este mai mic dect 800, toate celelalte date fiind aceleai. n acest caz,
cercettorul este interesat doar de extremitatea stng a distribuiei de eantionare i va
plasa ntreaga zon critic n aceast extremitate. n termenii modelului n patru pai,
testul decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei
critice

Distribuia de eantionare = Distribuia Z


= 0,05 (test unilateral stnga)
Z (critic) = 1,65

Pasul 3. Calcularea statisticii testului

X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4

Pasul 4. Luarea deciziei

ntruct Z (obinut) se afl n zona critic (3,36 1,65), ipoteza de nul poate fi
respins i se poate accepta c media aritmetic a populaiei de rezideni este mai mic
dect 800 (la un nivel de ncredere de 95%).

7.2 ERORI N TESTAREA IPOTEZELOR

Atunci cnd decidem s respingem sau s nu respingem ipoteza de nul, sunt


posibile patru situaii, descrise n figura urmtoare:

Figura 7.1 Rezultatele unui test al ipotezelor

H0 adevrat H0 fals
Se respinge Eroare de
H0 tipul I Decizie corect
Nu se Eroare de
respinge H0 Decizie tipul II
corect

Dup cum se indic n figura 7.1, H0 este n realitate adevrat sau fals i sunt
posibile dou decizii: se respinge H0 sau nu se respinge H0. Ca atare, sunt posibile dou
decizii corecte: respingerea unei ipoteze de nul false i nerespingerea unei ipoteze de
nul adevrate. Corespunztor, sunt posibile dou decizii greite: respingerea unei
ipoteze ne nul care este adevrat, numit eroare de tipul I, i nerespingerea unei
ipoteze de nul care este fals, numit eroare de tipul II. Probabilitatea de a comite o
eroare de tipul I este desemnat prin , iar probabilitatea de a comite o eroare de tipul II
este desemnat prin .
Probabilitatea de a comite o eroare de tipul I este determinat de nivelul ales.
Astfel, atunci cnd se alege un nivel , distribuia de eantionare este mprit n dou
mulimi de rezultate ale eantioanelor posibile: zona critic, ce include toate rezultatele
definite ca improbabile sau rare i care ndreptesc respingerea H0, i zona necritic, ce
const din toate rezultatele definite drept non-rare. Cu ct nivelul este mai mic, cu
att este mai mic zona critic i, corespunztor, este mai mare distana dintre media
aritmetic a distribuiei de eantionare i nceputurile (n cazul unui test bilateral) sau
nceputul (n cazul unui test unilateral) zonei critice. De pild, dac se alege = 0,05,
probabilitatea de a comite o eroare de tipul I este de 0,05: dac H0 este respins, exist 5
anse din 100 ca aceast decizie s fie greit; dac = 0,01, probabilitatea de a comite
o eroare de tipul I este de 0,01: dac H0 este respins, exist doar 1 ans din 100 ca
aceast decizie s fie greit. Prin urmare, pentru a minimiza probabilitatea de a comite
o eroare de tipul I, trebuie s folosim nivele foarte mici.
Pe de alt parte, cu ct nivelul este mai mic, cu att este mai mare zona
necritic i, pstrnd celelalte date constante, este mai puin probabil ca rezultatul
obinut pe eantion s cad n zona critic, deci este mai mare probabilitatea de a comite
o eroare de tipul II.
Prin urmare, cele dou probabiliti sunt invers proporionale, nefiind posibil s
le minimizm pe amndou: dac alegem un nivel foarte mic pentru a pentru a
minimiza probabilitatea de a comite o eroare de tipul I, crete probabilitatea de a comite
o eroare de tipul II. Cu alte cuvinte, dac cretem dificultatea de a respinge ipoteza de
nul, probabilitatea de a nu respinge ipoteza de nul atunci cnd aceasta este fals crete.
n mod normal, n tiinele omului se dorete minimizarea probabilitii erorii de tipul I,
socotit a fi mai grav dect eroarea de tipul II, astfel c se aleg valori mici pentru .
n tabelul urmtor sunt prezentate cteva scoruri Z critice pentru nivele mai
des folosite, att pentru teste bilaterale, ct i pentru teste unilaterale:

Tabelul 7.1 Scoruri Z critice

Niveluri
test Niveluri , Scoruri Z
bilateral test
unilateral critice

0,20 0,10 1,29

0,10 0,05 1,65

0,05 0,025 1,96

0,01 0,005 2,58

De regul, nivelul = 0,05 este considerat drept un indicator bun al unui rezultat
semnificativ.

7.3 TESTAREA IPOTEZELOR PENTRU MEDII ARITMETICE

CND ESTE NECUNOSCUT


Ca i n privina estimrii intervalelor, n aproape toate situaiile reale de
cercetare, valoarea abaterii standard a populaiei este necunoscut. i aici vom distinge
dou cazuri: cazul n care dimensiunea eantionului este mare, ceea ce nseamn
eantioane cu n 30, i cazul n 30. n cazul eantioanelor cu n 30, se poate estima
prin s, iar n pasul 3 se folosete urmtoarea formul:

X H
Formula 7.2 Z
s n 1

Aceast formul difer de formula 7.1 prin aceea c este nlocuit cu s, iar n este
nlocuit cu n 1 pentru a se corecta distorsiunea lui s.
n cazul eantioanelor cu n 30, distribuia de eantionare este distribuia
tStudent, prezentat n capitolul 6, iar n pasul 3 se folosete urmtoarea formul:

X H
Formula 7.3 t
s n 1

Vom spune c este vorba despre testul scorurilor t pentru medii aritmetice i vom
desemna rezultatul aplicrii formulei 7.3 prin t (obinut).
S presupunem c un cercettor primete informaia neverificat conform creia
media aritmetic a coeficientului de inteligen al participanilor la fazele naionale ale
olimpiadelor de matematic din ultimii 10 ani este de aproximativ 125. Pentru a testa
aceast ipotez, cercettorul selecteaz un eantion aleatoriu de 20 de olimpici la
matematic din ultimii 10 ani i constat c media aritmetic a coeficientului de
inteligen la nivelul eantionului este de 123, abaterea standard la nivelul eantionului
fiind de 8. Cercettorul este interesat s determine la un nivel de ncredere de 99% dac
media aritmetic a coeficientului de inteligen al participanilor la fazele naionale ale
olimpiadelor de matematic din ultimii 10 ani este mai mare de 125. Datele problemei
sunt, deci, urmtoarele:

Populaie Eantion
H = 125 X 123
s=8
n = 20

Pasul 1. Enunarea ipotezelor

H0: = 125
Ha: 125

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia t


= 0,01 (test unilateral dreapta)
gl = 20 1 = 19
t (critic) = +2,539

Pasul 3. Calcularea statisticii testului

X H 125 123 2
t 1,09
s n 1 8 19 8 4,36

Pasul 4. Luarea deciziei


ntruct t (obinut) nu cade n zona critic (+1,09 +2,539), cercettorul nu
poate respinge ipoteza de nul. Pe baza mediei aritmetice a eantionului nu se poate
conchide la un nivel de ncredere de 99% c media aritmetic a coeficientului de
inteligen al participanilor la fazele naionale ale olimpiadelor de matematic din
ultimii 10 ani este mai mare de 125. Rezultatul acestui test este prezentat grafic n figura
urmtoare:

0
+2,539
+1,09

n cazul folosirii distribuiei t ca distribuie de eantionare, regulile de decizie au


aceeai structur cu cele ale testului scorurilor Z. Astfel, ntr-un test bilateral, indiferent
de nivelul ales i de numrul de grade de libertate, regula de decizie este urmtoarea:

Se respinge H0, dac t (obinut) +t/2 (critic) sau dac t (obinut) t/2 (critic)

ntr-un test unilateral dreapta ( H), regula de decizie este

Se respinge H0, dac t (obinut) +t (critic)

n fine, ntr-un test unilateral stnga ( H), regula de decizie este

Se respinge H0, dac t (obinut) t (critic)

7.4 TESTUL SCORURILOR Z PENTRU PROPORII

Atunci cnd variabila de interes nu este de interval sau de raport, astfel nct s
se justifice calcularea mediei aritmetice, se poate utiliza proporia eantionului (p) n loc
de media aritmetic. n cele ce urmeaz, prezentm un test al ipotezelor pentru proporii,
aplicabil n cazul eantioanelor pentru care np 5 i n(1 p) 5.
n acest test, formula de calcul pentru Z (obinut) are aceeai structur cu
formula 7.1: Z (obinut) este egal cu mrimea pentru eantion minus valoarea presupus
pentru parametrul corespunztor, totul de mprit la abaterea standard a distribuiei de
eantionare. Din capitolul anterior, tim c proporiile pentru eantioane (p) au
distribuii de eantionare aproximativ normale, cu media aritmetic (p) egal cu
proporia pentru populaie (P) i abaterea standard (p) egal cu P(1 P) n . Teoretic,
formula de calcul al testului scorurilor Z pentru proporii este urmtoarea:

p PH
Formula 7.4 Z
P(1 P) n
unde PH este proporia presupus pentru populaie. Acum, valoarea proporiei pentru
populaie, P, nu este cunoscut. Ca i n cazul estimrii intervalelor pentru proporii,
putem estima valoarea lui P prin p, lucrnd cu formula urmtoare:
p PH
Formula 7.5 Z
p(1 p) n

S considerm un exemplu. Se pretinde c aproximativ 10% din studenii unei mari


universiti sunt cstorii. Pentru testarea acestei ipoteze, se selecteaz un eantion
aleatoriu de 200 de studeni de la universitatea respectiv i se constat c 24 de studeni
din eantion sunt cstorii. n baza acestui rezultat, se poate spune la un nivel de
ncredere de 95% c mai mult de 10% din studeni sunt necstorii? Datele problemei
sunt urmtoarele:

Populaie Eantion
PH = 0,10 p = 0,12
n = 200

Folosind formula 7.5, testul decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: P = 0,10
Ha: P 0,10

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia Z


= 0,05 (test unilateral dreapta)
Z (critic) = +1,65

Pasul 3. Calcularea statisticii testului

p PH 0,12 0,10 0,02


Z 1,06
p(1 p) n 0,12(1 0,12) 300 0,0188

Pasul 4. Luarea deciziei


ntruct Z (obinut) nu cade n zona critic (+1,06 +1,65), ipoteza de nul nu
poate fi respins. La nivelul de ncredere de 95% nu se poate spune c mai mult de 10%
din studeni sunt necstorii.
GLOSAR

Eroare de tipul I: respingerea unei


ipoteze de nul care este adevrat;
probabilitatea de a comite o eroare de
tipul I este desemnat prin .
Eroare de tipul II: nerespingerea unei
ipoteze de nul care este fals;
probabilitatea de a comite o eroare de
tipul II este desemnat prin .
Ipotez alternativ: n contextul
statisticilor infereniale, ipotez care
enun c exist o diferen ntre
valoarea efectiv a unui parametru i
valoarea presupus pentru acel
parametru; dac sensul diferenei
poate fi prezis, ipoteza alternativ
este direcional, n caz contrar este
nedirecional.
Ipotez de nul: n contextul statisticilor
infereniale, ipotez care enun nu
exist nici o diferen semnificativ
ntre valoarea efectiv a unui
parametru i valoarea presupus a
acelui parametru.
Regul de decizie: enun referitor la o
anumit amplitudine de valori pentru
rezultatul statisticii testului, numit
zon critic sau zon de respingere,
care conduce la respingerea ipotezei
de nul.
Statistic a testului: formula a crei
aplicare n testul respectiv permite
obinerea unei valori ce formeaz
baza deciziei asupra ipotezei de nul.
Teste parametrice: teste statistice
despre valoarea parametrilor unei
populaii, care cer ndeplinirea unor
condiii sau supoziii despre
populaiile respective, cum este, n
principal, normalitatea.
Test bilateral: test statistic n care
ipoteza alernativ este non-
direcional.
Test unilateral: test statistic n care
ipoteza alternativ este direcional.
8 TESTAREA IPOTEZELOR DESPRE
DIFERENELE DINTRE DOU POPULAII

Problema de cercetare abordat n capitolul 7 viza semnificaia diferenei dintre


valoarea unei statistici (medie aritmetic sau proporie) calculat pentru un eantion i
valoarea presupus a parametrului corespunztor al populaiei de referin. n acest
capitol sunt expuse procedee de testare a ipotezelor privind diferenele dintre mediile
aritmetice a dou populaii, 1 2, i dintre proporiile a dou populaii, P1 P2.
Problema central n acest caz poate fi formulat dup cum urmeaz: diferena dintre
dou eantioane sub aspectul variabilei de interes este suficient de mare pentru a putea
conchide, cu o probabilitate de eroare cunoscut, c populaiile reprezentate de
eantioane sunt diferite sub aspectul variabilei respective?
Toate testele statistice prezentate n continuare sunt aplicabile sub supoziia c
eantioanele selectate aleatoriu din cele dou populaii de referin sunt independente.
Dou eantioane sunt independente dac selectarea cazurilor pentru un eantion nu
influeneaz selectarea cazurilor pentru cellalt eantion. Astfel, testele prezentate n
acest capitol nu pot fi aplicate atunci cnd ntre cele dou eantioane exist o
dependen de vreun fel sau altul, de pild n situaiile experimentale n care aceeai
subieci sunt testai nainte i dup aplicarea unui tratament.

8.1 TESTUL SCORURILOR Z PENTRU DIFERENA


DINTRE DOU MEDII ARITMETICE

Testul expus n aceast seciune este aplicabil dac, pe lng independena


eantioanelor, sunt satisfcute urmtoarele dou condiii (i) nivelul de msur al
variabilei de interes este de interval sau de raport i (ii) cele dou eantioane sunt relativ
mari, ceea ce nseamn n1 30 i n2 30.
Distribuia de eantionare la care ne vom referi n continuare este distribuia de
eantionare a diferenelor dintre mediile aritmetice ale eantioanelor, despre care se
demonstreaz c este normal dac distribuiile de eantionare separate ale mediilor
aritmetice ale eantioanelor sunt normale. Teorema limitei centrale garanteaz c aceste
distribuii de eantionare aproximeaz cu att mai bine normalitatea, cu ct dimensiunile
eantioanelor sunt mai mari. Astfel, atunci cnd eantioanele sunt mari, pentru
descrierea acestei distribuii de eantionare se poate folosi distribuia Z.
Ipoteza de nul este i n acest caz un enun de tipul nici o diferen, numai c
este vorba despre diferena dintre dou populaii sub aspectul variabilei de interes.
Astfel, forma ipotezei de nul este H0: 1 = 2 sau, echivalent, H0: 1 2 = 0.
Ipoteza alternativ corespunde tipului de test, bilateral sau unilateral, intenionat
de cercettor. Pentru un test bilateral, ipoteza alternativ este de forma Ha: 1 2. Dac
testul este unilateral, atunci ipoteza de nul poate lua una dintre urmtoarele dou forme:

Ha: 1 2
Ha: 1 2

Prima form corespunde unui test unilateral n care ntreaga zon critic este plasat n
extremitatea dreapt a distribuiei de eantionare, iar cea de-a doua form corespunde
unui test unilateral n care ntreaga zon critic este plasat n extremitatea stng a
distribuiei de eantionare. Dac rezultatul statisticii testului cade n zona critic, atunci
ipoteza de nul poate fi respins, fiind acceptat ipoteza diferenei sub aspectul variabilei
de interes.
Teoretic, formula de calcul al testului scorurilor Z pentru diferena dintre dou
medii aritmetice este urmtoarea:

( X 1 X 2 ) ( 1 2 )
Formula 8.1 Z
x1 x 2
n care X 1 X 2 = diferena dintre mediile aritmetice ale eantioanelor
1 2 = diferena dintre mediile aritmetice ale populaiilor
x1 x 2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
mediile aritmetice ale eantioanelor

n formula 8.1, cel de-al doilea termen al numrtorului, 1 2, este necunoscut. Acest
termen se reduce ns la zero, ntruct testul are loc sub presupunerea c ipoteza de nul,
1 2 = 0, este adevrat. Mai departe, pentru eantioane mari, distribuia de
eantionare a diferenelor dintre mediile aritmetice ale eantioanelor se definete astfel:

12 22
x1 x 2
n1 n2

ntruct valorile abaterilor standard ale populaiilor, 1 i 2, nu sunt aproape niciodat


cunoscute, se utilizeaz abaterile standard ale eantioanelor, cu coreciile
corespunztoare pentru distorsiune. Astfel, formula folosit pentru estimarea abaterii
standard a distribuiei de eantionare n aceast situaie este urmtoarea:

s12 s 22
Formula 8.2 x1 x 2
n1 1 n 2 1

Prin urmare, vom lucra practic cu formula urmtoare pentru Z (obinut):

X1 X 2
Formula 8.3 Z
s12 s2
2
n1 1 n 2 1
Ca i pn acum, vom considera un exemplu. Un cercettor presupune c
brbaii i femeile difer sub aspectul capacitii de rezolvare de probleme. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 127 de subieci
i le administreaz un test de rezolvare de probleme. Eantionul este apoi mprit n
dou subeantioane dup criteriul sex, iar mrimile statistice sunt calculate pentru
fiecare subeantion, datele obinute fiind urmtoarele:

Eantion Eantion
1 2
(brbai) (femei)
X 1 62 X 2 65
s1 = 13 s2 = 14
n1 = 324 n2 = 317

Presupunnd c testul de rezolvare de probleme furnizeaz date de interval sau de


raport, se poate aplica testul scorurilor Z pentru semnificaia diferenei dintre dou
medii aritmetice. Se poate observa c scorul mediu al eantionului 1 este mai mic dect
cel al eantionului 2. Prin aplicarea testului menionat se poate afla dac aceast
diferen este suficient de mare pentru a ndrepti concluzia c exist o diferen
semnificativ ntre brbai i femei sub aspectul capacitii de rezolvare de probleme i
nu o intervenie a unor factori ntmpltori.

Pasul 1. Enunarea ipotezelor

H0: 1 = 2
Ha: 1 2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia Z


= 0,05 (test bilateral)
Z/2 (critic) = 1,96

Pasul 3. Calcularea statisticii testului

X1 X 2 62 65 3
Z 2,63
s2
s 2
13 2
14 2 1,14
1
2

n1 1 n2 1 323 316

Pasul 4. Luarea deciziei

ntruct Z (obinut) se afl n zona critic (2,63 1,96), ipoteza de nul poate fi
respins, ceea ce reprezint o dovad n sprijinul ipotezei c brbaii i femeile difer
sub aspectul capacitii de rezolvare de probleme. Decizia de a respinge ipoteza de nul
are o probabilitate de doar 0,05 de a fi greit.
8.2 TESTUL SCORURILOR t PENTRU DIFERENA
DINTRE DOU MEDII ARITMETICE

Atunci cnd abaterile standard ale populaiilor nu sunt cunoscute i eantioanele


sunt mici (n1 30 sau/i n2 30), distribuia de eantionare folosit este distribuia
tStudent, cu n1 + n2 2 grade de libertate. Teoretic, formula de calcul al testului
scorurilor t pentru diferena dintre dou medii aritmetice este urmtoarea:

( X 1 X 2 ) ( 1 2 )
Formula 8.4 t
x1 x 2

Ca mai sus, termenul 1 2 se reduce la zero, ntruct testul are loc sub presupunerea
c ipoteza de nul, 1 2 = 0, este adevrat. n cazul testului prezentat n aceast
seciune, formula folosit pentru estimarea abaterii standard a distribuiei de eantionare
este urmtoarea:

n1 s12 n 2 s 22 n n2
Formula 8.5 x1 x 2 1
n1 n 2 2 n1 n 2

Astfel, pentru a afla valoarea lui t (obinut) vom folosi urmtoarea formul:

X1 X 2
Formula 8.6 t
n s n 2 s 22
2
n n2
1 1
1
n1 n 2 2 n1 n 2

Este important de notat c testul scorurilor t pentru dou medii aritmetice poate
fi folosit doar dac cele dou populaii sunt egal dispersate sau, altfel spus, au abaterile
standard egale (1 = 2). Aceast condiie este necesar pentru a justifica supoziia de
normalitate a distribuiei de eantionare i a estima abaterea standard a acesteia.
Egalitatea dispersiilor poate fi testat formal32. Pentru scopuri practice, putem considera
c supoziia 1 = 2 este satisfcut n msura n care eantioanele au dimensiuni
apropiate33.
Un cercettor presupune c o anumit metod modern de predare a matematicii
conduce la rezultate mai bune dect metodele tradiionale. Pentru a verifica aceast
ipotez, cercettorul alctuiete un eantion aleatoriu de 25 de elevi, pe care l mparte
aleatoriu n dou grupuri. Un grup de 12 elevi este repartizat ntr-o clas n care
matematica este predat dup metoda modern, iar cellalt grup de 13 elevi este
repartizat ntr-o clas n care matematica este predat dup metode tradiionale. Dup un
an, ambele grupuri primesc acelai test la matematic, obinnd urmtoarele rezultate:

32
Vezi, de pild, Hinkle, Wiersma i Jurs, 1988, pp. 280 284.
33
Vezi Healey, 1984.
Grupul 1 Grupul 2
(m. (m.
modern) tradiional)
X 1 8,80 X 2 8,20
s1 = 1,70 s2 = 1,20
n1 = 12 n2 = 13

Mediile aritmetice ale grupurilor difer n sensul prezis (1 2). Aplicarea testului t
arat dac aceast diferen este sau nu statistic semnificativ. Fie = 0,05.

Pasul 1. Enunarea ipotezelor

H0: 1 = 2
Ha: 1 2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia t


= 0,05 (test unilateral)
gl = 12 + 13 2 = 23
t (critic) = +1,714

Pasul 3. Calcularea statisticii testului

X1 X 2 8,80 8,20
t
n1 s12 n 2 s 22 n n2 12(1,70) 2 13(1,20) 2 25
1
n1 n 2 2 n1 n 2 23 156
0,60 0,60 0,60
0,31
2,32 0,16 1,52 0,4 1,92

Pasul 4. Luarea deciziei

ntruct t (obinut) nu se afl n zona critic (+0,31 +1,714), ipoteza de nul nu


poate fi respins la un nivel de ncredere de 95%. Diferena dintre cele dou grupuri nu
este statistic semnificativ.

8.3 TESTUL SCORURILOR Z PENTRU DIFERENA


DINTRE DOU PROPORII

Testul scorurilor Z pentru semnificaia diferenei dintre dou proporii este


aplicabil atunci cnd eantioanele sunt mari (n1 30 i n2 30) i este asemntor cu
testul pentru medii aritmetice. Ipoteza de nul enun c nu exist nici o diferen
semnificativ ntre populaiile din care sunt alctuite eantioanele, ipoteza alternativ
putnd fi direcional sau non-direcional.
Teoretic, formula de calcul al testului scorurilor Z pentru diferena dintre dou
proporii este urmtoarea:

( p1 p 2 ) ( P1 P2 )
Formula 8.7 Z
p1 p 2
n care p1 p2 = diferena dintre proporiile eantioanelor
P1 P2 = diferena dintre proporiile populaiilor
p1 p2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
proporiile eantioanelor

Ca i pentru medii aritmetice, cel de-al doilea termen al numrtorului, P1 P2, se


reduce la zero, ntruct testul are loc sub presupunerea c ipoteza de nul, P1 P2 = 0,
este adevrat. Formula folosit pentru estimarea abaterii standard a distribuiei de
eantionare este urmtoarea:

n1 n 2
Formula 8.8 p1 p 2 P (1 P )
n1 n 2

Cantitatea P se numete estimare combinat a proporiilor pentru cele dou


populaii i este dat de urmtoarea formul:

n1 p1 n 2 p 2
Formula 8.9 P
n1 n 2

Prin urmare, pentru a afla valoarea lui Z (obinut) vom folosi urmtoarea formul:

p1 p 2
Formula 8.10 Z
n1 n 2
P (1 P )
n1 n 2

S presupunem c au fost alctuite dou eantioane de studeni, unul de 83 de


studeni de la Universitatea A i cellalt de 103 studeni de la Universitatea B, fiecare
student fiind chestionat n legtur cu problema interzicerii avorturilor i clasificat ntr-
una dintre categoriile: De acord, mpotriv, Nedecis. Proporia studenilor care s-au
declarat de acord cu interzicerea avorturilor a fost de 0,34 n primul eantion (A) i de
0,25 n cel de-al doilea (B). Exist o diferen semnificativ ntre studenii celor dou
universiti sub acest aspect?

Eantion Eantion
1 2
(A) (B)
p1 = 0,34 p2 = 0,25
n1 = 83 n2 = 103
Pasul 1. Enunarea ipotezelor

H0: P1 = P2
Ha: P1 P2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia Z


= 0,05 (test bilateral)
Z/2 (critic) = 1,96

Pasul 3. Calcularea statisticii testului

n1 p1 n 2 p 2 83(0,34) 103(0,25) 28,22 25,75 53,97


P 0,29
n1 n 2 83 103 186 186
p1 p 2 0,34 0,25 0,09
Z 1,29
n1 n 2 83 103 0,07

P (1 P ) 0,29(1 0,29)
n1 n 2 83 103

Pasul 4. Luarea deciziei

ntruct Z (obinut) nu cade n zona critic (+1,29 +1,69), nu se poate respinge


ipoteza de nul. Studenii de la cele dou universiti nu difer semnificativ n privina
acordului cu interzicerea avorturilor.

GLOSAR

Eantioane aleatorii independente:


eantioane aleatorii alctuite n aa
fel nct selectarea cazurilor pentru
un eantion nu influeneaz selectarea
cazurilor pentru cellalt eantion.
9 ANALIZA DE VARIAN (ANOVA)

Am expus pn acum proceduri pentru testarea ipotezelor privind o populaie


sau dou populaii. n acest capitol se prezint o procedur de testare a ipotezei conform
creia mediile aritmetice ale k populaii (k 2) sunt egale. Aceast procedur este
numit analiza de varian (ANOVA34). Ipoteza de nul testat n ANOVA are
urmtoarea form:

H0: 1 = 2 = = k

Conform ipotezei alternative, Ha, cel puin o medie aritmetic difer de celelalte.

9.1 ANOVA PENTRU O VARIABIL INDEPENDENT

nainte de a trece la expunerea testului ANOVA pentru o variabil independent


s notm c ntr-un experiment psihologic, cercettorul manipuleaz cel puin o
variabil i nregistreaz rspunsurile subiecilor n privina unei alte variabile, cu
scopul de a constata eventualul efect al primei variabile asupra celei de-a doua. De
pild, cercettorul poate expune un grup de subieci unor condiii de stres i un alt grup
unor condiii normale, pentru a constata dac stresul influeneaz ndeplinirea unei
anumite sarcini. Variabila manipulat este numit variabil independent, iar variabila
care este observat i msurat este numit variabil dependent.
Un cercettor presupune c subiecii supui unui interviu vor furniza cu att mai
multe informaii cu caracter personal, cu ct se afl mai aproape de intervievator. Pentru
a verifica aceast presupunere, cercettorul monteaz un experiment la care particip 15
subieci. Fiecare subiect primete aceleai ntrebri de la acelai intervievator. Variabila
independent (A) este distana fa de intervievator, cu urmtoarele categorii: mic (0,5
metri), medie (1,5 metri), mare (2 metri). Pentru a fi intervievai, subiecii sunt
repartizai aleatoriu ntr-una dintre cele trei categorii ale variabilei independente.
Variabila dependent (B) este numrul de rspunsuri cu caracter personal date de
subiect. Datele obinute, mpreun cu mrimile necesare pentru ANOVA sunt prezentate
n urmtorul tabel:

34
Prescurtarea uzual de la denumirea procedurii n limba englez: Analysis of Variance.
Tabelul 9.1 Calcule iniiale pentru ANOVA, o variabil independent

Distana fa de intervievator
Mic Medie Mare
33 21 20
24 25 13
31 19 15
29 27 10
34 26 14
T1 = 151 T2 = 118 T3 = 72
n1 = 5 n2 = 5 n3 = 5
X 1 = 30,20 X 2 = 23,60 X 3 = 14,40
2
X 1 = 4623 X 22 = 2832 X 32 = 1090
T12 = 22801 T22 = 13294 T32 = 5184

Pentru fiecare grup i, Ti este totalul scorurilor individuale, ni este numrul de subieci,
X i este media aritmetic a scorurilor, X i2 este suma ptratelor scorurilor individuale,
iar Ti 2 este ptratul totalului scorurilor. De notat c grupurile obinute sunt
independente, precum i c formulele de calcul care urmeaz sunt aplicabile i n cazul
n care este vorba despre un numr diferit de subieci n fiecare grup.
n ANOVA pentru o variabil independent se consider dou surse de variaie:
(i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat diferenelor dintre
subiecii din fiecare grup, care poate fi atribuit procesului de eantionare. Pentru
nceput, se calculeaz trei sume de ptrate ale abaterilor fa de medie sau, pe scurt,
sume de ptrate. Vom desemna generic prin SS aceste sume de ptrate35: (1) SSTOTAL
suma ptratelor abaterilor fiecrui scor individual fa de media aritmetic a tuturor
scorurilor, numit i marea medie; (2) SSA suma ptratelor abaterilor fiecrei medii de
grup fa de marea medie; (3) SSEROARE suma ptratelor abaterilor fiecrui scor
individual fa de media aritmetic a grupului respectiv. Litera A din SSA arat c
lucrm cu variana sistematic a variabilei independente A. SSA reflect prima surs de
variaie, iar SSEROARE pe cea de-a doua.
Putem calcula aceste abateri direct pe baza datelor din tabel. ntruct astfel de
calcule sunt greoaie, vom utiliza formule simplificate.

G2
Formula 9.1 SS TOTAL X 2
N
2
n care X = suma ptratelor scorurilor individuale ale tuturor subiecilor din
experiment = X 12 + X 22 + X 32
G 2 = ptratul totalului tuturor scorurilor = (T1 T2 T3 ) 2
N = numrul total de subieci din experiment.

35
Prescurtarea uzual de la denumirea din limba englez Sum of squares.
Dac se efectueaz calculele pe hrtie sau cu un calculator de buzunar, este convenabil
s se afle mai nti X 2 pentru scorurile din fiecare grup, aa cum am fcut n tabelul
de mai sus, dup care s se adune aceste sume. Aplicm formula 9.1:

G2 (151 118 72) 2


SS TOTAL X 2 (4623 2823 1090)
N 15
8545 7752,07 792,93

Atunci cnd calculm SSTOTAL este recomandabil s reinem termenii diferenei, 8545 i
7752,07, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Odat de am calculat SSTOTAL, putem calcula SSA dup urmtoarea formul:

Ti 2 G 2
Formula 9.2 SS A
ni n

n aceast formul, Ti este un simbol general pentru T1, T2 i T3, iar ni este un simbol
general pentru n1, n2 i n3. Astfel, odat ce cantitatea Ti 2 ni este calculat pentru
fiecare grup, cantitile sunt adunate, dup cum arat simbolul . S notm c a doua
parte a formulei 2, G2/N, a fost deja calculat, atunci cnd am obinut SSTOTAL, aa nct
vom prelua direct rezultatul respectiv n calculul SSA:

Ti 2 G 2 T12 T22 T32 G 2 1512 118 2 72 2


SS A 7752,07
ni n n1 n2 n3 N 5 5 5
8381,80 7752,07 629,73

i aici vom reine unul dintre termenii diferenei, i anume 8381,80, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:

Ti 2
Formula 9.3 SS EROARE X 2
ni

Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA, aa nct vom prelua direct rezultatele respective n calculul
SSEROARE:

Ti 2
SS EROARE X 2 8545 8381,80 163,20
ni

De notat c SSTOTAL = SSA + SSEROARE. Aceast relaie poate fi utilizat pentru a


controla corectitudinea calculelor.
Pasul urmtor n calculul ANOVA const n calcularea a dou medii aritmetice
ale sumelor de ptrate ale abaterilor fa de medie sau, pe scurt, medii aritmetice
ale sumelor de ptrate. Vom desemna generic prin MS aceste medii36: (1) MSA media

36
Prescurtarea uzual de la denumirea din limba englez Mean squares.
aritmetic pentru SSA, numit variana sistematic i (2) MSEROARE media aritmetic
pentru SSEROARE, numit variana de eroare.

SS A
Formula 9.4 MS A
k 1

n aceast formul, k este numrul de grupuri, k 1 fiind numrul de grade de libertate


asociate SSA, pe care l vom nota n continuare cu glA.

SS A 629,73 629,73
MS A 314,87
k 1 3 1 2

SS EROARE
Formula 9.5 MS EROARE
N k

Aici, N k reprezint numrul de grade de libertate asociate SSEROARE, pe care l vom


nota n continuare cu glEROARE.

SS EROARE 163,20 163,20


MS EROARE 13,60
N k 15 3 12

Distribuia de eantionare n ANOVA este distribuia F (numit astfel n onoarea


britanicului Ronald Fisher (1890-1962), biolog i statistician, inventatorul ANOVA).
Forma aproximativ a unei curbe F este urmtoarea:

Figura 9.1 Un exemplu de curb F


Valori ale lui F

Grade de libertate

Forma exact a unei curbe F depinde de valorile pentru glA i, respectiv, pentru
glEROARE. De notat c folosirea distribuiei F cere ca variabila dependent s fie normal
distribuit n cele k populaii i ca aceste populaii s fie egal dispersate37. n tabelul
distribuiei F (vezi Anexa D) n prima coloan din stnga sunt trecute gradele de
libertate pentru MSEROARE (glEROARE = N k), de la 1 la 120 i . Pe cea de-a doua
coloan din stnga apar nivelele . Pe primul rnd al tabelului apar gradele de libertate
pentru MSA (glA = k 1), de la 1 la 120 i .

37
Supoziia omogenitii dispersiei i cea a normalitii distribuiei, mpreun cu ipoteza de nul, spun c
distribuiile la nivelul populaiilor au aceeai form, aceeai medie aritmetic i aceeai abatere standard
sau, cu alte cuvinte, c este vorba despre una i aceeai populaie.
Figura 9.2 Schema tabelului valorilor critice ale distribuiei F

glA (gl1)
glEROARE 1 2 .120
(gl2)
1 0,25
0,10 ..
0,05 ..
2 . ....
. . ..
. . ..
120 . ..
. ..
. ..
.

La intersecia rndului pentru N k grade de libertate i nivelul ales cu coloana pentru


k 1 grade de libertate se gsete F (critic), adic valoarea care marcheaz nceputul
zonei critice n distribuia F. n exemplul nostru, pentru N k = 12 i k 1 = 2, alegnd
un nivel = 0,05, F (critic) = 3,8853 sau, rotunjit, 3,89. Valoarea pentru F (obinut) se
calculeaz cu formula urmtoare:
MS A
Formula 9.6 F
MS EROARE

Dac intervin doar factori ntmpltori, valoarea ateptat pentru F (obinut) este 1,0.
Cu ct este mai mare valoarea pentru F (obinut), cu att este mai mic probabilitatea ca
rezultatele experimentului s se datoreze ntmplrii. Regula de decizie este urmtoarea:

Se respinge H0, dac F (obinut) F (critic)

n exemplul nostru,

MS A 314,87
F 23,15
MS EROARE 13,60

ntruct F (obinut) cade n zona critic (23,15 3,89), vom conchide c rezultatele
experimentului sunt semnificative i vom respinge ipoteza c mediile aritmetice sunt
egale la nivelul populaiei.
n termenii modelului n patru pai, testul ANOVA pentru o variabil
independent, n exemplul nostru, decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: 1 = 2 = 3
Ha: Cel puin o medie aritmetic difer de celelalte
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice

Distribuia de eantionare = Distribuia F


= 0,05
glEROARE = N k = 12
glA = k 1 = 2
F(critic) = 3,89

Pasul 3. Calcularea statisticii testului

Organizarea calculului ANOVA se face cu ajutorul unui tabel de calcule iniiale (v.
tabelul 9.1), precum i al unui tabel ANOVA rezumativ, numit tabel al surselor de
variaie. Forma general a unui astfel de tabel este urmtoarea:

Sursa de Sume de Grade de Medii ale F (obinut)


variaie ptrate libertate sumelor
A SSA k1 MSA
EROARE SSEROARE Nk MSEROARE MSA/MSEROARE
TOTAL SSTOTAL N1

n exemplul nostru, avem urmtorul tabel:

Tabelul 9.2 ANOVA rezumativ, o variabil independent

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 629,73 2 314,87
EROARE 163,20 12 13,60 23,15
TOTAL 792,93 14

Pasul 4. Luarea deciziei

ntruct, F (obinut) cade n zona critic (23,15 3,89), ipoteza de nul este
respins. La nivelul populaiei, mediile aritmetice ale scorurilor corespunztoare celor
trei distane difer semnificativ. Enunul de probabilitate asociat acestei concluzii este
urmtorul: probabilitatea ca diferena observat ntre mediile aritmetice ale grupurilor s
apar din ntmplare, dac H0 ar fi n realitate adevrat, este mai mic de 0,05.

De notat c n cazul n care se consider mai mult de dou categorii ale


variabilei independente (ca n exemplul nostru n care avem trei grupuri), F (obinut) nu
arat care este grupul care difer semnificativ de celelalte. O modalitate de a examina
diferena dintre dou grupuri este de a utiliza formula SSA pentru a calcula suma
ptratelor i media sumei de ptrate pentru cele dou grupuri (numrul de grade de
libertate n acest caz fiind 2 1) i de a utiliza cantitatea MSEROARE, calculat anterior, ca
eroare de varian pentru calcularea F (obinut). Au fost dezvoltate i metode mai
sofisticate pentru a evalua diferena dintre dou grupuri, dup ce s-a determinat un F
(obinut) semnificativ, numite teste de comparare multipl post hoc, precum i metode
de testare a unor ipoteze specifice privind diferenele dintre medii, numite comparaii a
priori sau comparaii planificate38.

9.2 ANOVA PENTRU DOU VARIABILE INDEPENDENTE

Testul ANOVA pentru dou variabile independente este o extindere a testului


ANOVA pentru o singur variabil independent, cu excepia faptului c formulele
testului expus n aceast seciune sunt aplicabile doar n cazul grupurilor independente
cu acelai numr de subieci n fiecare grup. Vom folosi aceeai manier de expunere ca
mai sus: vom prezenta un exemplu ipotetic, un tabel de calcule iniiale, formulele de
calcul ale testului ANOVA pentru dou variabile independente, precum i modelul n
patru pai specific acestui test.
20 de elevi sunt supui unui experiment privind metodele de instruire n
matematic. Variabila independent, A, este, deci, metoda de instruire. Elevii sunt
repartizai aleatoriu n dou clase: o clas la care se utilizeaz metoda tradiional (A1)
i o clas la care se utilizeaz o metod modern (A2). Variabila independent, B, este
nivelul IQ, cu categoriile : B1 ( 90) i B2 ( 90). Informaia prezentat la cele dou
clase este aceeai. La sfritul perioadei de instruire elevii dau acelai test. Rezultatul
(scorul) obinut la acest test este variabila dependent. Experimentul permite evaluarea a
trei efecte: (i) efectul principal al variabilei A (dac una dintre metode conduce la
rezultate diferite fa de cealalt), (ii) efectul principal al variabilei B (dac elevii cu un
IQ superior obin rezultate diferite fa de ceilali), (iii) interaciunea A B (dac efectul
unei variabile independente difer n funcie de un anumit nivel al celeilalte variabile
independente).
Dup cum reiese i din cele de mai sus, un astfel de experiment are mai multe
avantaje. Mai nti, prin analiza simultan a dou variabile independente se realizeaz,
de fapt, dou cercetri altfel distincte. Pe lng investigarea modului n care diferitele
categorii ale celor dou variabile independente afecteaz variabila dependent, se poate
verifica dac nivelele uneia dintre variabilele independente afecteaz variabila
dependent n acelai fel ca i nivelele celeilalte variabile independente. Apoi, este
vorba despre investigarea interaciunii dintre dou variabile independente. ntruct, n
situaiile reale, efectul unei variabile independente este adesea afectat de una sau mai
multe variabile independente, studiul interaciunii dintre variabilele independente poate
fi un obiectiv foarte important al cercetrii.
Revenind la exemplul nostru ipotetic, datele obinute, mpreun cu mrimile
necesare pentru ANOVA sunt prezentate n urmtorul tabel:

38
Vezi Hinkle, Wiersma i Jurs, 1988, capitolul 16.
Tabelul 9.3 Calcule iniiale pentru ANOVA, dou variabile independente

Nivelul IQ (B)
Metoda (A)
B1 B2
75 90
70 95
69 89
72 85
Tradiional (A1) 68 91 TA1 = 804
TA1B1 = 354 TA1B2 = 450 nA1 = 10
nA1B1 = 5 nA1B2 = 5 X A1 = 80,40
X A1B1 = 70,80 X A1B2 = 90,00
X 2 A1B1 = 25094 X 2 A1B2 = 40552
85 87
87 94
83 93
90 89
Modern (A2) 89 92
TA2B1 = 434 TA2B2 = 455 TA2 = 788
nA2B1 = 5 nA2B2 = 5 nA2 = 10
X A2B1 = 86,80 X A2B2 = 91,00 X A2 = 88,90
X 2 A2B1 = 37704 X 2 A2B2 = 41439
TB1 = 788 TB2 = 905
nB1 = 10 nB2= 10
X B1 = 78,80 X B2 = 90,50

n ANOVA pentru dou variabile independente se testeaz trei ipoteze de nul,


fiecare corespunznd unei surse de variaie:

H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute prin cele dou metode.

H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute de elevii cu nivele IQ diferite.

H03: La nivelul populaiei nu exist interaciune ntre cele dou variabile.

H01 corespunde variaiei mediilor aritmetice ale scorurilor variabilei dependente din
fiecare categorie a variabilei A. H02 corespunde variaiei mediilor aritmetice ale
scorurilor variabilei dependente din fiecare categorie a variabilei B. H03 corespunde
variaiei mediilor aritmetice ale scorurilor variabilei dependente din categoriile
combinate A B.
n acest caz, se calculeaz cinci sume de ptrate: (1) SSTOTAL, (2) SSA, (3) SSB,
(4) SSA B i (5)SSEROARE.

SSTOTAL se calculeaz cu ajutorul formulei 9.1:


SS TOTAL X 2
G2
N

X A21B1 X A21B 2 X A2 2 B1 2A 2 B 2

(T A1B1 T A1B 2 T A2 B1 T A 2 B 2 ) 2
(25094 40552 37704 41439)
N
(354 450 434 455) 2
144789 143312,45 1476,55
20

i aici, atunci cnd calculm SSTOTAL, este recomandabil s reinem termenii diferenei,
144789 i 143312,45, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Formula 9.2 este modificat corespunztor pentru calculul SSA i SSB. Astfel, SSA
se calculeaz cu ajutorul urmtoarei formule:

Ta2 G 2
Formula 9.7 SS A
na n

n aceast formul, Ta este un simbol general pentru TA1 i TA2, iar na este un simbol
general pentru nA1 i nA2. Prin urmare, atunci cnd calculm SSA, lum n considerare
doar grupurile variabilei independente A.

Ta2 G 2 T A21 T A22 G 2 804 2 889 2


SS A 143312,45
na n n A1 n A 2 N 10 10
143673,70 143312,45 361,25

SSB se calculeaz cu ajutorul urmtoarei formule:

Tb2 G 2
Formula 9.8 SS B
nb n

n aceast formul, Tb este un simbol general pentru TB1 i TB2, iar nb este un simbol
general pentru nB1 i nB2. Prin urmare, atunci cnd calculm SSB, lum n considerare
doar grupurile variabilei independente B.

TB2 G 2 TB21 TB22 G 2 788 2 905 2


SS B 143312,45
nB n n B1 n B 2 N 10 10
143996,90 143312,45 684,45

Calculm acum SSA B, cu ajutorul urmtoarei formule:

Tab2 G 2
Formula 9.9 SS A B SS A SS B
n ab N

n aceast formul, Tab este un simbol general pentru TA1B1, TA1B2, TA2B1 i TA2B2, iar nab
este un simbol general pentru nA1B1, nA1B2, nA2B1 i nA2B2. Prin urmare, atunci cnd
calculm SSA B, lum n considerare grupurile constituite dup categoriile combinate
A B.

T 2 T2 T2 T 2 G2
SS A B A1B1 A1B 2 A 2 B1 A 2 B 2 SS A SS B
n A1B1 n A1B 2 n A2 B1 n A2 B 2 N
354 2 450 2 434 2 455 2
= 143312,45 361,25 684,25
5 5 5 5
144639,40 143312,45 361,25 684,45 281,25

i aici vom reine unul dintre termenii diferenei, i anume 144639,40, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:

Tab2
Formula 9.10 SS EROARE X 2

n ab

Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA B, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:

Tab2
SS EROARE X 2 144789 144639,40 149,60
n ab

De notat c SSTOTAL = SSA + SSB + SSA B + SSEROARE. Aceast relaie poate fi utilizat
pentru a controla corectitudinea calculelor.
Mediile aritmetice ale sumelor de ptrate pentru fiecare surs de varian se
calculeaz prin mprirea sumei de ptrate respectiv la numrul corespunztor de
grade de libertate.

SS A
Formula 9.11 MS A
kA 1

n aceast formul, kA este numrul de grupuri constituite dup categoriile variabilei A,


iar kA 1 este numrul de grade de libertate asociate SSA, notat cu glA. n exemplul
nostru,

SS A 361,25
MS A 361,25
kA 1 2 1

SS B
Formula 9.12 MS B
kB 1

n formula 12, kB 1 este numrul de grupuri constituite dup categoriile variabilei B,


iar kB 1 este numrul de grade de libertate asociate SSB, notat cu glB. n exemplul
nostru,
SS B 684,45
MS B 684,45
kB 1 2 1
SS A B
Formula 9.13 MS A B
(k A 1)(k B 1)

n formula 13, (kA 1)(kB 1) este numrul de grade de libertate asociat SSA B, notat cu
glA B. n exemplul nostru,

SS A B 281,25
MS A B 281,25
(k A 1)(k B 1) (2 1)(2 1)

SS EROARE
Formula 9.14 MS EROARE
N k AkB

n formula 14, N kAkB este numrul de grade de libertate asociat SSEROARE, notat cu
glEROARE.

SS EROARE 149,60 149,60


MS EROARE 9,35
N k A k B 20 4 16

Valoarea pentru F (obinut) se calculeaz pentru fiecare surs de varian


sistematic (efectele principale pentru A, pentru B i pentru interaciunea A B).
Prezentm n continuare formulele de calcul pentru FA (obinut), FB (obinut) i FAB
(obinut), mpreun cu calculele respective, corespunztoare exemplului nostru.

MS A
Formula 9.15 FA
MS EROARE

MS A 361,25
FA 38,64
MS EROARE 9,35

MS B
Formula 9.16 FB
MS EROARE

MS B 684,45
FB 30,08
MS EROARE 9,35

MS A B
Formula 9.17 FA B
MS EROARE

MS A B 281,25
FA B 30,08
MS EROARE 9,35

Pentru luarea deciziei, fiecare valoare pentru F (obinut) se compar cu F


(critic). ntruct n fiecare caz din exemplul nostru, glEROARE = 16, iar numrul de grade
de libertate din numrtor pentru media aritmetic este egal cu 1 (glA = glB = glAB = 1),
pentru = 0,05, F (critic) = 4,4940 sau, rotunjit, 4,4939. Deoarece fiecare F (obinut)
este mai mare dect F (critic), toate cele trei ipoteze de nul pot fi respinse. De notat c
toate cele trei ipoteze de nul pot fi respinse (rezultatele experimentului sunt
semnificative) i pentru = 0,01, pentru care F (critic) = 8,53.
n termenii modelului n patru pai, testul ANOVA pentru dou variabile
independente decurge astfel:

Pasul 1 Enunarea ipotezelor

H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute prin cele dou metode.
Ha1: La nivelul populaiei mediile aritmetice ale rezultatelor obinute prin cele
dou metode difer.

H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute de elevii cu nivele IQ diferite.
Ha2: La nivelul populaiei mediile aritmetice ale rezultatelor obinute de elevii cu
nivele IQ diferite difer.

H03: La nivelul populaiei nu exist interaciune ntre cele dou variabile.


Ha3: La nivelul populaiei exist interaciune ntre cele dou variabile.

Pasul 2 Selectarea distribuiei de eantionare i stabilirea zonelor critice.

Distribuia de eantionare = distribuia F


= 0,05
glEROARE = 16
glA = glB = glAB = 1
F (critic) = 4,49

Pasul 4 Calcularea statisticii testului

Organizarea calculului ANOVA pentru dou variabile independente se face cu ajutorul


unui tabel de calcule iniiale (v. tabelul 9.3), precum i al unui tabel ANOVA rezumativ
(tabel al surselor de variaie). n acest caz, forma general a unui astfel de tabel este
urmtoarea:

Sursa de Sume de Grade de Medii ale F (obinut)


variaie ptrate libertate sumelor

39
Evident, dac cele trei grade de libertate ar fi fost diferite, am fi avut trei valori pentru F (critic).
A SSA kA 1 MSA MSA/MSEROARE
B SSB kB 1 MSB MSB/MSEROARE
A B SSAB (kA 1)(kB MSAB MSAB/MSEROARE
1)
EROARE SSEROARE N kAkB MSEROARE
TOTAL SSTOTAL N1
n exemplul nostru, avem urmtorul tabel:

Tabelul 9.4 ANOVA rezumativ, dou variabile independente

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 361,25 1 361,25 38,64
B 684,45 1 684,45 73,20
A B 281,25 1 281,25 30,08
EROARE 149,60 16 9,35
TOTAL 1476,55 19

Pasul 4 Luarea deciziei

ntruct fiecare valoare pentru F (obinut) este mai mare dect valoarea pentru F
(critic), se resping cele trei ipoteze de nul. Pentru efectul principal al variabilei A,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute prin
cele dou metode difer semnificativ. Pentru efectul principal al variabilei B, concluzia
este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute de elevii cu
nivele IQ diferite difer semnificativ. Enunul de probabilitate asociat ambelor concluzii
este urmtorul: probabilitatea ca diferenele observate ntre mediile aritmetice ale
grupurilor constituite dup categoriile unei variabile independente s apar din
ntmplare, dac H0 respectiv ar fi n realitate adevrat, este mai mic de 0,05 (i dup
cum am vzut, chiar dect 0,01).
Pentru interaciune, concluzia este c la nivelul populaiei exist o interaciune
ntre metoda de instruire i nivelul IQ al subiecilor. Enunul de probabilitate asociat
acestei concluzii este urmtorul: probabilitatea ca diferenele observate ntre mediile
aritmetice ale scorurilor din categoriile combinate ale celor dou variabile s apar din
ntmplare, dac H03 ar fi n realitate adevrat, este mai mic de 0,05 (i dect 0,01).

9.3 ANOVA PENTRU EANTIOANE DEPENDENTE

Calculele ANOVA considerate pn acum sunt aplicabile doar n cazul


eantioanelor independente. n aceast seciune se prezint calculele ANOVA pentru
cazul eantioanelor dependente. Amintim c n acest caz este vorba fie despre alctuirea
unor eantioane astfel nct selectarea cazurilor pentru un eantion influeneaz
selectarea cazurilor pentru un alt eantion, fie despre situaiile experimentale n care
aceeai subieci sunt testai repetat.
Un cercettor presupune c atractivitatea fizic a candidailor la obinerea unei
slujbe influeneaz judecata asupra competenei profesionale a candidailor. Variabila
independent este deci atractivitatea fizic a candidailor, variabila dependent fiind
judecata asupra competenei profesionale, msurat pe o scal cu zece puncte.
Cercettorul alctuiete un eantion aleatoriu cu opt subieci i le prezint dou filme, n
fiecare film aprnd o femeie care rspunde la un test de aptitudini mecanice (mbinarea
unor piese). Cele dou femei ndeplinesc sarcinile testului la fel de bine, dar una dintre
ele este atractiv fizic, n timp ce cealalt nu este atractiv fizic. Filmele sunt prezentate
de mai multe ori, pentru a se controla efectul ordonrii. Datele obinute, mpreun cu
mrimile necesare pentru ANOVA sunt prezentate n urmtorul tabel:
Tabelul 9.5 Calcule iniiale pentru ANOVA, eantioane dependente

Atractivitatea fizic (A)


Subieci Neatractive (A1) Atractive (A2) Ts Ts2
1 6 8 14 196
2 5 6 11 121
3 5 9 14 196
4 7 6 13 169
5 4 6 10 100
6 3 5 8 64
7 5 5 10 100
8 4 7 11 121
TA1 = 39 TA2 = 52 2
Ts = 1067
2A1 = 201 2A2 = 352
nA1 = 8 nA2 = 8
X A1 = 4,88 X A2 = 6,50

n acest tabel, Ts se refer la totalul scorurilor acordate de fiecare subiect pentru cele
dou femei, Ts2 este ptratul acestui total, iar Ts2 este suma acestor ptrate pentru toi
subiecii.
Principala diferen dintre ANOVA pentru eantioane dependente i ANOVA
pentru o variabil independent const n aceea c efectul diferenelor dintre subieci
devine o surs de varian. n ANOVA pentru eantioane dependente apar patru surse de
varian i deci se calculeaz patru sume de ptrate: (1) SSTOTAL, (2) SSA, (3) SSSUBIECI i
(4)SSEROARE. SSTOTAL se calculeaz cu ajutorul formulei 9.1:

G2 (39 52) 2
SS TOTAL X 2 = (201 + 352) = 553 517,56 = 35,44
N 16

SSA se calculeaz cu ajutorul formulei 97:

Ta2 G 2 39 2 52 2
SS A = 517,56 = 10,57
na n 8

SSSUBIECI se calculeaz cu ajutorul urmtoarei formule:

TS2 G 2
Formula 9.18 SS SUBIECTI
nS n
Termenul nS se refer la numrul de eantioane dependente din experiment sau la
numrul de scoruri pe care le d fiecare subiect, astfel c n exemplul nostru, nS = 2.

TS2 G 2 1067
SS SUBIECTI 517,56 15,94
nS n 2

n fine, SSEROARE se calculeaz cu ajutorul urmtoarei formule:


Formula 9.19 SS EROARE SS TOTAL SS A SS SUBIECTI

SS EROARE 35,44 10,57 15,94 8,93

Conform ipotezei de nul, atractivitatea fizic nu influeneaz judecata asupra


competenei profesionale. Forma general a unui tabel ANOVA rezumativ pentru
eantioane dependente este urmtoarea:

Sursa de Sume de Grade de Medii ale F (obinut)


variaie ptrate libertate sumelor
A SSA k1 MSA
SUBIECI SSSUBIECI s1 - MSA/MSEROARE
EROARE SSEROARE (k 1)(s MSEROARE
1)
TOTAL SSTOTAL N1

Procedurile de calcul pentru mediile sumelor de ptrate i pentru F (obinut) sunt


similare cu cele deja cunoscute. De notat c, n acest caz, media sumei de ptrate i F
(obinut) pentru SSSUBIECI nu se calculeaz. n mod obinuit, nu este necesar s
cunoatem dac exist diferene semnificative ntre subieci. Aflarea cantitii
corespunztoare sursei de varian SSSUBIECI contribuie, ns, la reducerea sursei de
variaie SSEROARE (formula 9.19). n exemplul nostru, avem urmtorul tabel:

Tabelul 9.6 ANOVA rezumativ, eantioane dependente

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 10,57 1 10,57
SUBIECI 15,94 7 -
EROARE 8,93 7 1,28 8,26
TOTAL 35,44 15

Lsm ca exerciiu pentru cititor formularea n termenii modelului n patru pai a


testului ANOVA aplicat aici, n principal a deciziei pentru = 0,05, precum i a
enunului de probabilitate asociat concluziei40.

GLOSAR

analiza de varian (ANOVA): diferena dintre dou medii


procedur de testare a ipotezei aritmetice.
conform creia mediile aritmetice curbe F: grafic al distribuiei F.
ale k populaii (k 2) sunt egale. Distribuia F: distribuia de
Testul ANOVA poate fi considerat eantionare n testul ANOVA.
drept o extensie a testului privind
40
Vezi exerciiul 9.1.
10 TESTE NONPARAMETRICE

Toate testele statistice prezentate pn acum se bazeaz pe anumite supoziii


privind parametrii populaiilor din care sunt selectate eantioanele, i anume supoziia
de normalitate i de omogenitate a abaterilor standard ale populaiilor respective.
Testele nonparametrice sunt teste de semnificaie care nu necesit supoziii particulare
despre forma distribuiei populaiilor de referin, astfel c pot fi aplicate n special
atunci cnd se lucreaz cu eantioane mici. n al doilea rnd, testele nonparametrice sunt
cu deosebire utile n psihologie, ntruct pot fi aplicate pentru variabile msurate la nivel
nominal sau ordinal.

10.1 TESTUL CHIPTRAT (2)

Testul chiptrat (2) este aplicabil atunci cnd nivelul de msur este nominal,
datele fiind frecvene numrul de cazuri care fac parte din categoriile variabilelor
(variabilei) considerate. Esena acestui test const din compararea frecvenelor
observate frecvenele efective obinute empiric de ctre cercettor cu frecvenele
teoretice sau ateptate frecvenele calculate sub presupunerea c ipoteza de nul este
adevrat. Testul examineaz msura n care frecvenele observate sunt sau nu
semnificativ diferite de frecvenele care sunt ateptate dac ipoteza de nul este
adevrat.
Distincia dintre frecvenele observate i cele ateptate poate fi neleas cu
ajutorul urmtorului exemplu intuitiv. S presupunem c avem un zar i dorim s
verificm ipoteza c zarul este nemsluit. Pentru aceasta, aruncm zarul de 300 de ori i
observm frecvena de apariie a fiecrei fee. Dac ipoteza menionat este adevrat,
ne-am atepta ca fiecare fa s apar de aproximativ 50 de ori. Acum, s presupunem
c observm urmtoarele frecvene de apariie:

Faa Numr de
apariii
1 42
2 55
3 38
4 57
5 64
6 44

Comparnd frecvenele observate cu cele teoretice, suntem ndreptii s spunem c


zarul respectiv este msluit sau diferenele pot fi puse pe seama fluctuaiilor
ntmpltoare?
Testul chiptrat poate fi folosit pentru verificarea independenei a dou
variabile sau pentru verificarea concordanei dintre frecvenele observate i frecvenele
ateptate ale unei singure variabile. Corespunztor, se vorbete despre testul chiptrat
pentru independen i despre testul chiptrat pentru concordan.
10.1.1 TESTUL CHIPTRAT PENTRU INDEPENDEN

Dou variabile sunt independente reciproc dac, pentru toate cazurile din
eantionul considerat, clasificarea unui caz ntr-o categorie a unei variabile nu are nici
un efect asupra probabilitii ca acel caz s fie clasificat n oricare dintre categoriile
celeilalte variabile41. De pild, s presupunem c variabilele de interes sunt sexul i
dominana funcionaloperativ a minilor pentru un eantion de 50 de brbai i 50 de
femei. Aceste dou variabile sunt independente reciproc n condiiile n care clasificarea
subiecilor n categoriile unei variabile (masculin feminin) nu are nici un efect asupra
clasificrii cazurilor n categoriile celeilalte variabile (dreapta, stnga, ambidextru).
Acum, s presupunem c am efectuat un astfel de studiu i am obinut urmtoarele date:

Tabelul 10.1 Sexul i dominana funcionaloperativ a minilor

Sexul
Dominana Masculin Feminin TOTAL
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100

Un astfel de tabel rectangular, n care cazurile dintr-un eantion sunt clasificate


concomitent dup categoriile a dou variabile, se numete tabel al contingenelor.
Denumirile categoriilor unei variabile sunt folosite drept titluri de coloane, iar
denumirile categoriilor celeilalte variabile sunt folosite drept titluri de rnduri. n corpul
tabelului, intersecia unui rnd cu o coloan se numete celul. Celulele indic numrul
de cazuri clasificate concomitent n cte dou categorii ale celor dou variabile.
Subtotalurile pentru fiecare coloan i rnd se numesc marginale. Marginalele indic
distribuiile de frecvene pentru fiecare categorie a variabilei respective sau, altfel spus,
distribuiile univariate de frecvene ale fiecrei variabile. La intersecia marginalelor
de pe linii i coloane se prezint numrul total de cazuri din eantion (n).
n cazul testului chiptrat pentru independen, ipoteza de nul enun c
variabilele sunt reciproc independente. n exemplul nostru, ipoteza de nul este c sexul
nu are nici o influen asupra dominanei funcionaloperative a minilor. Sub supoziia
c ipoteza de nul este adevrat, se calculeaz frecvenele din celule la care ne-am
atepta, dac ar interveni doar ntmplarea. Aceste frecvene ateptate sunt apoi
comparate, celul cu celul, cu frecvenele observate n tabel. Dac ipoteza de nul este
adevrat, atunci diferenele dintre frecvenele ateptate i cele observate vor fi mici.
Dac, ns, ipoteza de nul este fals, atunci aceste frecvene vor fi relativ mari. Cu ct
sunt mai mari diferenele dintre frecvenele ateptate i cele observate, cu att este mai
puin probabil ca variabilele s fie n fapt reciproc independente i deci este cu att mai
probabil c vom putea respinge ipoteza de nul.

41
A nu se confunda cazul independenei reciproce a dou variabile cu situaiile experimentale n care apar
dou variabile independente, i.e. manipulate de experimentator.
Pentru a afla frecvena ateptat pentru fiecare celul a tabelului, folosim
urmtoarea formul:

fr fc
Formula 10.1 fa
n
n care f r marginalul rndului pe care este situat celula respectiv
f c marginalul coloanei pe care este situat celula respectiv
n = numrul total de cazuri din eantion

n cazul tabelului 10.1, frecvenele ateptate sunt urmtoarele:

Masculin Feminin
50 50 50 50
Dreapta 25 25
100 100
40 50 40 50
Stnga 20 20
100 100
10 50 10 50
Ambidextru 5 5
100 100

Calcularea statisticii testului chiptrat pentru independen se face cu ajutorul


urmtoarei formule, care d valoarea pentru 2 (obinut):

( fo fa )2
Formula 10.2 2

fa
n care f o frecvenele observate n celulele tabelului
f a frecvenele ateptate

Astfel, odat calculate frecvenele ateptate, formula 10.2 ne conduce la scderea


frecvenei ateptate din frecvena observat pentru fiecare celul, ridicarea la ptrat a
acestei diferene, mprirea rezultatului la frecvena ateptat pentru acea celul i apoi
la nsumarea valorilor rezultate ale tuturor celulelor. Calculele pentru exemplul nostru
sunt ilustrate n tabelul 10.2.

Tabelul 10.2 Calculul 2 pentru datele din tabelul 10.1

fo fa fo fa ( fo fa )2 ( fo fa )2 fa
15 25 10 100 4
30 20 10 100 5
5 5 0 0 0
35 25 10 100 4
10 20 10 100 5
5 5 0 0 0
100 100 0 18 = 2
De notat c suma frecvenelor observate este egal cu suma frecvenelor ateptate i c
suma diferenelor f o f a este egal cu 0. Aceste relaii pot fi folosite la verificarea
calculelor pentru 2 (obinut).
Distribuia de eantionare folosit n acest test este distribuia 2. Ca i n cazul
distribuiei tStudent, este vorba despre o familie de distribuii 2, fiecare fiind o funcie
de un anumit numr de grade de libertate. n cazul testului chiptrat pentru
independen, numrul de grade de libertate se calculeaz cu ajutorul urmtoarei
formule:

Formula 10.3 gl = (r 1)(c 1)

n care r = numrul de rnduri din tabelul contingenelor


c = numrul de coloane din tabelul contingenelor

Un tabel cu trei rnduri i dou coloane (un tabel 3 2) are (3 1)(2 1) = 2 grade de
libertate42. Spre deosebire de distribuia tStudent, care este simetric, distribuia 2
prezint, ca i distribuia F, o asimetrie pozitiv, dup cum se ilustreaz n figura 10.1.

Figura 10.1 Un exemplu de curb 2


Valori ale lui chi-
ptrat

Grade de libertate

Valorile pentru 2 (critic) marcheaz nceputurile zonelor critice i sunt date n


tabelul valorilor critice ale distribuiei 2 (Anexa E). Acest tabel este similar cu
tabelul distribuiei tStudent, avnd nivelele dispuse pe primul rnd i gradele de
libertate pe prima coloan din stnga. Regula de decizie este

Se respinge H0, dac 2 (obinut) 2 (critic)

ntruct n exemplu nostru gl = 2, dac stabilim = 0,05, scorul 2 (critic) este 5,991.
Deoarece 2 (obinut) cade n zona critic (18,00 5,991), se poate respinge ipoteza de
nul i se poate conchide c variabilele respective nu sunt reciproc independente: sexul
influeneaz dominana funcionaloperative a minilor.
n termenii modelului n patru pai, testul decurge dup cum urmeaz:

42
Un tabel 3 2 are dou grade de libertate deoarece, odat ce frecvenele din dou celule au fost
determinate, frecvenele din celelalte celule sunt fixate, i.e. nu mai sunt libere s varieze.
Pasul 1. Enunarea ipotezelor

H0: Variabilele sex i dominana funcionaloperativ a minilor sunt reciproc


independente.
Ha: Variabilele sex i dominana funcionaloperativ a minilor sunt reciproc
dependente.

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia 2


= 0,05
gl = 2
2 (critic) = 5,991

Pasul 3. Calcularea statisticii testului. Dup cum am vzut,

( fo fa )2

2
18
fa

Pasul 4. Luarea deciziei

ntruct 2 (obinut) cade n zona critic (18,00 5,991), se poate respinge


ipoteza de nul i se poate conchide c variabilele respective nu sunt independente: sexul
influeneaz dominana funcionaloperative a minilor (la un nivel de ncredere de
95%).

10.1.1 TESTUL CHIPTRAT PENTRU CONCORDAN

Testul chiptrat poate fi folosit i pentru verificarea concordanei dintre


frecvenele observate i frecvenele ateptate (teoretice) ale unei singure variabile.
Astfel, dac 2 (obinut) 2 (critic) pentru numrul corespunztor de grade de libertate
i un nivel dat, atunci diferenele dintre frecvenele observate i cele ateptate pot fi
atribuite ntmplrii, concordana dintre cele dou tipuri de frecvene fiind apreciat
drept bun. n caz contrar, diferenele dintre frecvenele observate i cele ateptate pot fi
considerate prea mari pentru a putea fi atribuite ntmplrii sau, altfel spus, aceste
diferene sunt statistic semnificative.
Pentru ilustrare, s presupunem c un cercettor opineaz c distribuia
populaiei dup ocupaie ntr-o anumit zon geografic este aproximativ urmtoarea:

20% rani
30% muncitori industriali
30% funcionari
15% mici ntreprinztori
5% manageri industriali
Cercettorul alctuiete un eantion aleatoriu de 864 de persoane ocupate din zona
respectiv i le clasific n categoriile menionate. Frecvenele observate pentru aceste
categorii sunt urmtoarele:

145 rani
310 muncitori industriali
305 funcionari
78 mici ntreprinztori
26 manageri industriali

Cercettorul dorete s tie dac rezultatele obinute pe acest eantion confirm


distribuia presupus a populaiei sau, altfel spus, dac diferenele dintre frecvenele
observate i cele presupuse sunt sau nu statistic semnificative. Calcularea statisticii
testului se face cu ajutorul formulei 10.2:

( fo fa )2
2
fa

Pentru a afla frecvena ateptat pentru fiecare categorie a variabilei considerate,


folosim urmtoarea formul:

Formula 10.4 f a np

n care n = numrul total de cazuri din eantion


p = proporia presupus de cazuri din categoria respectiv

De pild, pentru rani, f a np1 0,20 864 172,80 .


Calculele pentru exemplul nostru sunt ilustrate n tabelul 10.3.

Tabelul 10.3 Calculul 2 pentru datele privind ocupaia

Ocupaia fo fa fo fa ( fo fa )2 ( fo fa )2 fa R
ran 145 172,80 27,80 772,84 4,47 2,12
Muncitor 310 259,20 50,80 2580,64 9,96 3,16
industrial
Funcionar 305 259,20 45,80 2097,64 8,09 2,84
Mic 78 129,60 51,60 2662,56 20,54 4,53
ntreprinztor
Manager 26 43,20 17,20 295,84 6,85 2,63
industrial
TOTAL 864,00 864,00 0 49,91 = 2

De notat c frecvenele ateptate sunt exact acele frecvene pe care le-am ntlni dac
proporiile cazurilor din eantion ar fi acelai cu proporiile cazurilor pentru populaie.
n cazul testului chiptrat pentru concordan, numrul de grade de libertate se
calculeaz cu ajutorul urmtoarei formule:
Formula 10.5 gl = k 1

n care k = numrul de categorii ale variabilei de interes.

ntruct n exemplul nostru sunt considerate cinci categorii ale variabilei ocupaie, avem
patru grade de libertate43. Pentru = 0,05 i gl = 4, 2 (critic) = 9,488.
Testul formal este urmtorul:

Pasul 1. Enunarea ipotezelor

H0: Nu exist nici o diferen ntre proporiile din eantion i cele pentru
populaie
Ha: Proporiile din eantion difer de cele pentru populaie

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia 2


= 0,05
gl = 4
2 (critic) = 9,488

Pasul 3. Calcularea statisticii testului. Dup cum am vzut,

( fo fa )2
2 49,91
fa

Pasul 4. Luarea deciziei

ntruct 2 (obinut) cade n zona critic (49,91 9,448), se poate respinge


ipoteza de nul. Diferenele dintre eantion i populaie sunt prea mari pentru a putea fi
atribuite ntmplrii (la un nivel de ncredere de 95%).

De notat c, dei aici valoarea pentru 2 (obinut) este statistic semnificativ,


aceast valoare este calculat innd cont de toate categoriile, astfel c nu putem spune
care categorie are cea mai mare contribuie la semnificaia statistic. Atunci cnd avem
2 (obinut) 2 (critic), pentru a afla care categorie are cea mai mare contribuie la
semnificaia statistic, se calculeaz reziduul standard pentru fiecare categorie cu
ajutorul urmtoarei formule:

fo fa
Formula 10.6 R
fa

Valorile reziduurilor standard pentru fiecare categorie din exemplul de mai sus se
gsesc n tabelul 10.3. Atunci cnd valoarea absolut (modulul) reziduului standard
43
Aceasta nseamn c, odat ce frecvenele a oricare patru categorii sunt determinate, frecvena
categoriei rmase este fixat.
pentru o categorie este mai mare dect 2,00, se poate conchide c acea categorie are o
contribuie major la valoarea semnificativ a lui 2 (obinut). n exemplul de mai sus,
toate reziduurile standard n valoare absolut sunt mai mari dect 2,00. Prin urmare,
toate categoriile contribuie major la valoarea semnificativ a lui 2 (obinut), ceea ce
nseamn c ntreaga distribuie din eantion nu concord cu distribuia presupus de
cercettor.

10.2 TESTUL McNEMAR

Testul McNemar este un test nonparametric pentru semnificaia schimbrii.


Acest test utilizeaz distribuia 2 i este aplicabil pentru variabile de nivel nominal, n
cazul a dou eantioane dependente.
S presupunem c am alctuit un eantion aleatoriu de 38 de femei salariate i
am solicitat n dou momente diferite rspunsul la ntrebarea Credei c organizaiile
feministe v apr interesele? ntrebarea a fost pus nainte i dup ce femeile din
eantion au citit o serie de documente despre astfel de organizaii. Datele obinute sunt
prezentate n urmtorul tabel 2 2:

Tabelul 10.4 Date pentru calculul 2 n cazul a dou eantioane


dependente pentru opinia despre organizaiile feministe

nainte de lectura documentelor


Da Nu

Dup Nu
14 6
lectura
docu-
A B
mentelor

Da 16 2

C D
38

Este important s remarcm ordinea intrrii datelor n acest tabel. Astfel,


celulele A i D trebuie s fie cele care indic schimbarea rspunsurilor de la un moment
la altul de la Da la Nu (A) i, respectiv, de la Nu la Da (D) , iar celulele B i C trebuie
s fie cele care indic absena schimbrii rspunsurilor de la un moment la altul. ntruct
n testul McNemar este vorba despre tabele 2 2, gl = 1.
n acest test ne intereseaz doar celulele care reflect schimbarea opiniei despre
aprarea intereselor femeilor salariate de ctre organizaiile feministe, i.e. celulele A i
D. ipoteza de nul pentru testul McNemar enun c, n cazul populaiei de referin,
numrul de schimbri ntr-o direcie este egal cu numrul de schimbri n cealalt
direcie. Aceasta nseamn c, presupunnd c ipoteza de nul este adevrat, frecvena
ateptat n celula A va fi egal cu frecvena ateptat n celula D. ipoteza alternativ
enun c numrul de schimbri ntr-o direcie este diferit de numrul de schimbri n
cealalt direcie.
Testul statistic este testul 2 i se poate folosi formula 10.2 pentru calcularea
valorii lui 2 (obinut), dar formula va fi aplicat doar celulelor A i D. ntruct se
presupune c frecvenele ateptate din aceste dou celule sunt egale, valoarea ateptat
n fiecare dintre aceste dou celule este egal cu (A + D)/2. astfel, formula de calcul a
valorii 2 (obinut) pentru testul McNemar se simplific dup cum urmeaz:

( A D) 2
Formula 10.6 2
A D

Pentru exemplul de mai sus, testul formal este urmtorul:

Pasul 1. Enunarea ipotezelor

H0: Exist un numr egal de schimbri n ambele direcii


Ha: Numrul de schimbri ntr-o direcie este semnificativ diferit
fa de numrul de schimbri n cealalt direcie

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia 2


= 0,05
gl = 1
2
(critic) = 3,841

Pasul 3. Calcularea statisticii testului

( A D) 2 (14 2) 2 12 2 144
2 9,00
A D 14 2 16 16

Pasul 4. Luarea deciziei

ntruct 2 (obinut) cade n zona critic (9,00 3,841), se poate respinge ipoteza
de nul. Exist o diferen statistic semnificativ ntre numrul de schimbri ntr-o
direcie i numrul de schimbri n cealalt direcie (o diferen care nu poate fi pus pe
seama ntmplrii). Din tabelul 10.4 rezult c mai multe femei salariate i-au schimbat
opinia de la Da la Nu dect de la Nu la Da, iar testul arat c aceast diferen este
statistic semnificativ.

10.3 TESTUL MANNWHITNEY U

Testul MannWhitney U este asemntor n multe privine cu testele


parametrice pentru diferena dintre mediile aritmetice a dou eantioane independente.
n ambele cazuri, comparm dou eantioane independente pentru a face inferene
despre diferenele dintre cele dou populaii de referin i comparm rezultatul
calculrii testului statistic cu distribuia de eantionare a rezultatelor tuturor
eantioanelor posibile. Pe de alt parte, acest test se bazeaz pe ordonarea scorurilor
eantioanelor, astfel c este aplicabil la date de nivel ordinal.
Ca i alte teste statistice aplicabile la date de nivel ordinal, testul Mann-Whitney
U folosete atribuirea de ranguri. A atribui ranguri unei mulimi de scoruri de nivel
ordinal nseamn a pune n coresponden respectiva mulime de scoruri cu numere
naturale din mulimea 1, 2, n aa fel nct succesiunea scorurilor s se pstreze. S
presupunem, de pild, c ntr-un inventar de personalitate li se cere subiecilor s
evalueze o serie de propoziii dup urmtoarea scal: Acord puternic, Acord, Nedecis,
Dezacord, Dezacord puternic. Putem atribui ranguri acestor scoruri dup cum urmeaz:

Acord Acord Nedecis Dezacord Dezacord


puternic puternic
5 4 3 2 1

ntruct singura semnificaie a atribuirii de ranguri este reflectarea ierarhiei scorurilor, o


alt modalitate de a atribui ranguri n acest exemplu este urmtoarea:

Acord Acord Nedecis Dezacord Dezacord


puternic puternic
9 7 5 3 1

Cu toate acestea, se obinuiete ca diferena dintre dou ranguri imediat succesive s fie
egal cu unitatea.
Testul MannWhitney U comport dou variante, n funcie de dimensiunile
eantioanelor. Prezentm mai nti testul pentru eantioane mici (n1 20 i n2 20).
S presupunem c ne preocup diferena pe sexe privind nivelul de satisfacie n
raport cu serviciile sociale oferite ntr-un campus universitar. Pentru aceasta, selectm
aleatoriu dou eantioane de studeni, biei i fete, cu n1 = 10 i n2 = 10, i administrm
o scal n care un scor nalt indic un nivel nalt de satisfacie. Scorurile obinute sunt
prezentate n tabelul 10.5.

Tabelul 10.5 Scoruri ale satisfaciei exprimate n raport cu


serviciile sociale oferite ntr-un campus universitar

Eantionul 1 (studente) Eantionul 2 (studeni)


Cazul Scorul Rangul Cazul Scorul Rangul
1 5 1 11 10 3
2 9 2 12 20 8
3 14 4 13 24 9
4 15 5 14 26 11
5 17 6 15 27 12
6 19 7 16 28 13
7 25 10 17 30 14,5
8 30 14,5 18 32 16
9 35 17 19 40 18
10 42 19 20 45 20
R1 = R2 =
85,5 124,5

Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considerm scorurile combinate ale celor dou eantioane ca i
cum ar fi vorba despre un singur eantion i atribuim ranguri scorurilor combinate, de la
cel mai mic la cel mai mare scor. Astfel, atribuim rangul 1 celui mai mic scor (5), rangul
2 scorului imediat urmtor (9) .a.m.d. pn la cel mai mare scor (45). Dac ntlnim
dou sau mai multe scoruri identice (dou sau mai multe cazuri cu acelai scor),
procedm dup cum urmeaz:
considerm rangurile pe care aceste scoruri le-ar fi avut dac ar fi fost diferite i
imediat succesive;
calculm media aritmetic a acestor ranguri;
atribuim fiecrui scor rangul mediu astfel obinut.

n exemplul nostru, cazurile 8 i 17 au acelai scor, 30. Scorului cazului 8 I-am fi


atribuit rangul 14, iar scorului cazului 17 I-am fi atribuit scorul 15. Prin urmare,
atribuim ambelor scoruri rangul 14,5 ((14 + 15)/2), iar scorului imediat urmtor n
ordine cresctoare (32) i atribuim rangul 16 (rangul pe care l-ar fi avut acest scor, dac
cele dou scoruri 30 ar fi fost diferite). Dup aceast operaie, calculm suma rangurilor
pentru fiecare eantion. Intuitiv vorbind, dac cele dou eantioane reprezint populaii
care nu difer semnificativ ntre ele sub aspectul variabilei msurate, atunci cele dou
sume sunt apropiate ca valoare. Dac, ns, cele dou eantioane reprezint populaii
care difer semnificativ ntre ele sub aspectul variabilei msurate, atunci cele dou sume
sunt mult diferite.
Calcularea statisticii testului presupune mai nti calcularea a dou mrimi
statistice, U1 i U2, cu ajutorul urmtoarelor formule:

n1 (n1 1)
Formula 10.7 U 1 n1 n 2 R1
2
n (n 1)
Formula 10.8 U 1 n1 n 2 2 2 R 2
2

n aceste formule, n1 i n2 sunt, respectiv, dimensiunile celor dou eantioane, iar R1 i


R2 sunt, respectiv, sumele rangurilor pentru cele dou eantioane.
Odat calculate cele dou mrimi, U1 i U2, se ia drept valoare pentru U (obinut) cea
mai mic dintre valorile U1, U2: U (obinut) = min (U1, U2).
Pentru a stabili valoarea critic din distribuia de eantionare a valorilor U,
folosim tabelul valorilor critice pentru testul MannWhitney U (Anexa F). Pe
primul rnd i pe prima coloan din stnga ale acestui tabel sunt trecute dimensiunile a
dou eantioane. Nivelele sunt date pentru un test unilateral (direcional). n cazul
unui test bilateral (non-direcional), nivelul dat se localizeaz nmulind cu doi
valoarea lui . Valoarea critic, U (critic), se afl la intersecia liniei corespunztoare
dimensiunii unui eantion cu coloana corespunztoare dimensiunii celuilalt eantion la
nivelul ales. n exemplul nostru, avnd n1 = 10 i n2 = 10, pentru = 0,05 (test non-
direcional), U (critic) = 23.
Ipoteza de nul este, ca ntotdeauna, un enun de tipul nici o diferen, dar este
formulat n termeni mai generali dect n cazul testelor parametrice: nu exist nici o
diferen n privina scorurilor populaiilor respective sub aspectul variabilei de interes.
n exemplul nostru, ipoteza de nul enun c nu exist nici o diferen ntre studente i
studeni sub aspectul satisfaciei exprimate n raport cu serviciile sociale oferite n
campus. De regul, ipoteza alternativ enun c populaiile din care au fost selectate
eantioanele sunt diferite sub aspectul variabilei de interes. Aceast form a ipotezei de
nul conduce la un test nondirecional. Desigur, putem apela la un test direcional, atunci
cnd sensul diferenei poate fi prezis, i.e. atunci cnd putem prezice c scorurile unei
populaii sunt mai mari sau mai mici dect scorurile celeilalte populaii. ntr-un test
nondirecional, regula de decizie este urmtoarea:
Se respinge H0, dac U (obinut) U (critic)

De remarcat c ipoteza de nul se respinge dac valoarea obinut este mai mic dect
cea critic. Aceast regul difer de regulile de decizie din cele mai multe teste de
semnificaie, n care ipoteza de nul este respins dac valoarea obinut este mai mare
dect cea critic.
Dac se poate prezice c scorurile populaiei 1 sunt mai mari dect cele ale
populaiei 2, regula de decizie este

Se respinge H0, dac U1 U (critic),

iar dac se poate prezice c scorurile populaiei 1 sunt mai mici dect cele ale populaiei
2, regula de decizie este

Se respinge H0, dac U2 U (critic)

Testul formal decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: Satisfacia1 = Satsfacia2


Ha: Satisfacia1 Satisfacia2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia U


= 0,05 (test nedirecional)
U (critic) = 23

Pasul 3. Calcularea statisticii testului

n1 (n1 1) 10 11
U 1 n1 n 2 R1 (10 10) 85,5 100 55 85,5 69,5
2 2
n (n 1) 10 11
U 1 n1 n 2 2 2 R2 (10 10) 124,5 100 55 124,5 30,5
2 2
U min(U 1 , U 2 ) 30,5

Pasul 4. Luarea deciziei

ntruct U (obinut) U (critic) (30,5 23), nu putem respinge ipoteza de nul.


Studentele nu difer semnificativ de studeni sub aspectul nivelului de satisfacie n
raport cu serviciile sociale oferite n campus (la un nivel de ncredere de 95%).

Atunci cnd n1 20 i n2 20, distribuia de eantionare pentru U se apropie de


distribuia normal, astfel nct putem folosi tabelul scorurilor Z pentru a stabili zona
critic. Lund drept cadru modelul n patru pai, n pasul 2, distribuia de eantionare
este distribuia Z, zona critic fiind cea marcat de Z (critic), n funcie de nivelul ales
i de tipul de test (unilateral sau bilateral). Formula pentru Z (obinut) este urmtoarea:

U U
Formula 10.10 Z
U
n care U = media aritmetic a distribuiei de eantionare a valorilor U pentru toate
eantioanele posibile
U = abaterea standard a distribuiei de eantionare a valorilor U pentru toate
eantioanele posibile

Valorile pentru U i U se calculeaz cu ajutorul urmtoarelor formule:


nn
Formula 10.11 U 1 2
2

n1 n 2 (n1 n 2 1)
Formula 10.12 U
12

Prin urmare, n pasul 3 lucrm cu urmtoarea formul:

n1 n 2
U
Formula 10.13 Z 2
n1 n 2 (n1 n 2 1)
12

n fine, n pasul 4 se utilizeaz procedura de decizie cunoscut pentru testul Z.

10.4 TESTUL MEDIANEI

Testul medianei este un test nonparametric pentru egalitatea a dou mediane.


Acest test utilizeaz distribuia 2 i este aplicabil n cazul a dou eantioane
independente, pentru variabile msurate la nivel ordinal.
S presupunem c ne intereseaz atitudinea femeilor salariate i a celor casnice
fa de micrile feministe. Alctuim un eantion de 10 femei salariate i un eantion de
10 femei casnice i administrm un chestionar adecvat. Scorurile obinute sunt
prezentate n tabelul 10.6.

Tabelul 10.6 Atitudinea fa de micrile feministe


a femeilor salariate i a casnicelor

Eantionul 1 (salariate) Eantionul 2 (casnice)


Cazul Scorul Rangul Cazul Scorul Rangul
1 19 3 11 16 1
2 22 5 12 18 2
3 28 8 13 21 4
4 32 11 14 26 6
5 34 13 15 27 7
6 37 14 16 29 9
7 40 17 17 31 10
8 42 18 18 33 12
9 43 19 19 38 15
10 46 20 20 39 16

Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considernd scorurile combinate ale celor dou eantioane ca i
cum ar fi vorba despre un singur eantion i aflm mediana scorurilor combinate.
Pentru a nlesni aflarea medianei scorurilor combinate este recomandabil s acordm
ranguri scorurilor. ntruct avem un numr par de cazuri (20), mediana va fi media
aritmetic a scorurilor celor dou cazuri de mijloc, 31 i 32:

~ 31 32
X 31,5
2

Cu ajutorul unui tabel 2 2, prezentm pentru fiecare eantion numrul de scoruri aflate
deasupra i sub mediana scorurilor combinate:

Eantion 1 Eantion 2

Deasupra
7 3 10
medianei

Sub A B
median
3 7 10

C D
10 10 20

Fiind un tabel 2 2, numrul de grade de libertate este egal cu 1.


Ipoteza de nul pentru testul medianei enun c populaiile din care au fost
selectate cele dou eantioane au aceeai median ( ~1 ~ 2 ), iar ipoteza alternativ
enun c medianele celor dou populaii sunt diferite ( ~1 ~ 2 ).
n general, formula de calcul a valorii 2 (obinut) pentru testul medianei este
formula 10.2. Pentru un tabel 2 2, notnd celulele ca mai sus, formula de calcul poate
fi simplificat, dup cum urmeaz:

n( AD BC ) 2
Formula 10.14 2
( A B)(C D)( A C )( B D)

n termenii modelului n patru pai, testul decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: ~1 ~ 2
Ha: ~1 ~ 2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea


zonei critice

Distribuia de eantionare = Distribuia 2


= 0,05
gl = 1
2 (critic) = 3,841

Pasul 3. Calcularea statisticii testului

n( AD BC ) 2 20(7 7 3 3) 2
2
3,20
( A B)(C D)( A C )( B D) 10 10 10 10

Pasul 4. Luarea deciziei

ntruct 2 (obinut) nu cade n zona critic (3,20 3,841), nu se poate respinge


ipoteza de nul, ceea ce nseamn c nu exist nici o diferen statistic semnificativ ntre
femeile salariate i cele casnice n privina atitudinii fa de micrile feministe (la un
nivel de ncredere de 95%).

10.5 TESTUL ITERAIILOR

Testul iteraiilor este similar ca logic i form cu testul Testul MannWhitney


U. Ipoteza de nul enun c nu exist o diferen semnificativ ntre populaiile de
referin sub aspectul variabilei de interes. Pentru a aplica acest test, se combin
scorurile celor dou eantioane, dup care aceste scoruri se ordoneaz cresctor (sau
descresctor) ca i cum ar fi vorba despre un singur eantion. Dac ipoteza de nul este
adevrat, atunci scorurile vor fi foarte amestecate i vom avea multe iteraii. O iteraie
(repetare) este orice succesiune de R elemente de acelai fel, cu R 1. Dac ipoteza de
nul este fals, populaiile fiind diferite sub aspectul variabilei de interes, atunci vor fi
foarte puine iteraii.
Pentru a ilustra noiunea de iteraie, s considerm datele din tabelul 10.5 i s
folosim F pentru studente i B pentru studeni. Obinem urmtoarele iteraii:

FF B FFFF BB F BBBB F B F B F B
1 2 3 4 5 6 7 8 9 10 11 12

Cele dou litere F din extrema stng reprezint dou studente care au cele mai mici
scoruri din ambele eantioane; urmtoarea liter, B, reprezint un student cu scorul
urmtor n ordine cresctoare .a.m.d. De notat c nici o iteraie alctuit din elemente
de un anumit tip nu se nvecineaz cu o iteraie alctuit din elemente de acelai tip.
Dac, de pild, am considera primul element al iteraiei 3 drept o iteraie distinct,
atunci aceasta s-ar nvecina la dreapta cu o iteraie alctuit din elemente de acelai tip,
F.
Diferena dintre eantioane, i deci dintre populaii, este cu att mai
semnificativ, cu ct numrul de iteraii este mai mic. Cel mai mic numr de iteraii
posibil este, desigur, 2. n exemplul de mai sus, dac toi studenii ar exprima o
satisfacie mai mare dect studentele n raport cu serviciile sociale din campus, am fi
obinut urmtoarele dou iteraii:

BBBBBBBBBB FFFFFFFFFF
1 2

Evident, numrul maxim posibil de iteraii este egal cu numrul de cazuri din cele dou
eantioane.
Este important de reinut c n aplicarea acestui test, cazurile care nu fac parte
din acelai eantion i au scoruri identice pot crea probleme serioase, deoarece numrul
de iteraii poate fi mult afectat de felul n care sunt aranjate cazurile cu scoruri identice.
Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite este recomandabil
s folosim alt test de semnificaie.
Distribuia de eantionare pentru iteraii aproximeaz normalitatea. Media
aritmetic a acestei distribuii ( R ) i abaterea sa standard ( R ) se calculeaz cu
ajutorul urmtoarelor formule:

2n1 n 2
Formula 10.15 R 1
n1 n 2

2n1 n 2 (2n1 n 2 n1 n 2 )
Formula 10.16 R
(n1 n 2 ) 2 (n1 n 2 1)

Statistica testului iteraiilor, Z (obinut), se calculeaz cu urmtoarea formul:

R R
Formula 10.17 Z
R
n care R = numrul de iteraii.

Pentru a ilustra aplicarea acestui test, s presupunem c dou eantioane aleatorii


alctuite, respectiv, din brbai i femei au fost chestionate cu privire la atitudinea fa
de politic i politicieni. Scorurile sunt prezentate n urmtorul tabel:

Tabelul 10.7 Atitudinea fa de politic i politicieni pentru


dou eantioane de brbai i, respectiv, femei

Brbai Femei
Cazul Scorul Cazul Scorul
1 1 21 0
2 1 22 0
3 2 23 4
4 2 24 4
5 3 25 6
6 5 26 6
7 5 27 8
8 7 28 12
9 9 29 12
10 10 30 13
11 10 31 14
12 15 32 16
13 17 33 16
14 17 34 21
15 18 35 21
16 19 36 21
17 20 37 25
18 22 38 26
19 22 39 27
20 23 40 27

S observm c aici nu exist scoruri identice n eantioane diferite (scorurile identice n


acelai eantion nu au nici o influen asupra numrului de iteraii). Folosind tot literele
B i F, obinem urmtoarele iteraii:

FF BBBBB FF BB FF B F BBB FFFF B FF


1 2 3 4 5 6 7 8 9 10 11

BBBB FFF BBB FFFF


12 13 14 15

n aceste date se afl 15 iteraii i putem acum s aplicm testul formal pentru
semnificaie.

Pasul 1. Enunarea ipotezelor

H0: Atitudinea1 = Atitudinea2


Ha: Atitudinea1 Atitudinea2

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia Z


= 0,05
Z (critic) = 1,96

Pasul 3. Calcularea statisticii testului

2n1 n 2 2 20 20
R 1 1 21
n1 n 2 20 20
2n1 n 2 (2n1 n 2 n1 n 2 ) 2 20 20(2 20 20 20 20
R 3,12
(n1 n 2 ) (n1 n 2 1)
2
(20 20) 2 (20 20 1)
R R 15 21
Z 1,92
R 3,12

Pasul 4. Luarea deciziei


ntruct Z (obinut) Z (critic) (1,92 1,96), rezultatul statisticii testului nu
cade n zona critic. Prin urmare nu putem respinge ipoteza de nul. n exemplul de mai
sus, brbaii i femeile nu difer semnificativ n privina atitudinii fa de politic i
politicieni.

10.6 TESTUL WILCOXON T

Testul Wilcoxon T este un test pentru semnificaia diferenei dintre dou


eantioane dependente, aplicabil pentru date de nivel ordinal. Astfel, testul este folosit
n mod obinuit atunci cnd selectarea cazurilor pentru un eantion influeneaz
selectarea cazurilor pentru cellalt eantion, avnd ca rezultat considerarea unor perechi
de cazuri, unul dintr-un eantion, altul din cellalt eantion, sau n situaii n care aceeai
subieci sunt testai nainte i dup un anumit tratament.
Ca i Testul MannWhitney U, testul Wilcoxon T comport dou variante, n
funcie de dimensiunile eantioanelor. Prezentm mai nti testul pentru eantioane mici
(n1 25 i n2 25).
Pentru ilustrare, s presupunem c ne intereseaz comportamentul agresiv al
adolescenilor cu dificulti de nvare, nainte i dup o serie de edine de consiliere.
Pentru aceasta, am selectat un eantion aleatoriu de 12 adolesceni cu dificulti de
nvare. Msura comportamentului agresiv reprezint media aprecierilor oferite de
cinci consilieri. Aprecierile au fost fcute nainte i dup tratament. Problema pe care
ne-o punem este urmtoarea: comportamentul agresiv al adolescenilor cu dificulti de
nvare poate fi diminuat prin astfel de edine de consiliere? Dup cum se poate
constata, ca i n cazul altor teste nonparametrice, ipoteza de nul i ipoteza alternativ n
cazul testului Wilcoxon T se enun n termeni generali.
Datele obinute sunt prezentate n tabelul 10.8, n care un scor nalt indic un
comportament agresiv.

Tabelul 10. 8 Scoruri ale comportamentului agresiv pentru


adolesceni cu dificulti de nvare

Ranguri cu
Scorul Scorul Scorul Rangul cel mai
Cazul pretratament posttratament diferen diferenei puin
frecvent
semn
1 36 21 15 11
2 23 24 1 1 1
3 48 36 12 10
4 54 30 24 12
5 40 32 8 7
6 32 35 3 3 3
7 50 43 7 6
8 44 40 4 4
9 36 30 6 5
10 29 27 2 2
11 33 22 11 9
12 45 36 9 8
T (obinut) =
4

Pentru calcularea statisticii testului se procedeaz dup cum urmeaz:

1. Pentru fiecare caz, se calculeaz diferena dintre scorul pretratament i scorul


posttratament; rezultatul scderii se numete scor diferen.

2. Se atribuie ranguri valorilor absolute ale scorurilor diferen (modulelor


scorurilor diferen), ncepnd cu cea mai mic valoare absolut; rangurile
scorurilor diferen pozitive primesc semnul +, iar rangurile scorurilor
diferen negative primesc semnul .

3. Se nsumeaz valorile absolute ale rangurilor cu semnul care are cele mai
puine apariii; rezultatul nsumrii reprezint valoarea pentru T (obinut).

Ca i n cazul testului iteraiilor, n aplicarea testului Wilcoxon T, cazurile care


nu fac parte din acelai eantion i au scoruri identice pot crea probleme serioase. Dac
ntlnim multe cazuri cu scoruri identice n eantioane diferite este recomandabil s
folosim alt test de semnificaie.
Pentru a stabili valoarea critic din distribuia de eantionare a valorilor T,
folosim tabelul valorilor T critice, elaborat de Frank Wilcoxon (Anexa G). n acest
tabel sunt date valorile T critice pentru diferite nivele i diferite dimensiuni ale
eantioanelorperechi . n exemplul de fa, cu n = 12, pentru = 0,01 (test unilateral),
T (critic) = 10.
Ipoteza de nul enun c nu exist nici o diferen n privina comportamentului
agresiv al populaiei de adolesceni cu dificulti de nvare, nainte i dup o serie de
edine de consiliere. Ipoteza alternativ, n conformitate cu datele problemei, enun c
agresivitatea adolescenilor cu dificulti de nvare este diminuat dup respectivele
edine de consiliere. Aceast ipotez alternativ conduce la un test unilateral stnga, n
care vom respinge ipoteza de nul dac T (obinut) T (critic). n cazul unui test
unilateral dreapta, se respinge ipoteza e nul dac T (obinut) T (critic). Pentru un test
bilateral, se respinge ipoteza de nul dac T (obinut) T (critic) sau T (obinut) T
(critic).
n termenii modelului n patru pai, testul decurge dup cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: Nu exist nici o diferen n privina comportamentului agresiv al


populaiei de adolesceni cu dificulti de nvare, nainte i dup o serie
de edine de consiliere
Ha: Comportamentul populaiei de adolesceni cu dificulti de nvare
este mai puin agresiv dup edinele de consiliere.

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia T


= 0,01 (test unilateral stnga)
T (critic) = 10

Pasul 3. Calcularea statisticii testului

Dup cum am vzut n tabelul 10.8, calculm scorurile diferen i atribuim


ranguri valorilor absolute ale acestor scoruri ncepnd cu cea mai mic valoare absolut,
pstrnd semnele corespunztoare. Rangurile cu semnul care are cele mai puine
apariii, considerate n valoare absolut, sunt 1 i 3; prin nsumarea acestor valori, gsim
T (obinut) = 4.

Pasul 4. Luarea deciziei

ntruct T (obinut) T (critic) (4 10), respingem ipoteza de nul i conchidem


c agresivitatea adolescenilor cu dificulti de nvare poate fi diminuat prin edinele
de consiliere.

Atunci cnd n1 25 i n2 25, distribuia de eantionare pentru T se apropie de


distribuia normal, astfel nct putem folosi tabelul scorurilor Z pentru a stabili zona
critic. n pasul 3, dup ce determinm valoarea pentru T (obinut), folosim mai nti
urmtoarele formule pentru determinarea mediei aritmetice a distribuiei de eantionare
a valorilor T ( T ) i, respectiv, a abaterii standard a acestei distribuii ( T ):

n(n 1)
Formula 10.18 T
4

n(n 1)(2n 1)
Formula 10.19 T
24

n aceste formule, n reprezint numrul de cazuri din fiecare eantion sau, altfel spus,
numrul de perechi de cazuri alctuite din cele dou eantioane. Z (obinut) se
calculeaz cu urmtoarea formul:

T T
Formula 10.20 Z
T

Procedura de decizie este cea uzual pentru testul Z.

10.7 TESTUL KRUSKALWALLIS H

Testul KruskalWallis H este analogul nonparametric al testului ANOVA


pentru o variabil independent i este aplicabil la date de nivel ordinal
S presupunem c ne intereseaz diferenele dintre cadrele didactice din
nvmntul primar, cel gimnazial i cel liceal sub aspectul comportamentului autoritar
fa de elevi. Alctuim eantioane din cele trei populaii cu, respectiv, n1 = 6, n2 = 5 i
n3 = 6 i administrm subiecilor o scal de autoritate. Datele obinute sunt prezentate n
tabelul 10.9, n care scorurile mari indic un comportament mai autoritar.
Tabelul 10.9 Comportamentul autoritar al cadrelor didactice
din nvmntul primar, gimnazial i liceal

Cadre didactice din Cadre didactice din Cadre didactice din


nvmntul primar nvmntul nvmntul liceal
gimnazial
Scorul Rangul Scorul Rangul Scorul Rangul
46 1 49 3 58 8
48 2 53 5 63 10
52 4 64 11 65 12
54 6 66 13 70 15
57 7 68 14 71 16
62 9 73 17
R1 = 29 R2 = 46 R3 = 78

Considernd scorurile combinate ale celor trei eantioane i ordonate cresctor, atribuim
rangul 1 celui mai mic scor (46), rangul 2 scorului imediat urmtor (48) .a.m.d. pn la
cel mai mare scor (73). Dac ntlnim dou sau mai multe scoruri identice, procedm n
maniera indicat n cazul testului MannWhitney U. Calculm apoi suma rangurilor
pentru fiecare eantion.
Ipoteza de nul pentru testul KruskalWallis H este analog ipotezei de nul
pentru testul ANOVA unifactorial, fiind ns enunat n termeni mai generali: nu exist
nici o diferen n privina scorurilor celor k populaii din care au fost alctuite
eantioanele sau, altfel spus, populaiile din care au fost alctuite eantioanele sunt
identice sub aspectul variabilei de interes. Ipoteza alternativ enun c cel puin dou
dintre cele k populaii difer sub aspectul variabilei de interes.
De notat c o condiie de aplicabilitate a acestui test este ca fiecare eantion j s
conin un numr de cazuri nj 5.
Calcularea statisticii testului const din aflarea valorii unei mrimi statistice, H,
cu ajutorul urmtoarei formule:

k Rj
12
2

Formula 10.21 H 3( N 1)
N ( N 1) j 1 n j
n care N = numrul total de cazuri din cele k eantioane
Rj = suma rangurilor din eantionul j, j = 1,2, , k
nj = numrul de cazuri din eantionul j, j = 1,2, , k

Distribuia de eantionare n testul KruskalWallis H este distribuia 2 cu k 1


grade de libertate. Ipoteza de nul este respins dac valoarea lui H este mai mare dect
valoarea critic 2 corespunztoare nivelului ales i numrului de grade de libertate.
n termenii modelului n 4 pai, testul pentru exemplul de mai sus decurge dup
cum urmeaz:

Pasul 1. Enunarea ipotezelor

H0: Nu exist nici o diferen n privina comportamentului autoritar fa


de elevi al cadrelor didactice de la cele trei nivele de nvmnt.
Ha: Cel puin dou din cele trei populaii de cadre didactice difer sub
aspectul comportamentului autoritar fa de elevi.

Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei


critice

Distribuia de eantionare = Distribuia 2


= 0,05
gl = k 1 = 3 1 = 2
2 (critic) = 5,991

Pasul 3. Calcularea statisticii testului

k Rj
12
2

H 3( N 1)
N ( N 1) j 1 n j
12 29 2 46 2 78 2
3(17 1) 7,86
17 (17 1) 6 5 6

Pasul 4. Luarea deciziei

ntruct H (7,86) 2 (critic) (5,991), putem respinge ipoteza e nul. Examinarea


datelor indic faptul c profesorii de liceu sunt mai autoritari dect cei din nvmntul
gimnazial i primar i profesorii din nvmntul gimnazial sunt mai autoritari dect cei
din nvmntul primar, iar testul arat c aceste diferene sunt statistic semnificative.

GLOSAR

Celul: intersecia unui rnd cu o dup categoriile a dou variabile.


coloan ntr-un tabel al Denumirile categoriilor unei variabile
contingenelor. Celulele indic sunt folosite drept titluri de coloane,
numrul de cazuri clasificate iar denumirile categoriilor celeilalte
concomitent n cte dou categorii ale variabile sunt folosite drept titluri de
celor dou variabile. rnduri.
Iteraie: orice succesiune de R elemente Teste nonparametrice: teste de
de acelai fel, cu R 1. semnificaie care nu necesit supoziii
Marginal: subtotal pentru o coloan i particulare despre forma distribuiei
un rnd ntr-un tabel al populaiilor de referin, astfel c pot
contingenelor. Marginalele indic fi aplicate n special atunci cnd se
distribuiile de frecvene pentru lucreaz cu eantioane mici. Testele
fiecare categorie a variabilei nonparametrice sunt cu deosebire
respective sau, altfel spus, utile n psihologie, ntruct pot fi
distribuiile univariate de frecvene aplicate pentru variabile msurate la
ale fiecrei variabile. nivel nominal sau ordinal.
Tabel al contingenelor: tabel Testul chiptrat (2): test non-
rectangular n care cazurile dintr-un parametric pentru dou variabile
eantion sunt clasificate concomitent msurate la nivel nominal i
organizate ntr-u tabel al
contingenelor. Esena acestui test
const din compararea frecvenelor
observate frecvenele efective
obinute empiric de ctre cercettor
cu frecvenele teoretice sau
ateptate frecvenele calculate sub
presupunerea c ipoteza de nul este
adevrat.
Testul iteraiilor: test non-parametric
pentru dou variabile msurate la
nivel ordinal.
Testul KruskalWallis H: este
analogul nonparametric al testului
ANOVA unifactorial, aplicabil la
date de nivel ordinal.
Testul MannWhitney U: test non-
parametric pentru dou variabile
msurate la nivel ordinal.
Testul McNemar: test nonparametric
pentru semnificaia schimbrii; acest
test utilizeaz distribuia 2 i este
aplicabil pentru variabile de nivel
nominal, n cazul a dou eantioane
dependente.
Testul medianei: test nonparametric
pentru egalitatea a dou mediane;
acest test utilizeaz distribuia 2 i
este aplicabil n cazul a dou
eantioane independente, pentru
variabile msurate la nivel ordinal.
Testul Wilcoxon T: test non-parametric
pentru semnificaia diferenei dintre
dou eantioane dependente, aplicabil
pentru date de nivel ordinal.
Variabile independente reciproc:
dou variabile sunt independente
reciproc dac, pentru toate cazurile
din eantionul considerat, clasificarea
unui caz ntr-o categorie a unei
variabile nu are nici un efect asupra
probabilitii ca acel caz s fie
clasificat n oricare dintre categoriile
celeilalte variabile.
11 MRIMI ALE CORELAIEI

Mrimile corelaiei sunt mrimi statistice complementare testelor de


semnificaie i permit cuantificarea importanei (triei) unei relaii ntre variabile.
Psihologii sunt interesai s descopere dac exist relaii ntre variabile precum
inteligena i creativitatea, vechimea n munc i satisfacia fa de profesia practicat,
timpul afectat vizionrii emisiunilor TV i performanele colare etc. Mrimile
corelaiei sunt folosite n principal pentru nelegerea relaiilor cauzale dintre variabile i
pentru predicia de la o variabil la alta. S precizm. Dei mrimile corelaiei nu pot fi
folosite pentru a dovedi existena relaiilor cauzale, informaiile furnizate de acestea pot
fi folosite ca argumente n favoarea sau mpotriva existenei relaiilor cauzale. Pe de alt
parte, dac dou variabile sunt corelate, atunci putem aprecia scorurile unei variabile pe
baza cunoaterii scorurilor n privina celeilalte variabile. n psihologie, o astfel de
apreciere se numete predicie. O predicie este cu att mai precis, cu ct corelaia
dintre cele dou variabile este mai puternic.
n cele ce urmeaz, vom folosi tabelele cu dubl intrare pentru a introduce
noiunea de corelaie, vom prezenta calcularea i interpretarea diferitelor mrimi ale
corelaiei bivariate (corelaia dintre dou variabile) i vom aborda unele aspecte ale
corelaiei multivariate (corelaia dintre mai mult de dou variabile).

11.1 NOIUNEA DE CORELAIE

Se spune c dou variabile sunt corelate, dac distribuia scorurilor uneia dintre
acestea se schimb sub influena scorurilor celeilalte.
S presupunem c ne intereseaz relaia dintre satisfacia fa de meseria
practicat i productivitatea muncii pentru muncitorii unei fabrici. Dac aceste dou
variabile sunt corelate, atunci nivelele de productivitate a muncii vor varia sub influena
nivelelor de satisfacie. Tabelul 11.1 prezint relaia n discuie pentru un eantion de
173 de muncitori (date fictive).

Tabelul 11.1 Productivitatea i satisfacia fa de meseria practicat

Satisfacia fa de
Productivitatea meserie (X) TOTAL
(Y) Sczut Medie nalt
nalt 10 15 27 52
Medie 20 25 18 63
Sczut 30 21 7 58
TOTAL 60 61 52 173
Ca i pn acum, ntr-un tabel cu dubl intrare vom urma convenia tacit de a lua
denumirile categoriilor variabilei independente (X) drept capete de coloane, iar
denumirile categoriilor variabilei dependente (Y) drept capete de rnduri.
ntr-un astfel de tabel, distribuiile de frecvene pe coloan sunt numite
distribuii condiionate ale variabilei dependente, deoarece prezint distribuia
scorurilor variabilei dependente pentru fiecare scor (condiie) al (a) variabilei
independente. De pild, n tabelul 11.1, prima coloan din stnga arat c din 60 de
muncitori cu satisfacie sczut fa de meseria practicat, 10 sunt nalt productivi, 20
sunt mediu productivi, iar 30 au o productivitate sczut. Inspectarea acestor distribuii
condiionate ne permite s observm efectele variabilei independente asupra variabilei
dependente. Astfel, constatm c distribuiile condiionate ale variabilei productivitate
se schimb n funcie de diferitele scoruri ale variabilei satisfacie. De pild, jumtate
dintre muncitorii cu satisfacie sczut fa de meserie (30) au o productivitate sczut,
n timp ce peste jumtate dintre muncitorii cu satisfacie nalt fa de meserie (27) au o
productivitate nalt. Aceasta arat c productivitatea n munc i satisfacia fa de
meseria aleas sunt corelate.
n tabelul 11.1, compararea distribuiilor condiionate ale variabilei dependente
este uor de fcut, deoarece marginalele coloanelor au valori apropiate. n mod obinuit,
nu aceasta este situaia i de aceea este util s controlm distribuiile condiionate care
dau totaluri diferite prin calcularea procentelor corespunztoare n sensul variabilei
independente (pe coloane) i apoi s le comparm n sensul variabilei dependente (pe
rnduri). n tabelul 11.2 sunt prezentate procentele pentru datele din tabelul 11.1 (valori
rotunjite), calculate n modul indicat.

Tabelul 11.2 Productivitatea i satisfacia fa de meseria practicat


(n procente)

Satisfacia fa de
Productivitatea meserie (X)
(Y) Sczut Medie nalt
nalt 17% 25% 52%
Medie 33 41 35
Sczut 50 34 13
TOTAL 100% 100% 100%
(60) (61) (52)

S observm c n tabelul 11.2, marginalele rndurilor au fost omise, iar marginalele


coloanelor, fa de care au fost calculate procentele, sunt prezentate ntre paranteze.
Putem vedea imediat c poziia celulei cu cea mai mare frecven relativ se
schimb de la o coloan la alta. Astfel, pentru muncitorii cu un nivel de satisfacie
sczut, celula cu cea mai mare frecven relativ (50%) se afl pe ultimul rnd; pentru
muncitorii cu un nivel mediu de satisfacie, celula cu ea mai mare frecven relativ
(41%) se afl pe rndul din mijloc; n fine, pentru muncitorii cu un nivel nalt de
satisfacie, celula cu cea mai mare frecven relativ se afl pe primul rnd. Aceste
rezultate ntresc concluzia c exist o corelaie ntre cele dou variabile.
Dac dou variabile nu sunt corelate, atunci distribuiile condiionate ale
variabilei dependente nu se vor modifica de la o coloan la alta sau, altfel spus,
distribuiile variabilei dependente vor fi aceleai pentru fiecare condiie a variabilei
independente. Dac, de pild, n loc de variabila satisfacie am lua variabila culoarea
prului, am obine n fiecare celul, probabil, un procent de aproximativ 33,3%.
Dac dou variabile sunt corelate, iar variabilele respective se afl cel puin la
nivel ordinal, atunci se poate indica un sens al corelaiei. Acesta poate fi pozitiv (direct)
sau negativ (invers). De pild, dac se constat c performanele colare ale unui
eantion de elevi ntr-o anumit perioad sunt cu att mai bune cu ct elevii respectivi
au afectat un numr mai mare de ore pe sptmn studiului individual n acea perioad,
atunci se spune c ntre studiul individual i performanele colare exist o corelaie
pozitiv. Dac se constat c performanele colare ale unui eantion de elevi sunt cu
att mai slabe cu ct elevii respectivi au afectat un numr mai mare de ore pe sptmn
vizionrii emisiunilor TV, atunci se spune c ntre vizionarea emisiunilor TV i
performanele colare exist o corelaie negativ. n general, dou variabile sunt
corelate pozitiv la nivelul unui eantion, dac subiecii din eantion care au scoruri
nalte n privina unei variabile au scoruri nalte i n privina celeilalte variabile, iar cei
care au scoruri joase n privina unei variabile au scoruri joase n privina celeilalte
variabile. Altfel spus, ntr-o corelaie pozitiv, o variabil crete sau descrete n valoare
dup cum crete sau descrete cealalt. Tabelul 11.2. arat c variabilele satisfacie i
productivitatea muncii sunt corelate pozitiv: un nivel nalt de satisfacie este asociat cu
un nivel nalt de productivitate, satisfacia medie este asociat cu productivitatea medie,
iar satisfacia sczut cu productivitatea sczut. Dou variabile sunt corelate negativ la
nivelul unui eantion, dac subiecii din eantion care au scoruri nalte n privina unei
variabile au scoruri joase n privina celeilalte variabile. Altfel spus, ntr-o corelaie
negativ, creterea valorii unei variabile este nsoit de descreterea valorii celeilalte
variabile. Tabelul 11. 3 prezint o corelaie negativ ntre nivelul de educaie i
vizionarea programelor TV (date fictive).

Tabelul 11.3 Nivelul de educaie i vizionarea programelor TV


(ilustrare pentru corelaie negativ)

Gradul de Nivelul de educaie


urmrire a Sczut Mediu nalt
programelor TV
nalt 60% 20% 10%
Mediu 30 60 30
Sczut 10 20 60
TOTAL 100% 100% 100%

Orice corelaie, pozitiv sau negativ, poate fi apreciat dup tria sau puterea
sa. Un caz extrem este cel al corelaiei perfecte. Corelaia dintre dou variabile este
perfect, dac fiecare scor al unei variabile este asociat cu un singur scor al celeilalte
variabile, astfel c scorurile unei variabile pot fi determinate exact pe baza cunoaterii
scorurilor celeilalte variabile. Dac, de pild, ntre nivelul de educaie i vizionarea
programelor TV ar fi o corelaie (negativ) perfect, atunci ntr-un tabel cu dubl intrare
pentru aceste variabile, toate cazurile de pe fiecare coloan ar fi localizate ntr-o singur
celul, ceea ce ar arta c nu exist nici o variaie a variabilei Y pentru orice scor dat al
variabilei X. O astfel de situaie este prezentat n tabelul 11.4.
Tabelul 11.4 Nivelul de educaie i vizionarea programelor TV
(ilustrare pentru corelaie negativ perfect)

Gradul de Nivelul de educaie


urmrire a Sczut Mediu nalt
programelor TV
nalt 100% 0% 0%
Mediu 0 100 0
Sczut 0 0 100
TOTAL 100% 100% 100%

O corelaie perfect ar putea fi luat drept o dovad puternic pentru o relaie


cauzal ntre variabile, cel puin pentru eantionul respectiv. Rezultatele prezentate n
tabelul 11.4 ar indica faptul c, pentru eantionul considerat, este foarte probabil ca
singura cauz a gradului de urmrire a programelor TV s fie nivelul de educaie. De
asemenea, o corelaie perfect ar permite predicii fr eroare de la o variabil la alta.
De pild, dac am ti c o persoan din eantion are un nivel nalt de educaie, am putea
prezice cu exactitate c gradul de urmrire a programelor TV pentru acea persoan este
sczut. Corelaia perfect este un caz ideal, care nu se ntlnete n practica cercetrii
psihologice, dar care este luat ca reper pentru aprecierea triei corelaiilor dintre
variabilele de interes.
n cele ce urmeaz, vom prezenta o serie de mrimi ale corelaiei, numite
coeficieni de corelaie, pentru diferite nivele de msur. Aproape toate aceste mrimi
sunt concepute astfel nct s aib limita inferioar 0, indicnd cazul nici o corelaie,
i limita superioar 1 pentru nivelul nominal, respectiv 1 pentru celelalte nivele,
indicnd cazurile corelaie pozitiv perfect (+1) sau cazul corelaie negativ
perfect. Acum, valorile coeficienilor de corelaie diferite de 0 i 1 nu au o
interpretare direct precis. S presupunem, de pild, c valoarea unui astfel de
coeficient pentru dou variabile este de 0,40. Aceasta nseamn c ntre cele dou
variabile exist o corelaie important? A decide ce valoare a unui coeficient de
corelaie indic o legtur important ntre variabile este o chestiune care, pe de o parte,
depinde de natura variabilelor considerate i care, pe de alt parte, este ntructva
arbitrar. n plus, dup cum vom vedea, doi coeficieni de corelaie pot avea valori
diferite pentru aceleai date. Cu toate acestea, se admite c o interpretare rezonabil a
valorii unui coeficient de corelaie se poate da conform urmtorului tabel44:

Interpretarea valorii unui coeficient de corelaie

Valoarea coeficientului Interpretarea


+0,90 +0,99 (0,90 Corelaie pozitiv (negativ) foarte puternic
1,00) sau aproape perfect
+0,70 +0,90 (0,70 Corelaie pozitiv (negativ) puternic
0,90)
+0,50 +0,70 (0,50 Corelaie pozitiv (negativ) moderat
0,70)
+0,30 +0,50 (0,30 Corelaie pozitiv (negativ) slab pn la

44
Adaptat dup D. E. Hinkle, W. Wiersma i S. G. Jurs, 1988, p. 118.
0,50) moderat
+0,01 +0,30 (0,01 Corelaie pozitiv (negativ) inexistent sau
0,30) foarte slab

De notat c intervalele de valori se suprapun la extremiti, ceea ce arat c interpretarea


valorii unui coeficient de corelaie rmne relativ vag.

11.2 MRIMI ALE CORELAIEI LA NIVEL NOMINAL

Cele mai utilizate mrimi ale corelaiei dintre variabile msurate la nivel
nominal sunt coeficientul , coeficientul de contingen C, coeficientul V al lui
Cramer i coeficientul .
Coeficienii , C i V sunt mrimi ale corelaiei bazate pe 2. Coeficientul se
calculeaz cu ajutorul urmtoarei formule:

2
Formula 11.1
n

S considerm din nou tabelul 10.1, n care se prezentau datele (fictive) ale unui studiu
privind sexul i dominana funcionaloperativ a minilor, reprodus aici ca tabelul
11.5.

Tabelul 11.5 Sexul i dominana funcionaloperativ a minilor

Sexul
Dominana Masculin Feminin TOTAL
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100

Dup cum am constatat prin aplicarea testului 2, relaia dintre cele dou
variabile este statistic semnificativ, i.e valoarea 2 (obinut) = 18 s-a dovedit a fi
semnificativ la un nivel de ncredere de 95%. Ceea ce ne intereseaz acum este tria
corelaiei. Aplicnd formula 11.1, obinem:

2 18
0,42
n 100

Valoarea = 0,42 indic o corelaie cel mult moderat ntre sex i dominana
funcionaloperativ a minilor. Relaia dintre aceste variabile este statistic
semnificativ (2), dar nu este puternic. Problema este c ia valori cuprinse ntre 0
(nici o corelaie) i 1 (corelaie perfect) numai pentru tabele 2 2. Pentru tabelele de
mare dimensiune, poate depi valoarea 1, ceea ce face ca interpretarea acestui
coeficient s devin problematic. Oricum, dup cum vom vedea, valoarea lui
obinut pentru exemplul de mai sus este foarte apropiat de valorile obinute prin
calcularea celorlali coeficieni de corelaie menionai.
Coeficientul C se calculeaz cu ajutorul urmtoarei formule:

2
Formula 11.2 C
n 2

Aplicnd aceast formul la datele din tabelul 11.5, obinem:

2 18
C 0,39
n 2
100 18

Deficiena coeficientului C este aceea c, fiind o mrime subunitar, nu poate lua


niciodat valoarea 1. Se demonstreaz c pe msur ce dimensiunea tabelului crete, C
tinde ctre 1. De pild, valoarea maxim a lui C este 0,82 pentru un tabel 3 3 i 0,87
pentru un tabel 4 4. De aceea, se recomand folosirea acestui coeficient numai pentru
tabele de mare dimensiune (aproximativ de la 10 linii sau/i coloane n sus).
Coeficientul V se calculeaz cu ajutorul urmtoarei formule:

2
Formula 11.3 V
n(q 1)
n care q este cea mai mic dintre valorile numerice r (numr de rnduri) i c (numr de
coloane) pentru tabelul respectiv. Aplicnd formula 11.3 la datele din tabelul 11.5
obinem:

2 18
V 0,42
n(q 1) 100(2 1)

Dup cum se poate constata, rezultatul obinut prin calcularea coeficientului V este
acelai cu cel obinut prin calcularea coeficientului . Coeficientul V are valoarea
maxim 1, dar numai pentru tabele mai mari de 2 2.
Cu toate deficienele lor, ntruct sunt uor de calculat, coeficienii , C i V pot
fi folosii n calitate de primi indici ai importanei unei corelaii.
n situaii de cercetare mai pretenioase se obinuiete s se utilizeze coeficientul
., care ia valori cuprinse ntre 0 i 1. n cazul n care nu se dorete sau nu se poate
identifica variabila independent, se folosete varianta simetric a coeficientului , a
crui formul de calcul este urmtoarea:

c r

nmx nmy nmc n mr


x 1 y 1
Formula 11.4
2n n mc n mr
n care nmx = cea mai mare frecven n coloana x
nmy = cea mai mare frecven n rndul y
nmc = cel mai mare marginal de coloan
nmr = cel mai mare marginal de rnd

S presupunem c ntr-o cercetare privind relaia dintre apartenena religioas i


atitudinea fa de pedeapsa capital s-au obinut rezultatele din tabelul 11.6.
Tabelul 11.6 Apartenena religioas i atitudinea
fa de pedeapsa capital

Apartenena religioas
Atitudinea Cretin- Nici TOTAL
ortodox Catolic Altele una
Favorabil 5 10 9 14 38
Neutr 10 14 12 6 42
mpotriv 25 11 4 10 50
TOTAL 40 35 25 30 130

Pentru datele din acest tabel avem:

n
x 1
mx 25 14 12 14 65
r

n
y 1
my 14 14 25 53

n mc 40
n mr 50

Aplicnd formula 11.4, obinem:

c r

n mx n my n mc n mr
x 1 y 1 65 53 40 50
0,16
2n n mc n mr 2(130) 40 50

Dac se poate identifica variabila independent, atunci se folosete varianta


asimetric a coeficientului , notat y, a crui formul de calcul este urmtoarea:

n mx n mr
Formula 11.5 y x 1

n n mr

Considernd exemplul de mai sus, dac cercettorul identific drept variabil


independent apartenena religioas, atunci se obine:

n mx n mr
65 50
y x 1
0,19
n n mr 130 50

Pentru cele mai multe situaii de cercetare, interpretarea celor dou variante ale
coeficientului este similar interpretrii coeficienilor C i V. Pentru exemplul
considerat aici, putem conchide c cele dou variabile sunt corelate, dar c aceast
corelaie este foarte slab45.

11.3 MRIMI ALE CORELAIEI LA NIVEL ORDINAL

Vom prezenta patru coeficieni ai corelaiei, utilizabili la nivel ordinal: al lui


Goodman i Kruskal, d al lui Somer, b al lui Kendall i s al lui Spearman46. Aceti
coeficieni iau valori cuprinse ntre 0 i 1 (b numai pentru cazul r = c).
Coeficientul se utilizeaz n situaii de cercetare n care avem dou variabile
msurate la nivel ordinal cu un numr mic de valori (nu mai mult de cinci sau ase). S
presupunem c am obinut urmtoarele date privind vechimea n munc i descurajarea
profesional pentru un eantion de 100 de cadre didactice din nvmntul primar:

Tabelul 11.7 Vechimea n munc i descurajarea profesional

Nivel de Vechime n munc (X)


descurajare TOTAL
profesional Inferioar Medie Superioar
(Y)
Superior 8 11 21 40
Mediu 10 15 5 30
Inferior 20 6 4 30
TOTAL 38 32 30 100

n cele ce urmeaz, cazurile care fac parte din aceeai categorie a unei variabile
vor fi numite cazuri legate ale variabilei respective.
Pentru a calcula coeficientul , sunt necesare dou cantiti, notate cu Na i
respectiv Nd. Cantitatea Na reprezint numrul total de perechi de cazuri nelegate i
dispuse n aceeai ordine n privina ambelor variabile. Cantitatea Nd reprezint numrul
total de perechi de cazuri nelegate i ordonate diferit n privina celor dou variabile.
Pentru aflarea acestor dou cantiti, vom lucra cu frecvenele celulelor, considernd
celul cu celul.
Pentru nlesnirea referirii la celulele unui tabel n m vom numerota rndurile de
la 1 la n ncepnd de sus n jos i, de asemenea, coloanele de la 1 la m ncepnd de la
stnga la dreapta; pentru fiecare celul, vom folosi o notaie de forma cij, n care i este
numrul rndului, iar j numrul coloanei. Pentru un tabel 3 3, cum este 11.7, avem:

c11 c12 c13


c21 c22 c23
c31 c32 c33

S observm c dac alctuim perechi selectnd un caz dintr-o celul cij i un


caz dintr-o celul situat pe acelai rnd cu cij, obinem perechi de cazuri legate ale
variabilei Y, iar dac alctuim perechi selectnd un caz dintr-o celul cij i un caz dintr-
o celul situat pe aceeai coloan cu cij, obinem perechi de cazuri legate ale variabilei

45
Pentru o prezentare detaliat a coeficientului ca o mrime a reducerii proporionale a erorilor (RPE),
vezi Healey, 1984, pp. 223-228.
46
, d i b pot fi interpretai ca mrimi ale RPE (vezi ibidem, cap. 14).
X. Evident, dac alctuim perechi din aceeai celul, obinem perechi de cazuri legate n
privina ambelor variabile. Dac, ns, alctuim perechi selectnd un caz dintr-o celul
cij i un caz dintr-o celul situat deasupra i la dreapta celulei cij, cazurile din perechile
astfel obinute sunt nelegate i dispuse n aceeai ordine n privina ambelor variabile.
De pild, dac alctuim o pereche selectnd un caz din celula c31 i un caz din celula c12,
cazul din celula c31 are o vechime mai mic dect cazul din celula c12 i la fel, cazul din
celula c31 are un nivel de descurajare profesional mai mic dect cazul din celula c12.
Numrul total de perechi de cazuri alctuite selectnd un caz din celula c31 i un caz din
celula c12 se afl nmulind frecvenele din cele dou celule: 20 11 = 220. Cu alte
cuvinte, contribuia acestor dou celule la cantitatea Na este de 220 de perechi.
Procednd la fel pentru fiecare dintre celelalte trei celule situate deasupra i la dreapta
celulei c31 (c13, c22 i c23) i adunnd produsele astfel obinute aflm numrul total de
perechi de cazuri alctuite selectnd un caz din celula c31 i un caz din fiecare celul
situat deasupra i la dreapta celulei c31:

(20 11) + (20 21) +(20 15) + (20 5) = 1040

Acelai calcul l putem efectua dup cum urmeaz:

20(11 + 21 + 15 + 5) = 1040

Prin urmare, pentru a afla cantitatea Na, se nmulete frecvena din fiecare celul
cu suma frecvenelor din toate celulele situate deasupra i la dreapta celulei respective,
dup care se adun produsele astfel obinute. De notat c nici una dintre celulele situate
pe primul rnd sau pe ultima coloan nu poate contribui la Na, deoarece nu exist celule
situate deasupra i la dreapta acestora. Calcularea Na pentru tabelul 11.7 decurge dup
cum urmeaz:

Pentru c31: 20(11 + 21 + 15 +5) = 1040


Pentru c32: 6(21 + 5) = 156
Pentru c21: 10(11 + 21) = 320
Pentru c22: 15 21 = 315
Na = 1831

Procedeul de calculare a Nd urmeaz o schem simetric fa de cel pentru Na,


cci dac alctuim perechi selectnd un caz dintr-o celul cij i un caz dintr-o celul
situat deasupra i la stnga celulei cij, cazurile din perechile astfel obinute sunt
nelegate i ordonate diferit n privina ambelor variabile. De pild, dac alctuim o
pereche selectnd un caz din celula c33 i un caz din celula c11, cazul din celula c33 are o
vechime mai mare dect cazul din celula c11 i un nivel de descurajare profesional mai
mic dect cazul din celula c11. Prin urmare, pentru a afla cantitatea Nd, se nmulete
frecvena din fiecare celul cu suma frecvenelor din toate celulele situate deasupra i la
stnga celulei respective, dup care se adun produsele astfel obinute. Ca mai sus, s
observm c nici una dintre celulele situate pe primul rnd sau pe prima coloan nu
poate contribui la Nd, deoarece nu exist celule situate deasupra i la stnga acestora.
Calcularea Nd pentru tabelul 11.7 decurge dup cum urmeaz:
Pentru c33: 4(8 + 11 + 10 +15) = 176
Pentru c32: 6(8 + 10) = 108
Pentru c23: 5(8 + 11) = 95
Pentru c22: 15 8 = 120
Nd = 499

n tabelul 11.7, un numr total de 1831 de perechi de cazuri sunt nelegate i dispuse n
aceeai ordine n privina ambelor variabile i un numr total de 499 de perechi de
cazuri sunt nelegate ordonate diferit n privina celor dou variabile.
Coeficientul se calculeaz cu ajutorul urmtoarei formule:

Na Nd
Formula 11.6
Na Nd

Valoarea coeficientului pentru datele din tabelul 11.7 este:

N a N d 1831 499
0,57
N a N d 1831 499

Vom conchide c vechimea n munc este corelat moderat cu nivelul de descurajare


profesional, aceast corelaie fiind pozitiv: dac, de pild, tim c A are o vechime
mai mare n munc dect B, suntem ndreptii s spunem c este probabil ca A s aib
un nivel de descurajare profesional mai nalt dect B.
Este important de observat c aplicarea coeficientului presupune (pentru a
obine cantitile Na i Nd) ca tabelul pe care se lucreaz s fie construit n maniera
tabelului 11.7, cu categoriile de pe coloane dispuse n ordine cresctoare de la stnga la
dreapta i categoriile de pe linii dispuse n ordine cresctoare de jos n sus. este o
mrime simetric a corelaiei: valoarea acestui coeficient va fi aceeai indiferent de
variabila care este luat ca independent.
Ca i , coeficienii d al lui Somer i b al lui Kendall se utilizeaz n situaii de
cercetare n care avem dou variabile msurate la nivel ordinal cu un numr mic de
valori i necesit calcularea cantitilor Na i Nd. n plus, aceti coeficieni necesit
calcularea a dou cantiti, notate Ly i respectiv Lx. Cantitatea Ly reprezint numrul
total de perechi de cazuri legate ale variabilei dependente. Cantitatea Lx reprezint
numrul total de perechi de cazuri legate ale variabilei independente.
Numrul total de perechi de cazuri legate ale variabilei dependente, Ly, se
determin aflnd numrul de perechi de cazuri de pe fiecare rnd (prin definiie, toate
cazurile aflate pe acelai rnd sunt legate n privina variabilei dependente) i adunnd
cantitile astfel obinute. Pentru a afla contribuia fiecrui rnd la Ly, se nmulete
frecvena din fiecare celul cu suma frecvenelor din toate celulele situate la dreapta (pe
rndul respectiv), dup care e adun produsele astfel obinute. Evident, celulele situate
pe ultima coloan nu pot contribui la Ly, deoarece nu exist celule situate la dreapta
acestora. Calcularea Ly pentru tabelul 11.7 decurge dup cum urmeaz:

Pentru rndul 1: 8(11 + 21) + (11 21) = 487


Pentru rndul 2: 10(15 + 5) + (15 5) = 275
Pentru rndul 3: 20(6 + 4) + (6 4) = 224
Ly = 986
Numrul total de perechi de cazuri legate ale variabilei independente, Lx, se
determin analog, lucrnd ns pe coloane. Pentru a afla contribuia fiecrei coloane la
Lx, se nmulete frecvena din fiecare celul cu suma frecvenelor din toate celulele
situate dedesubt (pe coloana respectiv), dup care e adun produsele astfel obinute.
Evident celulele situate pe ultimul rnd nu pot contribui la Lx, deoarece nu exist celule
situate dedesubtul acestora. Calcularea Lx pentru tabelul 11.7 decurge dup cum
urmeaz:

Pentru coloana 1: 8(10 + 20) + (10 20) = 440


Pentru coloana 2: 11(15 + 6) + (15 6) = 321
Pentru coloana 3: 21(5 + 4) + (5 4) = 209
Lx = 970

n tabelul 11.7 avem un numr total de 986 de perechi de cazuri legate ale variabilei
dependente i un numr total de 970 de perechi de cazuri legate ale variabilei
independente.
Coeficientul d al lui Somer se calculeaz cu ajutorul urmtoarei formule:

Na Nd
Formula 11.7 d
N a N d Ly

S observm c aceast formul difer de formula pentru numai prin adunarea


cantitii Ly la numitor, ceea ce face ca d s fie o mrime a corelaiei mai conservatoare
dect , deoarece valoarea lui d va fi ntotdeauna mai mic dect valoarea lui pentru
acelai tabel. Pentru tabelul 11.7, avem:

Na Nd 1831 449
d 0,40
N a N d L y 1831 449 986

Aceast valoare a coeficientului d indic o corelaie pozitiv cel mult moderat ntre
cele dou variabile.
Dup cum se poate constata, coeficientul d este o mrime asimetric a corelaiei.
Dac variabila ale crei categorii sunt capete de rnduri este luat drept variabil
independent, atunci se calculeaz numrul de perechi de cazuri pe coloane i nu pe
rnduri (n notaia noastr, n formula 11.7 se ia Lx n loc de Ly ). n cazul datelor din
tabelului 11.7, valorile cantitilor Lx i Ly sunt apropiate, ceea ce nseamn c o astfel
de schimbare nu ar afecta mult valoarea coeficientului d. n cazul n care cele dou
cantiti sunt sensibil diferite, trebuie s fim precaui n privina alegerii variabilei
dependente, deoarece valoarea lui d poate fi considerabil afectat de aceast decizie.
Coeficientul b al lui Kendall este o mrime simetric a corelaiei, ntruct ine
cont att de Ly, ct i de Lx. Formula sa de calcul este urmtoarea:

Na Nd
Formula 11.8 b
( N a N d L y )( N a N d L x )

Pentru tabelul 11.7 avem:


Na Nd 1831 499
b 0,40
( N a N d L y )( N a N d L x ) (1831 499 986)(1831 499 970)

Particularitatea coeficientului b const din aceea c poate lua valori cuprinse


ntre 0 i 1 doar pentru tabele ptratice (r = c), deci nu se recomand calcularea sa
pentru orice tabel rectangular.
Coeficientul s al lui Spearman se utilizeaz, de regul, n situaii de cercetare
n care avem dou variabile msurate la nivel ordinal, care au o amplitudine relativ larg
de scoruri diferite i puine cazuri legate n privina fiecrei variabile. S presupunem c
dorim s verificm ipoteza conform creia persoanele care practic jogging au un
sentiment mai puternic de respect fa de sine. Pentru aceasta, 10 persoane care practic
jogging au fost chestionate cu ajutorul a dou scale, prima msurnd gradul de implicare
n practicarea jogging-ului, cealalt msurnd nivelul respectului fa de sine. Datele
obinute, mpreun cu o serie de calcule cerute de determinarea coeficientului s, sun
prezentate n tabelul 11.8.

Tabelul 11.8 Practicarea jogging-ului i respectul fa de sine

Cazul Nivel de Rangul Respect Rangul d d2


implicare fa
de sine
1 18 1 15 3 2 4
2 17 2 18 1 1 1
3 15 3 12 4 1 1
4 12 4 16 2 2 4
5 10 5 6 8 3 9
6 9 6 10 5 1 1
7 8 7,5 8 6 1,5 2,25
8 8 7,5 7 7 0,5 0,25
9 5 9 5 9 0 0
10 1 10 2 10 0 0
d = 0 d2 =
22,5

Mai nti, atribuim ranguri scorurilor fiecrei valori, ncepnd cu cel mai mare
scor. Apoi, pentru fiecare caz, calculm diferena dintre rangul scorului n privina
primei variabile (X) i rangul scorurilor n privina celeilalte variabile (Y) (n tabel,
coloana etichetat d). S observm c suma acestor diferene este 0, ceea ce nseamn c
diferenele negative sunt egale cu cele pozitive, acesta fiind ntotdeauna cazul. Dac
obinem d 0, atunci am greit n atribuirea rangurilor sau/i n calcularea
diferenelor. Fiecare diferen astfel obinut este apoi ridicat la ptrat pentru a elimina
semnele minus (n tabel, coloana d2), dup care se calculeaz suma acestor diferene
ridicate la ptrat, d2.
Formula de calcul a coeficientului s al lui Spearman este urmtoarea:

6d 2
Formula 11.9 s 1
n(n 2 1)
n care n este numrul de perechi de ranguri. Aplicnd aceast formul la datele din
tabelul 11.8, obinem:

6d 2 6 22,5
s 1 1 0,86
n(n 1)
2
10(100 1)

Acest rezultat indic o corelaie pozitiv puternic ntre cele dou variabile, ceea ce
sprijin ipoteza cercetrii.
n anumite situaii de cercetare ne intereseaz s aflm dac dou variabile sunt
corelate la nivelul populaiei de referin. n cazul variabilelor msurate la nivel
nominal, semnificaia statistic a unei corelaii este judecat, de obicei, prin intermediul
testului 2. De asemenea, testul 2 poate fi aplicat i n cazul corelaiilor dintre variabile
msurate la nivel ordinal. Totui, acest test evideniaz doar probabilitatea ca
frecvenele observate s se datoreze doar ntmplrii i, ca atare, nu reprezint un test
direct al corelaiei47. Pentru coeficienii i s au fost elaborate teste de semnificaie
specifice, n care ipoteza de nul enun c nu exist nici o corelaie la nivelul populaiei,
deci c valorile mrimilor respective sunt egale cu 0: = 0, respectiv s = 0.
Corespunztor, ipoteza alternativ enun c 0 sau, respectiv, c s 048. Astfel,
pentru eantioane cu n 30, distribuia de eantionare pentru aproximeaz distribuia
Z i se folosete urmtoarea formul pentru calcularea statisticii testului:

Na Nd
Formula 11.10 Z
n(1 2 )

Regulile de decizie sunt cele cunoscute pentru testul Z.


n cazul coeficientului s, dac 5 n 30, atunci se folosete tabelul valorilor
critice pentru s (anexa H). Pentru a folosi acest tabel, se identific valoarea critic a
lui s corespunztoare numrului de perechi de ranguri, n, i nivelului ales. Pentru a
putea respinge ipoteza de nul i a conchide c variabilele respective sunt corelate la
nivelul populaiei, valoarea obinut pentru s trebuie s fie mai mare dect valoarea
critic. Dac n 30, atunci distribuia de eantionare pentru s aproximeaz distribuia t
cu gl = n 2 i se folosete urmtoarea formul pentru calcularea statisticii testului:

n2
Formula 11.11 t s
1 2

Regulile de decizie sunt cele cunoscute pentru testul t Student.

47
Luat n sine, 2 nu este o mrime a corelaiei. Dei valorile diferite de 0 ale lui 2 indic existena unei
corelaii, valoarea numeric efectiv pentru 2 (obinut) nu st n nici o legtur necesar cu tria
corelaiei: 2 (obinut) poate avea o valoare mare, n timp ce corelaia efectiv poate fi slab. Cu alte
cuvinte, independena (2) i corelaia sunt dou aspecte diferite. Este perfect posibil ca dou variabile s
fie corelate (2 (obinut) 0) i totui s fie independente, n cazul n care nu putem respinge ipoteza de
nul.
48
Unii autori folosesc simbolurile g i rs, respectiv, pentru i , atunci cnd este vorba despre
eantioane, rezervnd literele greceti pentru cazul populaiilor.
11.4 MRIMI ALE CORELAIEI LA NIVEL DE
INTERVAL SAU DE RAPORT

Tehnicile statistice folosite pentru analiza corelaiei dintre variabile msurate la


nivel de interval sau de raport se bazeaz pe alte concepte i modaliti de calcul fa de
cele prezentate n seciunea anterioar, dar urmresc s rspund la aceleai ntrebri
privind existena, sensul i tria unei corelaii. n cele ce urmeaz, vom prezenta
diagramele de mprtiere, ecuaia de regresie i coeficientul de corelaie r al ui Pearson.
Diagramele de mprtiere49 sunt modaliti de prezentare vizual a corelaiei
dintre dou variabile msurate la nivel de interval sau de raport i sunt analoage
funcional tabelelor bivariate, ntruct permit sesizarea rapid a multor trsturi
importante ale unei corelaii.
Vom ilustra construirea unei diagrame de mprtiere cu ajutorul unui exemplu.
S presupunem c ne intereseaz dac exist o relaie ntre abilitile de limbaj i cele
aritmetice pentru un eantion de 9 elevi din nvmntul primar. Rezultatele obinute
prin aplicarea testelor corespunztoare sunt prezentate n tabelul 11.9.

Tabelul 11.9 Abiliti de limbaj i abiliti aritmetice

Elevul Abiliti Abiliti


de aritmetice
limbaj (X) (Y)
A 83 95
B 38 70
C 47 34
D 56 66
E 23 45
F 90 100
G 75 58
H 87 71
I 89 68

Pentru a construi o diagram de mprtiere, folosim un sistem de axe rectangulare,


dispunnd valorile variabilei X pe axa orizontal (abscisa) i valorile variabilei Y pe axa
vertical (ordonata). Ambele axe se calibreaz n uniti corespunztoare, respectiv,
scalelor de msur folosite pentru strngerea datelor. Pentru fiecare pereche de valori
(pentru fiecare caz) se plaseaz un punct la intersecia perpendicularelor respective pe
cele dou axe. Diagrama de mprtiere pentru datele din tabelul 11.9 este prezentat n
figura 11.1.

49
Aceste diagrame se mai numesc i scatergrame sau diagrame ale norilor de puncte.
Figura 11.1 Abiliti de limbaj i abiliti aritmetice

120
110
100

Abiliti aritmetice
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Abiliti de limbaj

Fiecare elev este reprezentat printr-un punct plasat la intersecia celor dou scoruri
obinute de acesta. Dispunerea punctelor poate fi pus n eviden prin trasarea unei linii
drepte care s ating fiecare punct sau s treac ct se poate mai aproape posibil de
fiecare punct. Dup cum vom vedea, aceast linie, numit linie de regresie, poate fi
descris precis printr-o ecuaie, dar deocamdat este suficient trasarea sa aproximativ:

120
110
100
Abiliti aritmetice

90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120

Abiliti de limbaj

Punctele situate deasupra fiecrei valori X pot fi considerate distribuii condiionate ale
lui Y; cu alte cuvinte, punctele reprezint scoruri ale variabilei Y pentru fiecare scor al
variabilei X. Figura 11.1 arat c aceste distribuii condiionate ale lui Y se modific
dup cum se modific X (scorurile Y variaz n funcie de scorurile X), ceea ce nseamn
c cele dou variabile sunt corelate. Existena unei corelaii este evideniat i de faptul
c linia de regresie formeaz un unghi cu axa X (abscisa). Dac cele dou variabile nu ar
fi corelate, scorurile variabilei Y nu s-ar modifica n funcie de scorurile X, astfel c linia
de regresie ar fi paralel cu abscisa.
Sensul corelaiei poate fi detectat prin panta (nclinarea) liniei de regresie fa de
abscis. n exemplul nostru avem o corelaie pozitiv, deoarece elevii cu scoruri mari n
privina variabilei X (abiliti de limbaj) tind s aib scoruri mari n privina variabilei Y
(abiliti aritmetice). Dac ntre cele dou variabile ar fi fost o corelaie negativ, linia
de regresie ar fi fost nclinat n direcia opus, indicnd c scorurile nalte ale unei
variabile sunt asociate cu scoruri mici ale celeilalte variabile.
Tria corelaiei poate fi aproximativ apreciat observnd mprtierea punctelor
n jurul liniei de regresie. ntr-o corelaie perfect, toate punctele s-ar afla pe linia de
regresie. Prin urmare, cu ct punctele sunt mai puin mprtiate n jurul liniei de
regresie, cu att corelaia este mai puternic.
O supoziie esenial care st la baza tehnicilor statistice prezentate n continuare
este aceea c ntre cele dou variabile considerate este o corelaie linear, ceea ce
nseamn c dispunerea punctelor poate fi aproximat printr-o linie dreapt. Aceast
supoziie poate fi testat prin construirea unei diagrame de mprtiere naintea aplicrii
unei tehnici statistice. Dac respectiva corelaie nu este liniar, atunci supoziiile
nivelului de msur de interval sau de raport nu sunt satisfcute, ceea ce nseamn c
variabilele trebuie s fie tratate ca i cum ar fi de nivel ordinal.
Se demonstreaz c linia care prezint cel mai bine corelaia dintre dou
variabile este descris de urmtoarea formul, numit ecuaia de regresie bivariat:

Formula 11.12 Y a bX

n care Y = scor al variabilei dependente


a = punctul n care linia de regresie intersecteaz axa Y
b = panta liniei de regresie
X = scor al variabilei independente

Parametrul b, numit coeficient de regresie, arat cantitatea de schimbare a lui Y


care corespunde unei uniti de schimbare a lui X. Panta unei linii de regresie poate fi
pozitiv, negativ sau egal cu 0. n cazul b = 0, linia de regresie este paralel cu abscisa
(este orizontal), ceea ce nseamn c ntre cele dou variabile nu exist nici o corelaie.
Coeficientul de regresie se calculeaz cu ajutorul urmtoarei formule:

nXY XY
Formula 11.13 b
nX 2 (X ) 2
n care n = numrul de cazuri
XY = suma produselor dintre cele dou scoruri ale fiecrui caz
X = suma scorurilor variabilei X
Y = suma scorurilor variabilei Y
2
X = suma ptratelor scorurilor variabilei X

Pentru determinarea valorii coeficientului de regresie se poate folosi un tabel de calcule,


ilustrat aici pentru datele din tabelul 11.9.
Tabelul 11.10 Calcule pentru coeficientul de regresie (b)

X Y X2 Y2 XY
83 95 6889 9025 7885
38 70 1444 4900 2660
47 34 2209 1156 1598
56 66 3136 4356 3696
23 45 529 2025 1035
90 100 8100 10000 9000
75 58 5625 3364 4350
87 71 7569 5041 6177
89 68 7921 4624 6052
2 2
X = 588 Y = 607 X = 43422 Y = 44491 XY = 42453

Astfel, n exemplul nostru, avem:

nXY XY (9 42453) (588 607)


b 0,56
nX 2 (X ) 2 (9 43422) 588 2

Aceast valoare a parametrului b arat c pentru fiecare unitate de schimbare a lui X,


exist o cretere de 0,56 uniti n privina lui Y. Cu alte cuvinte, o cretere cu o unitate
a scorului n privina abilitilor de limbaj are drept rezultat o cretere cu 0,56 a scorului
n privina abilitilor aritmetice.
Parametrul a, numit constanta de regresie, se calculeaz cu ajutorul urmtoarei
formule:

Formula 11.14 a Y bX

n exemplul nostru, avem:

Y 607
Y 67,4
n 9
X 588
X 65,3
n 9
a 67,4 (0,56 65,3) 30,8

Aceast valoare a parametrului a arat c linia de regresie intersecteaz axa Y (ordonata)


n punctul n care Y = 30,8. De notat c a poate fi calculat i cu ajutorul urmtoarei
formule, echivalent algebric cu formula 11.14:

Y bX
Formula 11.15 a
n

n fine, ecuaia de regresie pentru exemplul nostru este:

Y a bX 30,8 (0,56 X )
Linia de regresie poate fi folosit pentru a face predicii asupra scorului unui caz
n privina unei variabile, pornind de la scorul celuilalt caz n privina celeilalte
variabile. Dac se folosete variabila X pentru a face predicii despre variabila Y, atunci
linia de regresie este denumit regresia lui Y asupra lui X. Pentru ilustrare, s
presupunem c, pe baza corelaiei prezentate n figura 11.1, ne intereseaz s aflm
scorul n privina abilitilor aritmetice al unui elev cu scorul 100 n privina abilitilor
de limbaj (observai c eantionul nu conine nici un elev cu scorul 100 la testul privind
abilitile de limbaj). Notm scorul pe care dorim s n aflm (scorul prezis) cu Y ,
pentru a-l distinge de scorurile Y efective. Folosind ecuaia de regresie din exemplul
nostru pentru X = 100, obinem:

Y 30,8 (0,56 X ) 30,8 (0,56 100) 86,8

Prin urmare, pe baza regresiei lui Y asupra lui X, prezicem c un elev cu scorul 100 n
privina abilitilor de limbaj va obine scorul 86,8 n privina abilitilor aritmetice.
Coeficientul r al lui Pearson este o mrime a corelaiei lineare dintre dou
variabile msurate la nivel de interval sau de raport, care ia valori cuprinse ntre 0 i 1.
Valoarea acestui coeficient poate fi calculat cu ajutorul urmtoarei formule:

nXY XY
Formula 11.16 r
(nX 2 (X ) 2 )(nY 2 (Y ) 2 )

Pentru a afla valoarea coeficientului r n cazul exemplului de mai sus, folosim


tabelul 11.10, n care am adugat deja o coloan pentru Y2 i am calculat suma
corespunztoare. Astfel, avem:

(9 42453) (588 607)


r 0,66
((9 43422) 588 2 )((9 44491) 607 2 )

Ca i n cazul celorlali coeficieni ai corelaiei, valorile coeficientului r diferite


de 0 i de 1 nu au o interpretare direct precis. Valorile apropiate de 0 pot fi
interpretate ca indicnd o corelaie foarte slab, iar cele care se apropie de 1 ca
indicnd o corelaie foarte puternic. O interpretare mai direct este dat de calcularea
coeficientului de determinare bivariat, care este pur i simplu r2. n exemplul nostru,
r2 = 0,435. Aceast valoare arat c scorurile obinute n privina abilitilor de limbaj
(X) explic aproximativ 43,5% din variaia total a scorurilor obinute n privina
abilitilor aritmetice, restul de 56,5% din aceast variaie datorndu-se probabil
influenei altor variabile, erorilor de msurare sau ntmplrii.
n condiiile n care eantionul respectiv a fost alctuit aleatoriu, valoarea
coeficientului r al lui Pearson poate fi testat pentru semnificaia la nivelul populaiei de
referin, distribuia de eantionare fiind distribuia t cu gl = n 2. Calcularea statisticii
testului se face cu ajutorul urmtoarei formule:

n2
Formula 11.17 tr
1 r2
Dac variabilele sunt corelate la nivelul eantionului i valoarea lui t (obinut)
cade n zona critic, atunci vom respinge ipoteza de nul i vom conchide c variabilele
respective sunt corelate i la nivelul populaiei (cu probabilitatea dat de nivelul ales);
dac, ns, valoarea lui t (obinut) nu cade n zona critic, atunci nu suntem ndreptii
s conchidem c variabilele sunt corelate la nivelul populaiei. ntr-un astfel de caz,
testul arat c valoarea coeficientului r la nivelul eantionului poate s apar numai
datorit ntmplrii, dac ipoteza de nul este adevrat, i.e. dac variabilele respective
nu sunt corelate la nivelul populaiei.
Este important de reinut c semnificaia valorii coeficientului r poate fi
testat cu ajutorul formulei 11.6 numai dac, pe lng supozia de linearitate a corelaiei,
este satisfcut att supoziia c ambele variabile au o distribuie normal (distribuie
bivariat normal), ct i supoziia c abaterile standard ale distribuiilor condiionate
ale variabilei Y sunt aproximativ egale. Pentru aceast ultim supoziie se folosete
conceptul de homoscedasticitate. n mod obinuit, inspectarea vizual a unei diagrame
de mprtiere este suficient pentru a aprecia dac o corelaie se conformeaz
supoziiilor de linearitate i homoscedasticitate. Dup cum am artat, dac dispunerea
punctelor poate fi aproximat printr-o linie dreapt, atunci corelaia poate fi apreciat ca
fiind linear. Pe de alt parte, dac scorurile Y sunt relativ uniform mprtiate deasupra
i dedesubtul liniei de regresie, atunci corelaia este homoscedastic. De pild, dup
cum se poate constata imediat, corelaia prezentat n figura 11.1 este homoscedastic:
din cele 9 cazuri, cinci se afl deasupra liniei de regresie, iar patru dedesubt.

11.5 ELEMENTE DE ANALIZ MULTIVARIAT

Unele situaii de cercetare necesit analiza mai multor variabile, chiar dac
cercettorul este interesat n principal de o anumit corelaie bivariat. Tehnicile
prezentate n aceast seciune se refer la corelaia multivariat dintre variabile msurate
la nivel de interval sau de raport i se bazeaz pe coeficientul r al lui Pearson.

11.5.1 CORELAIA PARIAL

Metoda corelaiei pariale poate fi folosit atunci cnd cercettorul dorete s


observe influena unei a treia (a patra etc.) variabile asupra unei corelaii bivariate. n
cele ce urmeaz vom folosi urmtoarele simboluri, numite coeficieni de corelaie
parial de ordinul zero:

ryz = coeficientul de corelaie dintre variabila Y i variabila Z


rxy = coeficientul de corelaie dintre variabila X i variabila Y
rxz = coeficientul de corelaie dintre variabila X i variabila Z

Aceti coeficieni se calculeaz cu formula 11.16, fcnd nlocuirile corespunztoare.


Atunci cnd controlm influena unei singure variabile X asupra corelaiei dintre
variabilele Y i Z folosim simbolul ryzx, numit coeficient de corelaie parial de
ordinul nti. ryzx se refer la coeficientul de corelaie parial dintre variabilele Y i Z
sub influena variabilei X (variabila de control). ryzx se calculeaz cu ajutorul
urmtoarei formule:
ryz rxy rxz
Formula 11.18 ryzx
(1 rxy2 )(1 rxz2 )

Pentru ilustrare, s considerm datele din tabelul 11.11, n care se prezint


distribuia a trei variabile, X, Y i Z, mpreun cu valorile parialilor de ordinul zero. S
presupunem c ne intereseaz influena variabilei X asupra corelaiei dintre Y i Z.

Tabelul 11.11 O ilustrare a corelaiei pariale

X Y Z
2 12 4
7 14 10
8 18 8
4 15 9
5 14 7
ryz = 0,50 rxy = 0,78 rxz =
0,70

Valoarea ryz = 0,50 indic o corelaie pozitiv moderat ntre variabilele Y i Z.


Aplicnd formula 11.18, obinem:

ryz rxy rxz 0,5 (0,78 0,70)


ryzx 0,098
(1 rxy2 )(1 rxz2 ) (1 (0,78) 2 )(1 (0,70) 2 )

Aceast valoare a coeficientului parial de ordinul nti este mult mai mic dect
valoarea coeficientului parial de ordinul zero ryz = 0,50. Acest rezultat, pe care l vom
nota prin ryzx ryz, arat c dac eliminm influena variabilei X asupra variabilelor Y i
Z, corelaia dintre variabilele Y i Z se reduce de la 0,5 la aproape 0. ntr-un astfel de
caz, se poate ca X s determine att variaia lui Y, ct i variaia lui Z, relaia dintre Y i
Z fiind inautentic (aparent) sau ca variabilele Y i Z s fie corelate, dar nu direct, ci
prin intermediul variabilei X:

sau

n exemplul nostru, valorile rxy = 0,78 i rxz = 0,70 pot fi luate drept un indiciu probabil
al tipului de relaie reprezentat prin diagrama din stnga. De notat c distincia dintre
cele dou tipuri de relaie nu poate fi fcut cu precizie doar pe baza metodelor
statistice. ntr-o situaie real de cercetare, distincia se poate face pe criterii de coninut
al cercetrii respective (ordinea temporal dintre variabile .a).
Un al doilea tip de rezultat posibil este acela n care ryzx i ryz au valori apropiate.
Acest rezultat, pe care l vom nota prin ryzx ryz, arat c dac eliminm influena
variabilei X asupra variabilelor Y i Z, corelaia dintre variabilele Y i Z rmne
neschimbat, sau, altfel spus c X nu influeneaz semnificativ corelaia dintre Y i Z,
relaia dintre variabilele Y i Z fiind direct.
Al treilea tip de rezultat posibil este acela n care valoarea lui ryzx este mult mai
mare dect valoarea lui ryz. Acest rezultat, pe care l vom nota prin ryzx ryz, arat c
variabila luat iniial drept independent i variabila de control (X) au fiecare n parte o
influen separat asupra variabilei dependente i nu sunt corelate una cu alta.
Urmtoarea diagram prezint acest tip de relaie pentru cazul n care Z este variabila
dependent:

Dac se obine acest rezultat, concluzia este c att Y, ct i X sunt variabile


independente, iar urmtoarea etap n analiza statistic este, probabil, utilizarea regresiei
multiple i a corelaiei multiple. Metoda regresiei multiple permite izolarea influenelor
separate ale mai multor variabile independente asupra variabilei dependente i astfel
permite identificarea variabilei independente care are cea mai puternic influen asupra
variabilei dependente, iar metoda corelaiei multiple permite evidenierea influenelor
combinate ale tuturor variabilelor independente asupra variabilei dependente.

11.5.2 REGRESIA MULTIPL

Ecuaia de regresie poate fi modificat pentru a include (teoretic) un numr


orict de mare de variabile independente. Aceast tehnic statistic se numete regresie
multipl. n cazul a dou variabile independente, linia de regresie multipl este descris
de urmtoarea formul, numit ecuaia de regresie multipl:

Formula 11.19 Y a b1 X 1 b2 X 2

n care b1 = panta parial a corelaiei dintre prima variabil independent i Y


b2 = panta parial a corelaiei dintre a doua variabil independent i Y

Parametrii b1 i b2 se calculeaz cu ajutorul urmtoarelor formule:

s y r1 y r2 y r12
Formula 11.20 b1
s1 1 r122

s y r2 y r1 y r12
Formula 11.21 b2
s2 1 r122
n care sy = abaterea standard a variabilei Y
s1 = abaterea standard a variabilei independente X1
s2 = abaterea standard a variabilei independente X2
r1y = coeficientul de corelaie dintre X1 i Y
r2y = coeficientul de corelaie dintre X2 i Y
r12 = coeficientul de corelaie dintre X1 i X2

Pentru a ilustra calcularea parametrilor b1 i b2, s considerm datele din tabelul


11.12, n care, pentru un eantion de 15 subieci, se prezint scorurile obinute naintea
unui test (X1), numrul mediu de rspunsuri corecte date la ase ncercri preliminare
(X2) i scorurile post-test (Y).

Tabelul 11.12 O ilustrare pentru dou variabile independente

X1 X2 Y
15 7,70 36
22 8,20 39
16 7,80 35
19 9,30 43
22 8,20 40
20 8,80 42
28 12,10 49
14 8,00 38
18 8,10 36
21 11,20 44
26 9,40 35
14 10,30 43
19 8,50 37
22 7,60 41
20 8,40 40
s1 = 4,06 s2 = 1,34 s3 = 3,92
r1y = 0,39 r2y = 0,77 r12 =
0,45

Aplicnd formulele 11.20 i 11.21, obinem:

s y r1 y r2 y r12 3,92 0,39 (0,77 0,45)


b1 0,052
s1 1 r122 4,06 1 (0,45) 2

s y r2 y r1 y r12 3,92 0,77 (0,39 0,45)


b2 2,18
s2 1 r122 1,34 1 (0,45) 2

Parametrul a se calculeaz cu ajutorul urmtoarei formule:

Formula 11.22 a Y b1 X 1 b2 X 2

n exemplul nostru, avem:

X 1 295 X 2 133,6 Y 598


X1 19,73 X2 8,90 Y 39,86
n 15 n 15 n 15
a Y b1 X 1 b2 X 2 39,86 (0,052 19,73) (2,18 8,90) 19,38

n fine, ecuaia de regresie multipl pentru exemplul nostru este:

Y a b1 X 1 b2 X 2 19,38 (0,052 X 1 ) (2,18 X 2 )

Acum, s presupunem c ne intereseaz s prezicem scorul post-test al unui


subiect cu scorul pre-test de 25 i media rspunsurilor corecte la ncercrile preliminare
de11,16. Folosind ecuaia de regresie multipl din exemplul nostru pentru X1 = 25 i X2
= 11,16 obinem:

Y 19,38 (0,052 25) (2,18 11,16) 45

Prin urmare, prezicem c un subiect cu scorurile X1 = 25 i X2 = 11,16 va obine un scor


post-test de 45.
n cele ce urmeaz prezentm o modalitate simplificat de utilizare a metodei
regresiei multiple pentru evaluarea influenelor separate ale variabilelor dependente
asupra variabilei dependente. Pentru o astfel de evaluare se consider scorurile
standardizate ale variabilelor i se utilizeaz coeficienii de regresie standardizai,
simbolizai n general prin . Aceste mrimi, numite i pante pariale standardizate,
arat cantitatea de schimbare a abaterii standard a variabilei Y corespunztoare unei
uniti de schimbare a abaterii standard a unei variabile independente, n timp ce
influenele celorlalte variabile independente sunt controlate. n cazul a dou variabile
independente, aceti coeficieni se calculeaz cu ajutorul urmtoarelor formule:

s1
Formula 11.23 1 b1
sy

s2
Formula 11.24 2 b2
sy
n care 1 = panta parial standardizat a corelaiei dintre X1 i Y
2 = panta parial standardizat a corelaiei dintre X2 i Y

Ecuaia de regresie multipl standardizat este dat de urmtoarea formul:

Formula 11.24 Z y a z 1 Z1 2 Z 2

n care simbolul Z arat c toate scorurile au fost standardizate. Amintim c formula de


calcul pentru standardizarea scorurilor unui eantion este

X X
Z
s

Acum, formula 11.24 poate fi simplificat, ntruct definiia algebric a


parametrului az este a z Y b1 Z 1 b2 Z 2 i, dup cum tim, media aritmetic a oricrei
distribuii standardizate de scoruri este 0. Ca atare, az se reduce la 0, astfel c pentru
ecuaia de regresie multipl standardizat putem folosi urmtoarea formul:
Formula 11.25 Z y 1 Z1 2 Z 2

Pentru exemplul de mai sus, valorile coeficienilor de regresie standardizai sunt:

s1 4,06
1 b1 0,052 0,0538
sy 3,92
s2 1,34
2 b2 2,18 0,74
sy 3,92

Astfel, ecuaia de regresie multipl standardizat pentru acest exemplu este:

Z y (0,0538 Z 1 ) (0,74 Z 2 )

Concluzia este c variabila X2 are o influen mult mai puternic asupra variabilei
dependente dect variabila X1, astfel c prediciile asupra scorurilor standardizate Zy nu
vor fi influenate semnificativ de scorurile Z1.
Inspectarea datelor din tabelul 11.12 ofer unele indicii privind explicaia
rezultatului obinut. Astfel, putem observa c X2 este puternic corelat cu Y (r2y = 0,77),
n timp ce X1 prezint o corelaie slab pn la moderat cu Y (r1y = 0,39).
De notat c dac am fi obinut 1 2, am fi tras concluzia c variabila X1 are o
influen mult mai puternic asupra variabilei dependente dect variabila X2, iar dac
am fi obinut 1 2, am fi tras concluzia c cele dou variabile independente au
aproximativ aceeai influen asupra variabilei dependente.

11.5.3 CORELAIA MULTIPL

Metoda corelaiei multiple permite evidenierea influenelor combinate ale


tuturor variabilelor independente asupra variabilei dependente. Pentru aceasta, se
calculeaz coeficientul de corelaie multipl R i coeficientul de determinare
multipl R2.
O formul de calcul pentru coeficientul R n cazul a dou variabile independente
este urmtoarea:

Formula 11.26 R 1 r1 y 2 r2 y

Pentru datele din exemplul de mai sus, avem:

R 1 r1 y 2 r2 y (0,0538 0,39) (0,74 0,77 0,77

Acest rezultat indic o corelaie puternic ntre influenele combinate ale variabilelor X1
i X2 i variabila Y.
Coeficientul de determinare multipl R2 se interpreteaz n acelai fel ca i
coeficientul de determinare bivariat r2. n exemplul nostru, R2 = 0,59, ceea ce arat c
influena combinat a celor dou variabile independente explic aproximativ 59%din
variaia total a scorurilor post-test, restul de 41% din aceast variaie datorndu-se
probabil influenei altor variabile, erorilor de msurare sau ntmplrii.
GLOSAR

Coeficientul d al lui Somer: mrime Corelaie: relaie ntre dou sau mai
asimetric a corelaiei adecvat multe variabile; se spune c dou
pentru cazul a dou variabile variabile sunt corelate dac distribuia
msurate la nivel ordinal cu un numr scorurilor uneia dintre acestea se
mic de valori. schimb sub influena scorurilor
Coeficientul de contingen C: mrime celeilalte.
a corelaiei bazat pe 2, adecvat Corelaie negativ: corelaie ntre dou
pentru cazul a dou variabile variabile caracterizat prin aceea c
msurate la nivel nominal; se scoruri nalte ale unei variabile sunt
recomand calcularea acestui asociate cu scoruri joase ale celeilalte
coeficient numai pentru tabele de variabile sau, altfel spus, variabilele
mare dimensiune. variaz n sensuri opuse.
Coeficientul r al lui Pearson: mrime a Corelaie pozitiv: corelaie ntre dou
corelaiei lineare dintre dou variabile variabile caracterizat prin aceea c
msurate la nivel de interval sau de scoruri nalte ale unei variabile sunt
raport. asociate cu scoruri nalte ale celeilalte
Coeficientul V al lui Cramer: mrime variabile, iar scoruri joase ale unei
a corelaiei bazat pe 2, adecvat variabile sunt asociate cu scoruri
pentru cazul a dou variabile joase ale celeilalte variabile sau, altfel
msurate la nivel nominal; se spus, variabilele variaz n acelai
recomand calcularea acestui sens.
coeficient numai pentru tabele mai Corelaie liniar: corelaie ntre dou
mari de 2 2. variabile de interval sau de raport
Coeficientul : mrime simetric a caracterizat prin aceea c dispunerea
corelaiei adecvat pentru cazul a punctelor n diagrama de mprtiere
dou variabile msurate la nivel poate fi aproximat printr-o linie
ordinal cu un numr mic de valori. dreapt.
Coeficientul al lui Spearman: Corelaie perfect: corelaia dintre
mrime a corelaiei adecvat pentru dou variabile caracterizat prin
cazul a dou variabile msurate la aceea c fiecare scor al unei variabile
nivel ordinal cu o amplitudine relativ este asociat cu un singur scor al
larg de scoruri diferite i puine celeilalte variabile.
cazuri legate n privina fiecrei Diagrame de mprtiere: modaliti
variabile. de prezentare vizual a corelaiei
Coeficientul b al lui Kendall: mrime dintre dou variabile msurate la
simetric a corelaiei adecvat pentru nivel de interval sau de raport.
cazul a dou variabile msurate la Ecuaia de regresie bivariat: ecuaie
nivel ordinal cu un numr mic de care descrie matematic o linie de
valori; se recomand calcularea regresie.
acestui coeficient numai pentru tabele Linie de regresie: linie dreapt care
ptratice. rezum cel mai bine corelaia dintre
Coeficientul : mrime a corelaiei dou variabile de interval sau de
bazat pe 2, adecvat pentru cazul a raport.
dou variabile msurate la nivel Mrimile corelaiei: mrimi statistice
nominal; se recomand calcularea care permit cuantificarea importanei
acestui coeficient numai pentru tabele (triei) unei relaii dintre variabile.
2 2. Metoda corelaiei multiple: tehnic
multivariat de evideniere a
influenelor combinate ale tuturor
variabilelor independente asupra
variabilei dependente.
Metoda corelaiei pariale: tehnic
multivariat de evideniere a
influenei unei a treia (a patra etc.)
variabile asupra unei corelaii
bivariate.
Metoda regresiei multiple: tehnic
multivariat care permite izolarea
influenelor separate ale mai multor
variabile independente asupra
variabilei dependente i astfel permite
identificarea variabilei independente
care are cea mai puternic influen
asupra variabilei dependente.
Predicie: apreciere a scorurilor unei
variabile pe baza cunoaterii
scorurilor n privina altei variabile; o
predicie este cu att mai precis, cu
ct corelaia dintre cele dou variabile
este mai puternic.
EXERCIII I PROBLEME

1 INTRODUCERE

1.1 Urmtorii itemi sunt selectai dintr-o anchet de opinie public. Indicai nivelul de
msur pentru fiecare item.

a. Ocupaia dvs. _________


b. Credei c, fa de orice alt copil, ansele copilului dvs. de a crete n aceast
lume sunt egale, mai mici sau mai mari?
Egale __________ Mai mici __________
Mai mari _______ Nu tiu ___________
c. Ultima form de nvmnt absolvit:
nvmnt obligatoriu __________
coal profesional ____________
Liceu __________
coal postliceal ______________
nvmnt superior ____________
Cursuri postuniversitare _________
d. Dac vi s-ar cere s folosii una dintre urmtoarele denumiri pentru categoria
dvs. social, pe care ai alege-o?
Inferioar __________ Medie __________
Superioar _________ Nu tiu _________
e. Vrsta (n ani mplinii) __________
f. Cnd lucrurile nu v merg bine, cine credei c poart vina?
Mai curnd eu __________ Mai curnd alii __________
Att alii, ct i eu _______ Nu tiu __________

1.2 Descriei pe scurt o modalitate de msurare pentru fiecare dintre variabilele din lista
de mai jos. Ce nivel de msur se obine prin modalitatea de msurare pe care ai
ales-o? Exist i alte modaliti de a msura variabila, prin care s-ar obine nivele de
msur diferite? Dac da, specificai care ar fi acestea.

Naionalitate Venit
nlime Onestitate
Numr de copii Distana de la facultate pn acas
Produs Naional Brut Numr de medici la mia de locuitori

1.3 n 1972, un grup de cercettori francezi au realizat o cercetare privind mobilitatea


sistemului social din Frana. Variabila categorie socioprofesional a fost msurat
dup cum urmeaz: 1. Salariai agricoli, 2. Agricultori, 3. Muncitori i personal de
serviciu, 4. Funcionari, 5. Patroni de industrie i comer, 6. Cadre medii, 7. Cadre
superioare. La ce nivel a fost msurat variabila? Variabila a fost msurat corect?
Dac nu, indicai erorile comise.


Pentru cele marcate cu asterisc sunt date soluii sau indicaii de rezolvare.
2 PREZENTAREA DATELOR STATISTICE

2.1 Tabelul urmtor prezint numrul de studeni nscrii pe domenii de studiu la


Universitatea X:

Domeniul Biei Fete


tiine juridice 117 83
tiine sociale 97 132
tiine umaniste 72 20
tiine 156 139
economice
Medicin 3 35
tiine 30 15
inginereti

a. Care este procentul de biei nscrii la tiine sociale?


b. Care este proporia de biei nscrii la Medicin?
c. Care este proporia de fete nscrise la tiine economice?
d. Care este procentul de studeni nscrii la tiine sociale?
e. n cazul tiinelor juridice, care este raportul dintre numrul de biei i numrul
de fete?
f. Care este procentul de biei nscrii la Universitatea X?
g. Care este raportul dintre numrul de studeni nscrii la tiine juridice fa de
numrul de studeni nscrii la tiine economice?
h. Care este raportul dintre numrul de biei i numrul de fete pe ntreaga
universitate?
i. Care este raportul dintre numrul de fete nscrise la tiine economice fa de
numrul de fete nscrise la Medicin?
j. Care este proporia de biei nscrii la tiine inginereti?

2.2 50 de persoane au completat un chestionar care msoar atitudinea fa de violena


interpersonal. Respondenii cu scoruri nalte consider c n multe situaii o
persoan este ndreptit s foloseasc fora fizic mpotriva altei persoane.
Respondenii cu scoruri joase consider c n foarte puine situaii se justific
folosirea forei fizice mpotriva altei persoane. Datele obinute sunt urmtoarele:

52 47 17 8 92
53 23 28 9 90
17 63 17 17 23
19 66 10 20 47
20 66 5 25 17
10 82 90 40 45
8 91 82 52 20
75 32 75 60 60
80 30 70 65 52
90 29 70 66 55

a. Construii o distribuie de frecvene pentru a prezenta aceste date.


b. Care sunt limitele reale ale intervalelor de clas?
c. Adugai coloane pentru procente, frecvene cumulate i procente cumulate.
d. Construii o histogram i un poligon de frecvene pentru aceste date.
e. Redactai un scurt comentariu asupra acestei distribuii de scoruri.
2.3 ntr-un studiu grafologic, a fost fcut o analiz a lungimii cuvintelor folosite de o
persoan. Datele obinute sunt urmtoarele:

Lungimea f
cuvintelor
12 224
34 440
56 180
78 102
910 38
1112 11
13 i mai lungi 5

Construii o histogram, un poligon de frecvene i o ogiv pentru aceste date.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI

3.1 O grup de 25 de studeni au participat la un test psihologic. Scorurile urmtoare


reprezint numrul de ncercri cerute pentru completarea unui test de memorie:

12 10 12 11 6
15 14 17 9 12
13 8 7 15 14
15 18 19 14 10
14 14 16 8 9

a. Calculai media aritmetic, mediana i modul.


b. Calculai amplitudinea, amplitudinea intercuartilic i abaterea standard.
c. Calculai, decilele D2 i D9 i percentilele P14 i P21.

3.2 La o testare psihologic au participat 51 de subieci. n urma aplicrii testului


matricii progresive RAVEN, au fost nregistrate urmtoarele rezultate, care
reprezint numrul de erori provenite din potrivirea rspunsurilor n mod incorect
n matrice:

Numr de f
erori
36 3
710 5
1114 9
1518 16
1922 10
2326 4
2730 3
3134 1

Calculai media aritmetic, mediana i abaterea standard pentru aceste date.


3.3 Calculai media aritmetic ponderat a urmtoarelor dou grupe de date:

G1: 9, 6, 8, 8, 1, 1, 3, 3, 6, 5, 1, 5, 7, 8, 3, 5, 2, 3, 6, 8
G2: 7, 5, 1, 4, 7, 4, 2, 4, 2, 5, 5, 6, 6, 7,4, 4, 1, 4

3.4 12 subieci au participat la un test de inteligen non-verbal proba de trasaj


Thurstone. Urmtorul tabel prezint numrul de greeli nregistrate de fiecare
subiect la proba de trasaj liber:

Subiectul Numr de
greeli
1 7
2 8
3 10
4 6
5 5
6 9
7 7
8 7
9 8
10 6
11 9
12 8

Calculai abaterea medie i coeficientul de variaie pentru aceste date.

3.5 Un colectiv de 50 de studeni au luat decizii n legtur cu trei probleme. Prima este
cea a materiilor opionale de studiu, unde au avut 5 posibiliti de alegere, cea de-a
doua problem este repartizarea pe grupe de lucru la laborator, tot cu 5 opiuni, a
treia problem fiind studierea limbilor strine, cu 4 posibiliti de alegere.
Rezultatele deciziilor sunt prezentate n urmtorul tabel:

Varianta Varianta Varianta Varianta Varianta


A B C D E
Problema 1 12 8 10 5 15
Problema 2 13 7 7 12 11
Problema 3 16 9 10 15

Folosii indicele variaiei calitative (IQV) pentru a stabili omogenitatea

deciziilor n privina celor trei probleme.

3.6 Un grup de 57 de cercettori au avut de ales pentru dou domenii distincte D1 i

D2 ntre 4 i 5 teme de cercetare, repartizarea final fiind urmtoarea:


Tema A Tema B Tema C Tema D Tema E
Domeniul 1 12 8 10 5 15
Domeniul 2 13 7 7 12 11

Stabilii domeniul n cadrul cruia s-au ntlnit cele mai mari dificulti n

alegerea temei de cercetare.


4 DISTRIBUIA NORMAL

4.1Un student a avut de susinut examene la 3 discipline. La primul examen

(Filosofia minii) a obinut nota 9, media grupei fiind 8, iar abaterea standard pentru

grup fiind 1,25. La al doilea examen (Introducere n psihologie) a obinut nota 8,75,

media grupei fiind 8,50, iar abaterea standard pentru grup fiind 0,25. La al treilea

examen (Statistic psihologic) a obinut nota 8,50, media grupei fiind 8, iar abaterea

standard pentru grup fiind 1. La care din cele 3 discipline studentul a obinut o

performan mai bun?

4.2 Trei persoane cu aproximativ aceeai pregtire profesional s-au prezentat pentru

ocuparea a trei posturi diferite la o firm. Scopul psihologului era de a determina care

dintre cei trei era cel mai potrivit pentru fiecare post n parte. Primul post era de

responsabil cu imaginea pentru firm (caracteristica cerut: creativitate), al doilea de

responsabil al departamentului tehnic (caracteristica: ndemnare), iar cel de-al

treilea de responsabil al departamentului de marketing (caracteristica: dinamism).

Subiecii au fost supui la trei probe distincte, care vizau punerea n eviden a celor

trei caracteristici. Urmtorul tabel prezint punctajul obinut de fiecare dintre cei trei

candidai la cele trei probe:

Proba 1 Proba 2 Proba 3

Candidatul (creativitate) (ndemnare) (dinamism)


A 4 45 28

B 6 36 24

C 7 47 25

Stabilii ordinea aptitudinilor predominante pentru fiecare din cei trei candidai.

Pentru care dintre cele trei posturi considerai c ar fi bun fiecare dintre candidai?

4.3n urma unui test de reacie la stimuli, 100 de subieci au obinut medie

aritmetic de 100 ms, cu o abatere standard de 20 ms. S se calculeze:

a. Procentul de cazuri cu scoruri mai mari de 140 ms.


b. Procentul de cazuri cu scoruri mai mici de 140 ms.
c. Procentul de cazuri cu scoruri cuprinse ntre 80 ms i 90 ms.
d. Procentul de cazuri cu scoruri cuprinse ntre 120 ms i 140 ms.

Exprimai rezultatele obinute i n numr de cazuri.

4.4 La un examen s-au prezentat 80 de candidai, care au obinut o medie a

punctajului de 8, abaterea standard fiind 1. S se calculeze:

a. Probabilitatea ca un candidat luat la ntmplare s obin o not mai mare de 8.


b. Probabilitatea ca un candidat luat la ntmplare s obin o not mai mic de 5.
c. Probabilitatea ca un subiect luat la ntmplare s obin o not situat n
intervalul 7 9?
d. Dac ntr-un caz similar cu cel prezentat n problem tim c probabilitatea de a
obine la examen o not mai mic de 6 a fost de 0,403, iar media colectivitii a
fost de 8, care este abaterea standard n acest caz ?
5 EANTIONARE I DISTRIBUII DE EANTIONARE
5.1 Folosii teorema limitei centrale pentru a descrie distribuia de eantionare a

mediilor aritmetice pentru dou eantioane, n1 = 144 i n2 = 400, selectate aleatoriu

dintr-o populaie cu media aritmetic a unei caracteristici aproximativ normale =

120 i = 25.

5.2 Determinai urmtoarele probabiliti pentru eantionul n1 = 144 din exerciiul 5.1:

a. Pr( X 121,4) c. Pr( X 120,8)


b. Pr( X 118,2) d. Pr( X 119,4)

5.3 Determinai urmtoarele probabiliti pentru eantionul n1 = 400 din exerciiul 5.1:

a. Pr( X 121,4) d. Pr( X 119,4)


b. Pr( X 118,2) e. Pr(119,4 X 121,4)
c. Pr( X 120,8) f. Pr(118,2 X 120,8)

6 PROCEDURI DE ESTIMARE STATISTIC

6.1ntr-un studiu privind petrecerea timpului liber, efectuat pe un eantion de 226 de

subieci, s-a constatat c media aritmetic a numrului de ore/sptmn dedicat

vizionrii programelor TV este de 6,2, cu o abatere standard de 0,7. La un nivel de

ncredere de 95%, care este intervalul de ncredere estimat pentru media aritmetic a

populaiei de referin?
6.2 Un psiholog dorete s determine scorul mediu la un test standardizat. Psihologul

administreaz testul pe un eantion de 250 de subieci i gsete c scorul mediu al

acestui eantion este de 134,6, cu o abatere standard de 20. La un nivel de ncredere

de 99%, care este intervalul de ncredere estimat pentru media aritmetic a populaiei

de referin?

6.3Dintr-un eantion de 150 de persoane, 45% au declarat c mersul pe jos este

aproape singura activitate fizic efectuat. La un nivel de ncredere de 95%, care este

intervalul de ncredere estimat pentru valoarea corespunztoare populaiei de

referin?

6.4 Date fiind X 22,6 i s = 2,34, calculai i comparai intervalele de ncredere


estimate pentru n = 150 i n = 10 la un nivel de ncredere de 95%.

6.5Care este dimensiunea eantionului cerut pentru a estima media coeficientului

de inteligen a unei populaii cu o precizie de 5 uniti la un nivel de ncredere de

95%?.

7 TESTAREA IPOTEZELOR DESPRE O SINGUR POPULAIE

7.1 Pentru fiecare dintre urmtoarele ipoteze, specificai n care extremitate a distribuiei
de eantionare se afl zona critic:
a. Media coeficientului de inteligen a tuturor studenilor din facultile umaniste
este mai mare de 110.
b. Venitul mediu lunar al rezidenilor din oraul X este mai mare de 5000000 de lei.
c. Greutatea medie a brbailor nscui n 1956 este mai mic de 90 kg.
d. Punctajul obinut la examenele de admitere n Baroul de Avocai din ultimii 5
ani este mai mic de 60.

7.2 Un psiholog presupune c rezolvarea sarcinilor cerute de un anumit test de


creativitate se poate face doar n mai mult de o or. Pentru a verifica aceast ipotez,
psihologul alctuiete un eantion aleatoriu de 80 de subieci, le administreaz testul
respectiv i constat c media timpului de rezolvare a testului este de 50 de minute.
i va modifica psihologul ipoteza la un nivel de ncredere de 99%, dac abaterea
standard a populaiei de referin poate fi estimat a fi de 15 minute?

7.3Un responsabil din Ministerul nvmntului lanseaz un studiu pilot pentru a

stabili dac micorarea grupelor de studeni la 15 persoane are drept efect creterea

calitii activitilor de seminar. Implicaia studiului const n acea c dac

activitile de seminar desfurate cu grupe mai mici sunt calitativ superioare celor

desfurate cu grupe mai mari, atunci grupele de studeni vor fi micorate n ntregul

nvmnt superior. Ce tip de eroare n testarea ipotezei menionate considerai a fi

mai grav? Comentai rspunsul.

7.4250 de subieci au fost supui unui test al timpului de reacie i au obinut o

medie de 0,92 secunde cu o abatere standard de 0,23 secunde. Testai ipoteza

conform creia media timpului de reacie pentru populaia de referin este de o

secund, la un nivel de ncredere de 95%.

7.5 Un cercettor presupune c studenii de la facultile umaniste pot da n medie

mai mult de 10 rspunsuri corecte la 20 de ntrebri privind istoria universal.


Scorurile pentru un eantion de 14 studeni care au rspuns la un astfel de chestionar

sunt urmtoarele:

12 10 9 13 13

8 11 7 14 11

15 17 11 12

Testai ipoteza cercettorului la un nivel de ncredere de 99%.

7.6 ntr-un studiu privind timpul de reacie la persoanele afectate de parkinson s-a

raportat o medie de 1,6 secunde la o anumit sarcin. Un cercettor presupune c

timpul de reacie poate fi redus, dac se folosete un set de ndrumri de motivare.

Pentru a verifica aceast ipotez, un cercettor selecteaz un eantion de 12 persoane

afectate de parkinson i le administreaz sarcina respectiv mpreun cu setul de

ndrumri de motivare. Timpul de reacie pentru cei 12 subieci este urmtorul:

Subiectul Timpul de Subiectul Timpul de

reacie reacie

A 1,4 G 1,5

B 1,8 H 2,0
C 1,1 I 1,4

D 1,3 J 1,9

E 1,6 K 1,8

F 0,8 L 1,3

Testai ipoteza cercettorului la un nivel de ncredere de 99%.

7.7Un deputat decide s voteze mpotriva unei legi numai dac mai mult de 60%

dintre alegtorii din circumscripia sa electoral nu sunt de acord cu legea respectiv.

ntr-o cercetare asupra 200 de alegtori selectai aleatoriu din circumscripia sa

electoral, 140 s-au declarat mpotriva legii respective. Ce trebuie s fac deputatul?

( = 0,05).

8 TESTAREA IPOTEZELOR DESPRE DIFERENELE DINTRE DOU POPULAII

8.1Unui eantion aleatoriu de persoane cstorite i s-a administrat o scal care

msoar la nivel de interval satisfacia fa de viaa de familie. Eantionul a fost

mprit n persoane fr copii i persoane cu cel puin un copil i s-au calculat

mediile aritmetice i abaterile standard pentru ambele grupuri. Rezultatele sunt

urmtoarele:
Grupul 1 Grupul 2
(fr copii) (cel puin un
copil)
X 1 11,3 X 2 10,8
s1 = 0,6 s2 = 0,5
n1 = 78 n2 = 93

Exist o diferen semnificativ ntre cele dou grupuri n privina satisfaciei fa de

viaa de familie? ( = 0,05).

8.2Un numr de 160 piloi ai unei coli de aviaie din Bucureti se relaxau nainte de

zbor printr-o metod special, riguros controlat tiinific, obinnd la probele de

zbor o medie a notelor de 9,18 cu o abatere standard de 1,15. Stabilii dac aceast

metod este superioar celei de relaxare individual necontrolat, practicat de 190

de elevi ai unei coli de aviaie din Bacu, care au obinut o medie a notelor la

probele de zbor de 9,05 cu abaterea standard de 1,25.

8.3 Dou universiti, una din Bucureti i una din Timioara, au aplicat dou

metode diferite cu scopul de a mbunti rezultatele studenilor la diferite materii de

specialitate. n urma aplicrii acestor metode, rezultatele nregistrate au fost

urmtoarele:

UB UT
X 1 8,56 X 2 8,48
s1 = 1,75 s2 = 1,2
n1 = 420 n2 = 340
La un nivel de ncredere de 95%, se poate spune c rezultatele obinute prin

metoda folosit la UB sunt mai bune dect cele obinute prin metoda folosit la UT?

8.4 Un psiholog industrial este interesat de diferena dintre muncitorii cu

productivitate nalt i cei cu productivitate sczut n raport cu o serie de factori

psihologici. Psihologul selecteaz eantioane aleatorii din cele dou categorii de

muncitori i le administreaz o baterie standardizat de teste, rezultatele fiind

urmtoarele:

Productivitate nalt: 8, 6, 4, 12, 16, 17, 12, 10, 11, 13

Productivitate sczut: 23, 11, 17, 16, 6, 14, 15, 19

Este semnificativ diferena dintre cele dou categorii de muncitori? ( = 0,01).

8.5Un cercettor dorete s determine dac copii nva mai bine concepte asociate

doar cu exemple pozitive sau asociate att cu exemple pozitive, ct i cu exemple

negative. 20 de copii au fost repartizai aleatoriu n dou grupuri corespunztoare

celor dou condiii experimentale. Scorurile la un test privind formarea conceptelor

sunt urmtoarele:

Grupul 1 Grupul 2

(exemple (exemple pozitive +


pozitive) negative)

8 14

10 8

7 7

12 10

6 12

9 6

10 15

11 11

6 9

13 8

Exist o diferen semnificativ ntre cele dou metode? ( = 0,01).

8.6ntr-o cercetare privind efectele anti-anxiolitice a dou medicamente, X i Y, s-a

constatat c 75 din 100 de persoane tratate cu medicamentul X au prezentat

ameliorri ale episoadelor anxioase i din 160 de peroane tratate cu medicamentul Y,

105 au prezentat ameliorri. La un nivel de ncredere de 95%, testai dac diferena

dintre cele dou tratamente este semnificativ.


9 ANALIZA DE VARIAN

9.1 n termenii modelului n patru pai, formulai testul ANOVA aplicat n seciunea 9.3
( = 0,05).

9.2ntr-un experiment privind strategiile de rezolvare de probleme, 26 de subieci sunt


repartizai aleatoriu n cinci grupuri, fiecare grup fiind instruit s foloseasc o
anumit strategie. Dup instruire, subiecilor li se d o list de probleme de rezolvat
cu ajutorul strategiei nvate. Timpul n care subiecii au rezolvat problemele,
msurat n minute, este prezentat n urmtorul tabel:

Grupul
1 2 3 4 5
32 30 85 38 53
41 39 76 29 43
53 52 70 21 47
67 64 64 52
48 51 67
39 37
44 44

Formulai i testai ipoteza de nul corespunztoare experimentului la un nivel = 0,05.

9.3S presupunem c la experimentul menionat n exerciiul 9.2 particip 40 de

subieci, repartizai cte 8 n fiecare grup. Tabelul ANOVA incomplet pentru acest

experiment este urmtorul:

Sursa de Sume de Grade de Medii ale F (obinut)


variaie ptrate libertate sumelor
A 95,80
EROARE 3,66
TOTAL

Completai acest tabel i interpretai rezultatul, folosind un nivel = 0,01.

9.4 Un psiholog monteaz un experiment privind stocarea n memoria de lucru, dup


cum urmeaz. 30 de subieci sunt clasificai aleatoriu n trei grupuri de cte 10
subieci fiecare. Subiecilor din fiecare grup li se prezint aceeai list de cuvinte
fr sens pentru a fi reinute, dup care li se distrage atenia printr-o metod diferit
fa de metoda folosit n cazul celorlalte dou grupuri. Dup un anumit interval de
timp, tuturor subiecilor li se cere s-i aminteasc cuvintele reinute, rspunsurile
corecte fiind nregistrate sub form de procente. Datele obinute sunt urmtoarele:
Grupul
1 2 3
49 90 9
64 55 7
81 53 8
85 79 7
53 80 8
44 80 2
81 52 8
74 59 8
43 83 8
78 85 1
6
0
5
6
6
7
5
8
9
8

Stabilii dac cele trei metode diferite de distragere a ateniei influeneaz

semnificativ memoria de lucru la un nivel = 0,01. Dar la un nivel = 0,05?

9.5 Patru eantioane aleatoare de subieci voluntari au fost supuse, respectiv, la 0,

24, 48 i 72 de ore de privare de somn, pentru a se verifica efectul lipsei de somn

asupra timpului de reacie. Timpul de reacie a fost msurat pe o scal de la 1 la 10,

10 fiind cel mai rapid timp de reacie. Rezultatele obinute sunt urmtoarele:

Eantionul
0 24 48 72
9 8 7 4
7 5 6 5
5 7 5 3
8 4 3 6
10 6 4 2
6 6 7 8

Stabilii dac exist diferene semnificative n privina timpului de reacie n

funcie de perioada de privare de somn la un nivel = 0,05.

9.6 Un cercettor studiaz performanele a ase subieci n cinci ncercri privind o

anumit sarcin de nvare. Datele obinute sunt urmtoarele:

ncercarea
Subieci 1 2 3 4 5
A 7 6 9 11 12
B 6 5 6 9 8
C 7 9 11 11 13
D 5 5 5 6 6
E 7 8 9 9 11
F 6 6 7 11 13

Formulai i testai ipoteza de nul corespunztoare experimentului la un nivel

= 0,01.
9.7 Trei grupe de studeni s-au pregtit pentru susinerea unui examen, nvnd n

trei moduri diferite .Astfel, prima grup a nvat n linite deplin, a doua grup a

nvat cu muzica dat n surdin, iar cea de-a treia a nvat cu un nivel de

sonorizare ridicat. La examen s-au nregistrat urmtoarele rezultate:

Grupa 1: 9, 8, 8,7,8

Grupa 2: 9,8,6

Grupa 3: 9,7,7,6

La un nivel de ncredere de 95%, stabilii dac rezultatele celor trei grupe difer

semnificativ.

9.8Un eantion de 10 persoane a participat la un experiment privind o sarcin de

nvare (variabila independent) sub trei condiii experimentale. Datele obinute sunt

urmtoarele:

Subiectul Condiia 1 Condiia 2 Condiia 3

A 6 12 18

B 9 14 16

C 4 8 15
D 3 10 12

E 1 6 10

F 7 15 20

G 6 8 15

H 9 11 18

I 8 12 13

J 6 10 16

La un nivel de ncredere de 95%, verificai dac rezultatele obinute sub cele trei

condiii experimentale difer semnificativ.

10 TESTE NONPARAMETRICE

10.1Un cercettor este interesat de posibilele influene ale statusului marital asupra

pregtirii studenilor. Un eantion aleatoriu de 453 de studeni a fost clasificat, pe

de o parte n categoriile cstorit/necstorit, pe de alt parte n categoriile

bun/mediu/slab. Datele sunt prezentate n urmtorul tabel:

Nivel de Stasut marital


pregtire Cstorit Necstorit TOTAL
Bun 15 35 50
Mediu 30 10 40
Slab 5 5 10
TOTAL 50 50 100

La un nivel de ncredere de 95%, stabilii dac nivelul de pregtire al studenilor

depinde de statusul lor marital.

10.2 Fericirea n via depinde de statusul marital? Pentru a se rspunde la aceast

ntrebare, au fost colectate urmtoarele date:

Statut marital
Nivel de Brbat Femeie Brbat Femeie TOTAL
fericire cstorit cstorit necstorit necstorit
Foarte
fericit 18 9 10 3 40
Fericit 15 12 21 15 63
Nefericit 8 15 16 12 51
Foarte
nefericit 4 7 3 6 20
TOTAL 45 43 50 36 174

Cum ai rspunde la aceast ntrebare la un nivel de ncredere de 95%?

10.3Urmtoarele date au fost obinute n urma unui studiu proiectat s examineze

relaia dintre statusul marital i modul de petrecere a timpului liber (MPTL):

Statut marital
MPTL TOTAL
Necstorit Cstorit Divorat Vduv
Individual 18 8 10 6 42
n grupuri
mici 4 12 7 16 39
n grupuri
mari 3 5 8 4 20
TOTAL 25 25 25 26 101

La un nivel de ncredere de 95%, stabilii dac cele dou variabile sunt

independente. Dac nu, calculai reziduurile standard.

10.4Un cercettor pretinde c 65% din populaia adult a Romniei respinge

interzicerea prin lege a avorturilor, precum i c procentul de 65% este acelai,

indiferent de sex sau status marital. Cercettorul alctuiete patru eantioane

aleatorii dup cum urmeaz:

1. 100 brbai cstorii


2. 150 femei cstorite
3. 80 brbai necstorii
4. 50 femei necstorite

mpotriva interzicerii prin lege a avorturilor s-au pronunat 54 de subieci din

primul eantion, 102 din cel de-al doilea eantion, 59 din cel de-al treilea eantion

i 32 din cel de-al patrulea eantion. La un nivel de ncredere de 95%, stabilii dac

proporiile observate confirm ipoteza cercettorului.


10.5n perioada unei campanii electorale pentru alegeri generale, subiecii dintr-u

eantion aleatoriu de 50 de persoane au fost solicitai s rspund prin Da sau Nu

la ntrebarea Intenionai s votai pentru candidatul X?. ntrebarea a fost pus

nainte i dup ce persoanele din eantion au vizionat o serie de emisiuni TV n

care X i-a prezentat programul. Rezultatele obinute sunt urmtoarele:

nainte de vizionare
Da Nu

Nu
6 17
Dup
vizionare A B

Da 11 16

C D
50

La un nivel de ncredere de 95%, stabilii dac este semnificativ diferena dintre

persoanele care i-au schimbat opinia de la Da la Nu i cele care i-au schimbat

opinia de la Nu la Da.

10.6 Subiecii din dou eantioane aleatorii de cte 10 copii (clasele IIV) au fost

evaluai cu ajutorul unei scale de agresivitate de la 25 (foarte agresiv) la 1 (puin

agresiv). Eantionul 1 este alctuit din copii singuri la prini, iar eantionul 2 din

copii care au cel puin un frate sau o sor. Scorurile obinute sunt urmtoarele:

Eantionul 1: 15, 12, 8, 7, 6, 4, 3, 2, 2, 1


Eantionul 2: 23, 16, 10, 8, 7, 7, 5, 4, 3, 2

La un nivel de ncredere de 95%, folosii testul Mann-Whitney U pentru a stabili

dac exist o diferen semnificativ n privina agresivitii ntre copii singuri la

prini i copii care au cel puin un frate sau o sor (MannWhitney U).

10.7 Un psiholog dorete s tie dac exist o diferen semnificativ ntre copii de sex

masculin i cei de sex feminin n privina nivelului de reacie la stimuli de

comunicare non-verbal. Psihologul presupune c fetele vor sesiza mai muli

stimuli i astfel vor obine scoruri mai mici, lund n considerare att acurateea,

ct i profunzimea interpretrii stimulilor. Scorurile obinute de dou eantioane,

biei (1) i fete (2), sunt urmtoarele:

Eantionul 1: 26, 25,23, 22, 21, 19, 16, 15, 13, 10

Eantionul 2: 24, 20, 18, 17, 14, 12, 11, 9, 8, 7

Verificai ipoteza psihologului, folosind testul medianei.


10.8Un cercettor dorete s afle dac exist o diferen pe sexe privind sancionarea

actelor considerate a fi necinstite. Pentru aceasta, alctuiete un eantion aleatoriu

de 12 brbai (1) i un eantion aleatoriu de 12 femei (2) i prezint subiecilor din

cele dou eantioane cteva scurte descrieri ale unor acte care pot fi considerate

necinstite (de pild, a nu spune vnztorului sau casierului c suma de bani primit

ca rest este mai mare dect cea cuvenit). Fiecare act este apreciat cu ajutorul unei

scale, de la 50 (foarte necinstit) la 0 (deloc necinstit):

Eantionul 1: 47, 44, 40, 35, 32, 31, 30, 29, 25, 24, 20, 12

Eantionul 2: 48, 45, 43, 42, 39, 36, 33, 28, 23, 21, 15, 14

La un nivel de ncredere de 95%, este statistic semnificativ diferena dintre

brbai i femei sub aspectul sancionrii actelor considerate a fi necinstite?

10.9 Un eantion aleatoriu de 12 paciente suferind de anorexie nervoas au urmat un

tratament psihanalitic. nainte i dup tratament, celor 12 paciente le-a fost

administrat un test care evideniaz nivelul de ncredere n sine. Scorurile pre i

post-tratament sunt urmtoarele (un scor mic reprezint un nivel sczut de

ncredere n sine):

Cazul Pre- Post-


tratament tratament

1 15 20

2 8 9

3 10 10

4 11 16

5 13 17

6 14 14

7 10 13

8 12 15

9 9 18

10 14 12

11 8 10

12 7 9

La un nivel de ncredere de 99%, exist o influen semnificativ a tratamentului

psihanalitic asupra nivelului de ncredere n sine al pacientelor?

10.10ntr-o cercetare privind nivelul de acomodare emoional a elevilor din

nvmntul primar n funcie de antecedentele precolare, au fost alctuite patru

eantioane aleatorii dup cum urmeaz: 1. copii de a cror educaie s-au ocupat

prinii, 2. copii de a cror educaie s-au ocupat bunicii, 3. copii care au fost la
grdini, 4. copii de a cror educaie s-a ocupat o baby-sitter. Presupunnd c

variabila nivel de acomodare emoional a fost msurat la nivel ordinal, datele

obinute sunt urmtoarele:

Eantionul 1 Eantionul 2 Eantionul 3 Eantionul 4

42 31 47 37

35 44 49 40

39 38 34 32

50 46 33

45 41

48 43

36

La un nivel de ncredere de 95%, stabilii dac exist diferene semnificative n

privina nivelului de acomodare emoional n funcie de antecedentele

precolare.

11 MRIMI ALE CORELAIEI


11.1 Un psiholog investigheaz relaia dintre statusul marital i nivelul perceput de

satisfacie n via pentru un eantion de 115 subieci:

Nivel de Status marital


satisfacie Cstorit Necstorit TOTAL
nalt 44 21 65
Sczut 16 34 50
TOTAL 60 55 115

Calculai coeficientul pentru aceste date.

11.2 Calculai coeficienii de corelaie C i V pentru datele din exerciiul 10.1.

11.3 Un eantion aleatoriu de studeni au fost clasificai ca tradiionali (1823 de ani

i necstorii) sau netradiionali (cel puin 24 de ani sau cstorii) i, pe de alt

parte, ca vocaionali (motivaia principal pentru studii superioare este

practicarea profesiei respective) sau academici (motivaia principal pentru

studii superioare este cariera universitar sau de cercetare tiinific). Calculai

coeficientul pentru datele obinute:

Tipul
Motivaia Tradiional Netradiional TOTAL
Vocaional 25 60 85
Academic 75 15 90
TOTAL 100 75 175
11.4Tabelul urmtor prezint scorurile obinute la un test de aptitudini dat la angajare i

aprecierile privind eficiena profesional dup un an de activitate pentru un

eantion aleatoriu de 75 de salariai ai unei firme:

Eficiena Scorul obinut la TOTAL


profesional test
Mic Mediu Mare
nalt 5 9 9 23
Moderat 9 10 9 28
Sczut 11 6 7 24
TOTAL 25 25 25 75
(a) Sunt corelate cele dou variabile? Dac da, care este tria i sensul corelaiei?
(b) Coeficientul de corelaie calculat pentru acest eantion este statistic
semnificativ la un nivel de ncredere de 95%?.

11.5 Tabelul urmtor prezint scorurile obinute n privina variabilelor stare material

i consum de buturi alcoolice pentru un eantion de 300 de subieci:

Consum Starea material


de TOTAL
buturi Destul
alcoolice Proast de Destul Bun
proast de
bun
Frecvent 10 10 15 35 70
Ocazional 20 20 20 25 85
Rar 25 25 12 20 82
De loc 30 15 8 10 63
TOTAL 85 70 55 90 300

Calculai coeficienii , d i b pentru acest tabel i interpretai rezultatele obinute.

11.6Tabelul urmtor prezint indicele de calitate a vieii i cel de coeziune social

pentru 10 orae (scorurile mari reprezint indici nali n privina ambelor

variabile):

Oraul Calitatea Coeziunea

vieii social

A 17 8,8
B 40 3,9

C 47 4,0

D 90 3,1

E 35 7,5

F 52 3,5

G 23 6,3

H 67 1,7

I 65 9,2

J 63 3,0

(a) Sunt corelate cele dou variabile? Dac da, care este tria i sensul corelaiei?
(b) Coeficientul de corelaie calculat pentru acest eantion este statistic semnificativ
la un nivel de ncredere de 95%?.

11.7 Cinci orae au fost ordonate n privina indicelui de calitate a vieii i a fost calculat

procentul populaiei care s-a mutat n fiecare ora n anul precedent. Datele sunt

urmtoarele:

Oraul Calitatea Noi rezideni (%)

vieii

A 30 17

B 25 14
C 20 15

D 10 3

E 2 5

Exist o corelaie ntre cele dou variabile? Dac da, care este tria i sensul

corelaiei?

11.8 Urmtorul tabel prezint coeficienii de inteligen pentru un eantion de 15 elevi i

aprecierea subiectiv a unui profesor despre inteligena elevilor din eantion:

Aprecierea Coeficientul

de
Elevul subiectiv

inteligen

A 15 88

B 13 92

C 14 97

D 7 102

E 11 108

F 12 115

G 6 117
H 10 120

I 8 123

J 9 126

K 3 130

L 5 133

M 2 137

N 1 140

O 4 145

Exist o corelaie ntre aprecierea subiectiv a profesorului i coeficienii de

inteligen?

11.9 Testai pentru semnificaie valoarea coeficientului = 0,57 obinut pentru datele

din tabelul 11.7.

11.10 Testai pentru semnificaie valoarea coeficientului s = 0,86 obinut pentru datele

din tabelul 11.8.

11.11 Urmtoarele valori au fost observate pentru cinci subieci n privina variabilelor

X i Y:
Subiectul Variabila X Variabila Y

A 2 6

B 6 14

C 5 12

D 4 10

E 1 4

Construii diagrama de mprtiere pentru aceste date i apreciai sensul corelaiei

dintre cele dou variabile.


11.12 Tabelul urmtor prezint scorurile la dou teste care msoar capacitatea de

comunicare verbal:

Subiectul Testul 1 Testul 2

A 55 94

B 52 91

C 51 88

D 48 84

E 44 86

F 40 81

G 37 85

H 34 76

I 32 79

J 30 74

a. Calculai coeficientul r pentru datele din acest tabel.


b. Calculai coeficientul r doar pentru primii cinci subieci.
c. Comparai rezultatele obinute la punctele a i b i comentai aceast
comparaie.

11.13Un cercettor crede c exist o corelaie ntre numrul de igri fumate pe zi i

inteligen. Urmtorul tabel prezint date strnse pentru un eantion aleatoriu de

15 fumtori. Calculai r i r2 pentru aceste date i comentai rezultatele.


Subiectul Nr. igri/zi Inteligena

(codificat)

A 7 10

B 49 6

C 41 15

D 38 5

E 37 12

F 19 4

G 35 19

H 40 11

I 1 3

J 10 3

K 18 22

L 21 17

M 15 12

N 7 9

O 38 13
11.14Pentru un eantion de 12 familii au fost colectate urmtoarele date privind

numrul de copii, numrul de ore pe care soul le afecteaz treburilor

gospodreti i nivelul de educaie al acestuia (msurat n ani de coal). Datele

obinute sunt urmtoarele:

Familia Nr. de copii Nivel de educaie Nr.

ore/sptmn

A 1 12 1

B 1 14 2

C 1 16 3

D 1 16 5

E 2 18 3

F 2 16 1

G 3 12 5

H 3 12 0

I 4 10 6

J 4 12 3

K 5 10 7

L 5 16 4
a. Construii diagramele de mprtiere pentru relaia dintre numrul de copii i
numrul de ore/sptmn afectat treburilor gospodreti i pentru relaia
dintre numrul de copii i nivelul de educaie.
b. Determinai ecuaia de regresie bivariat pentru relaia dintre numrul de
copii i numrul de ore/sptmn afectat treburilor gospodreti.
c. Cte ore/sptmn afecteaz soul treburilor gospodreti ntr-o familie cu 6
copii?
d. Calculai r i r2 pentru corelaia bivariat menionat la punctul b i
interpretai rezultatele.
e. Testai pentru semnificaie valoarea coeficientului de corelaie parial de
ordinul zero obinut la punctul d la un nivel de ncredere de 95%.
f. Corelaia dintre numrul de copii i numrul de ore/sptmn afectat
treburilor gospodreti este influenat de nivelul de educaie al soului?
g. Determinai ecuaia de regresie multipl nestandardizat i stabilii cte
ore/sptmn afecteaz treburilor gospodreti un so cu 11 ani de coal
ntr-o familie cu 4 copii.
h. Determinai ecuaia de regresie multipl standardizat i stabilii care dintre
variabilele independente are o influen mai puternic asupra variabilei
dependente.
i. Calculai R i R2 i interpretai rezultatele.
11.15 Pentru 18 orae din Romnia au fost colectate urmtoarele date privind rata

delincvenei juvenile (RDJ), procentul de familii intacte (cu ambii prini), i

nivelul mediu de educaie al prinilor (msurat n ani de coal). Datele obinute

sunt urmtoarele:

Oraul Familii intacte Nivel de RDJ

(%) educaie

A 90 12,1 1,2

B 86 12,2 0,7

C 80 9,2 3,5

D 75 11,1 6,7

E 65 8,5 5,8

F 76 11,8 4,2

G 67 10,5 3,8

H 75 12,3 1

I 74 12,7 1

J 88 12,4 0,5

K 85 13,1 0,3

L 73 10,1 4,7
M 72 9,8 4,5

N 61 12,0 5,3

O 64 11,9 6,8

P 60 9,0 7,1

R 63 11,1 9,1

S 57 9,2 9,3

a. Construii diagrame de mprtiere pentru relaia dintre nivelul de educaie i


RDJ i pentru relaia dintre procentul de familii intacte i RDJ.
b. Determinai ecuaia de regresie bivariat pentru relaia dintre fiecare
variabil independent i RDJ.
c. Calculai r i r2 pentru fiecare corelaie bivariat i interpretai rezultatele.
d. Testai pentru semnificaie valoarea coeficienilor de corelaie parial de
ordinul zero obinui la punctul d la un nivel de ncredere de 95%.
e. Corelaia dintre procentul de familii intacte i RDJ este influenat de nivelul
de educaie?
f. Determinai ecuaia de regresie multipl nestandardizat i stabilii RDJ
pentru un ora cu 70% familii intacte i un nivel mediu de educaie de 14 ani.
g. Determinai ecuaia de regresie multipl standardizat i stabilii care dintre
variabilele independente are o influen mai puternic asupra variabilei
dependente.
h. Calculai R i R2 i interpretai rezultatele.
SOLUII I INDICAII DE REZOLVARE

CAPITOLUL 3

~
3.1 a. X 12,48 ; X 13 ; Mo = 14.
b. A = 13; Q = Q3 Q1 = 14,5 9,5=5; s = 3,16.

c. D2 = 9; D9 = 16,5; P14 = 8; P21 = 9

3.2 Tabelul de calcule pentru mrimile cerute este urmtorul:

Numr de f m fm fc m2 fm2
erori
36 3 4,5 13,5 3 20,25 60,75
710 5 8,5 42,5 8 72,5 362,5
1114 9 12,5 112,5 17 156,25 1406,25
1518 16 16,5 264 33 272,25 4356
1922 10 20,5 205 43 420,25 4202,5
2326 4 24,5 98 47 600,25 2401
2730 3 28,5 85,5 50 812,25 2436,75
3134 1 32,5 32,5 51 1056,25 1056,25
TOTAL 51 853,5 16282

X
fm i i

853,5
16,73
n 51

~ n 2 fc i (51 / 2) 17
X LCRI X i 14,5 4 14,75
fi 16
f m 2
(853,5) 2
2 i i
f i mi 16282
s n 51 6,32
n 1 51 1

~
X 16,73 ; X 14,75 ; s 6,32 .

3.5 IQV1 = 0,971; IQV2 = 0,984; IQV3 = 0,980. ntruct IQV2 IQV3 IQV1, cea mai
mare omogenitate n luarea deciziei a fost ntlnit n privina primei probleme,
unde a fost nregistrat cea mai mic valoare pentru indicele variaiei calitative; mai
dificil dect prima a fost soluionarea celei de-a treia probleme, iar cea mai
complex, conform opiunilor nregistrate a fost cea de-a doua problem (cu gradul
cel mai mare de eterogenitate n luarea deciziei).
CAPITOLUL 4

4.1 Standardiznd scorurile obinute la cele trei discipline obinem; Z1 = 0,8; Z2 = 1,0;
Z3 = 0,50. ntruct Z2 Z1 Z3, putem concluziona c studentul a obinut cea mai
bun performan la a doua disciplin de studiu (Introducere n psihologie) iar cea
mai slab la a treia (Statistic psihologic), unde a nregistrat cel mai mic scor
standard.

4.3 a. 2,3%: aproximativ 2 subieci au obinut un timp de reacie mai mare de 140 ms.
b. 97,7%: aproximativ 98 de subieci au obinut un timp de reacie mai mic de 140

ms.

c. 15,03%: aproximativ 15 subieci au obinut un timp de reacie cuprins ntre 80 ms

i 90 ms.

d. 13,57%: aproximativ 14 subieci au obinut un timp de reacie cuprins ntre 120

ms i 140 ms.

CAPITOLUL 5

5.2 a. Pr( X 121,4) = 0,2514 c. Pr( X 120,8) = 0,6480


b. Pr( X 118,2) = 0,1922 d. Pr( X 119,4) = 0,6141

CAPITOLUL 6
0,7
6.1 IE X Z 2 ( s n 1) 6,2 1,96 6,2 0,047 .
226 1

0,25 0,25
6.3 IE p Z 2 0,45 1,96 0,45 0,04 .
n 150

Z 2 2 0,25 (1,96) 2 0,25


6.5 n 384,16 384
L2 (0,05) 2

CAPITOLUL 7

7.3 Gravitatea unui tip de eroare sau a celuilalt depinde de costurile relative ale erorilor.
Probabil c o eroare de tipul II este mai grav aici, deoarece ar conduce la pierderea
posibilitii de crete a calitii activitilor de seminar. Pe de alt parte, dac costul
micorrii grupelor de studeni este foarte mare, atunci consecinele unei erori de
tipul II pot fi, de asemenea, serioase, deoarece s-ar cheltui foarte muli bani care,
altfel, ar putea fi folosii pentru mbuntirea mediului de predare/nvare.

7.4 H0: = 1s; Ha: 1s. Z (obinut) = 5,51. Z/2 (critic) = 1,96. Ipoteza conform
creia media timpului de reacie pentru populaia de referin este de o secund
poate fi respins la un nivel de ncredere de 95%.

7.7 H0: P = 0,60; Ha: P 0,60. Z (critic) = +1,645; Z (obinut) = +3,08. H0 poate fi

respins la un nivel de ncredere de 95%, deci deputatul poate vota mpotriva legii

respective.
CAPITOLUL 8

8.1 H0: 1 = 2; Ha: 1 2. Z (obinut) = +5,55. Z/2 (critic) = 1,96. Se poate respinge
H0. Diferena dintre cele dou grupuri este statistic semnificativ la un nivel de
ncredere de 95%.

8.2 H0: 1 = 2; Ha: 1 2. Z (obinut) = +1,031. Z/2 (critic) = 1,96. Nu se poate


respinge H0. Mediile nregistrate de piloii celor dou coli de aviaie nu difer n
mod semnificativ la un nivel de ncredere de 95%.

8.5 H0: 1 = 2; Ha: 1 2. t (obinut) = 0,657. t/2 (critic) = 2,878. Nu se poate


respinge H0. Diferena dintre cele dou metode nu este statistic semnificativ la un
nivel de ncredere de 99%.

8.6 H0: P1 = P2; Ha: P1 P2. Z (obinut) = +1,59. Z/2 (critic) = 1,96. Nu se poate

respinge H0. Diferena dintre proporiile pacienilor care au prezentat ameliorri nu

este statistic semnificativ la un nivel de ncredere de 95%.

CAPITOLUL 9

9.2 H0: 1 = 2 = 3 = 4 = 5; Ha: Cel puin o medie aritmetic difer de celelalte.

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 3810,98 4 952,75
EROARE 2255,48 21 107,40 8,87
TOTAL 6066,46 25

ntruct F (critic) = 2,84, se poate respinge H0. La nivelul populaiei, mediile


aritmetice ale scorurilor corespunztoare celor cinci strategii de nvare de
probleme difer semnificativ la un nivel de ncredere de 95%
9.3 H0: 1 = 2 = 3 = 4 = 5; Ha: Cel puin o medie aritmetic difer de celelalte.

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 95,8 4 23,95
EROARE 128,1 35 3,66 6,54
TOTAL 223,9 39

ntruct F (critic) = 2,84, se poate respinge H0 la un nivel de ncredere de 99%.


9.8 H0: 1 = 2 = 3; Ha: Cel puin o medie aritmetic difer de celelalte.

Sursa de Sume de Grade de Medii ale F


variaie ptrate libertate sumelor (obinut)
A 167,33 9 18,59
SUBIECI 423,27 2 -
EROARE 50,07 18 2,78 76,13
TOTAL 640,67 29

ntruct F (critic) = 3,55, Se poate respinge H0. rezultatele obinute sub cele trei

condiii experimentale difer semnificativ la un nivel de ncredere de 95%.

CAPITOLUL 10

10.1 H0: Variabilele status marital i nivel de pregtire sunt independente; Ha:
Variabilele status marital i nivel de pregtire sunt dependente. 2 (obinut) =
2,79. 2 (critic) = 5,991. Nu se poate respinge H0. La un nivel de ncredere de 95%,
frecvenele observate nu difer semnificativ de frecvenele la care ne-am atepta
dac variabilele ar fi independente i ar interveni doar ntmplarea.

10.3 H0: Variabilele status marital i MPTL sunt independente; Ha: Variabilele status
marital i MPTL sunt dependente. 2 (obinut) = 18,389. 2 (critic) = 12,592. Se
poate respinge H0 la un nivel de ncredere de 95%. Reziduurile standard:

Necstorit Cstorit Divorat Vduv


Individual 2,315 0,772 0,154 1,389
n grupuri mici 1,786 0,812 0,812 1,786
n grupuri mari 0,893 0,000 1,339 0,446

10.4 H0: Nu exist nici o diferen ntre proporiile de cazuri pentru eantioane i
proporiile pentru populaie; Ha: Proporiile de cazuri pentru eantioane difer de
cele pentru populaie. 2 (obinut) = 3,00. 2 (critic) = 7,815. Nu se poate respinge
H0. Diferenele dintre proporiile pentru eantioane i proporia presupus de 0,65
pot fi atribuite ntmplrii. Ipoteza cercettorului nu se confirm la un nivel de
ncredere de 95%.

10.5 H0: Exist un numr egal de schimbri n ambele direcii (diferena este
nesemnificativ); Ha: Numrul de schimbri ntr-o direcie este semnificativ diferit
fa de numrul de schimbri n cealalt direcie.

( A D) 2 (6 16) 2 100
2 4,545
A D 6 16 22
2 (critic) = 3,841. Se poate respinge H0. Din tabel rezult c mai multe persoane
din eantion i schimb opinia de la Nu la Da, dect de la Da la Nu, iar testul arat
c aceast diferen este semnificativ la un nivel de ncredere de 95%.
10.7 H0: Nu exist nici o diferen ntre copii de sex masculin i cei de sex feminin n
privina nivelului de reacie la stimuli de comunicare non-verbal; Ha: ScoruriF
ScoruriM. 2 (obinut) = 0,80. 2 (critic) = 2,706. Nu se poate respinge H0 la un
nivel de ncredere de 95%.

10.8 Obiectivul urmrit este compararea a dou populaii sub aspectul unei variabile,
datele fiind nonparametrice. Eantioanele aleatorii sunt independente, nivelul de
msur este ordinal, iar cele dou eantioane sunt mici. Prin urmare, se poate
folosi testul MannWhitney U pentru eantioane mici sau testul iteraiilor, innd
cont i de faptul c nu ntlnim scoruri identice n eantioane diferite.

10.10 Obiectivul urmrit este compararea a 4 populaii sub aspectul unei variabile
msurate la nivel ordinal, eantioanele aleatorii fiind indepentente. Prin urmare, se
poate folosi testul KruskalWallis H.

CAPITOLUL 11

11.4 (a) Na = 767; Nd = 491; = 0,22. ntre cele dou variabile exist o corelaie pozitiv
foarte slab. Testul de aptitudini nu este satisfctor.
(b) H0: = 0,00; Ha: 0,00. Z (obinut) = 0,92. Z (critic) = 1,96. Nu se poate
respinge H0 la un nivel de ncredere de 95%. Valoarea coeficientului obinut
pentru eantion nu este statistic semnificativ.

11.6 (a) s = 0,59. ntre cele dou variabile exist o corelaie negativ moderat.
Oraele cu un indice mare al calitii vieii tind s aib un indice mic de coeziune
social.
(b) H0: s = 0,00; Ha: s 0.00. t (obinut) = 2,056. t (critic) = 2,306. Nu se
poate respinge H0 la un nivel de ncredere de 95%. Valoarea coeficientului s
obinut pentru eantion nu este statistic semnificativ.

11.13 r = 0,22. r2 = 0,048. Corelaia dintre numrul de igri fumate pe zi i inteligen


este pozitiv, dar foarte slab. Doar un foarte mic procent de variaie este
mprtit de ambele variabile (aproximativ 5%). Ali factori sunt mult mai
importani n determinarea scorurilor subiecilor n privina acestor variabile.

11.14 b. Y = 1,49 + (0,69 X)


c. ntr-o familie cu 6 copii, soul afecteaz 5,53 ore/sptmn treburilor
gospodreti.
d. r = 0,50. r2 = 0,25. ntre cele dou variabile exist o corelaie pozitiv
moderat. Numrul de copii explic doar 25% din variaia total a numrului de
ore afectat treburilor gospodreti de ctre soi.
e. H0: = 0,00; Ha: 0.00. t (obinut) = 1.83. t (critic) = 2,228. Nu se poate
respinge H0 la un nivel de ncredere de 95%. Valoarea coeficientului r obinut
pentru eantion nu este statistic semnificativ.
f. . ryzx = 0,43. ryz = 0,50. ntruct ryzx ryz, nivelul de educaie al soului nu
afecteaz corelaia bivariat constatat iniial.
g. Y = 2,5 + (0,65 X1) + (0,07 X2). Un so cu 11 ani de coal ntr-o familie cu
4 copii afecteaz 4,3 ore/sptmn treburilor gospodreti.
h. Zy = (0,46 Z1) + (0,09 Z2). Numrul de copii are o influen mai puternic
asupra variabilei dependente dect nivelul de educaie al soului.
i. R = 0,5. R2 = 0,25. Influena combinat a celor dou variabile independente
explic 25% din variaia variabilei dependente.

ANEXA A: Tabelul ariilor de sub curba normal standard

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0000 0040 0080 0120 0160 0199 0239 0279 0319 0359
0.1 0398 0438 0478 0517 0557 0596 0636 0675 0714 0753
0.2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141
0.3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0.4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879
0.5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0.6 2257 2291 2324 2357 2389 2422 2454 2486 2517 2549
0.7 2580 2611 2642 2673 2704 2734 2764 2794 2823 2852
0.8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0.9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389
1.0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1.1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830
1.2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015
1.3 4032 4049 4066 4082 4099 4115 4131 4147 4162 4177
1.4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319
1.5 4332 4345 4357 4370 4382 4394 4406 4418 4429 4441
1.6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545
1.7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1.8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706
1.9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767
2.0 4772 4778 4783 4788 4793 4798 4803 4808 4812 4817
2.1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2.2 4861 4864 4868 4871 4875 4878 4881 4884 4887 4890
2.3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2.4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2.5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2.6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2.7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2.8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981
2.9 4981 4982 4982 4983 4984 4984 4985 4985 4986 4986
3.0 4987 4987 4987 4988 4988 4989 4989 4989 4990 4990
ANEXA B: Tabel cu numere aleatorii

23439 98507 39910 00560 32626 10389


54824 39825 41255 92292 42792 47044
08887 53462 27061 91124 00821 06739
36009 71613 59290 39307 81382 90065
11579 11866 23982 07184 48754 23730
15999 56909 63526 58442 65018 67216
35313 52502 20542 18161 08148 26274
71145 26478 57657 11259 23742 11130
01182 28841 63925 16987 45450 03024
24830 31913 92697 21464 76223 23050
70884 74438 63139 82700 80136 36995
23337 72693 56751 81454 87637 01545
72052 57078 62448 61957 47327 05131
63423 11919 81135 83185 79771 41291
13656 52075 72073 26395 87275 94669
28626 61547 71322 52318 44211 28168
36633 53025 00751 31951 17705 61394
40782 34030 43905 17686 64397 78999
32394 54527 45417 33384 57129 67003
93098 65060 34922 40062 07794 17866
98858 50208 54784 60012 48871 54379
77549 62988 98074 41326 09232 64635
31945 03282 24239 08562 22750 77805
25794 76169 01099 89443 00105 67125
97664 42607 74723 80536 20475 25996
90630 94635 10350 70824 90228 92753
05436 67370 23925 76439 08397 56952
19443 07008 27445 53390 37941 87853
79331 76925 44953 66790 90254 18858
00257 34057 77220 04875 93336 87945
54361 17404 21565 36900 84171 85462
92070 50459 46044 34841 41336 26351
94727 96386 47109 45193 81429 84494
07690 67800 72675 89012 68124 76345
32697 68932 49115 25655 12619 76233
76121 77280 02446 27539 46418 29301
10608 44906 63248 92769 42805 52649
95058 32147 46498 45746 69184 05758
38957 40597 88611 77664 47704 05859
67899 32902 27651 23971 38938 97347
14012 19793 01114 18777 82517 05695
00527 78748 12807 54566 71503 99322
11332 54185 24077 77453 21435 03715
94285 92230 50249 10439 74547 09974
97543 98153 31736 29688 20015 71747
61713 55274 83118 74813 22444 62979
40175 48507 97218 35700 52395 59131
51847 02577 84295 70263 75988 35299
82095 40603 53662 63581 35416 11192
91330 69915 50002 26539 22932 20736
71847 36502 81114 02923 10504 70523
36032 32799 20687 27313 29781 32904
08226 44723 52397 03984 24294 04990
70778 92734 43057 30797 82349 45916
07374 31187 09229 43326 49142 78238
58853 72101 81042 26493 49890 01389
25607 76309 26440 01548 28838 37129
87902 16117 47038 56639 87867 63608
03474 36702 64729 56504 29729 37936
37350 90069 78692 26169 57320 43231
15997 55786 12577 20265 79432 07787
70801 39564 70527 20008 70947 48602
66266 37262 62280 49922 48858 70309
59906 10852 82541 05267 05912 18046
67885 80107 75293 32814 72990 05873
27153 82956 58071 42062 76281 57111
15980 08517 92262 21835 35423 71902
72707 31535 93345 47664 95990 76161
05922 44245 70777 67070 92129 67925
63912 72108 84799 34600 51273 40910

ANEXA C: Tabelul valorilor critice ale distribuiei t

df\ 0.10 0.05 0.025 0.01 0.005 0.0005


1 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370
12 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
15 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728
16 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150
17 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651
18 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216
19 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834
df\ 0.10 0.05 0.025 0.01 0.005 0.0005
20 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495
21 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193
22 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921
23 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676
24 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454
25 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251
26 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066
27 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896
28 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739
29 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594
30 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460
inf 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905
ANEXA D: Tabelul valorilor critice ale distribuiei F

= 0.10

gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 39.86346 49.50000 53.59324 55.83296 57.24008 58.20442 58.90595 59.43898 59.85759 60.19498 60.70521 61.22034 61.74029 62.00205 62
2 8.52632 9.00000 9.16179 9.24342 9.29263 9.32553 9.34908 9.36677 9.38054 9.39157 9.40813 9.42471 9.44131 9.44962 9
3 5.53832 5.46238 5.39077 5.34264 5.30916 5.28473 5.26619 5.25167 5.24000 5.23041 5.21562 5.20031 5.18448 5.17636 5
4 4.54477 4.32456 4.19086 4.10725 4.05058 4.00975 3.97897 3.95494 3.93567 3.91988 3.89553 3.87036 3.84434 3.83099 3
5 4.06042 3.77972 3.61948 3.52020 3.45298 3.40451 3.36790 3.33928 3.31628 3.29740 3.26824 3.23801 3.20665 3.19052 3
6 3.77595 3.46330 3.28876 3.18076 3.10751 3.05455 3.01446 2.98304 2.95774 2.93693 2.90472 2.87122 2.83634 2.81834 2
7 3.58943 3.25744 3.07407 2.96053 2.88334 2.82739 2.78493 2.75158 2.72468 2.70251 2.66811 2.63223 2.59473 2.57533 2
8 3.45792 3.11312 2.92380 2.80643 2.72645 2.66833 2.62413 2.58935 2.56124 2.53804 2.50196 2.46422 2.42464 2.40410 2
9 3.36030 3.00645 2.81286 2.69268 2.61061 2.55086 2.50531 2.46941 2.44034 2.41632 2.37888 2.33962 2.29832 2.27683 2
10 3.28502 2.92447 2.72767 2.60534 2.52164 2.46058 2.41397 2.37715 2.34731 2.32260 2.28405 2.24351 2.20074 2.17843 2
11 3.22520 2.85951 2.66023 2.53619 2.45118 2.38907 2.34157 2.30400 2.27350 2.24823 2.20873 2.16709 2.12305 2.10001 2
12 3.17655 2.80680 2.60552 2.48010 2.39402 2.33102 2.28278 2.24457 2.21352 2.18776 2.14744 2.10485 2.05968 2.03599 2
13 3.13621 2.76317 2.56027 2.43371 2.34672 2.28298 2.23410 2.19535 2.16382 2.13763 2.09659 2.05316 2.00698 1.98272 1
14 3.10221 2.72647 2.52222 2.39469 2.30694 2.24256 2.19313 2.15390 2.12195 2.09540 2.05371 2.00953 1.96245 1.93766 1
15 3.07319 2.69517 2.48979 2.36143 2.27302 2.20808 2.15818 2.11853 2.08621 2.05932 2.01707 1.97222 1.92431 1.89904 1
16 3.04811 2.66817 2.46181 2.33274 2.24376 2.17833 2.12800 2.08798 2.05533 2.02815 1.98539 1.93992 1.89127 1.86556 1
17 3.02623 2.64464 2.43743 2.30775 2.21825 2.15239 2.10169 2.06134 2.02839 2.00094 1.95772 1.91169 1.86236 1.83624 1
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
18 3.00698 2.62395 2.41601 2.28577 2.19583 2.12958 2.07854 2.03789 2.00467 1.97698 1.93334 1.88681 1.83685 1.81035 1
19 2.98990 2.60561 2.39702 2.26630 2.17596 2.10936 2.05802 2.01710 1.98364 1.95573 1.91170 1.86471 1.81416 1.78731 1
20 2.97465 2.58925 2.38009 2.24893 2.15823 2.09132 2.03970 1.99853 1.96485 1.93674 1.89236 1.84494 1.79384 1.76667 1
21 2.96096 2.57457 2.36489 2.23334 2.14231 2.07512 2.02325 1.98186 1.94797 1.91967 1.87497 1.82715 1.77555 1.74807 1
22 2.94858 2.56131 2.35117 2.21927 2.12794 2.06050 2.00840 1.96680 1.93273 1.90425 1.85925 1.81106 1.75899 1.73122 1
23 2.93736 2.54929 2.33873 2.20651 2.11491 2.04723 1.99492 1.95312 1.91888 1.89025 1.84497 1.79643 1.74392 1.71588 1
24 2.92712 2.53833 2.32739 2.19488 2.10303 2.03513 1.98263 1.94066 1.90625 1.87748 1.83194 1.78308 1.73015 1.70185 1
25 2.91774 2.52831 2.31702 2.18424 2.09216 2.02406 1.97138 1.92925 1.89469 1.86578 1.82000 1.77083 1.71752 1.68898 1
26 2.90913 2.51910 2.30749 2.17447 2.08218 2.01389 1.96104 1.91876 1.88407 1.85503 1.80902 1.75957 1.70589 1.67712 1
27 2.90119 2.51061 2.29871 2.16546 2.07298 2.00452 1.95151 1.90909 1.87427 1.84511 1.79889 1.74917 1.69514 1.66616 1
28 2.89385 2.50276 2.29060 2.15714 2.06447 1.99585 1.94270 1.90014 1.86520 1.83593 1.78951 1.73954 1.68519 1.65600 1
29 2.88703 2.49548 2.28307 2.14941 2.05658 1.98781 1.93452 1.89184 1.85679 1.82741 1.78081 1.73060 1.67593 1.64655 1
30 2.88069 2.48872 2.27607 2.14223 2.04925 1.98033 1.92692 1.88412 1.84896 1.81949 1.77270 1.72227 1.66731 1.63774 1
40 2.83535 2.44037 2.22609 2.09095 1.99682 1.92688 1.87252 1.82886 1.79290 1.76269 1.71456 1.66241 1.60515 1.57411 1
60 2.79107 2.39325 2.17741 2.04099 1.94571 1.87472 1.81939 1.77483 1.73802 1.70701 1.65743 1.60337 1.54349 1.51072 1
120 2.74781 2.34734 2.12999 1.99230 1.89587 1.82381 1.76748 1.72196 1.68425 1.65238 1.60120 1.54500 1.48207 1.44723 1
inf 2.70554 2.30259 2.08380 1.94486 1.84727 1.77411 1.71672 1.67020 1.63152 1.59872 1.54578 1.48714 1.42060 1.38318 1
= 0.05

gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 161.4476 199.5000 215.7073 224.5832 230.1619 233.9860 236.7684 238.8827 240.5433 241.8817 243.9060 245.9499 248.0131 249.0518 25
2 18.5128 19.0000 19.1643 19.2468 19.2964 19.3295 19.3532 19.3710 19.3848 19.3959 19.4125 19.4291 19.4458 19.4541 1
3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602 8.6385 8
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025 5.7744 5
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581 4.5272 4
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742 3.8415 3
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 3.5747 3.5107 3.4445 3.4105 3
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 3.2839 3.2184 3.1503 3.1152 3
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365 2.9005 2
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740 2.7372 2
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464 2.6090 2
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436 2.5055 2
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589 2.4202 2
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 2.5342 2.4630 2.3879 2.3487 2
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 2.4753 2.4034 2.3275 2.2878 2
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756 2.2354 2
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304 2.1898 2
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906 2.1497 2
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555 2.1141 2
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242 2.0825 2
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960 2.0540 2
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707 2.0283 1
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476 2.0050 1
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267 1.9838 1
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075 1.9643 1
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898 1.9464 1
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736 1.9299 1
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586 1.9147 1
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446 1.9005 1
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317 1.8874 1
40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389 1.7929 1
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480 1.7001 1
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587 1.6084 1
inf 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799 1.8307 1.7522 1.6664 1.5705 1.5173 1
= 0.025

gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 647.7890 799.5000 864.1630 899.5833 921.8479 937.1111 948.2169 956.6562 963.2846 968.6274 976.7079 984.8668 993.1028 997.2492 10
2 38.5063 39.0000 39.1655 39.2484 39.2982 39.3315 39.3552 39.3730 39.3869 39.3980 39.4146 39.4313 39.4479 39.4562 3
3 17.4434 16.0441 15.4392 15.1010 14.8848 14.7347 14.6244 14.5399 14.4731 14.4189 14.3366 14.2527 14.1674 14.1241 1
4 12.2179 10.6491 9.9792 9.6045 9.3645 9.1973 9.0741 8.9796 8.9047 8.8439 8.7512 8.6565 8.5599 8.5109
5 10.0070 8.4336 7.7636 7.3879 7.1464 6.9777 6.8531 6.7572 6.6811 6.6192 6.5245 6.4277 6.3286 6.2780
6 8.8131 7.2599 6.5988 6.2272 5.9876 5.8198 5.6955 5.5996 5.5234 5.4613 5.3662 5.2687 5.1684 5.1172
7 8.0727 6.5415 5.8898 5.5226 5.2852 5.1186 4.9949 4.8993 4.8232 4.7611 4.6658 4.5678 4.4667 4.4150
8 7.5709 6.0595 5.4160 5.0526 4.8173 4.6517 4.5286 4.4333 4.3572 4.2951 4.1997 4.1012 3.9995 3.9472
9 7.2093 5.7147 5.0781 4.7181 4.4844 4.3197 4.1970 4.1020 4.0260 3.9639 3.8682 3.7694 3.6669 3.6142
10 6.9367 5.4564 4.8256 4.4683 4.2361 4.0721 3.9498 3.8549 3.7790 3.7168 3.6209 3.5217 3.4185 3.3654
11 6.7241 5.2559 4.6300 4.2751 4.0440 3.8807 3.7586 3.6638 3.5879 3.5257 3.4296 3.3299 3.2261 3.1725
12 6.5538 5.0959 4.4742 4.1212 3.8911 3.7283 3.6065 3.5118 3.4358 3.3736 3.2773 3.1772 3.0728 3.0187
13 6.4143 4.9653 4.3472 3.9959 3.7667 3.6043 3.4827 3.3880 3.3120 3.2497 3.1532 3.0527 2.9477 2.8932
14 6.2979 4.8567 4.2417 3.8919 3.6634 3.5014 3.3799 3.2853 3.2093 3.1469 3.0502 2.9493 2.8437 2.7888
15 6.1995 4.7650 4.1528 3.8043 3.5764 3.4147 3.2934 3.1987 3.1227 3.0602 2.9633 2.8621 2.7559 2.7006
16 6.1151 4.6867 4.0768 3.7294 3.5021 3.3406 3.2194 3.1248 3.0488 2.9862 2.8890 2.7875 2.6808 2.6252
17 6.0420 4.6189 4.0112 3.6648 3.4379 3.2767 3.1556 3.0610 2.9849 2.9222 2.8249 2.7230 2.6158 2.5598
18 5.9781 4.5597 3.9539 3.6083 3.3820 3.2209 3.0999 3.0053 2.9291 2.8664 2.7689 2.6667 2.5590 2.5027
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 5.9216 4.5075 3.9034 3.5587 3.3327 3.1718 3.0509 2.9563 2.8801 2.8172 2.7196 2.6171 2.5089 2.4523
20 5.8715 4.4613 3.8587 3.5147 3.2891 3.1283 3.0074 2.9128 2.8365 2.7737 2.6758 2.5731 2.4645 2.4076
21 5.8266 4.4199 3.8188 3.4754 3.2501 3.0895 2.9686 2.8740 2.7977 2.7348 2.6368 2.5338 2.4247 2.3675
22 5.7863 4.3828 3.7829 3.4401 3.2151 3.0546 2.9338 2.8392 2.7628 2.6998 2.6017 2.4984 2.3890 2.3315
23 5.7498 4.3492 3.7505 3.4083 3.1835 3.0232 2.9023 2.8077 2.7313 2.6682 2.5699 2.4665 2.3567 2.2989
24 5.7166 4.3187 3.7211 3.3794 3.1548 2.9946 2.8738 2.7791 2.7027 2.6396 2.5411 2.4374 2.3273 2.2693
25 5.6864 4.2909 3.6943 3.3530 3.1287 2.9685 2.8478 2.7531 2.6766 2.6135 2.5149 2.4110 2.3005 2.2422
26 5.6586 4.2655 3.6697 3.3289 3.1048 2.9447 2.8240 2.7293 2.6528 2.5896 2.4908 2.3867 2.2759 2.2174
27 5.6331 4.2421 3.6472 3.3067 3.0828 2.9228 2.8021 2.7074 2.6309 2.5676 2.4688 2.3644 2.2533 2.1946
28 5.6096 4.2205 3.6264 3.2863 3.0626 2.9027 2.7820 2.6872 2.6106 2.5473 2.4484 2.3438 2.2324 2.1735
29 5.5878 4.2006 3.6072 3.2674 3.0438 2.8840 2.7633 2.6686 2.5919 2.5286 2.4295 2.3248 2.2131 2.1540
30 5.5675 4.1821 3.5894 3.2499 3.0265 2.8667 2.7460 2.6513 2.5746 2.5112 2.4120 2.3072 2.1952 2.1359
40 5.4239 4.0510 3.4633 3.1261 2.9037 2.7444 2.6238 2.5289 2.4519 2.3882 2.2882 2.1819 2.0677 2.0069
60 5.2856 3.9253 3.3425 3.0077 2.7863 2.6274 2.5068 2.4117 2.3344 2.2702 2.1692 2.0613 1.9445 1.8817
120 5.1523 3.8046 3.2269 2.8943 2.6740 2.5154 2.3948 2.2994 2.2217 2.1570 2.0548 1.9450 1.8249 1.7597
inf 5.0239 3.6889 3.1161 2.7858 2.5665 2.4082 2.2875 2.1918 2.1136 2.0483 1.9447 1.8326 1.7085 1.6402
= 0.01

gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847 6106.321 6157.285 6208.730 6234.631 62
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 99.416 99.433 99.449 99.458 9
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 27.052 26.872 26.690 26.598 2
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 14.374 14.198 14.020 13.929 1
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 9.888 9.722 9.553 9.466
6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.559 7.396 7.313
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.314 6.155 6.074
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.515 5.359 5.279
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 4.962 4.808 4.729
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.558 4.405 4.327
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.251 4.099 4.021
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.010 3.858 3.780
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.815 3.665 3.587
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.656 3.505 3.427
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.522 3.372 3.294
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.409 3.259 3.181
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.312 3.162 3.084
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.227 3.077 2.999
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.153 3.003 2.925
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.088 2.938 2.859
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.030 2.880 2.801
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 2.978 2.827 2.749
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.931 2.781 2.702
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.889 2.738 2.659
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.850 2.699 2.620
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.815 2.664 2.585
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.783 2.632 2.552
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.753 2.602 2.522
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.726 2.574 2.495
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.700 2.549 2.469
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.522 2.369 2.288
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.496 2.352 2.198 2.115
120 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.336 2.192 2.035 1.950
inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321 2.185 2.039 1.878 1.791
ANEXA E: Tabelul valorilor critice ale distribuiei 2

gl\ .100 .050 .025 .010 .005


1 2.70554 3.84146 5.02389 6.63490 7.87944
2 4.60517 5.99146 7.37776 9.21034 10.59663
3 6.25139 7.81473 9.34840 11.34487 12.83816
4 7.77944 9.48773 11.14329 13.27670 14.86026
5 9.23636 11.07050 12.83250 15.08627 16.74960
6 10.64464 12.59159 14.44938 16.81189 18.54758
7 12.01704 14.06714 16.01276 18.47531 20.27774
8 13.36157 15.50731 17.53455 20.09024 21.95495
9 14.68366 16.91898 19.02277 21.66599 23.58935
10 15.98718 18.30704 20.48318 23.20925 25.18818
11 17.27501 19.67514 21.92005 24.72497 26.75685
12 18.54935 21.02607 23.33666 26.21697 28.29952
13 19.81193 22.36203 24.73560 27.68825 29.81947
14 21.06414 23.68479 26.11895 29.14124 31.31935
15 22.30713 24.99579 27.48839 30.57791 32.80132
16 23.54183 26.29623 28.84535 31.99993 34.26719
17 24.76904 27.58711 30.19101 33.40866 35.71847
18 25.98942 28.86930 31.52638 34.80531 37.15645
19 27.20357 30.14353 32.85233 36.19087 38.58226
20 28.41198 31.41043 34.16961 37.56623 39.99685
21 29.61509 32.67057 35.47888 38.93217 41.40106
22 30.81328 33.92444 36.78071 40.28936 42.79565
23 32.00690 35.17246 38.07563 41.63840 44.18128
24 33.19624 36.41503 39.36408 42.97982 45.55851
25 34.38159 37.65248 40.64647 44.31410 46.92789
26 35.56317 38.88514 41.92317 45.64168 48.28988
27 36.74122 40.11327 43.19451 46.96294 49.64492
28 37.91592 41.33714 44.46079 48.27824 50.99338
29 39.08747 42.55697 45.72229 49.58788 52.33562
30 40.25602 43.77297 46.97924 50.89218 53.67196
ANEXA F: Tabelul valorilor critice pentru testul MannWhitney U

= 0.025, test unilateral


n2
9 10 11 12 13 14 15 16 17 18 19 20
n1
1
2 0 0 0 1 1 1 1 1 2 2 2 2
3 2 3 3 4 4 5 5 6 6 7 7 8
4 4 5 6 7 8 9 10 11 11 12 13 13
5 7 8 9 11 12 13 14 15 17 18 19 20
6 10 11 13 14 16 17 19 21 22 24 25 27
7 12 14 16 18 20 22 24 26 28 30 32 34
8 15 17 19 22 24 26 29 31 34 36 38 41
9 17 20 23 26 28 31 34 37 39 42 45 48
10 20 23 26 29 33 36 39 42 45 48 52 55
11 23 26 30 33 37 40 44 47 51 55 58 62
12 26 29 33 37 41 45 49 53 57 61 65 69
13 28 33 37 41 45 50 54 59 63 67 72 76
14 31 36 40 45 50 55 59 64 67 74 78 83
15 34 39 44 49 54 59 64 70 75 80 85 90
16 37 42 47 53 59 64 70 75 81 86 92 98
17 39 45 51 57 63 67 75 81 87 93 99 105
18 42 48 55 61 67 74 80 86 93 99 106 112
19 45 52 58 65 72 78 85 92 99 106 113 119
20 48 55 62 69 76 83 90 98 105 112 119 127
= 0.05, test unilateral
n2
9 10 11 12 13 14 15 16 17 18 19 20
n1
1 0 0
2 1 1 1 2 2 2 3 3 3 4 4 4
3 3 4 5 5 6 7 7 8 9 9 10 11
4 6 7 8 9 10 11 12 14 15 16 17 18
5 9 11 12 13 15 16 18 19 20 22 23 25
6 12 14 16 17 19 21 23 25 26 28 30 32
7 15 17 19 21 24 26 28 30 33 35 37 39
8 18 20 23 26 28 31 33 36 39 41 44 47
9 21 24 27 30 33 36 39 42 45 48 51 54
10 24 27 31 34 37 41 44 48 51 55 58 62
11 27 31 34 38 42 46 50 54 57 61 65 69
12 30 34 38 42 47 51 55 60 64 68 72 77
13 33 37 42 47 51 56 61 65 70 75 80 84
14 36 41 46 51 56 61 66 71 77 82 87 92
15 39 44 50 55 61 66 72 77 83 88 94 100
16 42 48 54 60 65 71 77 83 89 95 101 107
17 45 51 57 64 70 77 83 89 96 102 109 115
18 48 55 61 68 75 82 88 95 102 109 116 123
19 51 58 65 72 80 87 94 101 109 116 123 130
20 54 62 69 77 84 92 100 107 115 123 130 138
ANEXA G: Tabelul valorilor critice pentru testul Wilcoxon T

Unilateral Bilateral n=5 n=6 n=7 n=8 n=9 n=


10

0.05 0.10 1 2 4 6 8 11

0.025 0.05 1 2 4 6 8

0.01 0.02 0 2 3 5

0.005 0.01 0 2 3

n= n= n= n= n= n=
11 12 13 14 15 16

0.05 0.10 14 17 21 26 30 36

0.025 0.05 11 14 17 21 25 30

0.01 0.02 7 10 13 16 20 24

0.005 0.01 5 7 10 13 16 19

n= n= n= n= n= n=
17 18 19 20 21 22

0.05 0.10 41 47 54 60 68 75
0.025 0.05 35 40 46 52 59 66

0.01 0.02 28 33 38 43 49 56

0.005 0.01 23 28 32 37 43 49

n= n= n= n= n= n=
23 24 25 26 27 28

=0.05 =0.10 83 92 101 110 120 130

=0.025 =0.05 73 81 90 98 107 117

=0.01 =0.02 62 69 77 85 93 102

=0.005 =0.01 55 68 68 76 84 92

ANEXA H: Tabelul valorilor critice pentru s

Nivelul
n 0.10 0.05 0.01
5 0.90 1.00
6 0.83 0.89 1.00
7 0.71 0.79 0.93
8 0.64 0.74 0.88
9 0.60 0.68 0.83
10 0.56 0.65 0.79
11 0.52 0.61 0.77
12 0.50 0.59 0.75
13 0.47 0.56 0.71
14 0.46 0.54 0.69
15 0.44 0.52 0.66
16 0.42 0.51 0.64
17 0.41 0.49 0.62
18 0.40 0.48 0.61
19 0.39 0.46 0.60
20 0.38 0.45 0.58
21 0.37 0.44 0.56
22 0.36 0.43 0.55
23 0.35 0.42 0.54
24 0.34 0.41 0.53
25 0.34 0.40 0.52
26 0.33 0.39 0.51
27 0.32 0.38 0.50
28 0.32 0.38 0.49
29 0.31 0.37 0.48
30 0.31 0.36 0.47
ANEXA I: Ghid de utilizare a principalelor tehnici statistice

Analiza
datelor

Descrierea DA Prezentarea DA CAPITOLUL 2


unei datelor?
variabile?

NU NU

Tendina DA SECIUNEA 3.1


central?

NU

Dispersia? DA SECIUNEA 3.3

NU

Estimarea DA CAPITOLUL 6
unui
parametru?

NU
Testarea DA Teste DA Un singur DA CAPITOLUL 7
ipotezelor? parametri- eantion?
ce?

NU
NU NU

Un singur DA Dou DA
SECIUNEA 10.1 CAPITOLUL 8
eantion? eantioa-
ne?

NU NU

SECIUNILE
Dou DA 10.2, 10.3, 10.4, k 2 DA CAPITOLUL 9
eantioane? eantioa-
10.5, 10.6
ne?

NU NU

k 2 DA SECIUNEA
eantioane? 10.7

NU
Corelaii DA Dou DA Nivel DA SECIUNEA 11.2
ntre variabile? nominal?
variabile?

NU
NU NU

k 3 DA SECIUNEA 11.5
Nivel DA SECIUNEA 11.3
variabile? ordinal?

NU NU

Interval/ DA SECIUNEA 11.4


raport?

NU

STOP

S-ar putea să vă placă și