Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE PSIHOLOGIE
STATISTIC
PSIHOLOGIC I
PRELUCRAREA
INFORMATIZAT A
DATELOR
I
Curs pentru nvmntul la distan
1 INTRODUCERE
1.1 Rolul statisticii n cercetarea psihologic
1.2 Matematica de baz
1.2.1 Operaii aritmetice de baz
1.2.2 Operaii aritmetice cu numere reale
1.2.3 Proprieti ale numerelor reale
1.2.4 Indicatori speciali ai operaiilor aritmetice
1.3 Statistici descriptive i statistici infereniale
1.4 Nivele de msur
1.4.1 Nivelul nominal
1.4.2 Nivelul ordinal
1.4.2 Nivelul de interval
1.4.3 Nivelul de raport
10 TESTE NONPARAMETRICE
10.1 Testul chiptrat (2)
10.1.1 Testul chiptrat pentru independen
10.1.1 Testul chiptrat pentru concordan
10.2 Testul McNemar
10.3 Testul MannWhitney U
10.4 Testul medianei
10.5 Testul iteraiilor
10.6 Testul Wilcoxon T
10.7 Testul KruskalWallis H
EXERCIII I PROBLEME
Statistica folosete din plin cele patru operaii aritmetice de baz: adunarea (+),
scderea (), nmulirea i mprirea. Rezultatul unei adunri se numete sum, iar
rezultatul operaiei de scdere se numete diferen. nmulirea a dou numere poate fi
denotat algebric n trei feluri: X Y, (X) (Y) sau pur i simplu XY. Numerele care sunt
nmulite se numesc factori, iar rezultatul operaiei de nmulire se numete produs.
mprirea a dou numere poate fi, de asemenea, denotat n trei feluri: X Y, X/Y sau
X
. n notaia folosit aici, X este numrtorul, Y fiind numitorul. Rezultatul operaiei
Y
de mprire se numete ct.
Este important de reinut relaia dintre nmulire i mprire. Astfel, ctul X/Y
poate fi exprimat ca produsul (X) (1/Y). De exemplu, 15/5 = (15) (1/5) = 3.
Adunarea Dac dou numere au acelai semn, se adun valorile absolute i se reine
semnul respectiv:
(10) + (25) = 35
(+15) + (+5) = +20
Dac se adun dou numere care au semne opuse, se scade valoarea absolut a
numrului mai mic din valoarea absolut a celuilalt numr i se reine semnul numrului
care are valoarea absolut mai mare:
(10) + (+15) = +5
(+5) + (25) = 20
Scderea Cnd se scad numere, se schimb semnul numrului de sczut, dup care
se aplic regulile adunrii:
nmulirea Dac se nmulesc dou numere care au acelai semn, produsul este
pozitiv, iar dac se nmulesc dou numere care au semne diferite, produsul este negativ:
mprirea Dac se mpart dou numere care au acelai semn, ctul este pozitiv, iar
dac se mpart dou numere care au semne diferite, ctul este negativ:
1025 = +0,40
+1510 = 1,50
15 + 5 = 5 + 15 = 20
15 5 = 5 15 = 75
Asociativitatea Termenii unei adunri sau factorii unui produs pot fi grupai
oricum, rezultatul fiind acelai:
X1 = 3, X2 = 7, X3 = 4, X4 = 2, X5 = 8,
5
expresia X
i 1
i , citit sum de X indice i de la i = 1 la 5 st pentru suma
X1 + X2 +X3 + X4 + X5 = 3 + 7 + 4 + 2 + 8 = 24
Xi este simbolul general pentru numerele din seria de mai sus. Notaia de sub , i = 1,
indic primul numr din sum, X1 = 3, iar numrul nscris deasupra simbolului arat
pn la al ctelea numr are loc nsumarea, X5 = 8. n general, expresia
X
i 1
i
arat c nsumarea ncepe cu primul numr din seria respectiv i se ncheie cu cel de-al
N-lea numr. Adesea, notaiile aflate deasupra i dedesubtul simbolului sunt omise.
ntr-un astfel de caz, indic nsumarea de la primul numr pn la ultimul.
Prezentm n continuare dou reguli privind operatorul nsumrii:
N N
CX i = C X i
i 1 i 1
2X
i 1
i = (2 1) + (2 3) + (2 4) + (2 7) = 2 + 6 + 8 + 14 = 30
4
2 X i = 2(1 + 3 + 4 + 7) = 2 15 = 30
i 1
Regula 2 Rezultatul obinut prin aplicarea operatorului la suma a dou sau mai
multe serii de cte N numere este egal cu rezultatul obinut prin aplicarea operatorului
la fiecare serie n parte i adunarea sumelor astfel obinute. n simboluri:
N N N
(X
i 1
i Yi ) X i Yi
i 1 i 1
(X
i 1
i Yi ) (X1 + Y1) + (X2 + Y2) + (X3 + Y3) + (X4 + Y4) =
= (2 + 7) + (5 + 9) + (3 + 6) + (1 + 5) = 9 + 1 + 4 + 9 + 6 + = 38
N N
= (2 + 5 + 3 + 1) + (7 + 9 + 6 + 5) = 11 + 27 = 38
Orice tehnic statistic implic utilizarea unor operaii, precum ordonarea unor
cazuri sau nsumarea scorurilor unei variabile. nainte de a utiliza o tehnic statistic,
este necesar msurarea variabilei de interes ntr-un mod sau, altfel spus, la un nivel de
msur care s justifice aplicarea operaiilor respective. De pild, multe tehnici
statistice cer adunarea scorurilor unei variabile. Aceste tehnici pot fi utilizate numai
dac variabila este msurat ntr-un mod care permite operaia matematic a adunrii.
Astfel, alegerea unei tehnici statistice depinde de nivelul la care a fost msurat
variabila. Nivelele de msur ale variabilelor sunt clasificate ntr-o ierarhie, n funcie
de complexitatea lor. Aceast ierarhie include, n ordinea cresctoare a complexitii,
nivelele nominal, ordinal, de interval i de raport.
1
Aceast situaie nu trebuie s fie confundat cu cea a temperaturii Kelvin, care este temperatura absolut
a unui gaz ideal i este determinat de micarea moleculelor sale. Pe scala Kelvin apare punctul zero
absolut (= 273,16C), n care moleculele gazului sunt n repaus, ceea ce indic absena caracteristicii
respective.
Stimulat de predarea statisticii la Facultatea de Psihologie a Universitii Titu
Maiorescu, am conceput aceast carte ca o introducere clar i concis n statistica
aplicat n psihologie. Msura n care am reuit ndeplinirea acestui obiectiv o va da,
firete, cititorul. Pentru aprofundarea unor concepte i metode statistice prezentate aici,
recomand cu deosebire urmtoarele lucrri, din care am preluat multe exemple de
analiz statistic: Joseph F. Healey, Statistics: A Tool for Social Research, Belmont,
California, Wadsworth Publishing Company, 1984; Dennis E. Hinkle, William Wiersma
i Stephen G. Jurs, Applied Statistics for the Behavioral Sciences, Boston, Houghton
Mifflin Company, 1988; Gerald Keller i Brian Warrack, Essentials of Business
Statistics, Belmont, California, Wadsworth Publishing Company, 1991; Leon F.
Marzillier, Elementary Statistics, Wm. C. Brown Publishers, 1990.
GLOSAR
f
Formula 2.1 Proporie ( p ) =
n
f
Formula 2.2 Procent (%) = 100
n
Pentru a afla proporia cazurilor din prima categorie (De acord cu interzicerea
fumatului n locurile publice), notm c avem aici 167 de cazuri ( f = 167) fa de 269
de cazuri n eantion (n = 269). Astfel:
f 167
Proporie ( p ) = = = 0, 621
n 269
Procednd la fel, aflm proporiile cazurilor din celelalte categorii. Rezultatele pot fi
exprimate sub form de procente. Astfel, procentul de cazuri din cea de-a treia categorie
(Nu tiu/Nu rspund) este
f 30
Procent (%) = 100 = 100 = 11,1%
n 269
S considerm din nou tabelul 2.2. Ct de muli studeni sunt nscrii la tiine
economice n comparaie cu cei nscrii la Psihologie n Universitatea B? Putem folosi
frecvenele pentru a rspunde la aceast ntrebare, dar un rspuns mai uor de neles
poate fi dat folosind un raport. Raporturile se calculeaz mprind frecvena cazurilor
dintr-o categorie la frecvena cazurilor din alt categorie, permind astfel compararea
categoriilor n termeni de frecven relativ. Definiia matematic a raportului este
urmtoarea:
fi
Formula 2.3 Raport =
fj
fi 279
Raport = = = 1,48
fj 188
Aceasta nseamn c pentru fiecare student nscris la Psihologie exist 1,48 studeni
nscrii la tiine Economice.
Raporturile pot fi multiplicate cu 100 pentru a elimina virgulele. Astfel, raportul
calculat mai sus poate fi prezentat ca 148, ceea ce nseamn c pentru fiecare 100 de
studeni nscrii la psihologie exist 148 de studeni nscrii la tiine Economice.
Ratele se calculeaz mprind numrul de cazuri reale (efective) la numrul de
cazuri posibile pentru variabila de interes pe o anumit unitate de timp. De pild, rata
brut a natalitii pentru o populaie se calculeaz mprind numrul de nscui vii la
numrul total de persoane din acea populaie pe an, ctul astfel obinut fiind nmulit cu
1000. Se spune c rezultatul este exprimat n promile (0/00). Dac, de pild, ntr-un ora
cu 7000 de locuitori s-au nregistrat ntr-un anumit an 100 de nscui vii, rata brut a
natalitii este
100
Rata brut a natalitii (0/00) = 1000 0,0143 1000 14,3 0/00
7000
Aceasta nseamn c pentru fiecare mie de locuitori au fost n acel an 14,3 nscui vii.
Ca modaliti de a exprima frecvene relative, procentele, proporiile, raporturile
i ratele sunt utile n special atunci cnd dorim s comparm diferite grupuri sau/i
acelai grup n momente diferite.
2.3 DISTRIBUII DE FRECVENE
68 52 69 51 43 36 44 35 54 57 55 56
55 54 54 53 33 48 32 47 47 57 48 56
65 57 64 49 51 56 50 48 53 56 52 55
42 49 41 48 50 24 49 25 53 55 52 56
64 63 63 64 54 45 53 46 50 40 49 41
45 54 44 55 63 55 62 56 50 46 49 47
56 38 55 37 68 46 67 45 65 48 64 49
59 46 58 47 57 58 56 59 60 62 59 63
56 49 55 50 43 45 42 46 53 40 52 41
42 33 41 34 56 32 55 33 40 45 39 46
38 43 37 44 54 56 53 57 57 46 56 45
50 40 49 39 47 55 46 54 39 56 38 55
37 29 36 30 37 49 36 50 36 44 35 45
42 43 41 42 52 47 51 46 63 48 62 49
53 60 52 61 49 55 48 56 38 48 37 47
Datele brute din tabelul 2.4 sunt greu de urmrit i greu de neles. Sub supoziia
c este vorba despre date de interval, putem construi o distribuie de frecvene listnd
scorurile diferite n ordine cresctoare i nregistrnd frecvena de apariie a fiecrui
scor. Distribuia de frecvene astfel obinut este urmtoarea:
Intervale de f %
clas
2024 1 0,56
2529 2 1,11
3034 7 3,89
3539 18 10,00
4044 22 12,22
4549 42 23,33
5054 30 16,67
5559 37 20,56
6064 15 8,33
6569 6 3,33
TOTAL 180 100,0
3. Se stabilete primul interval astfel nct s conin cel mai mic scor (limita sa
inferioar s fie mai mic sau egal cu cel mai mic scor). Ultimul interval va
fi acela care conine cel mai mare scor. Intervalele nu trebuie s se
suprapun.
Fiecare dintre aceste intervale conine cinci scoruri3, inclusiv scorul 24, deci poate fi
ales. n exemplul nostru am ales intervalul 2024. Ca atare, urmtorul interval este 25
29 .a.m.d. pn la ultimul interval, 6569, care conine cel mai mare scor. De notat c
intervalele din tabelul 24 par a nu fi reciproc exclusive. n realitate lucrurile nu stau aa.
Dac, dup intervalul 2024 ar fi urmat 2428, 2832 .a.m.d., am fi obinut intervale
suprapuse dou cte dou. Scorul 24, de pild, ar fi fcut parte att din intervalul 2024,
ct i din intervalul 2428. Intervalele de clas din tabelul 2.6 sunt exhaustive (acoper
toate scorurile din mulimea iniial de scoruri) i reciproc exclusive (fiecare scor face
parte dintr-un singur interval).
Distribuiile de frecvene pentru date de interval sau de raport pot conine dou
instrumente ajuttoare n prezentarea datelor: frecvene cumulate i procente cumulate.
Frecvenele cumulate prezint numrul de cazuri dintr-un interval de clas i din toate
intervalele de clas precedente, iar procentele cumulate prezint procentul de cazuri
2
Vvezi capitolul 3, 3.3.2.
3
Aparent, fiecare interval acoper doar patru scoruri. Pentru a v convinge c nu este aa, numrai-le!
dintr-un interval de clas i din toate intervalele precedente4. Tabelul urmtor prezint o
coloan de frecvene cumulate i o coloan de procente cumulate pentru distribuia de
frecvene din tabelul 2.6.
Intervale de f fc % %c
clas
2024 1 1 0,56 0,56
2529 2 3 1,11 1,67
3034 7 10 3,89 5,56
3539 18 28 10,0 15,56
4044 22 50 12,22 27,78
4549 42 92 23,33 51,11
5054 30 122 16,67 67,78
5559 37 159 20,56 88,34
6064 15 174 8,33 96,67
6569 6 180 3,33 100,0
TOTAL 180 100,0
4
Considernd, att pentru frecvenele cumulate, ct i pentru procentele cumulate, c intervalele de clas
apar n tabel n ordine cresctoare.
5
De pild, cum vom vedea n seciunea urmtoare, pentru construirea unei histograme.
de scoruri ale unei astfel de variabile, se pornete de la limitele intervalele de clas
stabilite iniial, numite limite stabilite i, pe baza acestora, se determin aa-numitele
limite reale sau exacte. Pentru determinarea acestor limite, se mparte la doi distana
aritmetic dintre intervalele de clas stabilite iniial, iar rezultatul astfel obinut se scade
din fiecare limit inferioar stabilit i se adun la fiecare limit superioar stabilit.
Tabelul 2.8 prezint rezultatele aplicrii aceste proceduri la intervalele de clas stabilite
n tabelul 2.6. ntruct distana aritmetic dintre intervalele de clas din tabelul 2.4
este de o unitate, limitele reale se afl scznd 0,5 din fiecare limit inferioar i
adunnd 0,5 la fiecare limit superioar. n tabelul 2.8 este adugat o coloan etichetat
centre de interval. Centrele de interval sunt punctele situate exact la mijlocul unui
interval i se afl mprind la doi suma limitelor inferioar i superioar ale
intervalului6. De notat c centrele de interval sunt aceleai, indiferent dac folosim
limite stabilite sau limite reale.
6
Centrele de interval sunt utile n construirea histogramelor.
Tabelul 2.9 Nivelul de colarizare
pentru cei 180 de subieci
Nivel de f %
colarizare
1 0 0
2 61 33,89
3 82 45,56
4 24 13,33
5 7 3,89
6 6 3,33
TOTAL 180 100,0
Diagrame circulare
Status f %
marital
Celibatar 63 35,0
Cstorit 90 50,0
Divorat 27 15,0
TOTAL 180 100,0
Persoan care nu a fost niciodat cstorit
S construim o diagram circular pentru datele din acest tabel. ntruct circumferina
unui cerc are 3600, vom aloca 1260 (35% din 3600) pentru prima categorie, 1800 (50%
din 3600) pentru cea de-a doua categorie i 540 (15 % din 3600) pentru cea de-a treia
categorie. Obinem urmtoarea diagram circular:
Figura 2.1 Statusul marital al celor 180 de subieci
Divorai
15%
Cstorii
50%
Celibatari
35%
Diagrama din figura 2.1 evideniaz vizual preponderena relativ a subiecilor cstorii
i lipsa relativ a subiecilor divorai din eantionul considerat.
50
40
Procent
30
20
10
0
Cstorii Celibatari Divorai
Status marital
Decizia de a utiliza o diagram circular sau o diagram cu coloane depinde de
numrul de categorii ale variabilei de interes i de scopul cercetrii. Dac o variabil are
mai mult de ase sau apte categorii, atunci este preferabil o diagram cu coloane, cci
o diagram circular cu prea multe categorii devine prea aglomerat i deci greu de citit.
Diagramele cu coloane sunt utile n special pentru a prezenta frecvenele
(relative) pentru dou sau mai multe categorii ale unei variabile, cu scopul de a face
unele comparaii. S presupunem, de pild, c dorim s facem o comparaie pe sexe a
numrului de angajai ai unei firme care, n primele ase luni ale unui an, au apelat la
serviciile centrului de consiliere psihologic al firmei. Figura 2.3 prezint datele
(fictive) obinute.
30
25
20
Frecvena
Brbai
15
Femei
10
0
ian feb mar apr mai iun
30
25
20
Frecvena
Brbai
15
Femei
10
0
ian feb mar apr mai iun
Ca i diagramele circulare i diagramele cu coloane, diagramele cu linii,
ndeobte cunoscute sub denumirea de grafice, sunt larg folosite n massmedia
pentru prezentarea diferitelor date statistice.
45
40
35
30
Frecvena
25
20
15
10
5
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)
4. Se eticheteaz axele.
4. Se eticheteaz axele.
45
40
35
30
Frecvena
25
20
15
10
5
0
22 27 32 37 42 47 52 57 62 67
Scoruri (centre de interval)
Ogive
6. Se eticheteaz axele.
100
90
80
Procente cumulate
70
60
50
40
30
20
10
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)
Dup cum vom vedea n capitolul 3, o ogiv poate fi utilizat pentru a afla
diferite puncte de interes ntr-o distribuie de frecvene.
n capitolul 11 vom folosi diagrame de mprtiere, numite i diagrame ale
norilor de puncte sau scatergrame7, care sunt modaliti de prezentare vizual a
corelaiei dintre dou variabile msurate la nivel de interval sau de raport.
7
De la substantivul din limba englez scatter, care nseamn mprtiere.
GLOSAR
Mrimile folosite n mod obinuit pentru msurarea tendinei centrale sunt media
aritmetic, mediana i modul. Fiecare dintre aceste mrimi rezum o ntreag distribuie
de scoruri, descriind cea mai tipic sau central valoare a distribuiei respective sub
forma unui singur numr sau a unei singure categorii.
Formula 3.1 X =
X i
n
n care X i = suma scorurilor
n = numrul total de scoruri.
Vrsta f
16 1
17 4
18 1
19 2
23 3
TOTAL 11
S remarcm c avem 11 scoruri, cte unul pentru fiecare persoan din eantion. Pentru
a afla media aritmetic a vrstelor persoanelor din eantion sau, pe scurt, vrsta medie,
trebuie s nsumm toate cele 11 scoruri i s mprim rezultatul obinut la 11. Pentru a
scurta procedura, nmulim fiecare scor cu frecvena cu care apare, adunm rezultatele
nmulirilor i mprim suma astfel obinut la 11:
X
X i
(1 16) (4 17) (1 18) (2 19) (3 23) 209
19
n 11 11
Astfel, media aritmetic a vrstelor persoanelor din eantionul considerat este 19.
Media aritmetic este mrimea statistic folosit cel mai des n aprecierea
tendinei centrale a unei mulimi de scoruri de interval sau de raport deoarece este uor
de calculat i n plus are urmtoarele proprieti importante, pe care le vom folosi n
unele aplicaii ulterioare.
(X i X )=0
n cuvinte, suma diferenelor dintre scoruri i media lor aritmetic este egal cu 0.
Aceast proprietate, care este folosit n obinerea unor formule statistice mai
complicate, poate fi exprimat i spunnd c pentru orice distribuie de scoruri, media
aritmetic este punctul n jurul cruia toate scorurile se anuleaz, ceea ce face din media
aritmetic o mrime descriptiv adecvat n msurarea centralitii scorurilor.
(X i X )2 (X i Xj)2
n cuvinte, suma ptratelor diferenelor dintre scoruri i media lor aritmetic este mai
mic dect suma ptratelor diferenelor dintre scoruri i oricare alt scor din distribuie.
Aceast proprietate, care este folosit pentru a defini unele mrimi ale dispersiei i
pentru a calcula unele mrimi ale corelaiei8, poate fi exprimat i spunnd c media
aritmetic este punctul n jurul cruia suma abaterilor ptratice ale scorurilor este
minim.
Tabelul 3.2 ilustreaz cele dou proprieti ale mediei aritmetice pentru
distribuia de scoruri din tabelul 3.1, n care X = 19.
Xi Xi X ( X i X )2 ( X i 17) ( X i 17)2
16 3 9 1 1
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
18 1 1 1 1
19 0 0 2 4
19 0 0 2 4
23 4 16 6 36
23 4 16 6 36
23 4 16 6 36
0 74 118
3.1.2 MEDIANA
Vrsta f
26 2
28 1
29 1
30 1
32 1
60 1
TOTAL 7
~
Pentru datele din acest tabel, X = 29: trei persoane au vrste mai mici de 29 de ani i
alte trei persoane au vrste mai mari de 29 de ani. De remarcat c vrsta tipic a
persoanelor din acest eantion este mai bine reprezentat de vrsta median dect de
media aritmetic a vrstelor, 33, care este tras n sus de scorul 60. Acum, dac
adugm la acest eantion o persoan de 31 de ani, avem 8 cazuri cu scorurile 26, 26,
28, 29, 30, 31, 32 i 60. Astfel, apar dou cazuri de mijloc, unul cu scorul 29 i cellalt
cu scorul 30, i orice numr cuprins ntre aceste dou scoruri satisface definiia
medianei. Ca atare, mediana este media aritmetic a scorurilor celor dou cazuri de
mijloc: 29,5.
Urmtoarele dou exemple arat de ce este inclus expresia sau egale n
definiia medianei. S presupunem c am nregistrat numrul de copii pentru un
eantion de 16 familii, rezultatele obinute fiind urmtoarele:
Numr f
de copii
0 3
1 4
2 7
3 2
TOTAL 16
n eantionul considerat n tabelul 3.4, 8 familii au 0, 1 sau 2 copii, iar celelalte 8 familii
au cte 2 sau 3 copii, astfel c cea de-a 8-a i cea de-a 9-a familie (cele dou cazuri de
mijloc) au acelai numr de copii: 2. Ca atare, mediana aceste mulimi de scoruri este 2:
8 familii au fiecare un numr de copii mai mic sau egal cu 2, iar celelalte 8 familii au
fiecare un numr de copii mai mare sau egal cu 2. Tot aa, n mulimea impar de
scoruri
1, 2, 3, 5, 5, 5, 7, 10, 12
scorul median este 5, cci avem patru scoruri mai mici sau egale cu 5 (1, 2, 3, 5) i patru
scoruri mai mari sau egale cu 5 (5, 7, 10, 12).
Urmtorul exemplu ilustreaz determinarea medianei pentru variabile de nivel
ordinal. S presupunem c ntr-o cercetare privind modul de petrecere a timpului liber,
11 subieci au fost solicitai s rspund la ntrebarea Ct de des ai fost la
cinematograf n ultimele ase luni? Rspunsurile la aceast ntrebare au fost
nregistrate pe o scal ordinal cu urmtoarele categorii: 1. Deloc, 2. Foarte rar, 3. Rar,
4. Des, 5. Foarte des. Aranjnd scorurile n ordine descresctoare, datele sunt
urmtoarele:
Subiectul Rspunsul
A Foarte des
B Foarte des
C Foarte des
D Foarte des
E Foarte des
F Des
G Foarte rar
H Foarte rar
I Foarte rar
J Foarte rar
K De loc
Avnd un total de 11 cazuri, cazul de mijloc este al 6-lea, F, aa nct rspunsul median
este scorul celui de-al aselea caz: Des. Dac adugm un subiect care d rspunsul De
loc, avem dou cazuri de mijloc: cel de-al 6-lea, F, i cel de-al 7-lea, G. n aceast
situaie, teoretic vorbind, orice rspuns ntre Des i Foarte rar satisface definiia
medianei. Practic, pe scala menionat, ntre Des i Foarte rar avem rspunsul Rar, pe
care l vom considera drept rspuns median: 6 subieci merg la cinematograf foarte des
sau des, iar ceilali ase subieci merg la cinematograf foarte rar sau deloc.
Dac numrul de cazuri din eantion este relativ mic, identificarea cazului sau
cazurilor de mijloc este neproblematic. Pentru eantioane mari, identificarea
menionat poate fi nlesnit prin folosirea unor calcule simple. Astfel, dup ordonarea
scorurilor, dac n este impar, cazul de mijloc este dat de formula (n 1) 2 ; dac n este
par, primul caz de mijloc este dat de formula n 2 , iar cel de-al doilea caz de mijloc de
formula (n 2) 1 . Ca exerciiu, determinai mediana scorurilor din tabelul 2.4 din
capitolul anterior. (Putei folosi tabelul 2.5? Dac da, cum?)
De notat c mediana nu este tras n direcia valorilor extreme, deoarece
aceast mrime ia n considerare doar ordinea scorurilor, nu i magnitudinea efectiv a
acestora10. Relund un exemplu dat mai sus, mulimea de scoruri 15, 20, 25, 30, 35 are
aceeai median ca i mulimea 15, 20, 25, 30, 3500: scorul 25. S mai remarcm c
mediana i media aritmetic ale unei mulimi de scoruri pot s coincid, acesta fiind, de
pild, cazul mulimii 15, 20, 25, 30, 35.
Mediana nu poate fi determinat pentru variabile de nivel nominal, deoarece
aceste variabile nu au scoruri care s poat fi ordonate. Mrimea tendinei centrale care
poate fi folosit la nivel nominal, ca i la toate celelalte nivele de msur, este modul.
3.1.3 MODUL
Modul unei mulimi de scoruri (Mo) este scorul care apare cel mai frecvent n
acea mulime. De pild, modul datelor din tabelul 3.4 este 2, deoarece este scorul care
apare de cele mai multe ori n eantionul considerat, iar modul datelor din tabelul 3.5
sau, altfel spus, rspunsul modal, este Foarte des, deoarece este rspunsul care apare de
cele mai multe ori n raport cu celelalte rspunsuri.
Modul este singura mrime care poate fi folosit n msurarea tendinei centrale
pentru variabile de nivel nominal. Modul unei astfel de variabile este cea mai mare
categorie a sa sau, altfel spus, categoria cu cele mai multe cazuri. De pild, modul
variabilei status marital pentru distribuia din tabelul 2.10 din capitolul anterior este
categoria Cstorit.
Exemplele date pn acum ilustreaz cazul mulimilor unimodale de scoruri,
adic a mulimilor n care exist un singur scor care apare mai frecvent dect celelalte.
Dac ntr-o mulime de scoruri exist dou astfel de scoruri, ca n exemplul
3, 3, 3, 5, 5, 5, 7, 10, 12,
44, 44, 46, 46, 46, 48, 50, 50, 50, 50, 50.
Modul aceste mulimi este 50, n timp ce mediana este 48, iar media aritmetic este
aproximativ 47,6. Pretenia c modul este o mrime a tendinei centrale trebuie s fie
neleas n sensul c aceast mrime indic localizarea celei mai mari grupri sau
concentrri de scoruri dintr-o mulime unimodal, ceea ce se poate dovedi important n
special pentru date de nivel nominal. S presupunem c ultima mulime de scoruri de
mai sus reprezint o nregistrare a msurilor sacourilor vndute ntr-un magazin timp de
o sptmn. Astfel, modul msurilor de sacouri vndute sau, altfel spus, msura
modal a acestora este de mai mare interes pentru directorul magazinului dect mediana
msurilor de sacouri vndute. Pe de alt parte, s observm c n acest caz, media
aritmetic a scorurilor nu este n nici un fel semnificativ: numerele care indic msuri
de sacouri sunt convenionale, astfel c ele puteau fi nlocuite, de pild, cu litere.
10
Acesta este i motivul pentru care mediana se folosete cu precdere pentru date ordinale.
3.1.4 DISTRIBUII SIMETRICE I DISTRIBUII ASIMETRICE
Dup cum am artat, dac lucrm cu date nominale, singura mrime a tendinei
centrale pe care o putem folosi este modul, dac datele sunt ordinale, putem folosi att
modul, ct i mediana, iar dac datele sunt de interval sau de raport, putem folosi toate
cele trei mrimi ale tendinei centrale.
Dup cum vom vedea n capitolele dedicate statisticii infereniale, la nivel de
interval sau de raport media aritmetic este cu deosebire util pentru trage concluzii
despre caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale unui
eantion din acea populaie. Pentru scopuri descriptive ns, dac lucrm cu date de
interval sau de raport, este recomandabil s folosim toate mrimile tendinei centrale,
deoarece, pe de o parte, ele pot furniza informaii relativ diferite i, pe de alt parte,
compararea valorilor mediei aritmetice i medianei furnizeaz informaie despre forma
unei distribuii. Astfel, media aritmetic i mediana au aceeai valoare numai atunci
cnd distribuia este simetric. ntr-un astfel de caz, dac distribuia este unimodal,
atunci i modul are aceeai valoare cu celelalte dou mrimi. S considerm urmtorul
poligon de frecvene rotunjit, care prezint o distribuie de frecvene simetric:
~
Figura 3.1 O distribuie simetric ( X = X )
Frecvena
~
X, X
n aceast distribuie, media aritmetic, mediana i modul apar mpreun n cel mai nalt
punct al curbei. Acest punct este modul, deoarece este punctul n care sunt nregistrate
cele mai multe cazuri, este mediana, deoarece numrul de cazuri nregistrate la stnga
acestui punct este egal cu numrul de cazuri nregistrat la dreapta sa i este media
aritmetic, deoarece scorurile aflate n partea dreapt ntrec scorul median n aceeai
msur n care scorurile aflate n partea stng sunt mai mici dect scorul median.
Atunci cnd o distribuie are doar cteva scoruri foarte mari sau, altfel spus,
scorurile relativ mici sunt predominante, media aritmetic este mai mare dect mediana.
ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie pozitiv.
Figura 3.2 ilustreaz cazul unei distribuii cu asimetrie pozitiv.
~
Figura 3.2 O distribuie cu asimetrie pozitiv ( X X )
Frecvena
~
X X
Atunci cnd o distribuie are doar cteva scoruri foarte mici sau, altfel spus,
scorurile relativ mari sunt predominante, media aritmetic este mai mic dect mediana.
ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie negativ.
Figura 3.3 ilustreaz cazul unei distribuii cu asimetrie negativ.
~
Figura 3.3 O distribuie cu asimetrie negativ ( X X )
Frecvena
~
X X
N
n care ni = numrul de scoruri din fiecare grup
X i = media aritmetic a fiecrui grup
N = numrul total de scoruri
X
n X i i
=
(86 7,33) (54 8,45) 1086,68
= = 7,76
N 140 140
X=
X i
=
(5 3) 6 (7 3) 8 9 10
=
69
= 6,90
n 10 10
Acum, mediile aritmetice ale celor dou grupuri sunt, respectiv, X 1 = 5,83 i X 2 = 8,50,
astfel c media aritmetic ponderat a celor dou grupuri este
X
n X i i
=
(6 5,83) (4 8,50) 35 34
= =
69
= 6,90
N 10 10 10
nc odat, calculul mediei aritmetice a celor dou medii conduce la un rezultat greit:
7,16.
Intervale de f
clas
2024 1
2529 2
3034 7
3539 18
4044 22
4549 42
5054 30
5559 37
6064 15
6569 6
TOTAL 180
Formula 3.3 X
fm i i
Pentru a aplica aceast procedur la exemplul nostru, vom aduga dou coloane
la distribuia de frecvene din tabelul 3.6, una pentru centrele de interval i una pentru
produsele dintre centrele de interval i frecvene:
Intervale de f m fm
clas
2024 1 22 22
2529 2 27 54
3034 7 32 224
3539 18 37 666
4044 22 42 924
4549 42 47 1974
5054 30 52 1560
5559 37 57 2109
6064 15 62 930
6569 6 67 402
TOTAL 180 8865
Totalul ultimei coloane este valoarea pentru fimi. mprind aceast valoare la numrul
total de cazuri obinem media aritmetic aproximativ a scorurilor:
X
fm i i
=
8865
= 49,25
n 180
Dup cum se poate constata, valoarea obinut n acest fel reprezint o deosebit de bun
aproximare a valorii efective a mediei aritmetice.
Mediana pentru date grupate
Intervale de f fc
clas
2024 1 1
2529 2 3
3034 7 10
3539 18 28
4044 22 50
4549 42 92
5054 30 122
5559 37 159
6064 15 174
6569 6 180
TOTAL 180
11
Cu alte cuvinte, cazul 51 este primul, 52 al doilea, , 90 al 40-lea.
n general, sub supoziia c n fiecare interval de clas toate scorurile sunt
distribuite uniform ntre limitele reale ale intervalului, procedura de calcul a medianei
pentru date grupate este urmtoarea:
3. Se afl al ctelea caz din interval este cazul de mijloc, scznd din n/2
frecvena cumulat a cazurilor aflate sub intervalul identificat n pasul2.
~ n 2 fc i (180 2) 50
X LCRI X i = 44,5 5 = 44,5 + 4,76 = 49,26
fi 42
Vom spune c aproximativ jumtate din subiecii din eantion au obinut un scor mai
mic de 49,26 i jumtate mai mare de 49,26. i de data aceasta se poate constata c
valoarea obinut n acest fel reprezint o foarte bun aproximare a valorii efective a
medianei.
Intervalul modal
Atunci cnd datele sunt grupate, scorul modal efectiv al distribuiei de frecvene
respective nu poate fi determinat. ntr-o astfel de situaie se poate determina doar
intervalul modal intervalul care conine cel mai mare numr de cazuri , centrul
acestui interval fiind considerat modul distribuiei. Pentru o mai bun aproximare a
modului unei distribuii cu date grupate, n cazul n care distribuia are dou sau mai
multe intervale neadiacente n care numrul de scoruri este mai mare dect n intervalele
adiacente, atunci distribuia respectiv este considerat multimodal (bimodal,
trimodal etc.). n exemplul nostru, conform definiiei stricte, intervalul modal este 45
49, astfel c centrul acestui interval, 47, apare ca mod al distribuiei. Totui, ntruct aici
apar dou intervale neadiacente, 4549 i 5559, n care numrul de scoruri este mai
mare dect n intervalele adiacente, 42 i respectiv 37, vom considera c distribuia este
bimodal, cele dou moduri fiind centrele de interval respective: 47 i 57. Se poate
constata c intervalul 5559 conine modul efectiv al distribuiei de frecvene, 56.
3.2 PERCENTILE
Prima cuartil este valoarea fa de care cel mult 25% din scoruri, i.e. cel mult
(15/100)25 = 3,75 scoruri sunt mai mici i cel mult 75% din scoruri, i.e. cel mult
(15/100)75 = 11,25 scoruri sunt mai mari. Singurul scor care satisface acest criteriu este
5, deci Q1 = 5. Cea de-a doua cuartil, mediana, este scorul central, i.e. 12. Cea de-a
treia cuartil este valoarea fa de care cel mult 75% din scoruri, i.e. cel mult 11, 25
12
Cuartilele sunt valori care mpart o mulime ordonat de scoruri n patru pri egale. n practic,
termenul cuartil se folosete adesea pentru referire la unul dintre aceste sferturi.
scoruri sunt mai mici i cel mult 25% din scoruri, i.e. 3,75 scoruri sunt mai mari.
Singurul scor care satisface acest criteriu este 21, deci Q3 = 21.
De notat c (n/100)25 = n(0,25), iar (n/100)75 = n(0,75). Ca atare, pentru Q1
putem folosi formula n(0,25), iar pentru Q3 formula n(0,75) sau, echivalent, n n(0,25).
n exemplul nostru, n(0,25) = 3,75 i n(0,75) = n n(0,25) = 11,25.
Uneori, percentila cutat cade ntre dou scoruri din mulimea respectiv.
ntr-un astfel de caz, prin convenie, se alege media aritmetic a celor dou scoruri
pentru a aproxima percentila cutat. S presupunem c ne intereseaz ce-a de-a 20-a
percentil din mulimea de mai sus. Aceasta ar fi valoarea fa de care cel mult 3 scoruri
sunt mai mici i cel mult 12 scoruri sunt mai mari. ntruct orice numr cuprins ntre 4
i 5 (inclusiv) satisface acest criteriu, vom alege 4,50 drept ce-a de-a 20-a percentil.
Procedura de calcul a percentilelor pentru date grupate este asemntoare
procedurii de calcul a medianei pentru date grupate. S considerm din nou distribuia
de frecvene a scorurilor obinute la un test de cunotine de 180 de subieci i s
presupunem c ne intereseaz cea de-a 75-a percentil. Pentru a o afla, vom folosi
tabelul 3.8, care include o coloan de frecvene cumulate.
Mai nti, identificm intervalul de clas care conine percentila cutat. Avnd
180 de scoruri individuale n eantion, P75 este valoarea fa de care cel mult 135 (180
0,75) de scoruri sunt mai mici i cel mult 45 (180 135) de scoruri sunt mai mari. Ca
atare, intervalul de clas care conine percentila cutat este cel care conine valoarea
fa de care cel mult 135 (180 0,75) de scoruri sunt mai mici. Inspectnd coloana de
frecvene cumulate din tabelul 3.8, constatm c 122 de cazuri sau scoruri s-au cumulat
sub limita superioar a intervalului 5054 i c 159 de cazuri sau scoruri s-au cumulat
sub limita superioar a intervalului 5559. tim acum c P75 este o valoare cuprins
ntre limita real inferioar i limita real superioar ale intervalului 5559, adic ntre
54,5 i 59,5. Mai departe, presupunem c toate cele 37 de cazuri situate n acest interval
sunt distribuite uniform ntre limitele reale ale intervalului, cazul 123 fiind situat la
limita real inferioar (54,5), iar cazul 159 la limita real superioar (59,5). n intervalul
care conine P75 sunt 37 de cazuri, cazul 135 fiind al 13-lea: cazul 123 este primul, 124
al doilea, , 135 al 13-lea. Aceasta revine la a spune c, pentru a afla al ctelea caz este
cazul 135, scdem din 135 frecvena cumulat a cazurilor aflate sub intervalul n care se
afl cazul 135: 135 122 = 13. Dac, aa cum am presupus, scorurile sunt distribuite
uniform, atunci cazul 135 se afl la 1337 din distana dintre 54,5 i 59,5. Acum, 1337
din 5 (mrimea intervalului) este 1,75, aa nct putem aproxima P75 la 54,5 + 1,75 sau
56,25.
Formula urmtoare rezum paii de calcul al percentilelor pentru date grupate:
np fc i
Formula 3.5 Pm LCRIm + i
fi
n care LCRIm = limita de clas real inferioar a intervalului care conine Pm
n = numrul total de scoruri
p = proporia corespunztoare percentilei cutate Pm
fci = frecvena cumulat sub intervalul care conine Pm
fi = numrul de cazuri din intervalul care conine Pm
i = mrimea intervalului
Aplicnd formula 3.5 la exemplul nostru, avem:
X LCRI X
fc i fi
i
Formula 3.6 RPX 100
n
n care fci = frecvena cumulat sub intervalul care conine scorul X
X = scorul pentru care se determin RPX.
LCRIX = limita de clas real inferioar a intervalului care conine scorul X
i = mrimea intervalului
fi = numrul de cazuri din intervalul care conine scorul X
n = numrul total de cazuri
47 44,5
50 42
5 50 21
RP47 100 = 100 = 39,4
180 180
100
90
80
Procente cumulate
70
60
50
40
30
20
10
0
19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5
Scoruri (limite reale)
Pentru a afla, de pild, P58, din punctul 58 de pe axa procentelor trasm o paralel cu
axa scorurilor care s intersecteze curba, iar din punctul de intersecie trasm o
perpendicular pe axa scorurilor. Punctul de intersecie al acestei perpendiculare cu axa
scorurilor este P58. Pentru a afla RP62, din punctul 62 de pe axa scorurilor trasm o
paralel cu axa procentelor care s intersecteze curba, iar din punctul de intersecie
trasm o perpendicular pe axa procentelor. Punctul de intersecie al acestei
perpendiculare cu axa procentelor este RP62.
Colectivitatea
Denominaia A B C
Cretin 90 60 30
ortodox
Catolic 0 20 30
Altele 0 10 30
TOTAL 90 90 90
Simpla inspecie a datelor din acest tabel arat c, dintre cele trei colectiviti, A
este cea mai puin eterogen. Mai exact, eterogenitatea religioas n colectivitatea A este
nul, ntruct toi membrii acestei colectiviti sunt cretinortodoci. Apoi,
colectivitatea C este cea mai eterogen, B situndu-se ntre A i C. S vedem acum cum
sunt reflectate aceste observaii de ctre IQV, a crui formul de calcul este urmtoarea:
k (n 2 f 2 )
Formula 3.7 IQV =
n 2 (k 1)
n care k = numrul de categorii
n = numrul total de cazuri din cele k categorii
f 2 = suma ptratelor frecvenelor din fiecare categorie
S aplicm aceast formul la fiecare dintre cele trei distribuii de frecvene.
Pentru aceasta, trebuie s calculm mai nti suma ptratelor frecvenelor respective.
Astfel, pentru colectivitatea A, avem:
f 2
= 902 + 02 + 02 = 8100
13
Prescurtare de la denumirea acestei mrimi n limba englez: Index of Qualitative Variation.
ntruct valorile pentru k i n sunt aceleai n toate cele trei distribuii, IQV
pentru celelalte dou colectiviti poate fi calculat schimbnd doar valorile pentru
f 2 . Pentru colectivitatea B, avem:
f 2
= 602 + 202 + 102 = 4100
Pentru colectivitatea C:
f 2
= 302 + 302 + 302 = 2700
Dup cum se poate constata, IQV reflect cantitativ i precis observaiile de mai
sus. Colectivitatea A prezint o variaie nul a variabilei msurate (IQV = 0),
colectivitatea C prezint variaia maxim posibil pentru aceste date (IQV = 1,00), iar
colectivitatea B se situeaz ntre A i C, cu o variaie substanial (IQV = 0,74).
A = Xmax Xmin
Pentru datele din tabelul 2.4, de pild, A = 69 24 = 45. n cazul unei distribuii de
frecvene cu date grupate, amplitudinea absolut se aproximeaz prin diferena dintre
limita de clas real superioar a ultimului interval i limita de clas real inferioar a
primului interval14:
A = LCRSmax LCRImin
Q = Q3 Q1
S considerm din nou un exemplu prezentat n seciunea 3.2. Fie urmtoarea mulime
ordonat de 15 scoruri:
14
Considernd intervalele de clas n ordine cresctoare.
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
~
Q1 X Q3
15
Amintii-v c Q1 = P25 i Q3 = P75.
16
De notat c uneori, mrimea A este numit amplitudine absolut, prin contrast cu amplitudinea relativ
(A%), definit ca raportul dintre amplitudinea absolut a unei mulimi de scoruri i media sa aritmetic.
De obicei, amplitudinea relativ se nmulete cu 100 i se prezint ca procent. Amplitudinea relativ nu
are ntotdeauna sens intuitiv atunci cnd se dorete aprecierea omogenitii unei singure distribuii; de
pild, n cazul eantionului 1 din ultimul exemplu de mai sus, A% = 110%.
sugestia menionat, avem la dispoziie dou posibiliti: sau neglijm semnele
abaterilor, considernd valorile absolute ale acestora17, sau ridicm la ptrat abaterile,
ntruct dac se nmulesc dou numere care au semnul minus, produsul este pozitiv.
Prima posibilitate conduce la o mrime a dispersiei, numit abaterea medie i
notat cu d , a crei formul de calcul este urmtoarea:
Formula 3.8 d
X i X
n
Cea de-a doua posibilitate conduce la o alt mrime a dispersiei, numit varian18,
notat cu s2 atunci cnd este vorba despre un eantion i cu 2 atunci cnd este vorba
despre o populaie. Formula de calcul a varianei pentru populaii este urmtoarea:
(X
2
i )
Formula 3.9 2
N
n care = media aritmetic a populaiei
N = numrul total de scoruri din populaie
Formula de calcul a varianei pentru eantioane difer de formula 3.9 sub dou
aspecte: n locul mediei aritmetice a populaiei () apare media aritmetic a eantionului
( X ), iar la numitor, n locul numrului total de scoruri din populaie (N) apare numrul
total de scoruri din eantion diminuat cu o unitate (n 1)19.
Formula 3.10 s2
(X i X )2
n 1
Pentru a ilustra calculul abaterii medii i al varianei, vom folosi datele din
tabelul 3.2, adugnd o coloan pentru modulele diferenelor X i X i, pentru o
simplificare pe care o vom folosi ulterior, o coloan pentru ptratele scorurilor
individuale, Xi2:
Xi Xi
2
Xi X Xi X ( X i X )2
16 256 3 3 9
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4
17
Revedei capitolul 1, seciunea 1.2.
18
Uneori, aceast mrime este numit chiar dispersie.
19
Dup cum vom vedea n capitolele dedicate statisticii infereniale, mrimile statistice pentru eantioane
servesc drept estimatori ai valorilor respective pentru populaie, unii estimatori fiind nedistorsionai, alii
fiind distorsionai. ntruct variana pentru un eantion este un estimator distorsionat al varianei pentru
populaie, numitorul n 1 are rolul de a corecta distorsiunea. Aceleai consideraii sunt valabile i pentru
abaterea standard. n cadrul statisticii descriptive, unii statisticieni prefer s foloseasc numitorul n,
tratnd eantioanele ca i cum ar fi populaii foarte mici.
17 289 2 2 4
18 324 1 1 1
19 361 0 0 0
19 361 0 0 0
23 529 4 4 16
23 529 4 4 16
23 529 4 4 16
209 4045 0 24 74
d
X i X
24
2,20
n 11
s 2
(X i X )2
74
7,40
n 1 10
X
2
i nX 2
Formula 3.11 s 2
n 1
X 2
X
2 i
i
Formula 3.12 s2 n
n 1
X
2
i nX 2 4045 (11 19 2 ) 4045 3971 74
s 2
7,40
n 1 10 10 10
Dei pare mai complicat dect formula 3.10, formula 3.12 ne scutete de calcularea
mediei aritmetice a scorurilor, astfel nct pentru calcularea varianei cu ajutorul acestei
formule este nevoie doar de scorurile individuale. n exemplul nostru:
20
Dou formule de calcul care, aplicate la aceleai date, produc aceleai rezultate se numesc echivalente
algebric.
X 2
209 2
Xi
2 i
4045
s2 n 11 4045 3971 74 7,40
n 1 10 10 10
Formula 3.13 s
(X i X )2
n 1
X
2
i nX 2
Formula 3.14 s
n 1
X 2
X
2 i
i
Formula 3.15 s n
n 1
s
Formula 3.16 CV 100
X
Xi fimi
Xi2 fimi2
Formula care d valoarea aproximativ a abaterii standard pentru date grupate se obine
fcnd substituiile corespunztoare n formula 3.15. Obinem astfel:
f m 2
fm 2 i i
i i
Formula 3.17 s n
n 1
Pentru ilustrare, vom folosi datele din tabelul 3.7, n care vom aduga dou
coloane: una pentru ptratele centrelor de interval i una pentru produsele dintre
ptratele centrelor de interval i frecvene:
Intervale de f m fm m2 fm2
clas
2024 1 22 22 484 484
2529 2 27 54 729 1458
3034 7 32 224 1024 8428
3539 18 37 666 1369 24642
4044 22 42 924 1764 38808
4549 42 47 1974 2209 92778
5054 30 52 1560 2704 81120
5559 37 57 2109 3249 120213
6064 15 62 930 3844 57660
6569 6 67 402 4489 26934
TOTAL 180 8865 452525
Totalul ultimei coloane este valoarea pentru fimi2. Aplicnd formula 3.17 la aceste date
obinem:
f m 2
8865 2
fm 2 i i
452525
180 = 452525 436601,25 =
i i
s n =
n 1 179 179
15923,75
= = 88,96 = 9,43
179
GLOSAR
Abatere standard: rdcina ptrat a Medie aritmetic: rezultatul mpririi
ctului dintre suma abaterilor sumei tuturor scorurilor dintr-o
ptratice ale scorurilor fa de media mulime de scoruri la numrul total
lor aritmetic i n 1 pentru de scoruri din acea mulime.
eantioane sau N pentru populaii. Median: punct ntr-o mulime de
Abatere medie: media aritmetic a scoruri fa de care numrul de cazuri
sumei abaterilor absolute ale cu scoruri mai mici sau egale este
scorurilor fa de media lor egal cu numrul de cazuri cu scoruri
aritmetic. mai mari sau egale .
Amplitudinea absolut: diferena Mod: scorul care apare cel mai frecvent
dintre cel mai mare scor i cel mai ntr-o mulime de scoruri.
mic scor dintr-o mulime de scoruri. Percentil: valoarea Pm a unei mulimi
Amplitudine intercuartilic: diferena de scoruri fa de care cel mult m%
dintre cea de-a treia i prima cuartil din scoruri sunt mai mici dect m i
a unei distribuii de scoruri ordonate cel mult (100 m)% din scoruri sunt
cresctor. mai mari dect m.
Asimetrie: proprietatea unei mulimi de Varian: ctul dintre suma abaterilor
scoruri de a avea puine scoruri foarte ptratice ale scorurilor fa de media
mari (asimetrie pozitiv) sau puine lor aritmetic i n 1 pentru
scoruri foarte mici (asimetrie eantioane sau N pentru populaii.
negativ).
Coeficient de variaie: raportul dintre
abaterea standard a unei distribuii de
scoruri i media sa aritmetic. De
obicei, coeficientul de variaie se
nmulete cu 100 i se prezint ca
procent.
Indicele variaiei calitative: raportul
dintre variaia observat efectiv ntr-o
distribuie de scoruri i variaia
maxim posibil pentru acea
distribuie.
Interval modal: intervalul de clas care
conine cel mai mare numr de
cazuri.
Mrimile tendinei centrale: mrimi
statistice care rezum o ntreag
distribuie de scoruri, descriind cea
mai tipic sau central valoare a
distribuiei respective sub forma unui
singur numr sau a unei singure
categorii.
Mrimile dispersiei: mrimi statistice
care furnizeaz informaie despre
eterogenitatea sau varietatea unei
distribuii de scoruri.
Medie aritmetic ponderat: media
aritmetic a mai multor grupuri
combinate.
4 DISTRIBUIA NORMAL
21
Distribuia normal a fost studiat pentru prima dat n secolul al XVIII-lea de ctre Abraham De
Moivre. La nceputul secolului al XIX-lea a fost descoperit independent de Carl Friedrich Gauss i
Pierre Simon de Laplace.
22
n onoarea matematicienilor Gauss i Laplace, curba normal este cunoscut i sub numele de clopotul
lui Gauss sau curba GaussLaplace.
pe baza valorilor cunoscute pentru eantioane. Utilizarea distribuiei normale n
statistic face apel la aanumitele scoruri standard sau scoruri Z.
X
Formula 4.1 Z
X X
Formula 4.2 Z
s
85 100
Z 85 0,75
20
120 100
Z 120 1,00
20
150 100
Z 150 2,50
20
Fiecare dintre aceste scoruri Z arat la cte abateri standard fa de media aritmetic se
afl scorul brut corespunztor. Un scor Z negativ arat c scorul brut se afl sub media
aritmetic, iar un scor Z pozitiv arat c scorul brut este mai mare dect media
aritmetic. Evident, un scor Z egal cu 0 arat c scorul brut corespunztor este egal cu
media aritmetic.
Se demonstreaz c dac toate scorurile unei distribuii particulare se transform
n scoruri Z, atunci:
68,26
13,59% 13,59%
2,15% 2,15%
0,13% 95,44% 0,13%
-3 -1 0 +1 +2 +3
-2
De pild, din tabel aflm c ntre Z = +1 i media aritmetic se afl 34,13% din aria de
sub curb (v. intersecia coordonatelor 1,0 i 0,00). ntruct curba este simetric,
procentul din arie cuprins ntre Z = 1 i media aritmetic este tot de 34,13%. Astfel,
ntre 1 abateri standard fa de medie se afl 68,26% din aria total. Similar, ntre Z =
+2 i medie se afl 47,72% din arie, astfel c ntre 2 abateri standard fa de medie se
afl 94,44% din arie.
ntruct un procent relativ mic din aria total se afl peste +3 abateri standard
sau sub 3 abateri standard (0,13%), pentru scopuri practice, ilustrate n cele ce
urmeaz, se consider c distribuia normal se extinde de la Z 3,59 la Z +3,59 sau,
altfel spus, la 3,59 abateri standard de o parte i de cealalt a mediei aritmetice, scorurile
Z aflate dincolo de aceste limite fiind considerate a fi egale cu 0.
n cazul variabilelor normal distribuite pentru care cunoatem media aritmetic
i abaterea standard, distribuia normal standard poate fi folosit pentru a determina
diferite procente sau proporii de cazuri n distribuii particulare, precum i pentru a
determina probabilitatea de a selecta la ntmplare un scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale.
68,26
13,59% 13,59%
2,15% 2,15%
0,13% 95,44% 0,13%
Uniti IQ
115 100
Z 0,75
20
Din tabelul curbei normale aflm c aria dintre scorul Z = +0,75 i media aritmetic
reprezint 27,34% din aria total. ntruct aria aflat sub media aritmetic reprezint
50% din aria total, procentul de subieci cu scoruri IQ mai mici dect 115 este de
74,34% (27,34% + 50%). Acest rezultat poate fi exprimat i n numr de cazuri,
spunnd c aproximativ 743 de subieci din eantionul considerat (74,34% din 1000) au
scoruri IQ mai mici dect 115.
S presupunem acum c ne intereseaz procentul de cazuri cu scoruri IQ mai
mici dect 75. Scorul Z corespunztor scorului brut 75 este
75 100
Z 1,25
20
Pentru a afla aria de sub un scor Z negativ, aria dintre scor i media aritmetic se scade
din 50% (aria aflat la stnga mediei). Din tabelul curbei normale aflm c aria dintre
scorul Z = 1,25 i media aritmetic reprezint 39,44% din aria total. Astfel, procentul
de subieci cu scoruri CI mai mici dect 75 este de 10,56% (50% 39,44%), ceea ce
nseamn c aproximativ 394 de subieci (39,44% din 1000) au scoruri IQ mai mici
dect 75.
Acelai model de calcul se utilizeaz pentru a afla aria situat deasupra unui scor
Z pozitiv. S presupunem c ne intereseaz procentul de cazuri cu scoruri mai mari
dect 150. tim c scorul Z corespunztor acestui scor brut este +2,50. Din tabelul
curbei normale aflm c aria dintre scorul Z = +2,50 i media aritmetic reprezint
47,98% din aria total, astfel c procentul de subieci cu scoruri mai mari dect 150 este
de 2,02% (50% 47,98%). Aceasta nseamn c aproximativ 20 de subieci (2,02% din
1000) au scoruri IQ mai mari dect 150.
n general, ariile situate peste sau sub un anumit scor Z se determin conform
urmtoarelor reguli:
1. Pentru a determina aria aflat sub un scor Z negativ sau peste un scor Z
pozitiv, aria dintre scorul respectiv i media aritmetic se scade din 50%.
2. Pentru a determina aria aflat sub un scor Z pozitiv sau peste un scor Z
negativ, aria dintre scorul respectiv i media aritmetic se adun cu 50%.
95 100
Z 95 0,25
20
125 100
Z 110 1,25
20
Din tabelul curbei normale aflm c aria dintre scorul Z = 0,25 i media aritmetic
reprezint 9,87% din aria total i c aria dintre scorul Z = +1,25 i media aritmetic
reprezint 39,44% din aria total. Fiind vorba despre scoruri aflate de o parte i de alta a
mediei, aria dintre scoruri se determin adunnd ariile dintre fiecare scor i media
aritmetic. Astfel, procentul de subieci cu scoruri IQ cuprinse ntre 95 i 125 este de
49,31% (9,87% + 39,44%). Aceasta nseamn c aproximativ 439 de subieci au scoruri
IQ cuprinse ntre 95 i 125.
Pentru a determina aria dintre dou scoruri aflate de aceeai parte a mediei
aritmetice, se determin mai nti ariile dintre fiecare scor i medie, dup care aria mai
mic se scade din aria mai mare. S presupunem c ne intereseaz procentul de subieci
cu scoruri IQ cuprinse ntre 115 i 125. tim c scorul Z corespunztoare scorurilor
brute 115 i 125 sunt, respectiv, +0,75 i +1,25. tim, de asemenea, c ntre Z = +0,75 i
media aritmetic se afl 27,34% din aria total i c ntre Z = +1,25 i media aritmetic
se afl 39,44% din aria total. Prin urmare, procentul de subieci cu scoruri IQ cuprinse
ntre 115 i 125 este de 12,10% (39,44% 27,34%), ceea ce nseamn c aproximativ
121 de subieci au scoruri IQ cuprinse ntre 115 i 125. Acelai model de calcul se
utilizeaz atunci cnd ambele scoruri se afl sub medie.
m
Pr E
n
GLOSAR
5 EANTIONAREA I DISTRIBUII DE
EANTIONARE
25
De notat c ignorarea repetrilor implic selecia fr nlocuire, n care, dup ce un membru din
populaia de referin a fost selectat, el este eliminat din populaie. n selecia fr nlocuire, probabilitatea
de selecie crete pe msura efecturii seleciei, ca urmare a micorrii treptate a dimensiunii populaiei cu
cte o unitate. De pild, avnd o populaie de 1000 membri, probabilitile de selecie fr nlocuire vor fi
1/1000, 1/999, 1/998 .a.m.d. Ca atare, riguros vorbind, ignorarea repetrilor afecteaz caracterul
aleatoriu al procesului de selecie. Totui, dac dimensiunea eantionului este relativ mic, probabilitatea
de a selecta acelai membru din populaia de referin de dou ori i astfel de a neglija repetrile este
foarte mic. Prin contrast, n selecia cu nlocuire, dup ce un membru din populaia de referin a fost
selectat, el nu este eliminat din populaie, astfel c probabilitatea de selecie rmne constant pe tot
parcursul seleciei.
26
G. Keller, B. Warrack, 1991.
Subieci Numere Repartizarea n
atribuite grupuri
A 10 1
B 37 2
C 08 1
D 09 1
E 12 1
F 66 2
G 31 2
H 85 3
I 63 2
J 73 2
K 98 3
L 11 1
M 83 2
N 88 3
O 99 3
Evident, procedeul poate fi folosit pentru orice numr de grupuri ntr-un experiment.
Procedura de eantionare aleatorie simpl devine incomod, atunci cnd
dimensiunea populaiei de referin este foarte mare (10000, de pild). ntr-un astfel de
caz se poate folosi eantionarea sistematic, numit i selecie mecanic. Mai nti, se
stabilete o fracie de selecie (fracie de eantionare, pas de numrare): K = N/n, n care
N este numrul total de cazuri din populaia de referin, iar n este dimensiunea dorit a
eantionului. De pild, dac N = 10000 i n = 300, K = 34 (K se rotunjete ntotdeauna
pn la un numr ntreg). Dup ce s-a stabilit pasul de numrare, se listeaz la
ntmplare membrii populaiei de referin i se alege la ntmplare, eventual prin
tragere la sori, un caz din primele K cazuri care se include n eantion i apoi se alege
fiecare al Klea caz pentru a fi inclus n eantion pn se ajunge la dimensiunea dorit a
eantionului. n exemplul nostru, dac din primele 34 de cazuri a fost ales la ntmplare
cazul cu numrul 5, atunci se vor include n eantion urmtoarele cazuri: 5, 39, 73, 107,
.a.m.d. pn la n = 300.
De notat c n cazul eantionrii sistematice, selecia nu mai este independent,
deoarece, cu excepia primului caz, fiecare caz selectat depinde de numrul de ordine al
cazului precedent. De aceea, acest procedeu este considerat ca fiind cvasialeatoriu.
Caracterul aleatoriu este asigurat prin alctuirea ntmpltoare a listelor din care sunt
selectate cazurile.
Un al treilea procedeu de eantionare, eantionarea stratificat, conduce la
creterea cantitii de informaie despre populaie. Pentru a alctui un eantion aleatoriu
stratificat, se clasific populaia de referin dup criterii relevante i se alctuiesc
eantioane aleatorii simple din fiecare clas (strat). De pild, pot fi folosite criterii
precum sexul, vrsta sau ocupaia.
Cititorul interesat de detalii privitoare la procedurile de eantionare descrise
sumar mai sus sau/i de alte procedee de eantionare poate consulta cri despre
eantionare sau manuale de metodologie a cercetrii psihologice.
5.2 DISTRIBUIA DE EANTIONARE
MEDII ARITMETICE
X = 117
14
X 2,34
n 36
n paragraful 4.4.2 am lucrat cu formula
X X
Z
s
pentru a determina probabilitatea de selecie a unui scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale. Aici, valorile 115 i 120 sunt medii
aritmetice. Scorurile Z corespunztoare acestor valori se calculeaz cu ajutorul
urmtoarei formule:
X X
Z
X
115 117
Z 115 0,85
2,34
120 117
Z 120 1,28
2,34
Populaie E ti
(parametri)
27
Dup Hinkle, Wiersma i Jurs, 1988.
Distribuie
de
eantionare
GLOSAR
68,26
13,59% 13,59%
2,15% 2,15%
0,13% 95,44% 0,13%
-3 -2 -1 X +1 +2 +3
28
Cea de-a doua distribuie conine aproximativ 68% din mediile aritmetice ale tuturor eantioanelor
posibile ntre 8697 fa de X , n timp ce prima distribuie conine ce 68% din mediile aritmetice ntr-
un interval mult mai larg: 27500.
29
Aceste relaii precizeaz ideea intuitiv c putem avea mai mult ncredere n rezultatele obinute pe
eantioane mari, dect n cele obinute pe eantioane mici, evident, cu condiia ca i unele i altele s fie
selectate aleatoriu.
cazuri cuprinse ntre 1,96 abateri standard fa de medie este de 0,95, iar proporia de
cazuri aflate sub 1,96 i peste 1,96 abateri standard fa de medie este de 0,05 (0,025
+ 0,025):
0,025 0,025
0,475 0,475
0,95
1,96 1,96
Acelai lucru ca mai sus poate fi exprimat spunnd c 95% din mediile aritmetice ale
eantioanelor se afl n intervalul dintre 1,96( n ) i 1,96( n ) sau, pe
scurt, n intervalul 1,96( n ) . Structura acestui tip de enun de probabilitate poate
fi folosit pentru a estima valoarea parametrului , prin construirea unui interval centrat
pe valoarea cunoscut pentru eantion, X . Rezultatul este un interval de ncredere
estimat o amplitudine de valori n care este probabil (nu sigur) s se afle . Astfel,
putem estima c exist o probabilitate de 0,95 (sau 95%) ca media aritmetic a
populaiei s se afle n intervalul X 1,96( n ) , ceea ce nseamn c probabilitatea
ca media aritmetic a populaiei s nu se afle n acest interval este de 0,05 (sau 5%).
Probabilitatea ca media aritmetic a populaiei s nu se afle n intervalul estimat
sau, altfel spus, probabilitatea de eroare a estimrii se numete nivel de semnificaie
sau nivel alfa (), iar probabilitatea ca intervalul estimat s conin media aritmetic a
populaiei se numete nivel de ncredere. Dup cum reiese i din cele de mai sus,
nivelul de ncredere este complementarul nivelului alfa, fiind egal cu 1 sau, n
procente, cu (1 )100. A stabili, de pild, c = 0,05 nseamn acelai lucru cu a
spune c nivelul de ncredere este de 95%. ntruct probabilitatea de eroare este
mprit n mod egal n extremitatea inferioar i cea superioar a distribuiei de
eantionare, stabilindu-se astfel limita inferioar i limita inferioar de ncredere, vom
nota scorul Z corespunztor nivelului ales cu Z/2. Astfel, n cazul n care este
cunoscut, formula de construire a unui interval de ncredere estimat (IE) bazat pe media
aritmetic a unui eantion este urmtoarea:
Formula 6.1 IE X Z 2 ( n)
0,05 0,05
0,450 0,450
0,90
1,65 1,65
Astfel, pentru = 0,10 trebuie s cutm proporia 0,4500 n tabelul distribuiei normale
standard. Gsim ns o proporie de 0,4495, corespunztoare scorului Z/2 = 1,64 i o
proporie de 0,4505, corespunztoare scorului Z/2 = 1,65. Scorul Z/2 pe care l cutm
se afl undeva ntre aceste dou scoruri. n aceste condiii, se ia cel mai mare dintre cele
dou scoruri: 1,65. n acest fel, intervalul de ncredere va fi cel mai mare posibil n
circumstanele date. Prin urmare, vom avea:
Nivelul de ncredere /2
Z/2
(1 ) 100
90% 0,10 0,050 1,65
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58
6.3 ESTIMAREA MEDIEI ARITMETICE CND ESTE
NECUNOSCUT. DISTRIBUIA tSTUDENT
Formula 6.2 IE X Z 2 ( s n 1)
30
Aceast distribuie este datorat lui William S. Gosset, un chimist i statistician care lucra la fabrica de
bere Guiness la nceputul secolului al XX-lea. Gosset a descoperit c pentru eantioanele mici,
distribuiile de eantionare difer de distribuia normal i depind de dimensiunea eantionului considerat.
Gosset i-a publicat rezultatele n 1908 sub pseudonimul Student.
Figura 6.2 Un exemplu de curb t
t=0
X
t
s n 1
29 2,045
30
Tabelul valorilor critice ale distribuiei t specific valorile pentru t, ceea ce
nseamn valorile lui t pentru care aria aflat la dreapta sub curba t este egal cu :
Nivelele sunt dispuse pe primul rnd al tabelului Valorile t sunt date pentru grade de
libertate (gl), dispuse pe prima coloan din stnga, de la 1 la 30 i apoi 40, 60, 120 i .
De notat c, pe msur ce numrul de grade de libertate crete, diferena dintre
distribuia t i distribuia normal descrete, precum i c pentru o infinitate de grade de
libertate, distribuia t este identic cu distribuia normal. Pentru estimarea intervalelor,
ca i pentru alte scopuri, avem nevoie de t/2. Aceast valoare se localizeaz nmulind
cu 2 valoarea aflat pe primul rnd. De pild, pentru n = 30 i = 0,05, numrul de
grade de libertate este 29; la intersecia coloanei de sub t = 0,025 i liniei
corespunztoare pentru gl = 29 gsim valoarea 2,045. Astfel, n acest caz, vom spune c
valoarea lui t/2 este 2,045.
Formula pentru cazurile n care este necunoscut i n 30 este urmtoarea:
Formula 6.3 IE X t 2 ( s n)
18 20 12 30
31 32 25 29
26 28 23 20
24 27 20 19
22 33 28 22
X =
X i
489
24,45
n 20
Pentru n = 20, numrul de grade de libertate este 19; avnd = 0,01, la intersecia
coloanei de sub t = 0,005 i liniei corespunztoare pentru gl = 19 gsim valoarea 2,861.
Astfel, valoarea lui t/2 este 2,861. Aplicnd formula 6.3, obinem:
Astfel, estimm c media aritmetic pe care o cutm este cuprins ntre 21,03 i 27,91
i exist doar 1% anse ca acest interval s nu conin media aritmetic a populaiei.
De reinut c formula 6.3 poate fi aplicat doar dac variabila de interes este
normal distribuit.
P(1 P)
Formula 6.4 IE p Z 2
n
n aceast formul, valorile pentru p i n provin de la eantion, iar valoarea lui Z/2 se
determin la fel ca mai sus. Problema cu aceast formul este c valoarea proporiei
pentru populaie, P, nu este cunoscut. Pentru a rezolva aceast problem, se poate
proceda n dou moduri.
Un prim mod de a rezolva problema const n a stabili c P = 0,5. n aceast
situaie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat c 0,25
este valoarea maxim pe care o poate lua numrtorul fraciei de sub radical, P(1 P).
Stabilind pentru P orice alt valoare diferit de 0,5, valoarea expresiei P(1 P) va fi
mai mic dect valoarea pentru P = 0,5. De pild, dac P = 0,4, atunci 1 P = 0,6 i
P(1 P) = 0,4 0,6 = 0,24. ntruct P(1 P) are valoarea maxim cnd P = 0,5, ne
asigurm c intervalul obinut va fi cel mai mare posibil pentru p, Z/2 i n date. Practic,
adoptnd aceast soluie, lucrm cu formula urmtoare:
0,25
Formula 6.5 IE p Z 2
n
A doua soluie a problemei menionate const din a estima valoarea lui P prin p,
lucrnd cu formula urmtoare:
p (1 p )
Formula 6.6 IE p Z 2
n
Oricum, formulele de mai sus pot fi folosite doar dac dimensiunea eantionului
considerat estre destul de mare, astfel nct np 5 i n(1 p) 5.
S presupunem, de pild, c ne dorim s estimm proporia de studeni de la
universitatea X care au lipsit cel puin o zi pe motiv de boal ntr-un anumit semestru i
c dintr-un eantion aleatoriu de 200 de studeni, gsim 30 n aceast situaie. Astfel,
proporia eantionului pe care ne bazm estimarea este p = 30/200 = 0,15. La un nivel
de ncredere de 95%, intervalul estimat cu ajutorul formulei 6.5 este urmtorul:
0,25 0,25
IE p Z 2 0,15 1,96 0,15 0,07
n 200
n acest caz, estimm c proporia cutat este cuprins ntre 0,10 i 0,20 sau, altfel
spus, c ntre 10% i 20% dintre studenii universitii X au lipsit cel puin o zi pe motiv
de boal n semestrul considerat.
De notat c intervalul estimat cu ajutorul formulei 6.5 este mai larg dect cel
estimat cu ajutorul formulei 6.6, astfel c prima estimare este cea mai conservatoare
soluie posibil, cci este mult mai probabil ca intervalele mai largi s conin
parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este
preferabil celei de-a doua estimri.
Mrimea unui interval de ncredere estimat pentru medii aritmetice sau proporii
poate fi controlat prin intermediul a doi termeni ai ecuaiei respective: nivelul de
ncredere, care determin scorul Z/2 sau t/2 corespunztor, i dimensiunea eantionului.
Relaia dintre nivelul de ncredere i mrimea intervalului este de
proporionalitate direct: cu ct nivelul de ncredere crete, cu att intervalul este mai
mare. Intuitiv, este mult mai probabil ca intervalele mai largi s conin valoarea pentru
populaie, prin urmare putem avea mai mult ncredere n astfel de intervale. Pentru a
ilustra aceast relaie, s considerm din nou exemplul privind estimarea venitului
mediu al unei populaii: n = 500, X 5000000 , s = 125000. La un nivel de ncredere de
95% am gsit intervalul 5000000 10967 (i.e. acest interval se extinde la 10967 lei n
jurul mediei aritmetice a eantionului). Acum, dac lum un nivel de ncredere de 99%,
scorul Z/2 corespunztor crete la 2,58, iar intervalul se mrete:
IE X Z 2
n
2
L2 Z 2 2
n
Z 2 2 2
Formula 6.7 n
L2
Pentru a folosi aceast formul trebuie s cunoatem valoarea lui , or, dup cum am
mai menionat, n aproape toate cazurile aceast valoare nu este cunoscut. Totui,
valoarea lui poate fi aproximat, dac cunoatem amplitudinea variabilei msurate, A.
Astfel, o aproximare conservatoare a lui este A/4.
S ilustrm. Un psiholog industrial dorete s estimeze durata medie n care un
muncitor de la o firm de produse electronice execut un anumit reglaj. Observnd un
numr de muncitori care execut reglajul respectiv, psihologul constat c durata cea
mai mic este de 10 minute, iar cea mai mare de 22 de minute. Ct de mare trebuie s
fie eantionul selectat, dac psihologul dorete s estimeze durata medie de execuie a
acelui reglaj cu o precizie de 20 de secunde, la un nivel de ncredere de 95%? n aceast
problem, L = 20 i amplitudinea variabilei msurate este A = 22 10 = 12 minute,
astfel c
A/4 = 12/4 = 3 minute = 180 secunde
Z 2 2 2 (1,96) 2 180 2
n 311,12 300
L2 20 2
Z 2 2 2 (1,96) 2 180 2
n 1244,48 1244
L2 10 2
Se observ c dimensiunea eantionului crete mai repede dect precizia: pentru a dubla
precizia de la 20 de secunde la 10 secunde, dimensiunea eantionului trebuie s creasc
de aproximativ patru ori. Aceast relaie este important pentru planificarea costurilor
unei cercetri. Eantioanele impresionant de mari pot constitui o irosire de resurse fr
un ctig semnificativ n privina preciziei, n raport cu eantioanele mai mici i deci
mai ieftine.
6.5.3 DETERMINAREA DIMENSIUNII EANTIONULUI PENTRU
ESTIMAREA PROPORIILOR
0,25
IE p Z 2
n
0,25
Aici, limita de eroare a estimrii este Z 2 . Notnd tot cu L limita de eroare a
n
estimrii, avem ecuaia:
0,25
L Z 2
n
Ridicnd la ptrat ambii membri, avem:
0,25
L2 Z 2 2
n
(1,96) 2 0,25
n 1067,11 1000
(0,03) 2
Prin urmare, pentru a obine o precizie (o limit de eroare a estimrii) de 3%, este
nevoie de un eantion de aproximativ 1000 de persoane.
i aici se poate constata uor c dimensiunea eantionului crete mai repede
dect precizia. Tabelul urmtor prezint relaiile dintre precizie i dimensiunea
eantionului pentru proporii ale eantioanelor:
Precizia Dimensiunea
(Mrimea aproximativ
intervalului) a eantionului
10% 100
7% 200
5% 400
3% 1000
2% 2400
1% 9600
Se poate observa, de pild, c pentru a dubla precizia de la 10% la 5%, dimensiunea
eantionului trebuie s creasc de patru ori.
GLOSAR
Vom prezenta acest test cu ajutorul unui exemplu, pe care l vom folosi i pentru
a introduce noiunile fundamentale ale testelor parametrice: ipotez de nul, ipotez
alternativ, statistic a testului i regul de decizie.
Un cercettor presupune c ntr-un anumit an, media aritmetic a punctajelor
obinute la examenul de rezideniat al medicilor este de 800. Pentru a testa aceast
ipotez, cercettorul alctuiete un eantion aleatoriu de 130 de medici care i-au
susinut rezideniatul n acel an i constat c la nivelul acestui eantion media
aritmetic a punctajului obinut este de 755. Prin investigaii extensive, cercettorul tie
c abaterea standard la nivelul populaiei de referin este de aproximativ 152. Problema
care se pune este dac diferena dintre media aritmetic a eantionului i valoarea
presupus pentru populaie este sau nu statistic semnificativ. Dac rspunsul este
afirmativ, atunci ipoteza fcut poate fi respins. Dac, ns, rspunsul este negativ,
atunci diferena poate fi pus pe seama ntmplrii, astfel c ipoteza cercettorului nu
poate fi respins. Dup cum vom vedea, testul scorurilor Z permite determinarea
matematic a nelesului termenului statistic semnificativ. Datele problemei sunt, deci,
urmtoarele:
Populaie Eantion
H = 800 X 755
= 152 n = 130
Am notat cu H media aritmetic presupus a populaiei, pentru a o deosebi de media
aritmetic efectiv a populaiei, .
Ipoteza de nul, pe care o vom nota H0, specific o anumit valoare pentru
parametrul respectiv. n general, ipoteza de nul despre media aritmetic a unei populaii
are forma
H0: = H
H0: H = 0
Ha: H
Dac, ns, sensul diferenei dintre eantion i populaie poate fi prezis sau dac
cercettorul este interesat doar de un singur sens al diferenei, atunci ipoteza alternativ
poate lua una dintre urmtoarele dou forme:
Ha: H
Ha: H
n cazul n care Ha are forma H, se spune c testul este bilateral sau non-
direcional, iar n cazurile n care Ha are una dintre celelalte dou forme, se spune c
testul este unilateral sau direcional. Vom reveni la aceste noiuni ceva mai departe. S
reinem deocamdat c n orice test se decide dac se respinge sau nu se respinge
ipoteza de nul, pe baza dovezilor aduse n sprijinul ipotezei alternative. Astfel, dac
putem respinge H0 ca neadevrat, atunci vom accepta Ha.
Revenind la exemplul nostru, ipoteza de nul este H0: = 800. Din enunul
problemei rezult c nu este vorba despre un sens al diferenei menionate, astfel c
ipoteza alternativ este Ha: 800.
Termenul statistic a testului se refer la formula a crei aplicare n testul
respectiv permite obinerea unei valori ce formeaz baza deciziei asupra ipotezei de nul.
Pentru mediile aritmetice, atunci cnd se cunoate sau se poate aproxima valoarea lui ,
statistica testului este dat de urmtoarea formul:
X H
Formula 7.1 Z
n
X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4
Din motive care vor deveni imediat evidente, vom desemna rezultatul aplicrii formulei
7.1 prin Z (obinut). Aici, Z (obinut) = 3,36.
Regula de decizie se refer la o anumit amplitudine de valori pentru rezultatul
statisticii testului, numit zon critic sau zon de respingere, care conduce la
respingerea ipotezei de nul. n cazul testului scorurilor Z pentru medii aritmetice, zona
critic se stabilete cu ajutorul distribuiei de eantionare a X . Astfel, n exemplul de
mai sus, eantionul alctuit este unul dintre toate eantioanele posibile cu n = 130 din
populaia de referin. S presupunem c H0 este adevrat, Dac s-ar calcula toate
mediile aritmetice posibile, atunci teorema limitei centrale asigur urmtorul rezultat:
755 = 800
Z/2 Z/2
Aria de sub Z/2 plus aria de peste +Z/2 reprezint zona critic: dac scorul Z
corespunztor mediei aritmetice a unui eantion cade n aceast arie (i.e. sub Z/2 sau
peste +Z/2), atunci media aritmetic respectiv are prin definiie o probabilitate de
apariie mai mic dect . Scorurile Z/2 i +Z/2 se numesc scoruri Z critice i se
desemneaz, respectiv, prin Z/2 (critic) i +Z/2 (critic).
S revenim iari la exemplul nostru i s stabilim = 0,05. tim c pentru
aceast valoare a lui , Z/2 = 1,96. Z (obinut) se afl n zona critic (3,36 1,96),
dup cum se ilustreaz n figura urmtoare:
1,96 0 1,96
-3,36
Ca atare, suntem ndreptii s respingem ipoteza de nul: probabilitatea de apariie a
mediei aritmetice a eantionului considerat este mai mic dect 0,05 i deci nu poate fi
atribuit ntmplrii. Cu alte cuvinte, diferena dintre media aritmetic a eantionului i
media aritmetic presupus pentru populaie este statistic semnificativ (eantionul de
rezideni difer semnificativ de populaia din care a fost selectat), astfel c ipoteza de
nul poate fi respins.
De notat c decizia pe care am luat-o (respingerea ipotezei de nul) comport un
element de risc: aceast decizie poate fi greit, ntruct este posibil ca eantionul
considerat s fie unul dintre puinele eantioane nereprezentative pentru populaia de
medici rezideni. O trstur foarte important a testrii ipotezelor const din aceea c
probabilitatea de a lua o decizie greit este cunoscut, fiind dat de nivelul ales. n
exemplul nostru, probabilitatea de a lua o decizie greit este de 0,05. A spune c
probabilitatea de a fi respins greit ipoteza de nul este de 0,05 revine la a spune c dac
am repeta acest test de o infinitate de ori, vom respinge greit H0 doar de 5 ori la fiecare
100 de repetri. Rezultatul de mai sus poate fi enunat i spunnd c diferena
menionat este statistic semnificativ la un nivel de ncredere de 95%. Ca i pentru
estimarea intervalelor, nivelurile de ncredere folosite n mod obinuit n testarea
ipotezelor sunt 90%, 95% i 99%.
Testul ntreprins n acest exemplu este bilateral sau nedirecional. n general,
ntr-un astfel de test, ipoteza alternativ enun doar c exist o diferen ntre valoarea
efectiv a parametrului respectiv i valoarea presupus pentru acel parametru. Dup
cum am vzut, n cazul unui test bilateral, zona critic specificat de nivelul se
mparte n mod egal n cele dou extremiti ale distribuiei de eantionare. ntr-un test
bilateral, indiferent de nivelul ales, regula de decizie este urmtoarea:
Se respinge H0, dac Z (obinut) +Z/2 (critic) sau dac Z (obinut) Z/2 (critic)
ntr-un test unilateral sau direcional, dac cercettorul crede c valoarea efectiv a
parametrului este mai mare dect valoarea presupus, Ha ia forma H, iar pentru un
test n sensul opus, Ha ia forma H.. n cazul unui test unilateral, ntreaga zon
critic specificat de nivelul este plasat n extremitatea de interes a distribuiei de
eantionare. De pild, ntr-un test bilateral n care = 0,05, zona critic ncepe de la
Z/2 (critic) = 1,96. ntr-un test unilateral, la acelai nivel , Z (critic) este +1,65 dac
este vorba despre extremitatea superioar (dac Ha este de forma H) i este 1,65
dac este vorba despre extremitatea inferioar (dac Ha este de forma H)31. De notat
c aici folosim Z n loc de Z/2, ntruct ntreaga zon critic este plasat ntr-o singur
extremitate a distribuiei de eantionare.
ntr-un test unilateral, indiferent de nivelul ales, dac Ha este de forma H
(test unilateral dreapta), atunci regula de decizie este
Dac Ha este de forma H (test unilateral stnga) atunci regula de decizie este
Dup cum rezult i din cele de mai sus, un test unilateral este mai bun dect
unul bilateral, deoarece zona critic este tras mai aproape de media aritmetic,
mbuntind astfel probabilitatea de a respinge H0. Astfel, dac cercettorul are mai
mult experien i mai multe cunotine n legtur cu variabila investigat, atunci se
recomand folosirea unui test unilateral, ceea ce cere o ipotez alternativ direcional.
Se obinuiete ca testarea ipotezelor statistice s fie organizat sub forma unui
model n n pai, numrul de pai diferind de la un autor la altul n funcie de anumite
opiuni de compactare sau de detaliere a informaiei. n cele ce urmeaz vom folosi un
model n 4 pai, pe care l exemplificm pentru problema tratat mai sus:
31
Scdem 0,05 din 0,5 (proporia de cazuri aflate de o parte i de alta a mediei aritmetice a distribuiei de
eantionare). Rezultatul scderii este 0,4500. Conform tabelului distribuiei normale standard, scorul Z
corespunztor acestei proporii este 1,65.
Pasul 1. Enunarea ipotezelor
H0: = 800
Ha: 800
X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4
ntruct Z (obinut) se afl n zona critic (3,36 1,96), ipoteza de nul poate fi
respins. Diferena dintre eantionul de medici rezideni i populaia de referin nu
poate fi atribuit ntmplrii sau, altfel spus, aceast diferen este statistic semnificativ
(la un nivel de ncredere de 95%).
H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei
critice
X H 755 800 45 45
Z 3,36
n 152 130 152 11,40 13,4
ntruct Z (obinut) se afl n zona critic (3,36 1,65), ipoteza de nul poate fi
respins i se poate accepta c media aritmetic a populaiei de rezideni este mai mic
dect 800 (la un nivel de ncredere de 95%).
H0 adevrat H0 fals
Se respinge Eroare de
H0 tipul I Decizie corect
Nu se Eroare de
respinge H0 Decizie tipul II
corect
Dup cum se indic n figura 7.1, H0 este n realitate adevrat sau fals i sunt
posibile dou decizii: se respinge H0 sau nu se respinge H0. Ca atare, sunt posibile dou
decizii corecte: respingerea unei ipoteze de nul false i nerespingerea unei ipoteze de
nul adevrate. Corespunztor, sunt posibile dou decizii greite: respingerea unei
ipoteze ne nul care este adevrat, numit eroare de tipul I, i nerespingerea unei
ipoteze de nul care este fals, numit eroare de tipul II. Probabilitatea de a comite o
eroare de tipul I este desemnat prin , iar probabilitatea de a comite o eroare de tipul II
este desemnat prin .
Probabilitatea de a comite o eroare de tipul I este determinat de nivelul ales.
Astfel, atunci cnd se alege un nivel , distribuia de eantionare este mprit n dou
mulimi de rezultate ale eantioanelor posibile: zona critic, ce include toate rezultatele
definite ca improbabile sau rare i care ndreptesc respingerea H0, i zona necritic, ce
const din toate rezultatele definite drept non-rare. Cu ct nivelul este mai mic, cu
att este mai mic zona critic i, corespunztor, este mai mare distana dintre media
aritmetic a distribuiei de eantionare i nceputurile (n cazul unui test bilateral) sau
nceputul (n cazul unui test unilateral) zonei critice. De pild, dac se alege = 0,05,
probabilitatea de a comite o eroare de tipul I este de 0,05: dac H0 este respins, exist 5
anse din 100 ca aceast decizie s fie greit; dac = 0,01, probabilitatea de a comite
o eroare de tipul I este de 0,01: dac H0 este respins, exist doar 1 ans din 100 ca
aceast decizie s fie greit. Prin urmare, pentru a minimiza probabilitatea de a comite
o eroare de tipul I, trebuie s folosim nivele foarte mici.
Pe de alt parte, cu ct nivelul este mai mic, cu att este mai mare zona
necritic i, pstrnd celelalte date constante, este mai puin probabil ca rezultatul
obinut pe eantion s cad n zona critic, deci este mai mare probabilitatea de a comite
o eroare de tipul II.
Prin urmare, cele dou probabiliti sunt invers proporionale, nefiind posibil s
le minimizm pe amndou: dac alegem un nivel foarte mic pentru a pentru a
minimiza probabilitatea de a comite o eroare de tipul I, crete probabilitatea de a comite
o eroare de tipul II. Cu alte cuvinte, dac cretem dificultatea de a respinge ipoteza de
nul, probabilitatea de a nu respinge ipoteza de nul atunci cnd aceasta este fals crete.
n mod normal, n tiinele omului se dorete minimizarea probabilitii erorii de tipul I,
socotit a fi mai grav dect eroarea de tipul II, astfel c se aleg valori mici pentru .
n tabelul urmtor sunt prezentate cteva scoruri Z critice pentru nivele mai
des folosite, att pentru teste bilaterale, ct i pentru teste unilaterale:
Niveluri
test Niveluri , Scoruri Z
bilateral test
unilateral critice
De regul, nivelul = 0,05 este considerat drept un indicator bun al unui rezultat
semnificativ.
X H
Formula 7.2 Z
s n 1
Aceast formul difer de formula 7.1 prin aceea c este nlocuit cu s, iar n este
nlocuit cu n 1 pentru a se corecta distorsiunea lui s.
n cazul eantioanelor cu n 30, distribuia de eantionare este distribuia
tStudent, prezentat n capitolul 6, iar n pasul 3 se folosete urmtoarea formul:
X H
Formula 7.3 t
s n 1
Vom spune c este vorba despre testul scorurilor t pentru medii aritmetice i vom
desemna rezultatul aplicrii formulei 7.3 prin t (obinut).
S presupunem c un cercettor primete informaia neverificat conform creia
media aritmetic a coeficientului de inteligen al participanilor la fazele naionale ale
olimpiadelor de matematic din ultimii 10 ani este de aproximativ 125. Pentru a testa
aceast ipotez, cercettorul selecteaz un eantion aleatoriu de 20 de olimpici la
matematic din ultimii 10 ani i constat c media aritmetic a coeficientului de
inteligen la nivelul eantionului este de 123, abaterea standard la nivelul eantionului
fiind de 8. Cercettorul este interesat s determine la un nivel de ncredere de 99% dac
media aritmetic a coeficientului de inteligen al participanilor la fazele naionale ale
olimpiadelor de matematic din ultimii 10 ani este mai mare de 125. Datele problemei
sunt, deci, urmtoarele:
Populaie Eantion
H = 125 X 123
s=8
n = 20
H0: = 125
Ha: 125
X H 125 123 2
t 1,09
s n 1 8 19 8 4,36
0
+2,539
+1,09
Se respinge H0, dac t (obinut) +t/2 (critic) sau dac t (obinut) t/2 (critic)
Atunci cnd variabila de interes nu este de interval sau de raport, astfel nct s
se justifice calcularea mediei aritmetice, se poate utiliza proporia eantionului (p) n loc
de media aritmetic. n cele ce urmeaz, prezentm un test al ipotezelor pentru proporii,
aplicabil n cazul eantioanelor pentru care np 5 i n(1 p) 5.
n acest test, formula de calcul pentru Z (obinut) are aceeai structur cu
formula 7.1: Z (obinut) este egal cu mrimea pentru eantion minus valoarea presupus
pentru parametrul corespunztor, totul de mprit la abaterea standard a distribuiei de
eantionare. Din capitolul anterior, tim c proporiile pentru eantioane (p) au
distribuii de eantionare aproximativ normale, cu media aritmetic (p) egal cu
proporia pentru populaie (P) i abaterea standard (p) egal cu P(1 P) n . Teoretic,
formula de calcul al testului scorurilor Z pentru proporii este urmtoarea:
p PH
Formula 7.4 Z
P(1 P) n
unde PH este proporia presupus pentru populaie. Acum, valoarea proporiei pentru
populaie, P, nu este cunoscut. Ca i n cazul estimrii intervalelor pentru proporii,
putem estima valoarea lui P prin p, lucrnd cu formula urmtoare:
p PH
Formula 7.5 Z
p(1 p) n
Populaie Eantion
PH = 0,10 p = 0,12
n = 200
H0: P = 0,10
Ha: P 0,10
Ha: 1 2
Ha: 1 2
Prima form corespunde unui test unilateral n care ntreaga zon critic este plasat n
extremitatea dreapt a distribuiei de eantionare, iar cea de-a doua form corespunde
unui test unilateral n care ntreaga zon critic este plasat n extremitatea stng a
distribuiei de eantionare. Dac rezultatul statisticii testului cade n zona critic, atunci
ipoteza de nul poate fi respins, fiind acceptat ipoteza diferenei sub aspectul variabilei
de interes.
Teoretic, formula de calcul al testului scorurilor Z pentru diferena dintre dou
medii aritmetice este urmtoarea:
( X 1 X 2 ) ( 1 2 )
Formula 8.1 Z
x1 x 2
n care X 1 X 2 = diferena dintre mediile aritmetice ale eantioanelor
1 2 = diferena dintre mediile aritmetice ale populaiilor
x1 x 2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
mediile aritmetice ale eantioanelor
n formula 8.1, cel de-al doilea termen al numrtorului, 1 2, este necunoscut. Acest
termen se reduce ns la zero, ntruct testul are loc sub presupunerea c ipoteza de nul,
1 2 = 0, este adevrat. Mai departe, pentru eantioane mari, distribuia de
eantionare a diferenelor dintre mediile aritmetice ale eantioanelor se definete astfel:
12 22
x1 x 2
n1 n2
s12 s 22
Formula 8.2 x1 x 2
n1 1 n 2 1
X1 X 2
Formula 8.3 Z
s12 s2
2
n1 1 n 2 1
Ca i pn acum, vom considera un exemplu. Un cercettor presupune c
brbaii i femeile difer sub aspectul capacitii de rezolvare de probleme. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 127 de subieci
i le administreaz un test de rezolvare de probleme. Eantionul este apoi mprit n
dou subeantioane dup criteriul sex, iar mrimile statistice sunt calculate pentru
fiecare subeantion, datele obinute fiind urmtoarele:
Eantion Eantion
1 2
(brbai) (femei)
X 1 62 X 2 65
s1 = 13 s2 = 14
n1 = 324 n2 = 317
H0: 1 = 2
Ha: 1 2
X1 X 2 62 65 3
Z 2,63
s2
s 2
13 2
14 2 1,14
1
2
n1 1 n2 1 323 316
ntruct Z (obinut) se afl n zona critic (2,63 1,96), ipoteza de nul poate fi
respins, ceea ce reprezint o dovad n sprijinul ipotezei c brbaii i femeile difer
sub aspectul capacitii de rezolvare de probleme. Decizia de a respinge ipoteza de nul
are o probabilitate de doar 0,05 de a fi greit.
8.2 TESTUL SCORURILOR t PENTRU DIFERENA
DINTRE DOU MEDII ARITMETICE
( X 1 X 2 ) ( 1 2 )
Formula 8.4 t
x1 x 2
Ca mai sus, termenul 1 2 se reduce la zero, ntruct testul are loc sub presupunerea
c ipoteza de nul, 1 2 = 0, este adevrat. n cazul testului prezentat n aceast
seciune, formula folosit pentru estimarea abaterii standard a distribuiei de eantionare
este urmtoarea:
n1 s12 n 2 s 22 n n2
Formula 8.5 x1 x 2 1
n1 n 2 2 n1 n 2
Astfel, pentru a afla valoarea lui t (obinut) vom folosi urmtoarea formul:
X1 X 2
Formula 8.6 t
n s n 2 s 22
2
n n2
1 1
1
n1 n 2 2 n1 n 2
Este important de notat c testul scorurilor t pentru dou medii aritmetice poate
fi folosit doar dac cele dou populaii sunt egal dispersate sau, altfel spus, au abaterile
standard egale (1 = 2). Aceast condiie este necesar pentru a justifica supoziia de
normalitate a distribuiei de eantionare i a estima abaterea standard a acesteia.
Egalitatea dispersiilor poate fi testat formal32. Pentru scopuri practice, putem considera
c supoziia 1 = 2 este satisfcut n msura n care eantioanele au dimensiuni
apropiate33.
Un cercettor presupune c o anumit metod modern de predare a matematicii
conduce la rezultate mai bune dect metodele tradiionale. Pentru a verifica aceast
ipotez, cercettorul alctuiete un eantion aleatoriu de 25 de elevi, pe care l mparte
aleatoriu n dou grupuri. Un grup de 12 elevi este repartizat ntr-o clas n care
matematica este predat dup metoda modern, iar cellalt grup de 13 elevi este
repartizat ntr-o clas n care matematica este predat dup metode tradiionale. Dup un
an, ambele grupuri primesc acelai test la matematic, obinnd urmtoarele rezultate:
32
Vezi, de pild, Hinkle, Wiersma i Jurs, 1988, pp. 280 284.
33
Vezi Healey, 1984.
Grupul 1 Grupul 2
(m. (m.
modern) tradiional)
X 1 8,80 X 2 8,20
s1 = 1,70 s2 = 1,20
n1 = 12 n2 = 13
Mediile aritmetice ale grupurilor difer n sensul prezis (1 2). Aplicarea testului t
arat dac aceast diferen este sau nu statistic semnificativ. Fie = 0,05.
H0: 1 = 2
Ha: 1 2
X1 X 2 8,80 8,20
t
n1 s12 n 2 s 22 n n2 12(1,70) 2 13(1,20) 2 25
1
n1 n 2 2 n1 n 2 23 156
0,60 0,60 0,60
0,31
2,32 0,16 1,52 0,4 1,92
( p1 p 2 ) ( P1 P2 )
Formula 8.7 Z
p1 p 2
n care p1 p2 = diferena dintre proporiile eantioanelor
P1 P2 = diferena dintre proporiile populaiilor
p1 p2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
proporiile eantioanelor
n1 n 2
Formula 8.8 p1 p 2 P (1 P )
n1 n 2
n1 p1 n 2 p 2
Formula 8.9 P
n1 n 2
Prin urmare, pentru a afla valoarea lui Z (obinut) vom folosi urmtoarea formul:
p1 p 2
Formula 8.10 Z
n1 n 2
P (1 P )
n1 n 2
Eantion Eantion
1 2
(A) (B)
p1 = 0,34 p2 = 0,25
n1 = 83 n2 = 103
Pasul 1. Enunarea ipotezelor
H0: P1 = P2
Ha: P1 P2
GLOSAR
H0: 1 = 2 = = k
Conform ipotezei alternative, Ha, cel puin o medie aritmetic difer de celelalte.
34
Prescurtarea uzual de la denumirea procedurii n limba englez: Analysis of Variance.
Tabelul 9.1 Calcule iniiale pentru ANOVA, o variabil independent
Distana fa de intervievator
Mic Medie Mare
33 21 20
24 25 13
31 19 15
29 27 10
34 26 14
T1 = 151 T2 = 118 T3 = 72
n1 = 5 n2 = 5 n3 = 5
X 1 = 30,20 X 2 = 23,60 X 3 = 14,40
2
X 1 = 4623 X 22 = 2832 X 32 = 1090
T12 = 22801 T22 = 13294 T32 = 5184
Pentru fiecare grup i, Ti este totalul scorurilor individuale, ni este numrul de subieci,
X i este media aritmetic a scorurilor, X i2 este suma ptratelor scorurilor individuale,
iar Ti 2 este ptratul totalului scorurilor. De notat c grupurile obinute sunt
independente, precum i c formulele de calcul care urmeaz sunt aplicabile i n cazul
n care este vorba despre un numr diferit de subieci n fiecare grup.
n ANOVA pentru o variabil independent se consider dou surse de variaie:
(i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat diferenelor dintre
subiecii din fiecare grup, care poate fi atribuit procesului de eantionare. Pentru
nceput, se calculeaz trei sume de ptrate ale abaterilor fa de medie sau, pe scurt,
sume de ptrate. Vom desemna generic prin SS aceste sume de ptrate35: (1) SSTOTAL
suma ptratelor abaterilor fiecrui scor individual fa de media aritmetic a tuturor
scorurilor, numit i marea medie; (2) SSA suma ptratelor abaterilor fiecrei medii de
grup fa de marea medie; (3) SSEROARE suma ptratelor abaterilor fiecrui scor
individual fa de media aritmetic a grupului respectiv. Litera A din SSA arat c
lucrm cu variana sistematic a variabilei independente A. SSA reflect prima surs de
variaie, iar SSEROARE pe cea de-a doua.
Putem calcula aceste abateri direct pe baza datelor din tabel. ntruct astfel de
calcule sunt greoaie, vom utiliza formule simplificate.
G2
Formula 9.1 SS TOTAL X 2
N
2
n care X = suma ptratelor scorurilor individuale ale tuturor subiecilor din
experiment = X 12 + X 22 + X 32
G 2 = ptratul totalului tuturor scorurilor = (T1 T2 T3 ) 2
N = numrul total de subieci din experiment.
35
Prescurtarea uzual de la denumirea din limba englez Sum of squares.
Dac se efectueaz calculele pe hrtie sau cu un calculator de buzunar, este convenabil
s se afle mai nti X 2 pentru scorurile din fiecare grup, aa cum am fcut n tabelul
de mai sus, dup care s se adune aceste sume. Aplicm formula 9.1:
Atunci cnd calculm SSTOTAL este recomandabil s reinem termenii diferenei, 8545 i
7752,07, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Odat de am calculat SSTOTAL, putem calcula SSA dup urmtoarea formul:
Ti 2 G 2
Formula 9.2 SS A
ni n
n aceast formul, Ti este un simbol general pentru T1, T2 i T3, iar ni este un simbol
general pentru n1, n2 i n3. Astfel, odat ce cantitatea Ti 2 ni este calculat pentru
fiecare grup, cantitile sunt adunate, dup cum arat simbolul . S notm c a doua
parte a formulei 2, G2/N, a fost deja calculat, atunci cnd am obinut SSTOTAL, aa nct
vom prelua direct rezultatul respectiv n calculul SSA:
i aici vom reine unul dintre termenii diferenei, i anume 8381,80, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:
Ti 2
Formula 9.3 SS EROARE X 2
ni
Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA, aa nct vom prelua direct rezultatele respective n calculul
SSEROARE:
Ti 2
SS EROARE X 2 8545 8381,80 163,20
ni
36
Prescurtarea uzual de la denumirea din limba englez Mean squares.
aritmetic pentru SSA, numit variana sistematic i (2) MSEROARE media aritmetic
pentru SSEROARE, numit variana de eroare.
SS A
Formula 9.4 MS A
k 1
SS A 629,73 629,73
MS A 314,87
k 1 3 1 2
SS EROARE
Formula 9.5 MS EROARE
N k
Grade de libertate
Forma exact a unei curbe F depinde de valorile pentru glA i, respectiv, pentru
glEROARE. De notat c folosirea distribuiei F cere ca variabila dependent s fie normal
distribuit n cele k populaii i ca aceste populaii s fie egal dispersate37. n tabelul
distribuiei F (vezi Anexa D) n prima coloan din stnga sunt trecute gradele de
libertate pentru MSEROARE (glEROARE = N k), de la 1 la 120 i . Pe cea de-a doua
coloan din stnga apar nivelele . Pe primul rnd al tabelului apar gradele de libertate
pentru MSA (glA = k 1), de la 1 la 120 i .
37
Supoziia omogenitii dispersiei i cea a normalitii distribuiei, mpreun cu ipoteza de nul, spun c
distribuiile la nivelul populaiilor au aceeai form, aceeai medie aritmetic i aceeai abatere standard
sau, cu alte cuvinte, c este vorba despre una i aceeai populaie.
Figura 9.2 Schema tabelului valorilor critice ale distribuiei F
glA (gl1)
glEROARE 1 2 .120
(gl2)
1 0,25
0,10 ..
0,05 ..
2 . ....
. . ..
. . ..
120 . ..
. ..
. ..
.
Dac intervin doar factori ntmpltori, valoarea ateptat pentru F (obinut) este 1,0.
Cu ct este mai mare valoarea pentru F (obinut), cu att este mai mic probabilitatea ca
rezultatele experimentului s se datoreze ntmplrii. Regula de decizie este urmtoarea:
n exemplul nostru,
MS A 314,87
F 23,15
MS EROARE 13,60
ntruct F (obinut) cade n zona critic (23,15 3,89), vom conchide c rezultatele
experimentului sunt semnificative i vom respinge ipoteza c mediile aritmetice sunt
egale la nivelul populaiei.
n termenii modelului n patru pai, testul ANOVA pentru o variabil
independent, n exemplul nostru, decurge dup cum urmeaz:
H0: 1 = 2 = 3
Ha: Cel puin o medie aritmetic difer de celelalte
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Organizarea calculului ANOVA se face cu ajutorul unui tabel de calcule iniiale (v.
tabelul 9.1), precum i al unui tabel ANOVA rezumativ, numit tabel al surselor de
variaie. Forma general a unui astfel de tabel este urmtoarea:
ntruct, F (obinut) cade n zona critic (23,15 3,89), ipoteza de nul este
respins. La nivelul populaiei, mediile aritmetice ale scorurilor corespunztoare celor
trei distane difer semnificativ. Enunul de probabilitate asociat acestei concluzii este
urmtorul: probabilitatea ca diferena observat ntre mediile aritmetice ale grupurilor s
apar din ntmplare, dac H0 ar fi n realitate adevrat, este mai mic de 0,05.
38
Vezi Hinkle, Wiersma i Jurs, 1988, capitolul 16.
Tabelul 9.3 Calcule iniiale pentru ANOVA, dou variabile independente
Nivelul IQ (B)
Metoda (A)
B1 B2
75 90
70 95
69 89
72 85
Tradiional (A1) 68 91 TA1 = 804
TA1B1 = 354 TA1B2 = 450 nA1 = 10
nA1B1 = 5 nA1B2 = 5 X A1 = 80,40
X A1B1 = 70,80 X A1B2 = 90,00
X 2 A1B1 = 25094 X 2 A1B2 = 40552
85 87
87 94
83 93
90 89
Modern (A2) 89 92
TA2B1 = 434 TA2B2 = 455 TA2 = 788
nA2B1 = 5 nA2B2 = 5 nA2 = 10
X A2B1 = 86,80 X A2B2 = 91,00 X A2 = 88,90
X 2 A2B1 = 37704 X 2 A2B2 = 41439
TB1 = 788 TB2 = 905
nB1 = 10 nB2= 10
X B1 = 78,80 X B2 = 90,50
H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute prin cele dou metode.
H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute de elevii cu nivele IQ diferite.
H01 corespunde variaiei mediilor aritmetice ale scorurilor variabilei dependente din
fiecare categorie a variabilei A. H02 corespunde variaiei mediilor aritmetice ale
scorurilor variabilei dependente din fiecare categorie a variabilei B. H03 corespunde
variaiei mediilor aritmetice ale scorurilor variabilei dependente din categoriile
combinate A B.
n acest caz, se calculeaz cinci sume de ptrate: (1) SSTOTAL, (2) SSA, (3) SSB,
(4) SSA B i (5)SSEROARE.
(T A1B1 T A1B 2 T A2 B1 T A 2 B 2 ) 2
(25094 40552 37704 41439)
N
(354 450 434 455) 2
144789 143312,45 1476,55
20
i aici, atunci cnd calculm SSTOTAL, este recomandabil s reinem termenii diferenei,
144789 i 143312,45, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Formula 9.2 este modificat corespunztor pentru calculul SSA i SSB. Astfel, SSA
se calculeaz cu ajutorul urmtoarei formule:
Ta2 G 2
Formula 9.7 SS A
na n
n aceast formul, Ta este un simbol general pentru TA1 i TA2, iar na este un simbol
general pentru nA1 i nA2. Prin urmare, atunci cnd calculm SSA, lum n considerare
doar grupurile variabilei independente A.
Tb2 G 2
Formula 9.8 SS B
nb n
n aceast formul, Tb este un simbol general pentru TB1 i TB2, iar nb este un simbol
general pentru nB1 i nB2. Prin urmare, atunci cnd calculm SSB, lum n considerare
doar grupurile variabilei independente B.
Tab2 G 2
Formula 9.9 SS A B SS A SS B
n ab N
n aceast formul, Tab este un simbol general pentru TA1B1, TA1B2, TA2B1 i TA2B2, iar nab
este un simbol general pentru nA1B1, nA1B2, nA2B1 i nA2B2. Prin urmare, atunci cnd
calculm SSA B, lum n considerare grupurile constituite dup categoriile combinate
A B.
T 2 T2 T2 T 2 G2
SS A B A1B1 A1B 2 A 2 B1 A 2 B 2 SS A SS B
n A1B1 n A1B 2 n A2 B1 n A2 B 2 N
354 2 450 2 434 2 455 2
= 143312,45 361,25 684,25
5 5 5 5
144639,40 143312,45 361,25 684,45 281,25
i aici vom reine unul dintre termenii diferenei, i anume 144639,40, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:
Tab2
Formula 9.10 SS EROARE X 2
n ab
Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA B, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:
Tab2
SS EROARE X 2 144789 144639,40 149,60
n ab
De notat c SSTOTAL = SSA + SSB + SSA B + SSEROARE. Aceast relaie poate fi utilizat
pentru a controla corectitudinea calculelor.
Mediile aritmetice ale sumelor de ptrate pentru fiecare surs de varian se
calculeaz prin mprirea sumei de ptrate respectiv la numrul corespunztor de
grade de libertate.
SS A
Formula 9.11 MS A
kA 1
SS A 361,25
MS A 361,25
kA 1 2 1
SS B
Formula 9.12 MS B
kB 1
n formula 13, (kA 1)(kB 1) este numrul de grade de libertate asociat SSA B, notat cu
glA B. n exemplul nostru,
SS A B 281,25
MS A B 281,25
(k A 1)(k B 1) (2 1)(2 1)
SS EROARE
Formula 9.14 MS EROARE
N k AkB
n formula 14, N kAkB este numrul de grade de libertate asociat SSEROARE, notat cu
glEROARE.
MS A
Formula 9.15 FA
MS EROARE
MS A 361,25
FA 38,64
MS EROARE 9,35
MS B
Formula 9.16 FB
MS EROARE
MS B 684,45
FB 30,08
MS EROARE 9,35
MS A B
Formula 9.17 FA B
MS EROARE
MS A B 281,25
FA B 30,08
MS EROARE 9,35
H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute prin cele dou metode.
Ha1: La nivelul populaiei mediile aritmetice ale rezultatelor obinute prin cele
dou metode difer.
H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice ale
rezultatelor obinute de elevii cu nivele IQ diferite.
Ha2: La nivelul populaiei mediile aritmetice ale rezultatelor obinute de elevii cu
nivele IQ diferite difer.
39
Evident, dac cele trei grade de libertate ar fi fost diferite, am fi avut trei valori pentru F (critic).
A SSA kA 1 MSA MSA/MSEROARE
B SSB kB 1 MSB MSB/MSEROARE
A B SSAB (kA 1)(kB MSAB MSAB/MSEROARE
1)
EROARE SSEROARE N kAkB MSEROARE
TOTAL SSTOTAL N1
n exemplul nostru, avem urmtorul tabel:
ntruct fiecare valoare pentru F (obinut) este mai mare dect valoarea pentru F
(critic), se resping cele trei ipoteze de nul. Pentru efectul principal al variabilei A,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute prin
cele dou metode difer semnificativ. Pentru efectul principal al variabilei B, concluzia
este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute de elevii cu
nivele IQ diferite difer semnificativ. Enunul de probabilitate asociat ambelor concluzii
este urmtorul: probabilitatea ca diferenele observate ntre mediile aritmetice ale
grupurilor constituite dup categoriile unei variabile independente s apar din
ntmplare, dac H0 respectiv ar fi n realitate adevrat, este mai mic de 0,05 (i dup
cum am vzut, chiar dect 0,01).
Pentru interaciune, concluzia este c la nivelul populaiei exist o interaciune
ntre metoda de instruire i nivelul IQ al subiecilor. Enunul de probabilitate asociat
acestei concluzii este urmtorul: probabilitatea ca diferenele observate ntre mediile
aritmetice ale scorurilor din categoriile combinate ale celor dou variabile s apar din
ntmplare, dac H03 ar fi n realitate adevrat, este mai mic de 0,05 (i dect 0,01).
n acest tabel, Ts se refer la totalul scorurilor acordate de fiecare subiect pentru cele
dou femei, Ts2 este ptratul acestui total, iar Ts2 este suma acestor ptrate pentru toi
subiecii.
Principala diferen dintre ANOVA pentru eantioane dependente i ANOVA
pentru o variabil independent const n aceea c efectul diferenelor dintre subieci
devine o surs de varian. n ANOVA pentru eantioane dependente apar patru surse de
varian i deci se calculeaz patru sume de ptrate: (1) SSTOTAL, (2) SSA, (3) SSSUBIECI i
(4)SSEROARE. SSTOTAL se calculeaz cu ajutorul formulei 9.1:
G2 (39 52) 2
SS TOTAL X 2 = (201 + 352) = 553 517,56 = 35,44
N 16
Ta2 G 2 39 2 52 2
SS A = 517,56 = 10,57
na n 8
TS2 G 2
Formula 9.18 SS SUBIECTI
nS n
Termenul nS se refer la numrul de eantioane dependente din experiment sau la
numrul de scoruri pe care le d fiecare subiect, astfel c n exemplul nostru, nS = 2.
TS2 G 2 1067
SS SUBIECTI 517,56 15,94
nS n 2
GLOSAR
Testul chiptrat (2) este aplicabil atunci cnd nivelul de msur este nominal,
datele fiind frecvene numrul de cazuri care fac parte din categoriile variabilelor
(variabilei) considerate. Esena acestui test const din compararea frecvenelor
observate frecvenele efective obinute empiric de ctre cercettor cu frecvenele
teoretice sau ateptate frecvenele calculate sub presupunerea c ipoteza de nul este
adevrat. Testul examineaz msura n care frecvenele observate sunt sau nu
semnificativ diferite de frecvenele care sunt ateptate dac ipoteza de nul este
adevrat.
Distincia dintre frecvenele observate i cele ateptate poate fi neleas cu
ajutorul urmtorului exemplu intuitiv. S presupunem c avem un zar i dorim s
verificm ipoteza c zarul este nemsluit. Pentru aceasta, aruncm zarul de 300 de ori i
observm frecvena de apariie a fiecrei fee. Dac ipoteza menionat este adevrat,
ne-am atepta ca fiecare fa s apar de aproximativ 50 de ori. Acum, s presupunem
c observm urmtoarele frecvene de apariie:
Faa Numr de
apariii
1 42
2 55
3 38
4 57
5 64
6 44
Dou variabile sunt independente reciproc dac, pentru toate cazurile din
eantionul considerat, clasificarea unui caz ntr-o categorie a unei variabile nu are nici
un efect asupra probabilitii ca acel caz s fie clasificat n oricare dintre categoriile
celeilalte variabile41. De pild, s presupunem c variabilele de interes sunt sexul i
dominana funcionaloperativ a minilor pentru un eantion de 50 de brbai i 50 de
femei. Aceste dou variabile sunt independente reciproc n condiiile n care clasificarea
subiecilor n categoriile unei variabile (masculin feminin) nu are nici un efect asupra
clasificrii cazurilor n categoriile celeilalte variabile (dreapta, stnga, ambidextru).
Acum, s presupunem c am efectuat un astfel de studiu i am obinut urmtoarele date:
Sexul
Dominana Masculin Feminin TOTAL
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100
41
A nu se confunda cazul independenei reciproce a dou variabile cu situaiile experimentale n care apar
dou variabile independente, i.e. manipulate de experimentator.
Pentru a afla frecvena ateptat pentru fiecare celul a tabelului, folosim
urmtoarea formul:
fr fc
Formula 10.1 fa
n
n care f r marginalul rndului pe care este situat celula respectiv
f c marginalul coloanei pe care este situat celula respectiv
n = numrul total de cazuri din eantion
Masculin Feminin
50 50 50 50
Dreapta 25 25
100 100
40 50 40 50
Stnga 20 20
100 100
10 50 10 50
Ambidextru 5 5
100 100
( fo fa )2
Formula 10.2 2
fa
n care f o frecvenele observate n celulele tabelului
f a frecvenele ateptate
fo fa fo fa ( fo fa )2 ( fo fa )2 fa
15 25 10 100 4
30 20 10 100 5
5 5 0 0 0
35 25 10 100 4
10 20 10 100 5
5 5 0 0 0
100 100 0 18 = 2
De notat c suma frecvenelor observate este egal cu suma frecvenelor ateptate i c
suma diferenelor f o f a este egal cu 0. Aceste relaii pot fi folosite la verificarea
calculelor pentru 2 (obinut).
Distribuia de eantionare folosit n acest test este distribuia 2. Ca i n cazul
distribuiei tStudent, este vorba despre o familie de distribuii 2, fiecare fiind o funcie
de un anumit numr de grade de libertate. n cazul testului chiptrat pentru
independen, numrul de grade de libertate se calculeaz cu ajutorul urmtoarei
formule:
Un tabel cu trei rnduri i dou coloane (un tabel 3 2) are (3 1)(2 1) = 2 grade de
libertate42. Spre deosebire de distribuia tStudent, care este simetric, distribuia 2
prezint, ca i distribuia F, o asimetrie pozitiv, dup cum se ilustreaz n figura 10.1.
Grade de libertate
ntruct n exemplu nostru gl = 2, dac stabilim = 0,05, scorul 2 (critic) este 5,991.
Deoarece 2 (obinut) cade n zona critic (18,00 5,991), se poate respinge ipoteza de
nul i se poate conchide c variabilele respective nu sunt reciproc independente: sexul
influeneaz dominana funcionaloperative a minilor.
n termenii modelului n patru pai, testul decurge dup cum urmeaz:
42
Un tabel 3 2 are dou grade de libertate deoarece, odat ce frecvenele din dou celule au fost
determinate, frecvenele din celelalte celule sunt fixate, i.e. nu mai sunt libere s varieze.
Pasul 1. Enunarea ipotezelor
( fo fa )2
2
18
fa
20% rani
30% muncitori industriali
30% funcionari
15% mici ntreprinztori
5% manageri industriali
Cercettorul alctuiete un eantion aleatoriu de 864 de persoane ocupate din zona
respectiv i le clasific n categoriile menionate. Frecvenele observate pentru aceste
categorii sunt urmtoarele:
145 rani
310 muncitori industriali
305 funcionari
78 mici ntreprinztori
26 manageri industriali
( fo fa )2
2
fa
Formula 10.4 f a np
Ocupaia fo fa fo fa ( fo fa )2 ( fo fa )2 fa R
ran 145 172,80 27,80 772,84 4,47 2,12
Muncitor 310 259,20 50,80 2580,64 9,96 3,16
industrial
Funcionar 305 259,20 45,80 2097,64 8,09 2,84
Mic 78 129,60 51,60 2662,56 20,54 4,53
ntreprinztor
Manager 26 43,20 17,20 295,84 6,85 2,63
industrial
TOTAL 864,00 864,00 0 49,91 = 2
De notat c frecvenele ateptate sunt exact acele frecvene pe care le-am ntlni dac
proporiile cazurilor din eantion ar fi acelai cu proporiile cazurilor pentru populaie.
n cazul testului chiptrat pentru concordan, numrul de grade de libertate se
calculeaz cu ajutorul urmtoarei formule:
Formula 10.5 gl = k 1
ntruct n exemplul nostru sunt considerate cinci categorii ale variabilei ocupaie, avem
patru grade de libertate43. Pentru = 0,05 i gl = 4, 2 (critic) = 9,488.
Testul formal este urmtorul:
H0: Nu exist nici o diferen ntre proporiile din eantion i cele pentru
populaie
Ha: Proporiile din eantion difer de cele pentru populaie
( fo fa )2
2 49,91
fa
fo fa
Formula 10.6 R
fa
Valorile reziduurilor standard pentru fiecare categorie din exemplul de mai sus se
gsesc n tabelul 10.3. Atunci cnd valoarea absolut (modulul) reziduului standard
43
Aceasta nseamn c, odat ce frecvenele a oricare patru categorii sunt determinate, frecvena
categoriei rmase este fixat.
pentru o categorie este mai mare dect 2,00, se poate conchide c acea categorie are o
contribuie major la valoarea semnificativ a lui 2 (obinut). n exemplul de mai sus,
toate reziduurile standard n valoare absolut sunt mai mari dect 2,00. Prin urmare,
toate categoriile contribuie major la valoarea semnificativ a lui 2 (obinut), ceea ce
nseamn c ntreaga distribuie din eantion nu concord cu distribuia presupus de
cercettor.
Dup Nu
14 6
lectura
docu-
A B
mentelor
Da 16 2
C D
38
( A D) 2
Formula 10.6 2
A D
( A D) 2 (14 2) 2 12 2 144
2 9,00
A D 14 2 16 16
ntruct 2 (obinut) cade n zona critic (9,00 3,841), se poate respinge ipoteza
de nul. Exist o diferen statistic semnificativ ntre numrul de schimbri ntr-o
direcie i numrul de schimbri n cealalt direcie (o diferen care nu poate fi pus pe
seama ntmplrii). Din tabelul 10.4 rezult c mai multe femei salariate i-au schimbat
opinia de la Da la Nu dect de la Nu la Da, iar testul arat c aceast diferen este
statistic semnificativ.
Cu toate acestea, se obinuiete ca diferena dintre dou ranguri imediat succesive s fie
egal cu unitatea.
Testul MannWhitney U comport dou variante, n funcie de dimensiunile
eantioanelor. Prezentm mai nti testul pentru eantioane mici (n1 20 i n2 20).
S presupunem c ne preocup diferena pe sexe privind nivelul de satisfacie n
raport cu serviciile sociale oferite ntr-un campus universitar. Pentru aceasta, selectm
aleatoriu dou eantioane de studeni, biei i fete, cu n1 = 10 i n2 = 10, i administrm
o scal n care un scor nalt indic un nivel nalt de satisfacie. Scorurile obinute sunt
prezentate n tabelul 10.5.
Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considerm scorurile combinate ale celor dou eantioane ca i
cum ar fi vorba despre un singur eantion i atribuim ranguri scorurilor combinate, de la
cel mai mic la cel mai mare scor. Astfel, atribuim rangul 1 celui mai mic scor (5), rangul
2 scorului imediat urmtor (9) .a.m.d. pn la cel mai mare scor (45). Dac ntlnim
dou sau mai multe scoruri identice (dou sau mai multe cazuri cu acelai scor),
procedm dup cum urmeaz:
considerm rangurile pe care aceste scoruri le-ar fi avut dac ar fi fost diferite i
imediat succesive;
calculm media aritmetic a acestor ranguri;
atribuim fiecrui scor rangul mediu astfel obinut.
n1 (n1 1)
Formula 10.7 U 1 n1 n 2 R1
2
n (n 1)
Formula 10.8 U 1 n1 n 2 2 2 R 2
2
De remarcat c ipoteza de nul se respinge dac valoarea obinut este mai mic dect
cea critic. Aceast regul difer de regulile de decizie din cele mai multe teste de
semnificaie, n care ipoteza de nul este respins dac valoarea obinut este mai mare
dect cea critic.
Dac se poate prezice c scorurile populaiei 1 sunt mai mari dect cele ale
populaiei 2, regula de decizie este
iar dac se poate prezice c scorurile populaiei 1 sunt mai mici dect cele ale populaiei
2, regula de decizie este
n1 (n1 1) 10 11
U 1 n1 n 2 R1 (10 10) 85,5 100 55 85,5 69,5
2 2
n (n 1) 10 11
U 1 n1 n 2 2 2 R2 (10 10) 124,5 100 55 124,5 30,5
2 2
U min(U 1 , U 2 ) 30,5
U U
Formula 10.10 Z
U
n care U = media aritmetic a distribuiei de eantionare a valorilor U pentru toate
eantioanele posibile
U = abaterea standard a distribuiei de eantionare a valorilor U pentru toate
eantioanele posibile
n1 n 2 (n1 n 2 1)
Formula 10.12 U
12
n1 n 2
U
Formula 10.13 Z 2
n1 n 2 (n1 n 2 1)
12
Mai nti, aranjm scorurile din fiecare eantion n ordine cresctoare (sau
descresctoare). Apoi, considernd scorurile combinate ale celor dou eantioane ca i
cum ar fi vorba despre un singur eantion i aflm mediana scorurilor combinate.
Pentru a nlesni aflarea medianei scorurilor combinate este recomandabil s acordm
ranguri scorurilor. ntruct avem un numr par de cazuri (20), mediana va fi media
aritmetic a scorurilor celor dou cazuri de mijloc, 31 i 32:
~ 31 32
X 31,5
2
Cu ajutorul unui tabel 2 2, prezentm pentru fiecare eantion numrul de scoruri aflate
deasupra i sub mediana scorurilor combinate:
Eantion 1 Eantion 2
Deasupra
7 3 10
medianei
Sub A B
median
3 7 10
C D
10 10 20
n( AD BC ) 2
Formula 10.14 2
( A B)(C D)( A C )( B D)
H0: ~1 ~ 2
Ha: ~1 ~ 2
n( AD BC ) 2 20(7 7 3 3) 2
2
3,20
( A B)(C D)( A C )( B D) 10 10 10 10
FF B FFFF BB F BBBB F B F B F B
1 2 3 4 5 6 7 8 9 10 11 12
Cele dou litere F din extrema stng reprezint dou studente care au cele mai mici
scoruri din ambele eantioane; urmtoarea liter, B, reprezint un student cu scorul
urmtor n ordine cresctoare .a.m.d. De notat c nici o iteraie alctuit din elemente
de un anumit tip nu se nvecineaz cu o iteraie alctuit din elemente de acelai tip.
Dac, de pild, am considera primul element al iteraiei 3 drept o iteraie distinct,
atunci aceasta s-ar nvecina la dreapta cu o iteraie alctuit din elemente de acelai tip,
F.
Diferena dintre eantioane, i deci dintre populaii, este cu att mai
semnificativ, cu ct numrul de iteraii este mai mic. Cel mai mic numr de iteraii
posibil este, desigur, 2. n exemplul de mai sus, dac toi studenii ar exprima o
satisfacie mai mare dect studentele n raport cu serviciile sociale din campus, am fi
obinut urmtoarele dou iteraii:
BBBBBBBBBB FFFFFFFFFF
1 2
Evident, numrul maxim posibil de iteraii este egal cu numrul de cazuri din cele dou
eantioane.
Este important de reinut c n aplicarea acestui test, cazurile care nu fac parte
din acelai eantion i au scoruri identice pot crea probleme serioase, deoarece numrul
de iteraii poate fi mult afectat de felul n care sunt aranjate cazurile cu scoruri identice.
Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite este recomandabil
s folosim alt test de semnificaie.
Distribuia de eantionare pentru iteraii aproximeaz normalitatea. Media
aritmetic a acestei distribuii ( R ) i abaterea sa standard ( R ) se calculeaz cu
ajutorul urmtoarelor formule:
2n1 n 2
Formula 10.15 R 1
n1 n 2
2n1 n 2 (2n1 n 2 n1 n 2 )
Formula 10.16 R
(n1 n 2 ) 2 (n1 n 2 1)
R R
Formula 10.17 Z
R
n care R = numrul de iteraii.
Brbai Femei
Cazul Scorul Cazul Scorul
1 1 21 0
2 1 22 0
3 2 23 4
4 2 24 4
5 3 25 6
6 5 26 6
7 5 27 8
8 7 28 12
9 9 29 12
10 10 30 13
11 10 31 14
12 15 32 16
13 17 33 16
14 17 34 21
15 18 35 21
16 19 36 21
17 20 37 25
18 22 38 26
19 22 39 27
20 23 40 27
n aceste date se afl 15 iteraii i putem acum s aplicm testul formal pentru
semnificaie.
2n1 n 2 2 20 20
R 1 1 21
n1 n 2 20 20
2n1 n 2 (2n1 n 2 n1 n 2 ) 2 20 20(2 20 20 20 20
R 3,12
(n1 n 2 ) (n1 n 2 1)
2
(20 20) 2 (20 20 1)
R R 15 21
Z 1,92
R 3,12
Ranguri cu
Scorul Scorul Scorul Rangul cel mai
Cazul pretratament posttratament diferen diferenei puin
frecvent
semn
1 36 21 15 11
2 23 24 1 1 1
3 48 36 12 10
4 54 30 24 12
5 40 32 8 7
6 32 35 3 3 3
7 50 43 7 6
8 44 40 4 4
9 36 30 6 5
10 29 27 2 2
11 33 22 11 9
12 45 36 9 8
T (obinut) =
4
3. Se nsumeaz valorile absolute ale rangurilor cu semnul care are cele mai
puine apariii; rezultatul nsumrii reprezint valoarea pentru T (obinut).
n(n 1)
Formula 10.18 T
4
n(n 1)(2n 1)
Formula 10.19 T
24
n aceste formule, n reprezint numrul de cazuri din fiecare eantion sau, altfel spus,
numrul de perechi de cazuri alctuite din cele dou eantioane. Z (obinut) se
calculeaz cu urmtoarea formul:
T T
Formula 10.20 Z
T
Considernd scorurile combinate ale celor trei eantioane i ordonate cresctor, atribuim
rangul 1 celui mai mic scor (46), rangul 2 scorului imediat urmtor (48) .a.m.d. pn la
cel mai mare scor (73). Dac ntlnim dou sau mai multe scoruri identice, procedm n
maniera indicat n cazul testului MannWhitney U. Calculm apoi suma rangurilor
pentru fiecare eantion.
Ipoteza de nul pentru testul KruskalWallis H este analog ipotezei de nul
pentru testul ANOVA unifactorial, fiind ns enunat n termeni mai generali: nu exist
nici o diferen n privina scorurilor celor k populaii din care au fost alctuite
eantioanele sau, altfel spus, populaiile din care au fost alctuite eantioanele sunt
identice sub aspectul variabilei de interes. Ipoteza alternativ enun c cel puin dou
dintre cele k populaii difer sub aspectul variabilei de interes.
De notat c o condiie de aplicabilitate a acestui test este ca fiecare eantion j s
conin un numr de cazuri nj 5.
Calcularea statisticii testului const din aflarea valorii unei mrimi statistice, H,
cu ajutorul urmtoarei formule:
k Rj
12
2
Formula 10.21 H 3( N 1)
N ( N 1) j 1 n j
n care N = numrul total de cazuri din cele k eantioane
Rj = suma rangurilor din eantionul j, j = 1,2, , k
nj = numrul de cazuri din eantionul j, j = 1,2, , k
k Rj
12
2
H 3( N 1)
N ( N 1) j 1 n j
12 29 2 46 2 78 2
3(17 1) 7,86
17 (17 1) 6 5 6
GLOSAR
Se spune c dou variabile sunt corelate, dac distribuia scorurilor uneia dintre
acestea se schimb sub influena scorurilor celeilalte.
S presupunem c ne intereseaz relaia dintre satisfacia fa de meseria
practicat i productivitatea muncii pentru muncitorii unei fabrici. Dac aceste dou
variabile sunt corelate, atunci nivelele de productivitate a muncii vor varia sub influena
nivelelor de satisfacie. Tabelul 11.1 prezint relaia n discuie pentru un eantion de
173 de muncitori (date fictive).
Satisfacia fa de
Productivitatea meserie (X) TOTAL
(Y) Sczut Medie nalt
nalt 10 15 27 52
Medie 20 25 18 63
Sczut 30 21 7 58
TOTAL 60 61 52 173
Ca i pn acum, ntr-un tabel cu dubl intrare vom urma convenia tacit de a lua
denumirile categoriilor variabilei independente (X) drept capete de coloane, iar
denumirile categoriilor variabilei dependente (Y) drept capete de rnduri.
ntr-un astfel de tabel, distribuiile de frecvene pe coloan sunt numite
distribuii condiionate ale variabilei dependente, deoarece prezint distribuia
scorurilor variabilei dependente pentru fiecare scor (condiie) al (a) variabilei
independente. De pild, n tabelul 11.1, prima coloan din stnga arat c din 60 de
muncitori cu satisfacie sczut fa de meseria practicat, 10 sunt nalt productivi, 20
sunt mediu productivi, iar 30 au o productivitate sczut. Inspectarea acestor distribuii
condiionate ne permite s observm efectele variabilei independente asupra variabilei
dependente. Astfel, constatm c distribuiile condiionate ale variabilei productivitate
se schimb n funcie de diferitele scoruri ale variabilei satisfacie. De pild, jumtate
dintre muncitorii cu satisfacie sczut fa de meserie (30) au o productivitate sczut,
n timp ce peste jumtate dintre muncitorii cu satisfacie nalt fa de meserie (27) au o
productivitate nalt. Aceasta arat c productivitatea n munc i satisfacia fa de
meseria aleas sunt corelate.
n tabelul 11.1, compararea distribuiilor condiionate ale variabilei dependente
este uor de fcut, deoarece marginalele coloanelor au valori apropiate. n mod obinuit,
nu aceasta este situaia i de aceea este util s controlm distribuiile condiionate care
dau totaluri diferite prin calcularea procentelor corespunztoare n sensul variabilei
independente (pe coloane) i apoi s le comparm n sensul variabilei dependente (pe
rnduri). n tabelul 11.2 sunt prezentate procentele pentru datele din tabelul 11.1 (valori
rotunjite), calculate n modul indicat.
Satisfacia fa de
Productivitatea meserie (X)
(Y) Sczut Medie nalt
nalt 17% 25% 52%
Medie 33 41 35
Sczut 50 34 13
TOTAL 100% 100% 100%
(60) (61) (52)
Orice corelaie, pozitiv sau negativ, poate fi apreciat dup tria sau puterea
sa. Un caz extrem este cel al corelaiei perfecte. Corelaia dintre dou variabile este
perfect, dac fiecare scor al unei variabile este asociat cu un singur scor al celeilalte
variabile, astfel c scorurile unei variabile pot fi determinate exact pe baza cunoaterii
scorurilor celeilalte variabile. Dac, de pild, ntre nivelul de educaie i vizionarea
programelor TV ar fi o corelaie (negativ) perfect, atunci ntr-un tabel cu dubl intrare
pentru aceste variabile, toate cazurile de pe fiecare coloan ar fi localizate ntr-o singur
celul, ceea ce ar arta c nu exist nici o variaie a variabilei Y pentru orice scor dat al
variabilei X. O astfel de situaie este prezentat n tabelul 11.4.
Tabelul 11.4 Nivelul de educaie i vizionarea programelor TV
(ilustrare pentru corelaie negativ perfect)
44
Adaptat dup D. E. Hinkle, W. Wiersma i S. G. Jurs, 1988, p. 118.
0,50) moderat
+0,01 +0,30 (0,01 Corelaie pozitiv (negativ) inexistent sau
0,30) foarte slab
Cele mai utilizate mrimi ale corelaiei dintre variabile msurate la nivel
nominal sunt coeficientul , coeficientul de contingen C, coeficientul V al lui
Cramer i coeficientul .
Coeficienii , C i V sunt mrimi ale corelaiei bazate pe 2. Coeficientul se
calculeaz cu ajutorul urmtoarei formule:
2
Formula 11.1
n
S considerm din nou tabelul 10.1, n care se prezentau datele (fictive) ale unui studiu
privind sexul i dominana funcionaloperativ a minilor, reprodus aici ca tabelul
11.5.
Sexul
Dominana Masculin Feminin TOTAL
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100
Dup cum am constatat prin aplicarea testului 2, relaia dintre cele dou
variabile este statistic semnificativ, i.e valoarea 2 (obinut) = 18 s-a dovedit a fi
semnificativ la un nivel de ncredere de 95%. Ceea ce ne intereseaz acum este tria
corelaiei. Aplicnd formula 11.1, obinem:
2 18
0,42
n 100
Valoarea = 0,42 indic o corelaie cel mult moderat ntre sex i dominana
funcionaloperativ a minilor. Relaia dintre aceste variabile este statistic
semnificativ (2), dar nu este puternic. Problema este c ia valori cuprinse ntre 0
(nici o corelaie) i 1 (corelaie perfect) numai pentru tabele 2 2. Pentru tabelele de
mare dimensiune, poate depi valoarea 1, ceea ce face ca interpretarea acestui
coeficient s devin problematic. Oricum, dup cum vom vedea, valoarea lui
obinut pentru exemplul de mai sus este foarte apropiat de valorile obinute prin
calcularea celorlali coeficieni de corelaie menionai.
Coeficientul C se calculeaz cu ajutorul urmtoarei formule:
2
Formula 11.2 C
n 2
2 18
C 0,39
n 2
100 18
2
Formula 11.3 V
n(q 1)
n care q este cea mai mic dintre valorile numerice r (numr de rnduri) i c (numr de
coloane) pentru tabelul respectiv. Aplicnd formula 11.3 la datele din tabelul 11.5
obinem:
2 18
V 0,42
n(q 1) 100(2 1)
Dup cum se poate constata, rezultatul obinut prin calcularea coeficientului V este
acelai cu cel obinut prin calcularea coeficientului . Coeficientul V are valoarea
maxim 1, dar numai pentru tabele mai mari de 2 2.
Cu toate deficienele lor, ntruct sunt uor de calculat, coeficienii , C i V pot
fi folosii n calitate de primi indici ai importanei unei corelaii.
n situaii de cercetare mai pretenioase se obinuiete s se utilizeze coeficientul
., care ia valori cuprinse ntre 0 i 1. n cazul n care nu se dorete sau nu se poate
identifica variabila independent, se folosete varianta simetric a coeficientului , a
crui formul de calcul este urmtoarea:
c r
Apartenena religioas
Atitudinea Cretin- Nici TOTAL
ortodox Catolic Altele una
Favorabil 5 10 9 14 38
Neutr 10 14 12 6 42
mpotriv 25 11 4 10 50
TOTAL 40 35 25 30 130
n
x 1
mx 25 14 12 14 65
r
n
y 1
my 14 14 25 53
n mc 40
n mr 50
c r
n mx n my n mc n mr
x 1 y 1 65 53 40 50
0,16
2n n mc n mr 2(130) 40 50
n mx n mr
Formula 11.5 y x 1
n n mr
n mx n mr
65 50
y x 1
0,19
n n mr 130 50
Pentru cele mai multe situaii de cercetare, interpretarea celor dou variante ale
coeficientului este similar interpretrii coeficienilor C i V. Pentru exemplul
considerat aici, putem conchide c cele dou variabile sunt corelate, dar c aceast
corelaie este foarte slab45.
n cele ce urmeaz, cazurile care fac parte din aceeai categorie a unei variabile
vor fi numite cazuri legate ale variabilei respective.
Pentru a calcula coeficientul , sunt necesare dou cantiti, notate cu Na i
respectiv Nd. Cantitatea Na reprezint numrul total de perechi de cazuri nelegate i
dispuse n aceeai ordine n privina ambelor variabile. Cantitatea Nd reprezint numrul
total de perechi de cazuri nelegate i ordonate diferit n privina celor dou variabile.
Pentru aflarea acestor dou cantiti, vom lucra cu frecvenele celulelor, considernd
celul cu celul.
Pentru nlesnirea referirii la celulele unui tabel n m vom numerota rndurile de
la 1 la n ncepnd de sus n jos i, de asemenea, coloanele de la 1 la m ncepnd de la
stnga la dreapta; pentru fiecare celul, vom folosi o notaie de forma cij, n care i este
numrul rndului, iar j numrul coloanei. Pentru un tabel 3 3, cum este 11.7, avem:
45
Pentru o prezentare detaliat a coeficientului ca o mrime a reducerii proporionale a erorilor (RPE),
vezi Healey, 1984, pp. 223-228.
46
, d i b pot fi interpretai ca mrimi ale RPE (vezi ibidem, cap. 14).
X. Evident, dac alctuim perechi din aceeai celul, obinem perechi de cazuri legate n
privina ambelor variabile. Dac, ns, alctuim perechi selectnd un caz dintr-o celul
cij i un caz dintr-o celul situat deasupra i la dreapta celulei cij, cazurile din perechile
astfel obinute sunt nelegate i dispuse n aceeai ordine n privina ambelor variabile.
De pild, dac alctuim o pereche selectnd un caz din celula c31 i un caz din celula c12,
cazul din celula c31 are o vechime mai mic dect cazul din celula c12 i la fel, cazul din
celula c31 are un nivel de descurajare profesional mai mic dect cazul din celula c12.
Numrul total de perechi de cazuri alctuite selectnd un caz din celula c31 i un caz din
celula c12 se afl nmulind frecvenele din cele dou celule: 20 11 = 220. Cu alte
cuvinte, contribuia acestor dou celule la cantitatea Na este de 220 de perechi.
Procednd la fel pentru fiecare dintre celelalte trei celule situate deasupra i la dreapta
celulei c31 (c13, c22 i c23) i adunnd produsele astfel obinute aflm numrul total de
perechi de cazuri alctuite selectnd un caz din celula c31 i un caz din fiecare celul
situat deasupra i la dreapta celulei c31:
20(11 + 21 + 15 + 5) = 1040
Prin urmare, pentru a afla cantitatea Na, se nmulete frecvena din fiecare celul
cu suma frecvenelor din toate celulele situate deasupra i la dreapta celulei respective,
dup care se adun produsele astfel obinute. De notat c nici una dintre celulele situate
pe primul rnd sau pe ultima coloan nu poate contribui la Na, deoarece nu exist celule
situate deasupra i la dreapta acestora. Calcularea Na pentru tabelul 11.7 decurge dup
cum urmeaz:
n tabelul 11.7, un numr total de 1831 de perechi de cazuri sunt nelegate i dispuse n
aceeai ordine n privina ambelor variabile i un numr total de 499 de perechi de
cazuri sunt nelegate ordonate diferit n privina celor dou variabile.
Coeficientul se calculeaz cu ajutorul urmtoarei formule:
Na Nd
Formula 11.6
Na Nd
N a N d 1831 499
0,57
N a N d 1831 499
n tabelul 11.7 avem un numr total de 986 de perechi de cazuri legate ale variabilei
dependente i un numr total de 970 de perechi de cazuri legate ale variabilei
independente.
Coeficientul d al lui Somer se calculeaz cu ajutorul urmtoarei formule:
Na Nd
Formula 11.7 d
N a N d Ly
Na Nd 1831 449
d 0,40
N a N d L y 1831 449 986
Aceast valoare a coeficientului d indic o corelaie pozitiv cel mult moderat ntre
cele dou variabile.
Dup cum se poate constata, coeficientul d este o mrime asimetric a corelaiei.
Dac variabila ale crei categorii sunt capete de rnduri este luat drept variabil
independent, atunci se calculeaz numrul de perechi de cazuri pe coloane i nu pe
rnduri (n notaia noastr, n formula 11.7 se ia Lx n loc de Ly ). n cazul datelor din
tabelului 11.7, valorile cantitilor Lx i Ly sunt apropiate, ceea ce nseamn c o astfel
de schimbare nu ar afecta mult valoarea coeficientului d. n cazul n care cele dou
cantiti sunt sensibil diferite, trebuie s fim precaui n privina alegerii variabilei
dependente, deoarece valoarea lui d poate fi considerabil afectat de aceast decizie.
Coeficientul b al lui Kendall este o mrime simetric a corelaiei, ntruct ine
cont att de Ly, ct i de Lx. Formula sa de calcul este urmtoarea:
Na Nd
Formula 11.8 b
( N a N d L y )( N a N d L x )
Mai nti, atribuim ranguri scorurilor fiecrei valori, ncepnd cu cel mai mare
scor. Apoi, pentru fiecare caz, calculm diferena dintre rangul scorului n privina
primei variabile (X) i rangul scorurilor n privina celeilalte variabile (Y) (n tabel,
coloana etichetat d). S observm c suma acestor diferene este 0, ceea ce nseamn c
diferenele negative sunt egale cu cele pozitive, acesta fiind ntotdeauna cazul. Dac
obinem d 0, atunci am greit n atribuirea rangurilor sau/i n calcularea
diferenelor. Fiecare diferen astfel obinut este apoi ridicat la ptrat pentru a elimina
semnele minus (n tabel, coloana d2), dup care se calculeaz suma acestor diferene
ridicate la ptrat, d2.
Formula de calcul a coeficientului s al lui Spearman este urmtoarea:
6d 2
Formula 11.9 s 1
n(n 2 1)
n care n este numrul de perechi de ranguri. Aplicnd aceast formul la datele din
tabelul 11.8, obinem:
6d 2 6 22,5
s 1 1 0,86
n(n 1)
2
10(100 1)
Acest rezultat indic o corelaie pozitiv puternic ntre cele dou variabile, ceea ce
sprijin ipoteza cercetrii.
n anumite situaii de cercetare ne intereseaz s aflm dac dou variabile sunt
corelate la nivelul populaiei de referin. n cazul variabilelor msurate la nivel
nominal, semnificaia statistic a unei corelaii este judecat, de obicei, prin intermediul
testului 2. De asemenea, testul 2 poate fi aplicat i n cazul corelaiilor dintre variabile
msurate la nivel ordinal. Totui, acest test evideniaz doar probabilitatea ca
frecvenele observate s se datoreze doar ntmplrii i, ca atare, nu reprezint un test
direct al corelaiei47. Pentru coeficienii i s au fost elaborate teste de semnificaie
specifice, n care ipoteza de nul enun c nu exist nici o corelaie la nivelul populaiei,
deci c valorile mrimilor respective sunt egale cu 0: = 0, respectiv s = 0.
Corespunztor, ipoteza alternativ enun c 0 sau, respectiv, c s 048. Astfel,
pentru eantioane cu n 30, distribuia de eantionare pentru aproximeaz distribuia
Z i se folosete urmtoarea formul pentru calcularea statisticii testului:
Na Nd
Formula 11.10 Z
n(1 2 )
n2
Formula 11.11 t s
1 2
47
Luat n sine, 2 nu este o mrime a corelaiei. Dei valorile diferite de 0 ale lui 2 indic existena unei
corelaii, valoarea numeric efectiv pentru 2 (obinut) nu st n nici o legtur necesar cu tria
corelaiei: 2 (obinut) poate avea o valoare mare, n timp ce corelaia efectiv poate fi slab. Cu alte
cuvinte, independena (2) i corelaia sunt dou aspecte diferite. Este perfect posibil ca dou variabile s
fie corelate (2 (obinut) 0) i totui s fie independente, n cazul n care nu putem respinge ipoteza de
nul.
48
Unii autori folosesc simbolurile g i rs, respectiv, pentru i , atunci cnd este vorba despre
eantioane, rezervnd literele greceti pentru cazul populaiilor.
11.4 MRIMI ALE CORELAIEI LA NIVEL DE
INTERVAL SAU DE RAPORT
49
Aceste diagrame se mai numesc i scatergrame sau diagrame ale norilor de puncte.
Figura 11.1 Abiliti de limbaj i abiliti aritmetice
120
110
100
Abiliti aritmetice
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Abiliti de limbaj
Fiecare elev este reprezentat printr-un punct plasat la intersecia celor dou scoruri
obinute de acesta. Dispunerea punctelor poate fi pus n eviden prin trasarea unei linii
drepte care s ating fiecare punct sau s treac ct se poate mai aproape posibil de
fiecare punct. Dup cum vom vedea, aceast linie, numit linie de regresie, poate fi
descris precis printr-o ecuaie, dar deocamdat este suficient trasarea sa aproximativ:
120
110
100
Abiliti aritmetice
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Abiliti de limbaj
Punctele situate deasupra fiecrei valori X pot fi considerate distribuii condiionate ale
lui Y; cu alte cuvinte, punctele reprezint scoruri ale variabilei Y pentru fiecare scor al
variabilei X. Figura 11.1 arat c aceste distribuii condiionate ale lui Y se modific
dup cum se modific X (scorurile Y variaz n funcie de scorurile X), ceea ce nseamn
c cele dou variabile sunt corelate. Existena unei corelaii este evideniat i de faptul
c linia de regresie formeaz un unghi cu axa X (abscisa). Dac cele dou variabile nu ar
fi corelate, scorurile variabilei Y nu s-ar modifica n funcie de scorurile X, astfel c linia
de regresie ar fi paralel cu abscisa.
Sensul corelaiei poate fi detectat prin panta (nclinarea) liniei de regresie fa de
abscis. n exemplul nostru avem o corelaie pozitiv, deoarece elevii cu scoruri mari n
privina variabilei X (abiliti de limbaj) tind s aib scoruri mari n privina variabilei Y
(abiliti aritmetice). Dac ntre cele dou variabile ar fi fost o corelaie negativ, linia
de regresie ar fi fost nclinat n direcia opus, indicnd c scorurile nalte ale unei
variabile sunt asociate cu scoruri mici ale celeilalte variabile.
Tria corelaiei poate fi aproximativ apreciat observnd mprtierea punctelor
n jurul liniei de regresie. ntr-o corelaie perfect, toate punctele s-ar afla pe linia de
regresie. Prin urmare, cu ct punctele sunt mai puin mprtiate n jurul liniei de
regresie, cu att corelaia este mai puternic.
O supoziie esenial care st la baza tehnicilor statistice prezentate n continuare
este aceea c ntre cele dou variabile considerate este o corelaie linear, ceea ce
nseamn c dispunerea punctelor poate fi aproximat printr-o linie dreapt. Aceast
supoziie poate fi testat prin construirea unei diagrame de mprtiere naintea aplicrii
unei tehnici statistice. Dac respectiva corelaie nu este liniar, atunci supoziiile
nivelului de msur de interval sau de raport nu sunt satisfcute, ceea ce nseamn c
variabilele trebuie s fie tratate ca i cum ar fi de nivel ordinal.
Se demonstreaz c linia care prezint cel mai bine corelaia dintre dou
variabile este descris de urmtoarea formul, numit ecuaia de regresie bivariat:
Formula 11.12 Y a bX
nXY XY
Formula 11.13 b
nX 2 (X ) 2
n care n = numrul de cazuri
XY = suma produselor dintre cele dou scoruri ale fiecrui caz
X = suma scorurilor variabilei X
Y = suma scorurilor variabilei Y
2
X = suma ptratelor scorurilor variabilei X
X Y X2 Y2 XY
83 95 6889 9025 7885
38 70 1444 4900 2660
47 34 2209 1156 1598
56 66 3136 4356 3696
23 45 529 2025 1035
90 100 8100 10000 9000
75 58 5625 3364 4350
87 71 7569 5041 6177
89 68 7921 4624 6052
2 2
X = 588 Y = 607 X = 43422 Y = 44491 XY = 42453
Formula 11.14 a Y bX
Y 607
Y 67,4
n 9
X 588
X 65,3
n 9
a 67,4 (0,56 65,3) 30,8
Y bX
Formula 11.15 a
n
Y a bX 30,8 (0,56 X )
Linia de regresie poate fi folosit pentru a face predicii asupra scorului unui caz
n privina unei variabile, pornind de la scorul celuilalt caz n privina celeilalte
variabile. Dac se folosete variabila X pentru a face predicii despre variabila Y, atunci
linia de regresie este denumit regresia lui Y asupra lui X. Pentru ilustrare, s
presupunem c, pe baza corelaiei prezentate n figura 11.1, ne intereseaz s aflm
scorul n privina abilitilor aritmetice al unui elev cu scorul 100 n privina abilitilor
de limbaj (observai c eantionul nu conine nici un elev cu scorul 100 la testul privind
abilitile de limbaj). Notm scorul pe care dorim s n aflm (scorul prezis) cu Y ,
pentru a-l distinge de scorurile Y efective. Folosind ecuaia de regresie din exemplul
nostru pentru X = 100, obinem:
Prin urmare, pe baza regresiei lui Y asupra lui X, prezicem c un elev cu scorul 100 n
privina abilitilor de limbaj va obine scorul 86,8 n privina abilitilor aritmetice.
Coeficientul r al lui Pearson este o mrime a corelaiei lineare dintre dou
variabile msurate la nivel de interval sau de raport, care ia valori cuprinse ntre 0 i 1.
Valoarea acestui coeficient poate fi calculat cu ajutorul urmtoarei formule:
nXY XY
Formula 11.16 r
(nX 2 (X ) 2 )(nY 2 (Y ) 2 )
n2
Formula 11.17 tr
1 r2
Dac variabilele sunt corelate la nivelul eantionului i valoarea lui t (obinut)
cade n zona critic, atunci vom respinge ipoteza de nul i vom conchide c variabilele
respective sunt corelate i la nivelul populaiei (cu probabilitatea dat de nivelul ales);
dac, ns, valoarea lui t (obinut) nu cade n zona critic, atunci nu suntem ndreptii
s conchidem c variabilele sunt corelate la nivelul populaiei. ntr-un astfel de caz,
testul arat c valoarea coeficientului r la nivelul eantionului poate s apar numai
datorit ntmplrii, dac ipoteza de nul este adevrat, i.e. dac variabilele respective
nu sunt corelate la nivelul populaiei.
Este important de reinut c semnificaia valorii coeficientului r poate fi
testat cu ajutorul formulei 11.6 numai dac, pe lng supozia de linearitate a corelaiei,
este satisfcut att supoziia c ambele variabile au o distribuie normal (distribuie
bivariat normal), ct i supoziia c abaterile standard ale distribuiilor condiionate
ale variabilei Y sunt aproximativ egale. Pentru aceast ultim supoziie se folosete
conceptul de homoscedasticitate. n mod obinuit, inspectarea vizual a unei diagrame
de mprtiere este suficient pentru a aprecia dac o corelaie se conformeaz
supoziiilor de linearitate i homoscedasticitate. Dup cum am artat, dac dispunerea
punctelor poate fi aproximat printr-o linie dreapt, atunci corelaia poate fi apreciat ca
fiind linear. Pe de alt parte, dac scorurile Y sunt relativ uniform mprtiate deasupra
i dedesubtul liniei de regresie, atunci corelaia este homoscedastic. De pild, dup
cum se poate constata imediat, corelaia prezentat n figura 11.1 este homoscedastic:
din cele 9 cazuri, cinci se afl deasupra liniei de regresie, iar patru dedesubt.
Unele situaii de cercetare necesit analiza mai multor variabile, chiar dac
cercettorul este interesat n principal de o anumit corelaie bivariat. Tehnicile
prezentate n aceast seciune se refer la corelaia multivariat dintre variabile msurate
la nivel de interval sau de raport i se bazeaz pe coeficientul r al lui Pearson.
X Y Z
2 12 4
7 14 10
8 18 8
4 15 9
5 14 7
ryz = 0,50 rxy = 0,78 rxz =
0,70
Aceast valoare a coeficientului parial de ordinul nti este mult mai mic dect
valoarea coeficientului parial de ordinul zero ryz = 0,50. Acest rezultat, pe care l vom
nota prin ryzx ryz, arat c dac eliminm influena variabilei X asupra variabilelor Y i
Z, corelaia dintre variabilele Y i Z se reduce de la 0,5 la aproape 0. ntr-un astfel de
caz, se poate ca X s determine att variaia lui Y, ct i variaia lui Z, relaia dintre Y i
Z fiind inautentic (aparent) sau ca variabilele Y i Z s fie corelate, dar nu direct, ci
prin intermediul variabilei X:
sau
n exemplul nostru, valorile rxy = 0,78 i rxz = 0,70 pot fi luate drept un indiciu probabil
al tipului de relaie reprezentat prin diagrama din stnga. De notat c distincia dintre
cele dou tipuri de relaie nu poate fi fcut cu precizie doar pe baza metodelor
statistice. ntr-o situaie real de cercetare, distincia se poate face pe criterii de coninut
al cercetrii respective (ordinea temporal dintre variabile .a).
Un al doilea tip de rezultat posibil este acela n care ryzx i ryz au valori apropiate.
Acest rezultat, pe care l vom nota prin ryzx ryz, arat c dac eliminm influena
variabilei X asupra variabilelor Y i Z, corelaia dintre variabilele Y i Z rmne
neschimbat, sau, altfel spus c X nu influeneaz semnificativ corelaia dintre Y i Z,
relaia dintre variabilele Y i Z fiind direct.
Al treilea tip de rezultat posibil este acela n care valoarea lui ryzx este mult mai
mare dect valoarea lui ryz. Acest rezultat, pe care l vom nota prin ryzx ryz, arat c
variabila luat iniial drept independent i variabila de control (X) au fiecare n parte o
influen separat asupra variabilei dependente i nu sunt corelate una cu alta.
Urmtoarea diagram prezint acest tip de relaie pentru cazul n care Z este variabila
dependent:
Formula 11.19 Y a b1 X 1 b2 X 2
s y r1 y r2 y r12
Formula 11.20 b1
s1 1 r122
s y r2 y r1 y r12
Formula 11.21 b2
s2 1 r122
n care sy = abaterea standard a variabilei Y
s1 = abaterea standard a variabilei independente X1
s2 = abaterea standard a variabilei independente X2
r1y = coeficientul de corelaie dintre X1 i Y
r2y = coeficientul de corelaie dintre X2 i Y
r12 = coeficientul de corelaie dintre X1 i X2
X1 X2 Y
15 7,70 36
22 8,20 39
16 7,80 35
19 9,30 43
22 8,20 40
20 8,80 42
28 12,10 49
14 8,00 38
18 8,10 36
21 11,20 44
26 9,40 35
14 10,30 43
19 8,50 37
22 7,60 41
20 8,40 40
s1 = 4,06 s2 = 1,34 s3 = 3,92
r1y = 0,39 r2y = 0,77 r12 =
0,45
Formula 11.22 a Y b1 X 1 b2 X 2
s1
Formula 11.23 1 b1
sy
s2
Formula 11.24 2 b2
sy
n care 1 = panta parial standardizat a corelaiei dintre X1 i Y
2 = panta parial standardizat a corelaiei dintre X2 i Y
Formula 11.24 Z y a z 1 Z1 2 Z 2
X X
Z
s
s1 4,06
1 b1 0,052 0,0538
sy 3,92
s2 1,34
2 b2 2,18 0,74
sy 3,92
Z y (0,0538 Z 1 ) (0,74 Z 2 )
Concluzia este c variabila X2 are o influen mult mai puternic asupra variabilei
dependente dect variabila X1, astfel c prediciile asupra scorurilor standardizate Zy nu
vor fi influenate semnificativ de scorurile Z1.
Inspectarea datelor din tabelul 11.12 ofer unele indicii privind explicaia
rezultatului obinut. Astfel, putem observa c X2 este puternic corelat cu Y (r2y = 0,77),
n timp ce X1 prezint o corelaie slab pn la moderat cu Y (r1y = 0,39).
De notat c dac am fi obinut 1 2, am fi tras concluzia c variabila X1 are o
influen mult mai puternic asupra variabilei dependente dect variabila X2, iar dac
am fi obinut 1 2, am fi tras concluzia c cele dou variabile independente au
aproximativ aceeai influen asupra variabilei dependente.
Formula 11.26 R 1 r1 y 2 r2 y
Acest rezultat indic o corelaie puternic ntre influenele combinate ale variabilelor X1
i X2 i variabila Y.
Coeficientul de determinare multipl R2 se interpreteaz n acelai fel ca i
coeficientul de determinare bivariat r2. n exemplul nostru, R2 = 0,59, ceea ce arat c
influena combinat a celor dou variabile independente explic aproximativ 59%din
variaia total a scorurilor post-test, restul de 41% din aceast variaie datorndu-se
probabil influenei altor variabile, erorilor de msurare sau ntmplrii.
GLOSAR
Coeficientul d al lui Somer: mrime Corelaie: relaie ntre dou sau mai
asimetric a corelaiei adecvat multe variabile; se spune c dou
pentru cazul a dou variabile variabile sunt corelate dac distribuia
msurate la nivel ordinal cu un numr scorurilor uneia dintre acestea se
mic de valori. schimb sub influena scorurilor
Coeficientul de contingen C: mrime celeilalte.
a corelaiei bazat pe 2, adecvat Corelaie negativ: corelaie ntre dou
pentru cazul a dou variabile variabile caracterizat prin aceea c
msurate la nivel nominal; se scoruri nalte ale unei variabile sunt
recomand calcularea acestui asociate cu scoruri joase ale celeilalte
coeficient numai pentru tabele de variabile sau, altfel spus, variabilele
mare dimensiune. variaz n sensuri opuse.
Coeficientul r al lui Pearson: mrime a Corelaie pozitiv: corelaie ntre dou
corelaiei lineare dintre dou variabile variabile caracterizat prin aceea c
msurate la nivel de interval sau de scoruri nalte ale unei variabile sunt
raport. asociate cu scoruri nalte ale celeilalte
Coeficientul V al lui Cramer: mrime variabile, iar scoruri joase ale unei
a corelaiei bazat pe 2, adecvat variabile sunt asociate cu scoruri
pentru cazul a dou variabile joase ale celeilalte variabile sau, altfel
msurate la nivel nominal; se spus, variabilele variaz n acelai
recomand calcularea acestui sens.
coeficient numai pentru tabele mai Corelaie liniar: corelaie ntre dou
mari de 2 2. variabile de interval sau de raport
Coeficientul : mrime simetric a caracterizat prin aceea c dispunerea
corelaiei adecvat pentru cazul a punctelor n diagrama de mprtiere
dou variabile msurate la nivel poate fi aproximat printr-o linie
ordinal cu un numr mic de valori. dreapt.
Coeficientul al lui Spearman: Corelaie perfect: corelaia dintre
mrime a corelaiei adecvat pentru dou variabile caracterizat prin
cazul a dou variabile msurate la aceea c fiecare scor al unei variabile
nivel ordinal cu o amplitudine relativ este asociat cu un singur scor al
larg de scoruri diferite i puine celeilalte variabile.
cazuri legate n privina fiecrei Diagrame de mprtiere: modaliti
variabile. de prezentare vizual a corelaiei
Coeficientul b al lui Kendall: mrime dintre dou variabile msurate la
simetric a corelaiei adecvat pentru nivel de interval sau de raport.
cazul a dou variabile msurate la Ecuaia de regresie bivariat: ecuaie
nivel ordinal cu un numr mic de care descrie matematic o linie de
valori; se recomand calcularea regresie.
acestui coeficient numai pentru tabele Linie de regresie: linie dreapt care
ptratice. rezum cel mai bine corelaia dintre
Coeficientul : mrime a corelaiei dou variabile de interval sau de
bazat pe 2, adecvat pentru cazul a raport.
dou variabile msurate la nivel Mrimile corelaiei: mrimi statistice
nominal; se recomand calcularea care permit cuantificarea importanei
acestui coeficient numai pentru tabele (triei) unei relaii dintre variabile.
2 2. Metoda corelaiei multiple: tehnic
multivariat de evideniere a
influenelor combinate ale tuturor
variabilelor independente asupra
variabilei dependente.
Metoda corelaiei pariale: tehnic
multivariat de evideniere a
influenei unei a treia (a patra etc.)
variabile asupra unei corelaii
bivariate.
Metoda regresiei multiple: tehnic
multivariat care permite izolarea
influenelor separate ale mai multor
variabile independente asupra
variabilei dependente i astfel permite
identificarea variabilei independente
care are cea mai puternic influen
asupra variabilei dependente.
Predicie: apreciere a scorurilor unei
variabile pe baza cunoaterii
scorurilor n privina altei variabile; o
predicie este cu att mai precis, cu
ct corelaia dintre cele dou variabile
este mai puternic.
EXERCIII I PROBLEME
1 INTRODUCERE
1.1 Urmtorii itemi sunt selectai dintr-o anchet de opinie public. Indicai nivelul de
msur pentru fiecare item.
1.2 Descriei pe scurt o modalitate de msurare pentru fiecare dintre variabilele din lista
de mai jos. Ce nivel de msur se obine prin modalitatea de msurare pe care ai
ales-o? Exist i alte modaliti de a msura variabila, prin care s-ar obine nivele de
msur diferite? Dac da, specificai care ar fi acestea.
Naionalitate Venit
nlime Onestitate
Numr de copii Distana de la facultate pn acas
Produs Naional Brut Numr de medici la mia de locuitori
Pentru cele marcate cu asterisc sunt date soluii sau indicaii de rezolvare.
2 PREZENTAREA DATELOR STATISTICE
52 47 17 8 92
53 23 28 9 90
17 63 17 17 23
19 66 10 20 47
20 66 5 25 17
10 82 90 40 45
8 91 82 52 20
75 32 75 60 60
80 30 70 65 52
90 29 70 66 55
Lungimea f
cuvintelor
12 224
34 440
56 180
78 102
910 38
1112 11
13 i mai lungi 5
12 10 12 11 6
15 14 17 9 12
13 8 7 15 14
15 18 19 14 10
14 14 16 8 9
Numr de f
erori
36 3
710 5
1114 9
1518 16
1922 10
2326 4
2730 3
3134 1
G1: 9, 6, 8, 8, 1, 1, 3, 3, 6, 5, 1, 5, 7, 8, 3, 5, 2, 3, 6, 8
G2: 7, 5, 1, 4, 7, 4, 2, 4, 2, 5, 5, 6, 6, 7,4, 4, 1, 4
Subiectul Numr de
greeli
1 7
2 8
3 10
4 6
5 5
6 9
7 7
8 7
9 8
10 6
11 9
12 8
3.5 Un colectiv de 50 de studeni au luat decizii n legtur cu trei probleme. Prima este
cea a materiilor opionale de studiu, unde au avut 5 posibiliti de alegere, cea de-a
doua problem este repartizarea pe grupe de lucru la laborator, tot cu 5 opiuni, a
treia problem fiind studierea limbilor strine, cu 4 posibiliti de alegere.
Rezultatele deciziilor sunt prezentate n urmtorul tabel:
Stabilii domeniul n cadrul cruia s-au ntlnit cele mai mari dificulti n
(Filosofia minii) a obinut nota 9, media grupei fiind 8, iar abaterea standard pentru
grup fiind 1,25. La al doilea examen (Introducere n psihologie) a obinut nota 8,75,
media grupei fiind 8,50, iar abaterea standard pentru grup fiind 0,25. La al treilea
examen (Statistic psihologic) a obinut nota 8,50, media grupei fiind 8, iar abaterea
standard pentru grup fiind 1. La care din cele 3 discipline studentul a obinut o
4.2 Trei persoane cu aproximativ aceeai pregtire profesional s-au prezentat pentru
ocuparea a trei posturi diferite la o firm. Scopul psihologului era de a determina care
dintre cei trei era cel mai potrivit pentru fiecare post n parte. Primul post era de
Subiecii au fost supui la trei probe distincte, care vizau punerea n eviden a celor
trei caracteristici. Urmtorul tabel prezint punctajul obinut de fiecare dintre cei trei
B 6 36 24
C 7 47 25
Stabilii ordinea aptitudinilor predominante pentru fiecare din cei trei candidai.
Pentru care dintre cele trei posturi considerai c ar fi bun fiecare dintre candidai?
4.3n urma unui test de reacie la stimuli, 100 de subieci au obinut medie
120 i = 25.
5.2 Determinai urmtoarele probabiliti pentru eantionul n1 = 144 din exerciiul 5.1:
5.3 Determinai urmtoarele probabiliti pentru eantionul n1 = 400 din exerciiul 5.1:
ncredere de 95%, care este intervalul de ncredere estimat pentru media aritmetic a
populaiei de referin?
6.2 Un psiholog dorete s determine scorul mediu la un test standardizat. Psihologul
de 99%, care este intervalul de ncredere estimat pentru media aritmetic a populaiei
de referin?
aproape singura activitate fizic efectuat. La un nivel de ncredere de 95%, care este
referin?
95%?.
7.1 Pentru fiecare dintre urmtoarele ipoteze, specificai n care extremitate a distribuiei
de eantionare se afl zona critic:
a. Media coeficientului de inteligen a tuturor studenilor din facultile umaniste
este mai mare de 110.
b. Venitul mediu lunar al rezidenilor din oraul X este mai mare de 5000000 de lei.
c. Greutatea medie a brbailor nscui n 1956 este mai mic de 90 kg.
d. Punctajul obinut la examenele de admitere n Baroul de Avocai din ultimii 5
ani este mai mic de 60.
stabili dac micorarea grupelor de studeni la 15 persoane are drept efect creterea
activitile de seminar desfurate cu grupe mai mici sunt calitativ superioare celor
desfurate cu grupe mai mari, atunci grupele de studeni vor fi micorate n ntregul
sunt urmtoarele:
12 10 9 13 13
8 11 7 14 11
15 17 11 12
7.6 ntr-un studiu privind timpul de reacie la persoanele afectate de parkinson s-a
reacie reacie
A 1,4 G 1,5
B 1,8 H 2,0
C 1,1 I 1,4
D 1,3 J 1,9
E 1,6 K 1,8
F 0,8 L 1,3
7.7Un deputat decide s voteze mpotriva unei legi numai dac mai mult de 60%
electoral, 140 s-au declarat mpotriva legii respective. Ce trebuie s fac deputatul?
( = 0,05).
urmtoarele:
Grupul 1 Grupul 2
(fr copii) (cel puin un
copil)
X 1 11,3 X 2 10,8
s1 = 0,6 s2 = 0,5
n1 = 78 n2 = 93
8.2Un numr de 160 piloi ai unei coli de aviaie din Bucureti se relaxau nainte de
zbor o medie a notelor de 9,18 cu o abatere standard de 1,15. Stabilii dac aceast
de elevi ai unei coli de aviaie din Bacu, care au obinut o medie a notelor la
8.3 Dou universiti, una din Bucureti i una din Timioara, au aplicat dou
urmtoarele:
UB UT
X 1 8,56 X 2 8,48
s1 = 1,75 s2 = 1,2
n1 = 420 n2 = 340
La un nivel de ncredere de 95%, se poate spune c rezultatele obinute prin
metoda folosit la UB sunt mai bune dect cele obinute prin metoda folosit la UT?
urmtoarele:
8.5Un cercettor dorete s determine dac copii nva mai bine concepte asociate
sunt urmtoarele:
Grupul 1 Grupul 2
8 14
10 8
7 7
12 10
6 12
9 6
10 15
11 11
6 9
13 8
9.1 n termenii modelului n patru pai, formulai testul ANOVA aplicat n seciunea 9.3
( = 0,05).
Grupul
1 2 3 4 5
32 30 85 38 53
41 39 76 29 43
53 52 70 21 47
67 64 64 52
48 51 67
39 37
44 44
subieci, repartizai cte 8 n fiecare grup. Tabelul ANOVA incomplet pentru acest
10 fiind cel mai rapid timp de reacie. Rezultatele obinute sunt urmtoarele:
Eantionul
0 24 48 72
9 8 7 4
7 5 6 5
5 7 5 3
8 4 3 6
10 6 4 2
6 6 7 8
ncercarea
Subieci 1 2 3 4 5
A 7 6 9 11 12
B 6 5 6 9 8
C 7 9 11 11 13
D 5 5 5 6 6
E 7 8 9 9 11
F 6 6 7 11 13
= 0,01.
9.7 Trei grupe de studeni s-au pregtit pentru susinerea unui examen, nvnd n
trei moduri diferite .Astfel, prima grup a nvat n linite deplin, a doua grup a
nvat cu muzica dat n surdin, iar cea de-a treia a nvat cu un nivel de
Grupa 1: 9, 8, 8,7,8
Grupa 2: 9,8,6
Grupa 3: 9,7,7,6
La un nivel de ncredere de 95%, stabilii dac rezultatele celor trei grupe difer
semnificativ.
nvare (variabila independent) sub trei condiii experimentale. Datele obinute sunt
urmtoarele:
A 6 12 18
B 9 14 16
C 4 8 15
D 3 10 12
E 1 6 10
F 7 15 20
G 6 8 15
H 9 11 18
I 8 12 13
J 6 10 16
La un nivel de ncredere de 95%, verificai dac rezultatele obinute sub cele trei
10 TESTE NONPARAMETRICE
10.1Un cercettor este interesat de posibilele influene ale statusului marital asupra
Statut marital
Nivel de Brbat Femeie Brbat Femeie TOTAL
fericire cstorit cstorit necstorit necstorit
Foarte
fericit 18 9 10 3 40
Fericit 15 12 21 15 63
Nefericit 8 15 16 12 51
Foarte
nefericit 4 7 3 6 20
TOTAL 45 43 50 36 174
Statut marital
MPTL TOTAL
Necstorit Cstorit Divorat Vduv
Individual 18 8 10 6 42
n grupuri
mici 4 12 7 16 39
n grupuri
mari 3 5 8 4 20
TOTAL 25 25 25 26 101
primul eantion, 102 din cel de-al doilea eantion, 59 din cel de-al treilea eantion
i 32 din cel de-al patrulea eantion. La un nivel de ncredere de 95%, stabilii dac
nainte de vizionare
Da Nu
Nu
6 17
Dup
vizionare A B
Da 11 16
C D
50
opinia de la Nu la Da.
10.6 Subiecii din dou eantioane aleatorii de cte 10 copii (clasele IIV) au fost
agresiv). Eantionul 1 este alctuit din copii singuri la prini, iar eantionul 2 din
copii care au cel puin un frate sau o sor. Scorurile obinute sunt urmtoarele:
prini i copii care au cel puin un frate sau o sor (MannWhitney U).
10.7 Un psiholog dorete s tie dac exist o diferen semnificativ ntre copii de sex
stimuli i astfel vor obine scoruri mai mici, lund n considerare att acurateea,
cele dou eantioane cteva scurte descrieri ale unor acte care pot fi considerate
necinstite (de pild, a nu spune vnztorului sau casierului c suma de bani primit
ca rest este mai mare dect cea cuvenit). Fiecare act este apreciat cu ajutorul unei
Eantionul 1: 47, 44, 40, 35, 32, 31, 30, 29, 25, 24, 20, 12
Eantionul 2: 48, 45, 43, 42, 39, 36, 33, 28, 23, 21, 15, 14
ncredere n sine):
1 15 20
2 8 9
3 10 10
4 11 16
5 13 17
6 14 14
7 10 13
8 12 15
9 9 18
10 14 12
11 8 10
12 7 9
eantioane aleatorii dup cum urmeaz: 1. copii de a cror educaie s-au ocupat
prinii, 2. copii de a cror educaie s-au ocupat bunicii, 3. copii care au fost la
grdini, 4. copii de a cror educaie s-a ocupat o baby-sitter. Presupunnd c
42 31 47 37
35 44 49 40
39 38 34 32
50 46 33
45 41
48 43
36
precolare.
Tipul
Motivaia Tradiional Netradiional TOTAL
Vocaional 25 60 85
Academic 75 15 90
TOTAL 100 75 175
11.4Tabelul urmtor prezint scorurile obinute la un test de aptitudini dat la angajare i
11.5 Tabelul urmtor prezint scorurile obinute n privina variabilelor stare material
variabile):
vieii social
A 17 8,8
B 40 3,9
C 47 4,0
D 90 3,1
E 35 7,5
F 52 3,5
G 23 6,3
H 67 1,7
I 65 9,2
J 63 3,0
(a) Sunt corelate cele dou variabile? Dac da, care este tria i sensul corelaiei?
(b) Coeficientul de corelaie calculat pentru acest eantion este statistic semnificativ
la un nivel de ncredere de 95%?.
11.7 Cinci orae au fost ordonate n privina indicelui de calitate a vieii i a fost calculat
procentul populaiei care s-a mutat n fiecare ora n anul precedent. Datele sunt
urmtoarele:
vieii
A 30 17
B 25 14
C 20 15
D 10 3
E 2 5
Exist o corelaie ntre cele dou variabile? Dac da, care este tria i sensul
corelaiei?
Aprecierea Coeficientul
de
Elevul subiectiv
inteligen
A 15 88
B 13 92
C 14 97
D 7 102
E 11 108
F 12 115
G 6 117
H 10 120
I 8 123
J 9 126
K 3 130
L 5 133
M 2 137
N 1 140
O 4 145
inteligen?
11.9 Testai pentru semnificaie valoarea coeficientului = 0,57 obinut pentru datele
11.10 Testai pentru semnificaie valoarea coeficientului s = 0,86 obinut pentru datele
11.11 Urmtoarele valori au fost observate pentru cinci subieci n privina variabilelor
X i Y:
Subiectul Variabila X Variabila Y
A 2 6
B 6 14
C 5 12
D 4 10
E 1 4
comunicare verbal:
A 55 94
B 52 91
C 51 88
D 48 84
E 44 86
F 40 81
G 37 85
H 34 76
I 32 79
J 30 74
(codificat)
A 7 10
B 49 6
C 41 15
D 38 5
E 37 12
F 19 4
G 35 19
H 40 11
I 1 3
J 10 3
K 18 22
L 21 17
M 15 12
N 7 9
O 38 13
11.14Pentru un eantion de 12 familii au fost colectate urmtoarele date privind
ore/sptmn
A 1 12 1
B 1 14 2
C 1 16 3
D 1 16 5
E 2 18 3
F 2 16 1
G 3 12 5
H 3 12 0
I 4 10 6
J 4 12 3
K 5 10 7
L 5 16 4
a. Construii diagramele de mprtiere pentru relaia dintre numrul de copii i
numrul de ore/sptmn afectat treburilor gospodreti i pentru relaia
dintre numrul de copii i nivelul de educaie.
b. Determinai ecuaia de regresie bivariat pentru relaia dintre numrul de
copii i numrul de ore/sptmn afectat treburilor gospodreti.
c. Cte ore/sptmn afecteaz soul treburilor gospodreti ntr-o familie cu 6
copii?
d. Calculai r i r2 pentru corelaia bivariat menionat la punctul b i
interpretai rezultatele.
e. Testai pentru semnificaie valoarea coeficientului de corelaie parial de
ordinul zero obinut la punctul d la un nivel de ncredere de 95%.
f. Corelaia dintre numrul de copii i numrul de ore/sptmn afectat
treburilor gospodreti este influenat de nivelul de educaie al soului?
g. Determinai ecuaia de regresie multipl nestandardizat i stabilii cte
ore/sptmn afecteaz treburilor gospodreti un so cu 11 ani de coal
ntr-o familie cu 4 copii.
h. Determinai ecuaia de regresie multipl standardizat i stabilii care dintre
variabilele independente are o influen mai puternic asupra variabilei
dependente.
i. Calculai R i R2 i interpretai rezultatele.
11.15 Pentru 18 orae din Romnia au fost colectate urmtoarele date privind rata
sunt urmtoarele:
(%) educaie
A 90 12,1 1,2
B 86 12,2 0,7
C 80 9,2 3,5
D 75 11,1 6,7
E 65 8,5 5,8
F 76 11,8 4,2
G 67 10,5 3,8
H 75 12,3 1
I 74 12,7 1
J 88 12,4 0,5
K 85 13,1 0,3
L 73 10,1 4,7
M 72 9,8 4,5
N 61 12,0 5,3
O 64 11,9 6,8
P 60 9,0 7,1
R 63 11,1 9,1
S 57 9,2 9,3
CAPITOLUL 3
~
3.1 a. X 12,48 ; X 13 ; Mo = 14.
b. A = 13; Q = Q3 Q1 = 14,5 9,5=5; s = 3,16.
Numr de f m fm fc m2 fm2
erori
36 3 4,5 13,5 3 20,25 60,75
710 5 8,5 42,5 8 72,5 362,5
1114 9 12,5 112,5 17 156,25 1406,25
1518 16 16,5 264 33 272,25 4356
1922 10 20,5 205 43 420,25 4202,5
2326 4 24,5 98 47 600,25 2401
2730 3 28,5 85,5 50 812,25 2436,75
3134 1 32,5 32,5 51 1056,25 1056,25
TOTAL 51 853,5 16282
X
fm i i
853,5
16,73
n 51
~ n 2 fc i (51 / 2) 17
X LCRI X i 14,5 4 14,75
fi 16
f m 2
(853,5) 2
2 i i
f i mi 16282
s n 51 6,32
n 1 51 1
~
X 16,73 ; X 14,75 ; s 6,32 .
3.5 IQV1 = 0,971; IQV2 = 0,984; IQV3 = 0,980. ntruct IQV2 IQV3 IQV1, cea mai
mare omogenitate n luarea deciziei a fost ntlnit n privina primei probleme,
unde a fost nregistrat cea mai mic valoare pentru indicele variaiei calitative; mai
dificil dect prima a fost soluionarea celei de-a treia probleme, iar cea mai
complex, conform opiunilor nregistrate a fost cea de-a doua problem (cu gradul
cel mai mare de eterogenitate n luarea deciziei).
CAPITOLUL 4
4.1 Standardiznd scorurile obinute la cele trei discipline obinem; Z1 = 0,8; Z2 = 1,0;
Z3 = 0,50. ntruct Z2 Z1 Z3, putem concluziona c studentul a obinut cea mai
bun performan la a doua disciplin de studiu (Introducere n psihologie) iar cea
mai slab la a treia (Statistic psihologic), unde a nregistrat cel mai mic scor
standard.
4.3 a. 2,3%: aproximativ 2 subieci au obinut un timp de reacie mai mare de 140 ms.
b. 97,7%: aproximativ 98 de subieci au obinut un timp de reacie mai mic de 140
ms.
i 90 ms.
ms i 140 ms.
CAPITOLUL 5
CAPITOLUL 6
0,7
6.1 IE X Z 2 ( s n 1) 6,2 1,96 6,2 0,047 .
226 1
0,25 0,25
6.3 IE p Z 2 0,45 1,96 0,45 0,04 .
n 150
CAPITOLUL 7
7.3 Gravitatea unui tip de eroare sau a celuilalt depinde de costurile relative ale erorilor.
Probabil c o eroare de tipul II este mai grav aici, deoarece ar conduce la pierderea
posibilitii de crete a calitii activitilor de seminar. Pe de alt parte, dac costul
micorrii grupelor de studeni este foarte mare, atunci consecinele unei erori de
tipul II pot fi, de asemenea, serioase, deoarece s-ar cheltui foarte muli bani care,
altfel, ar putea fi folosii pentru mbuntirea mediului de predare/nvare.
7.4 H0: = 1s; Ha: 1s. Z (obinut) = 5,51. Z/2 (critic) = 1,96. Ipoteza conform
creia media timpului de reacie pentru populaia de referin este de o secund
poate fi respins la un nivel de ncredere de 95%.
7.7 H0: P = 0,60; Ha: P 0,60. Z (critic) = +1,645; Z (obinut) = +3,08. H0 poate fi
respins la un nivel de ncredere de 95%, deci deputatul poate vota mpotriva legii
respective.
CAPITOLUL 8
8.1 H0: 1 = 2; Ha: 1 2. Z (obinut) = +5,55. Z/2 (critic) = 1,96. Se poate respinge
H0. Diferena dintre cele dou grupuri este statistic semnificativ la un nivel de
ncredere de 95%.
8.6 H0: P1 = P2; Ha: P1 P2. Z (obinut) = +1,59. Z/2 (critic) = 1,96. Nu se poate
CAPITOLUL 9
ntruct F (critic) = 3,55, Se poate respinge H0. rezultatele obinute sub cele trei
CAPITOLUL 10
10.1 H0: Variabilele status marital i nivel de pregtire sunt independente; Ha:
Variabilele status marital i nivel de pregtire sunt dependente. 2 (obinut) =
2,79. 2 (critic) = 5,991. Nu se poate respinge H0. La un nivel de ncredere de 95%,
frecvenele observate nu difer semnificativ de frecvenele la care ne-am atepta
dac variabilele ar fi independente i ar interveni doar ntmplarea.
10.3 H0: Variabilele status marital i MPTL sunt independente; Ha: Variabilele status
marital i MPTL sunt dependente. 2 (obinut) = 18,389. 2 (critic) = 12,592. Se
poate respinge H0 la un nivel de ncredere de 95%. Reziduurile standard:
10.4 H0: Nu exist nici o diferen ntre proporiile de cazuri pentru eantioane i
proporiile pentru populaie; Ha: Proporiile de cazuri pentru eantioane difer de
cele pentru populaie. 2 (obinut) = 3,00. 2 (critic) = 7,815. Nu se poate respinge
H0. Diferenele dintre proporiile pentru eantioane i proporia presupus de 0,65
pot fi atribuite ntmplrii. Ipoteza cercettorului nu se confirm la un nivel de
ncredere de 95%.
10.5 H0: Exist un numr egal de schimbri n ambele direcii (diferena este
nesemnificativ); Ha: Numrul de schimbri ntr-o direcie este semnificativ diferit
fa de numrul de schimbri n cealalt direcie.
( A D) 2 (6 16) 2 100
2 4,545
A D 6 16 22
2 (critic) = 3,841. Se poate respinge H0. Din tabel rezult c mai multe persoane
din eantion i schimb opinia de la Nu la Da, dect de la Da la Nu, iar testul arat
c aceast diferen este semnificativ la un nivel de ncredere de 95%.
10.7 H0: Nu exist nici o diferen ntre copii de sex masculin i cei de sex feminin n
privina nivelului de reacie la stimuli de comunicare non-verbal; Ha: ScoruriF
ScoruriM. 2 (obinut) = 0,80. 2 (critic) = 2,706. Nu se poate respinge H0 la un
nivel de ncredere de 95%.
10.8 Obiectivul urmrit este compararea a dou populaii sub aspectul unei variabile,
datele fiind nonparametrice. Eantioanele aleatorii sunt independente, nivelul de
msur este ordinal, iar cele dou eantioane sunt mici. Prin urmare, se poate
folosi testul MannWhitney U pentru eantioane mici sau testul iteraiilor, innd
cont i de faptul c nu ntlnim scoruri identice n eantioane diferite.
10.10 Obiectivul urmrit este compararea a 4 populaii sub aspectul unei variabile
msurate la nivel ordinal, eantioanele aleatorii fiind indepentente. Prin urmare, se
poate folosi testul KruskalWallis H.
CAPITOLUL 11
11.4 (a) Na = 767; Nd = 491; = 0,22. ntre cele dou variabile exist o corelaie pozitiv
foarte slab. Testul de aptitudini nu este satisfctor.
(b) H0: = 0,00; Ha: 0,00. Z (obinut) = 0,92. Z (critic) = 1,96. Nu se poate
respinge H0 la un nivel de ncredere de 95%. Valoarea coeficientului obinut
pentru eantion nu este statistic semnificativ.
11.6 (a) s = 0,59. ntre cele dou variabile exist o corelaie negativ moderat.
Oraele cu un indice mare al calitii vieii tind s aib un indice mic de coeziune
social.
(b) H0: s = 0,00; Ha: s 0.00. t (obinut) = 2,056. t (critic) = 2,306. Nu se
poate respinge H0 la un nivel de ncredere de 95%. Valoarea coeficientului s
obinut pentru eantion nu este statistic semnificativ.
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0000 0040 0080 0120 0160 0199 0239 0279 0319 0359
0.1 0398 0438 0478 0517 0557 0596 0636 0675 0714 0753
0.2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141
0.3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0.4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879
0.5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0.6 2257 2291 2324 2357 2389 2422 2454 2486 2517 2549
0.7 2580 2611 2642 2673 2704 2734 2764 2794 2823 2852
0.8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0.9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389
1.0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1.1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830
1.2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015
1.3 4032 4049 4066 4082 4099 4115 4131 4147 4162 4177
1.4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319
1.5 4332 4345 4357 4370 4382 4394 4406 4418 4429 4441
1.6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545
1.7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1.8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706
1.9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767
2.0 4772 4778 4783 4788 4793 4798 4803 4808 4812 4817
2.1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2.2 4861 4864 4868 4871 4875 4878 4881 4884 4887 4890
2.3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2.4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2.5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2.6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2.7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2.8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981
2.9 4981 4982 4982 4983 4984 4984 4985 4985 4986 4986
3.0 4987 4987 4987 4988 4988 4989 4989 4989 4990 4990
ANEXA B: Tabel cu numere aleatorii
= 0.10
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 39.86346 49.50000 53.59324 55.83296 57.24008 58.20442 58.90595 59.43898 59.85759 60.19498 60.70521 61.22034 61.74029 62.00205 62
2 8.52632 9.00000 9.16179 9.24342 9.29263 9.32553 9.34908 9.36677 9.38054 9.39157 9.40813 9.42471 9.44131 9.44962 9
3 5.53832 5.46238 5.39077 5.34264 5.30916 5.28473 5.26619 5.25167 5.24000 5.23041 5.21562 5.20031 5.18448 5.17636 5
4 4.54477 4.32456 4.19086 4.10725 4.05058 4.00975 3.97897 3.95494 3.93567 3.91988 3.89553 3.87036 3.84434 3.83099 3
5 4.06042 3.77972 3.61948 3.52020 3.45298 3.40451 3.36790 3.33928 3.31628 3.29740 3.26824 3.23801 3.20665 3.19052 3
6 3.77595 3.46330 3.28876 3.18076 3.10751 3.05455 3.01446 2.98304 2.95774 2.93693 2.90472 2.87122 2.83634 2.81834 2
7 3.58943 3.25744 3.07407 2.96053 2.88334 2.82739 2.78493 2.75158 2.72468 2.70251 2.66811 2.63223 2.59473 2.57533 2
8 3.45792 3.11312 2.92380 2.80643 2.72645 2.66833 2.62413 2.58935 2.56124 2.53804 2.50196 2.46422 2.42464 2.40410 2
9 3.36030 3.00645 2.81286 2.69268 2.61061 2.55086 2.50531 2.46941 2.44034 2.41632 2.37888 2.33962 2.29832 2.27683 2
10 3.28502 2.92447 2.72767 2.60534 2.52164 2.46058 2.41397 2.37715 2.34731 2.32260 2.28405 2.24351 2.20074 2.17843 2
11 3.22520 2.85951 2.66023 2.53619 2.45118 2.38907 2.34157 2.30400 2.27350 2.24823 2.20873 2.16709 2.12305 2.10001 2
12 3.17655 2.80680 2.60552 2.48010 2.39402 2.33102 2.28278 2.24457 2.21352 2.18776 2.14744 2.10485 2.05968 2.03599 2
13 3.13621 2.76317 2.56027 2.43371 2.34672 2.28298 2.23410 2.19535 2.16382 2.13763 2.09659 2.05316 2.00698 1.98272 1
14 3.10221 2.72647 2.52222 2.39469 2.30694 2.24256 2.19313 2.15390 2.12195 2.09540 2.05371 2.00953 1.96245 1.93766 1
15 3.07319 2.69517 2.48979 2.36143 2.27302 2.20808 2.15818 2.11853 2.08621 2.05932 2.01707 1.97222 1.92431 1.89904 1
16 3.04811 2.66817 2.46181 2.33274 2.24376 2.17833 2.12800 2.08798 2.05533 2.02815 1.98539 1.93992 1.89127 1.86556 1
17 3.02623 2.64464 2.43743 2.30775 2.21825 2.15239 2.10169 2.06134 2.02839 2.00094 1.95772 1.91169 1.86236 1.83624 1
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
18 3.00698 2.62395 2.41601 2.28577 2.19583 2.12958 2.07854 2.03789 2.00467 1.97698 1.93334 1.88681 1.83685 1.81035 1
19 2.98990 2.60561 2.39702 2.26630 2.17596 2.10936 2.05802 2.01710 1.98364 1.95573 1.91170 1.86471 1.81416 1.78731 1
20 2.97465 2.58925 2.38009 2.24893 2.15823 2.09132 2.03970 1.99853 1.96485 1.93674 1.89236 1.84494 1.79384 1.76667 1
21 2.96096 2.57457 2.36489 2.23334 2.14231 2.07512 2.02325 1.98186 1.94797 1.91967 1.87497 1.82715 1.77555 1.74807 1
22 2.94858 2.56131 2.35117 2.21927 2.12794 2.06050 2.00840 1.96680 1.93273 1.90425 1.85925 1.81106 1.75899 1.73122 1
23 2.93736 2.54929 2.33873 2.20651 2.11491 2.04723 1.99492 1.95312 1.91888 1.89025 1.84497 1.79643 1.74392 1.71588 1
24 2.92712 2.53833 2.32739 2.19488 2.10303 2.03513 1.98263 1.94066 1.90625 1.87748 1.83194 1.78308 1.73015 1.70185 1
25 2.91774 2.52831 2.31702 2.18424 2.09216 2.02406 1.97138 1.92925 1.89469 1.86578 1.82000 1.77083 1.71752 1.68898 1
26 2.90913 2.51910 2.30749 2.17447 2.08218 2.01389 1.96104 1.91876 1.88407 1.85503 1.80902 1.75957 1.70589 1.67712 1
27 2.90119 2.51061 2.29871 2.16546 2.07298 2.00452 1.95151 1.90909 1.87427 1.84511 1.79889 1.74917 1.69514 1.66616 1
28 2.89385 2.50276 2.29060 2.15714 2.06447 1.99585 1.94270 1.90014 1.86520 1.83593 1.78951 1.73954 1.68519 1.65600 1
29 2.88703 2.49548 2.28307 2.14941 2.05658 1.98781 1.93452 1.89184 1.85679 1.82741 1.78081 1.73060 1.67593 1.64655 1
30 2.88069 2.48872 2.27607 2.14223 2.04925 1.98033 1.92692 1.88412 1.84896 1.81949 1.77270 1.72227 1.66731 1.63774 1
40 2.83535 2.44037 2.22609 2.09095 1.99682 1.92688 1.87252 1.82886 1.79290 1.76269 1.71456 1.66241 1.60515 1.57411 1
60 2.79107 2.39325 2.17741 2.04099 1.94571 1.87472 1.81939 1.77483 1.73802 1.70701 1.65743 1.60337 1.54349 1.51072 1
120 2.74781 2.34734 2.12999 1.99230 1.89587 1.82381 1.76748 1.72196 1.68425 1.65238 1.60120 1.54500 1.48207 1.44723 1
inf 2.70554 2.30259 2.08380 1.94486 1.84727 1.77411 1.71672 1.67020 1.63152 1.59872 1.54578 1.48714 1.42060 1.38318 1
= 0.05
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 161.4476 199.5000 215.7073 224.5832 230.1619 233.9860 236.7684 238.8827 240.5433 241.8817 243.9060 245.9499 248.0131 249.0518 25
2 18.5128 19.0000 19.1643 19.2468 19.2964 19.3295 19.3532 19.3710 19.3848 19.3959 19.4125 19.4291 19.4458 19.4541 1
3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602 8.6385 8
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025 5.7744 5
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581 4.5272 4
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742 3.8415 3
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 3.5747 3.5107 3.4445 3.4105 3
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 3.2839 3.2184 3.1503 3.1152 3
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365 2.9005 2
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740 2.7372 2
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464 2.6090 2
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436 2.5055 2
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589 2.4202 2
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 2.5342 2.4630 2.3879 2.3487 2
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 2.4753 2.4034 2.3275 2.2878 2
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756 2.2354 2
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304 2.1898 2
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906 2.1497 2
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555 2.1141 2
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242 2.0825 2
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960 2.0540 2
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707 2.0283 1
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476 2.0050 1
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267 1.9838 1
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075 1.9643 1
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898 1.9464 1
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736 1.9299 1
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586 1.9147 1
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446 1.9005 1
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317 1.8874 1
40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389 1.7929 1
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480 1.7001 1
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587 1.6084 1
inf 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799 1.8307 1.7522 1.6664 1.5705 1.5173 1
= 0.025
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 647.7890 799.5000 864.1630 899.5833 921.8479 937.1111 948.2169 956.6562 963.2846 968.6274 976.7079 984.8668 993.1028 997.2492 10
2 38.5063 39.0000 39.1655 39.2484 39.2982 39.3315 39.3552 39.3730 39.3869 39.3980 39.4146 39.4313 39.4479 39.4562 3
3 17.4434 16.0441 15.4392 15.1010 14.8848 14.7347 14.6244 14.5399 14.4731 14.4189 14.3366 14.2527 14.1674 14.1241 1
4 12.2179 10.6491 9.9792 9.6045 9.3645 9.1973 9.0741 8.9796 8.9047 8.8439 8.7512 8.6565 8.5599 8.5109
5 10.0070 8.4336 7.7636 7.3879 7.1464 6.9777 6.8531 6.7572 6.6811 6.6192 6.5245 6.4277 6.3286 6.2780
6 8.8131 7.2599 6.5988 6.2272 5.9876 5.8198 5.6955 5.5996 5.5234 5.4613 5.3662 5.2687 5.1684 5.1172
7 8.0727 6.5415 5.8898 5.5226 5.2852 5.1186 4.9949 4.8993 4.8232 4.7611 4.6658 4.5678 4.4667 4.4150
8 7.5709 6.0595 5.4160 5.0526 4.8173 4.6517 4.5286 4.4333 4.3572 4.2951 4.1997 4.1012 3.9995 3.9472
9 7.2093 5.7147 5.0781 4.7181 4.4844 4.3197 4.1970 4.1020 4.0260 3.9639 3.8682 3.7694 3.6669 3.6142
10 6.9367 5.4564 4.8256 4.4683 4.2361 4.0721 3.9498 3.8549 3.7790 3.7168 3.6209 3.5217 3.4185 3.3654
11 6.7241 5.2559 4.6300 4.2751 4.0440 3.8807 3.7586 3.6638 3.5879 3.5257 3.4296 3.3299 3.2261 3.1725
12 6.5538 5.0959 4.4742 4.1212 3.8911 3.7283 3.6065 3.5118 3.4358 3.3736 3.2773 3.1772 3.0728 3.0187
13 6.4143 4.9653 4.3472 3.9959 3.7667 3.6043 3.4827 3.3880 3.3120 3.2497 3.1532 3.0527 2.9477 2.8932
14 6.2979 4.8567 4.2417 3.8919 3.6634 3.5014 3.3799 3.2853 3.2093 3.1469 3.0502 2.9493 2.8437 2.7888
15 6.1995 4.7650 4.1528 3.8043 3.5764 3.4147 3.2934 3.1987 3.1227 3.0602 2.9633 2.8621 2.7559 2.7006
16 6.1151 4.6867 4.0768 3.7294 3.5021 3.3406 3.2194 3.1248 3.0488 2.9862 2.8890 2.7875 2.6808 2.6252
17 6.0420 4.6189 4.0112 3.6648 3.4379 3.2767 3.1556 3.0610 2.9849 2.9222 2.8249 2.7230 2.6158 2.5598
18 5.9781 4.5597 3.9539 3.6083 3.3820 3.2209 3.0999 3.0053 2.9291 2.8664 2.7689 2.6667 2.5590 2.5027
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 5.9216 4.5075 3.9034 3.5587 3.3327 3.1718 3.0509 2.9563 2.8801 2.8172 2.7196 2.6171 2.5089 2.4523
20 5.8715 4.4613 3.8587 3.5147 3.2891 3.1283 3.0074 2.9128 2.8365 2.7737 2.6758 2.5731 2.4645 2.4076
21 5.8266 4.4199 3.8188 3.4754 3.2501 3.0895 2.9686 2.8740 2.7977 2.7348 2.6368 2.5338 2.4247 2.3675
22 5.7863 4.3828 3.7829 3.4401 3.2151 3.0546 2.9338 2.8392 2.7628 2.6998 2.6017 2.4984 2.3890 2.3315
23 5.7498 4.3492 3.7505 3.4083 3.1835 3.0232 2.9023 2.8077 2.7313 2.6682 2.5699 2.4665 2.3567 2.2989
24 5.7166 4.3187 3.7211 3.3794 3.1548 2.9946 2.8738 2.7791 2.7027 2.6396 2.5411 2.4374 2.3273 2.2693
25 5.6864 4.2909 3.6943 3.3530 3.1287 2.9685 2.8478 2.7531 2.6766 2.6135 2.5149 2.4110 2.3005 2.2422
26 5.6586 4.2655 3.6697 3.3289 3.1048 2.9447 2.8240 2.7293 2.6528 2.5896 2.4908 2.3867 2.2759 2.2174
27 5.6331 4.2421 3.6472 3.3067 3.0828 2.9228 2.8021 2.7074 2.6309 2.5676 2.4688 2.3644 2.2533 2.1946
28 5.6096 4.2205 3.6264 3.2863 3.0626 2.9027 2.7820 2.6872 2.6106 2.5473 2.4484 2.3438 2.2324 2.1735
29 5.5878 4.2006 3.6072 3.2674 3.0438 2.8840 2.7633 2.6686 2.5919 2.5286 2.4295 2.3248 2.2131 2.1540
30 5.5675 4.1821 3.5894 3.2499 3.0265 2.8667 2.7460 2.6513 2.5746 2.5112 2.4120 2.3072 2.1952 2.1359
40 5.4239 4.0510 3.4633 3.1261 2.9037 2.7444 2.6238 2.5289 2.4519 2.3882 2.2882 2.1819 2.0677 2.0069
60 5.2856 3.9253 3.3425 3.0077 2.7863 2.6274 2.5068 2.4117 2.3344 2.2702 2.1692 2.0613 1.9445 1.8817
120 5.1523 3.8046 3.2269 2.8943 2.6740 2.5154 2.3948 2.2994 2.2217 2.1570 2.0548 1.9450 1.8249 1.7597
inf 5.0239 3.6889 3.1161 2.7858 2.5665 2.4082 2.2875 2.1918 2.1136 2.0483 1.9447 1.8326 1.7085 1.6402
= 0.01
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847 6106.321 6157.285 6208.730 6234.631 62
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 99.416 99.433 99.449 99.458 9
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 27.052 26.872 26.690 26.598 2
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 14.374 14.198 14.020 13.929 1
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 9.888 9.722 9.553 9.466
6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.559 7.396 7.313
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.314 6.155 6.074
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.515 5.359 5.279
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 4.962 4.808 4.729
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.558 4.405 4.327
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.251 4.099 4.021
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.010 3.858 3.780
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.815 3.665 3.587
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.656 3.505 3.427
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.522 3.372 3.294
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.409 3.259 3.181
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.312 3.162 3.084
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.227 3.077 2.999
gl2/gl1 1 2 3 4 5 6 7 8 9 10 12 15 20 24
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.153 3.003 2.925
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.088 2.938 2.859
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.030 2.880 2.801
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 2.978 2.827 2.749
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.931 2.781 2.702
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.889 2.738 2.659
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.850 2.699 2.620
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.815 2.664 2.585
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.783 2.632 2.552
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.753 2.602 2.522
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.726 2.574 2.495
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.700 2.549 2.469
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.522 2.369 2.288
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.496 2.352 2.198 2.115
120 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.336 2.192 2.035 1.950
inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321 2.185 2.039 1.878 1.791
ANEXA E: Tabelul valorilor critice ale distribuiei 2
0.05 0.10 1 2 4 6 8 11
0.025 0.05 1 2 4 6 8
0.01 0.02 0 2 3 5
0.005 0.01 0 2 3
n= n= n= n= n= n=
11 12 13 14 15 16
0.05 0.10 14 17 21 26 30 36
0.025 0.05 11 14 17 21 25 30
0.01 0.02 7 10 13 16 20 24
0.005 0.01 5 7 10 13 16 19
n= n= n= n= n= n=
17 18 19 20 21 22
0.05 0.10 41 47 54 60 68 75
0.025 0.05 35 40 46 52 59 66
0.01 0.02 28 33 38 43 49 56
0.005 0.01 23 28 32 37 43 49
n= n= n= n= n= n=
23 24 25 26 27 28
=0.005 =0.01 55 68 68 76 84 92
Nivelul
n 0.10 0.05 0.01
5 0.90 1.00
6 0.83 0.89 1.00
7 0.71 0.79 0.93
8 0.64 0.74 0.88
9 0.60 0.68 0.83
10 0.56 0.65 0.79
11 0.52 0.61 0.77
12 0.50 0.59 0.75
13 0.47 0.56 0.71
14 0.46 0.54 0.69
15 0.44 0.52 0.66
16 0.42 0.51 0.64
17 0.41 0.49 0.62
18 0.40 0.48 0.61
19 0.39 0.46 0.60
20 0.38 0.45 0.58
21 0.37 0.44 0.56
22 0.36 0.43 0.55
23 0.35 0.42 0.54
24 0.34 0.41 0.53
25 0.34 0.40 0.52
26 0.33 0.39 0.51
27 0.32 0.38 0.50
28 0.32 0.38 0.49
29 0.31 0.37 0.48
30 0.31 0.36 0.47
ANEXA I: Ghid de utilizare a principalelor tehnici statistice
Analiza
datelor
NU NU
NU
NU
Estimarea DA CAPITOLUL 6
unui
parametru?
NU
Testarea DA Teste DA Un singur DA CAPITOLUL 7
ipotezelor? parametri- eantion?
ce?
NU
NU NU
Un singur DA Dou DA
SECIUNEA 10.1 CAPITOLUL 8
eantion? eantioa-
ne?
NU NU
SECIUNILE
Dou DA 10.2, 10.3, 10.4, k 2 DA CAPITOLUL 9
eantioane? eantioa-
10.5, 10.6
ne?
NU NU
k 2 DA SECIUNEA
eantioane? 10.7
NU
Corelaii DA Dou DA Nivel DA SECIUNEA 11.2
ntre variabile? nominal?
variabile?
NU
NU NU
k 3 DA SECIUNEA 11.5
Nivel DA SECIUNEA 11.3
variabile? ordinal?
NU NU
NU
STOP