Documente Academic
Documente Profesional
Documente Cultură
INTRODUCERE N STATISTIC
Obiective ........................................................................................................... 10
Cunotine preliminarii ..................................................................................... 10
Resurse necesare i recomandri de studiu ...................................................... 10
Durata medie de parcurgere a unitii .............................................................. 10
1.1 Operaii aritmetice de baz ........................................................................ 12
1.2 Operaii aritmetice cu numere reale .......................................................... 12
1.3 Proprieti ale numerelor reale ................................................................... 14
1.4 Indicatori speciali ai operaiilor aritmetice ................................................ 14
1.5 Statistici descriptive i statistici infereniale .............................................. 16
1.6 Niveluri de msur...................................................................................... 16
Rezumat ............................................................................................................ 20
Cuvinte cheie .................................................................................................... 20
Teste de autoevaluare ....................................................................................... 20
Concluzii ........................................................................................................... 21
10
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;
- s dobndeasc abilitatea de a identifica nivelurile de msur folosite n
statistic ;
Cunotine preliminarii
n statistic sunt folosite metode matematice, de la cele mai simple pn la
cele mai complexe. nelegerea materialului prezentat n acest curs nu cere o
cunoatere avansat a matematicii, ci doar o familiarizare cu aritmetica,
algebra elementar i cu unele simboluri matematice folosite cu precdere n
statistic. n aceast seciune se ntreprinde o scurt trecere n revist a unor
concepte i operaii aritmetice, pe care orice cititor cu o pregtire medie n
domeniul matematicii o poate neglija.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
11
1. INTRODUCERE N STATISTIC
Pentru psiholog i, n general, pentru cercettorul n domeniul tiinelor
omului, statistica este un set de metode i tehnici matematice de organizare i
prelucrare a datelor, folosite cu scopul de a rspunde la anumite ntrebri i de a testa
anumite ipoteze. Datele sunt informaii, n principal numerice, care reprezint
anumite caracteristici. De pild, dac dorim s cunoatem nivelul de anxietate al unui
grup, datele pot fi scoruri pe o scal de anxietate, iar tehnicile statistice ne ajut s
descriem i s nelegem aceste scoruri.
sunt legate ntr-un fel sau altul de tiinele omului. Oricare ar fi motivul pentru care
se utilizeaz metode i tehnici statistice, att cercettorii, ct i consumatorii
cercetrilor trebuie s neleag ce fel de informaii ofer statistica i ce fel de
concluzii pot fi trase din aceste informaii.
n aceast curs, statistica va fi privit ca un set de instrumente, indispensabil
pentru creterea cunoaterii n tiinele omului, iar nu ca un scop n sine. Ca atare,
acest subiect nu va fi abordat matematic. Tehnicile statistice prezentate n
capitolele care urmeaz sunt vzute ca instrumente folosite pentru a rspunde unor
probleme de cercetare specifice psihologiei (altfel spus, aceast carte nu este
destinat statisticianului profesionist, ci psihologului). Pe de alt parte, aceasta nu
nseamn c nu vor fi folosite anumite metode matematice. Aceast carte a fost scris
cu intenia de a furniza ndeajuns material matematic pentru a se putea nelege ce
poate face statistica i cum face statistica ceea ce face.
Statistica folosete din plin cele patru operaii aritmetice de baz: adunarea
(+), scderea (), nmulirea i mprirea. Rezultatul unei adunri se numete sum,
iar rezultatul operaiei de scdere se numete diferen. nmulirea a dou numere
poate fi denotat algebric n trei feluri: X Y, (X) (Y) sau pur i simplu XY. Numerele
care sunt nmulite se numesc factori, iar rezultatul operaiei de nmulire se numete
produs. mprirea a dou numere poate fi, de asemenea, denotat n trei feluri: X
Y, X/Y sau
Y
X . n notaia folosit aici, X este numrtorul, Y fiind numitorul.
Rezultatul operaiei de mprire se numete ct.
Este important de reinut relaia dintre nmulire i mprire. Astfel, ctul X/Y
poate fi exprimat ca produsul (X) (1/Y). De exemplu, 15/5 = (15) (1/5) = 3.
Dac se nmulesc dou numere care au acelai semn, produsul este pozitiv,
iar dac se nmulesc dou numere care au semne diferite, produsul este negativ:
(10) (25) = +250
(10) (+15) = 150
mprirea
Dac se mpart dou numere care au acelai semn, ctul este pozitiv, iar dac
se mpart dou numere care au semne diferite, ctul este negativ:
1025 = +0,40
+1510 = 1,50
14
expresia
5
i1
N
i
i
1
arat c nsumarea ncepe cu primul numr din seria respectiv i se ncheie cu cel
de-al N-lea numr. Adesea, notaiile aflate deasupra i dedesubtul simbolului sunt
omise. ntr-un astfel de caz, indic nsumarea de la primul numr pn la ultimul.
Prezentm n continuare dou reguli privind operatorul nsumrii:
Regula 1
Rezultatul obinut prin aplicarea operatorului la produsul dintre o constant
i o serie de numere este egal cu rezultatul obinut prin nmulirea constantei cu suma
numerelor din serie. n simboluri, dac C este o constant,
N
i
i
1
CX
=
N
i
i
1
CX
4
1
2
i
i
X = (2 1) + (2 3) + (2 4) + (2 7) = 2 + 6 + 8 + 14 = 30
4
1
2
i
X = 2(1 + 3 + 4 + 7) = 2 15 = 30
Regula 2
Rezultatul obinut prin aplicarea operatorului la suma a dou sau mai multe
serii de cte N numere este egal cu rezultatul obinut prin aplicarea operatorului la
fiecare serie n parte i adunarea sumelor astfel obinute.
n simboluri:
i
N
i
N
i
N
i
iiii
111
XYXY
()
16
N
i
ii
1
XY
N
i
N
i
XY
ii
11
consum uneori un tip de cafea i alteori cellalt tip de cafea, nu consum de loc
cafea.
n legtur cu msurarea nominal, trebuie considerat i un al patrulea criteriu
de acceptabilitate, conform cruia o clasificare trebuie s aib sens teoretic sau, altfel
spus, categoriile trebuie s poat fi folosit pentru explicaie i nelegere. Putem
repartiza, de pild, orice n univers n clasa bursucilor sau n clasa non-bursucilor,
dar o astfel de clasificare nu ar avea nici o importan pentru cunoatere.
Nivelul ordinal
n cazul msurrii la nivel ordinal, pe lng clasificarea cazurilor n categorii,
cazurile repartizate ntr-o categorie sau alta pot fi ordonate, comparndu-le unul cu
altul, de la inferior la superior, n funcie de gradul calitativ n care acestea
posed trstura msurat. De pild, variabila nivel de colarizare este msurabil la
nivel ordinal. Categoriile acestei variabile sunt adesea ordonate conform urmtoarei
scheme: 1. nu a absolvit nici o coal; 2. a absolvit cel mult ciclul obligatoriu de
nvmnt;
3. a absolvit cel mult liceul; 4. a absolvit cel mult cursuri postliceale, neuniversitare;
5. a absolvit cel mult cursuri universitare; 6. a absolvit cursuri post universitare.
Aceste categorii sunt exhaustive i reciproc exclusive i pot fi comparate n termenii
numrului de cazuri pe care le conin. n plus, categoriile i cazurile individuale pot
fi comparate sub aspectul trsturii msurate. Putem spune, de pild, c un individ
clasificat n categoria 2 are un nivel de colarizare inferior unui individ clasificat n
categoria 4, respectiv c un individ clasificat n categoria 4 are un nivel de
colarizare superior unui individ clasificat n categoria 2.
La nivel ordinal, dei exist o distan ntre oricare dou cazuri aflate n
categorii diferite, aceast distan nu poate fi descris n termeni precii. n exemplul
nostru, nu suntem ndreptii s spunem, de pild, c distana dintre un individ aflat
n categoria 2 i un individ aflat n categoria 3 este egal cu distana dintre un individ
aflat n categoria 3 i un individ aflat n categoria 4 i nici c un individ aflat n
categoria 4 are un nivel de colarizare de dou ori mai mare dect un individ aflat n
categoria 2.
ntruct la nivel ordinal nu suntem ndreptii s presupunem c distanele
dintre cazuri sau scoruri sunt egale, iar operaiile de adunare, scdere, nmulire i
mprire pot fi aplicate n mod legitim numai dac intervalele dintre scoruri sunt
egale, aceste operaii nu pot fi aplicate variabilelor msurate la nivel ordinal.
Nivelul de interval
n msurarea la nivel de interval, pe lng clasificare i ordonare, distanele
(intervalele) dintre oricare dou cazuri aflate n categorii succesive sunt egale. Cu
alte cuvinte, la acest nivel variabilele sunt msurabile n uniti care au intervale
19
n care un caz aflat ntr-o categorie satisface trstura msurat fa de un caz aflat n
alt clas. n exemplul nostru, nu suntem ndreptii s spunem, de pild, c un
timbru emis n 1990 este de 60 de ori mai recent dect un timbru emis n 1930.
Este de remarcat c dac ntr-o msurare de interval apare un punct zero,
acesta este doar un punct de referin arbitrar i nu un punct zero natural sau absolut,
adic un punct care s reflecte absena caracteristicii msurate. De pild, un
termometru cu lichid dilatabil (mercur, alcool etc.) msoar temperatura pe o scal
de interval (Celsius sau Fahreinheit) n care punctul zero (0C sau 0F) este doar
unul dintre punctele de pe scala de msur folosit i nu indic absena temperaturii.
Ca atare, nu suntem ndreptii s spunem, de pild, c dac ieri temperatura a fost
de +1C i astzi sunt +10C, astzi este de zece ori mai cald ca ieri1.
Un exemplu de scal de interval n psihologie este dat de msurarea unei
trsturi de personalitate, precum nivelul de stabilitate emoional. Nu suntem
ndreptii s spunem c o persoan care a obinut un scor de 20 pe o scal de
personalitate n privina acestei trsturi este de dou ori mai stabil emoional dect o
persoan care a obinut scorul 10, deoarece nu exist un punct zero absolut care s
indice absena trsturii msurate.
La acest nivel sunt permise toate operaiile matematice.
Nivelul de raport
n msurarea la nivel de raport, pe lng toate trsturile unei msurri de
interval, se poate determina msura exact (proporia) n care un caz aflat ntr-o
categorie satisface caracteristica msurat, n raport cu un caz aflat ntr-o alt
categorie i apare un punct zero natural, care reflect absena caracteristicii msurate.
De pild, nregistrarea vechimii n munc a angajailor unei firme n ani mplinii
produce date de raport, deoarece unitatea de msur determin intervale egale,
suntem ndreptii s spunem c un angajat cu 10 ani de vechime n munc, s zicem
are o vechime de dou ori mai mare dect un angajat cu cinci ani de vechime n
munc i exist un punct zero natural (0 ani vechime n munc). Venitul, numrul de
copii i numrul de ani de csnicie sunt alte exemple de variabile msurabile la nivel
de raport.
1 Aceast
situaie nu trebuie s fie confundat cu cea a temperaturii Kelvin, care este temperatura
absolut a unui gaz ideal i este determinat de micarea moleculelor sale. Pe scala Kelvin apare
punctul zero absolut (= 273,16C), n care moleculele gazului sunt n repaus, ceea ce indic
absena caracteristicii respective.
20
UNITATEA II
PREZENTAREA DATELOR STATISTICE
Obiective ........................................................................................................... 23
Cunotine preliminarii ..................................................................................... 23
Resurse necesare i recomandri de studiu ...................................................... 23
Durata medie de parcurgere a unitii .............................................................. 23
2.1 Procente i proporii .................................................................................. 24
2.2 Raporturi i rate ......................................................................................... 26
2.3 Distribuii de frecvene ............................................................................... 28
2.4 Diagrame i grafice .................................................................................... 34
Rezumat ............................................................................................................ 40
Cuvinte cheie .................................................................................................... 40
Teste de autoevaluare ....................................................................................... 40
Concluzii ........................................................................................................... 40
23
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;
Proporie ( p ) =
n
f=
269
167 = 0, 621
Procednd la fel, aflm proporiile cazurilor din celelalte categorii. Rezultatele pot fi
exprimate sub form de procente. Astfel, procentul de cazuri din cea de-a treia
categorie (Nu tiu/Nu rspund) este
Procent (%) = 100
n
f = 100
269
30 = 11,1%
Exprimarea rezultatelor prin procente i proporii este cu deosebire util
atunci cnd dorim s comparm grupuri de mrimi diferite. S presupunem, de pild,
c am adunat urmtoarele date privind dou universiti:
Tabelul 2.2 Numrul de studeni nscrii pe specializri la dou universiti
(date fictive)
Specializarea Universitatea A Universitatea B
Drept 103 312
tiine Economice 82 279
Psihologie 137 188
Sociologie 93 217
TOTAL 415 996
ntruct numrul total de studeni nscrii difer mult de la o universitate la
alta, compararea numrului relativ de studeni nscrii pe specializri la cele dou
universiti este greu de fcut numai pe baza frecvenelor. Care universitate, de pild,
are cel mai mare numr relativ de studeni nscrii la specializarea Psihologie? Pentru
a nlesni comparaiile de acest fel, calculm procentele de studeni nscrii pe
specializri la cele dou universiti:
Tabelul 2.3 Procentul de studeni nscrii pe specializri la dou universiti
(date fictive)
Specializarea Universitatea A
(%)
Universitatea B
(%)
Drept 24,8 31,3
tiine Economice 19,8 28,0
absolut de studeni nscrii la acest profil este mai mic dect la Universitatea B, iar la
specializarea Sociologie, procentele sunt aproape aceleai.
Remarcai c sub fiecare coloan de procente am menionat totalul n date
absolute sau, altfel spus, am menionat dimensiunea eantionului.
n general, dac nu se menioneaz baza de comparaie, atunci procentele i
proporiile nu ne spun nimic sau chiar ne pot induce n eroare. S presupunem, de
pild, c o firm care produce buturi rcoritoare anun c ultimul su produs are cu
20% mai puine calorii. Problema este: 20% mai puin fa de ce? Fr menionarea
bazei de comparaie, pretenia firmei respective este lipsit de sens.
Unele reclame impresioneaz prin prezentarea unor proporii, cum ar fi
Dou din trei persoane prefer marca X de produs mrcii Y. Ce ai gndi despre o
astfel de reclam, dac ai afla c, de fapt, au fost chestionate doar trei persoane?
Cunotinele de statistic i dovedesc utilitatea i n mai buna nelegere i evaluare a
informaiilor statistice prezentate n presa scris sau pe posturile de radio i
televiziune.
O eroare care poate s apar n folosirea procentelor const din ncercarea de
a aduna procentele ca i cum ar fi numere cardinale.
S presupunem de pild, c productorul naional de energie electric anun
creterea preului pe kilowatt cu 50%. Pentru justificarea acestei creteri,
productorul arat c au crescut costurile de producie a energiei electrice, dup cum
urmeaz: preul combustibilului folosit n termocentrale cu 10%, costurile
investiiilor n retehnologizare cu 20% i cheltuielile cu fora de munc cu 10%, n
total, o cretere a costurilor cu 50%. O astfel de justificare este greit. Doar o
cretere cu 50% a tuturor costurilor ar justifica o cretere cu 50% a preului pe
kilowatt.
Revenind la exemplul dat la nceputul aceste seciuni, informaia prezentat
directorului executiv al companiei ar fi fost mai convingtoare dac i-ai fi spus:
Dei n departamentul meu lucreaz doar 24% din angajaii companiei, oamenii mei
au adus 41% din contractele de asigurare ncheiate anul trecut n companie.
2.2 RAPORTURI I RATE
Sconsiderm din nou tabelul 2.2. Ct de muli studeni sunt nscrii la
tiine economice n comparaie cu cei nscrii la Psihologie n Universitatea B?
Putem folosi frecvenele pentru a rspunde la aceast ntrebare, dar un rspuns mai
uor de neles poate fi dat folosind un raport.
Raporturile se calculeaz mprind frecvena cazurilor dintr-o categorie la
frecvena cazurilor din alt categorie, permind astfel compararea categoriilor n
f
f
n care i f = numrul de cazuri din categoria i
j f = numrul de cazuri din categoria j
Raportul ne spune exact n ce msur categoria i depete n numr de cazuri
categoria j. n exemplul nostru, raportul studenilor nscrii la tiine Economice fa
de cei nscrii la Psihologie n Universitatea B este:
Raport =
j
i
f
f
=
188
279 = 1,48
Aceasta nseamn c pentru fiecare student nscris la Psihologie exist 1,48 studeni
nscrii la tiine Economice.
Raporturile pot fi multiplicate cu 100 pentru a elimina virgulele.
Astfel, raportul calculat mai sus poate fi prezentat ca 148, ceea ce nseamn c pentru
fiecare 100 de studeni nscrii la psihologie exist 148 de studeni nscrii la tiine
Economice.
Ratele se calculeaz mprind numrul de cazuri reale (efective) la numrul
de cazuri posibile pentru variabila de interes pe o anumit unitate de timp.
De pild, rata brut a natalitii pentru o populaie se calculeaz mprind numrul
de nscui vii la numrul total de persoane din acea populaie pe an, ctul astfel
obinut fiind nmulit cu 1000.
Se spune c rezultatul este exprimat n promile (0/00). Dac, de pild, ntr-un
ora cu 7000 de locuitori s-au nregistrat ntr-un anumit an 100 de nscui vii, rata
brut a natalitii este
Rata brut a natalitii (0/00) = 1000 0,0143 1000 14,3
7000
100 0/00
Aceasta nseamn c pentru fiecare mie de locuitori au fost n acel an 14,3 nscui
vii.
Ca modaliti de a exprima frecvene relative, procentele, proporiile,
raporturile i ratele sunt utile n special atunci cnd dorim s comparm diferite
grupuri sau/i acelai grup n momente diferite.
28
8
4
6
4
9
3
3
4
3
4
0
2
9
4
3
6
0
6
9
5
4
6
4
4
1
6
3
4
4
5
5
5
8
5
5
4
1
3
7
4
9
3
6
4
1
5
2
5
1
5
3
4
9
4
8
6
4
5
5
3
7
4
7
5
0
3
4
4
4
3
9
3
0
4
2
6
1
4
3
3
3
5
1
5
0
5
4
6
3
6
8
5
7
4
3
5
6
5
4
4
7
3
7
5
2
4
9
3
6
4
8
5
6
2
4
4
5
5
5
4
6
5
8
4
5
3
2
5
6
5
5
4
9
4
7
5
5
4
4
3
2
5
0
4
9
5
3
6
2
6
7
5
6
4
2
5
5
5
3
4
6
3
6
5
1
4
8
3
5
4
7
4
8
2
5
4
6
5
6
4
5
5
9
4
6
3
3
5
7
5
4
5
0
4
6
5
6
5
4
4
7
5
3
5
3
5
0
5
0
6
5
6
0
5
3
4
0
5
7
3
9
3
6
6
3
3
8
5
7
5
7
5
6
5
5
4
0
4
6
4
8
6
2
4
0
4
5
4
6
5
6
4
4
4
8
4
8
5
5
4
8
5
2
5
2
4
9
4
9
6
4
5
9
5
2
3
9
5
6
3
8
3
5
6
2
3
7
5
6
5
6
5
5
5
6
4
1
4
7
4
9
6
3
4
1
4
6
4
5
5
5
4
5
4
9
4
7
Datele brute din tabelul 2.4 sunt greu de urmrit i greu de neles. Sub
supoziia c este vorba despre date de interval, putem construi o distribuie de
frecvene listnd scorurile diferite n ordine cresctoare i nregistrnd frecvena de
apariie a fiecrui scor. Distribuia de frecvene astfel obinut este urmtoarea:
29
5054 30 16,67
5559 37 20,56
6064 15 8,33
6569 6 3,33
TOTAL 180 100,0
Distribuia de frecvene din tabelul 2.6 evideniaz predominana relativ a
scorurilor din intervalele 4549 (23,33%) i 5559 (20,56%). Pe de alt parte,
gruparea scorurilor n acest tabel conduce la o pierdere de informaie fa de
prezentarea din tabelul 2.5. Nu tim, de pild, ci subieci au obinut, respectiv,
scorurile 35, 36, 37, 38 i 39, ci doar c sunt 18 scoruri n intervalul 3539. Apoi, din
tabelul 2.6 nu reiese c n eantionul considerat nu au fost obinute scorurile 26, 27,
28, 31 i 66. S mai notm c, la rigoare, se poate spune c n distribuia de frecvene
din tabelul 2.5, mrimea fiecrui interval este egal cu o unitate.
n general, regulile de construire a unei distribuii de frecvene pentru date de
interval sau de raport n care se utilizeaz intervale de clas de mrime diferit fa
de datele iniiale sunt urmtoarele:
1. Se decide asupra numrului de intervale de clas care vor fi utilizate.
Numrul de intervale de clas nu trebuie s fie att de mare nct s nu permit
sesizarea predominanei relative a anumitor grupri de scoruri, dar nici att de mic
nct s conduc la pierderea unor informaii semnificative. De regul, se utilizeaz
ntre 5 i 20 de intervale, n funcie de numrul de scoruri din mulimea iniial de
date i de scopurile cercetrii.
2. n funcie de numrul de intervale de clas ales, se stabilete mrimea
intervalelor de clas. n mod obinuit, pentru a se nlesni interpretarea distribuiei de
frecvene, se folosesc intervale de clas de aceeai mrime. Mrimea unui interval de
clas se stabilete mprind diferena dintre cel mai mare scor i cel mai mic scor din
mulimea scorurilor date, numit amplitudine a mulimii respective1, la numrul
intervalelor de clas i rotunjind rezultatul pn la un numr ntreg convenabil.
3. Se stabilete primul interval astfel nct s conin cel mai mic scor
(limita sa inferioar s fie mai mic sau egal cu cel mai mic scor). Ultimul interval
va fi acela care conine cel mai mare scor. Intervalele nu trebuie s se suprapun.
4. Se numr scorurile din fiecare interval de clas i se nregistreaz
rezultatele ntr-o coloan etichetat f (frecvena). La sfritul acestei coloane se
prezint numrul total de scoruri. Pentru mai mult claritate, se poate aduga o
coloan de procente.
Svedem cum au fost aplicate aceste reguli pentru construirea distribuiei de
frecvene din tabelul 2.6. Scorul cel mai mare i scorul cel mai mic fiind, respectiv,
69 i 24, amplitudinea scorurilor este 69 24 = 45. Alegnd un numr de 10
intervale de clas, mrimea fiecrui interval de clas este 45 10 = 4,5 5.
Primul interval, care trebuie s includ cel mai mic scor, poate fi oricare dintre
urmtoarele:
31
Scorul 24, de pild, ar fi fcut parte att din intervalul 2024, ct i din
intervalul 2428. Intervalele de clas din tabelul 2.6 sunt exhaustive (acoper toate
scorurile din mulimea iniial de scoruri) i reciproc exclusive (fiecare scor face
parte dintr-un singur interval).
Distribuiile de frecvene pentru date de interval sau de raport pot conine
dou instrumente ajuttoare n prezentarea datelor: frecvene cumulate i procente
cumulate. Frecvenele cumulate prezint numrul de cazuri dintr-un interval de
clas i din toate intervalele de clas precedente, iar procentele cumulate prezint
procentul de cazuri dintr-un interval de clas i din toate intervalele precedente3.
Tabelul urmtor prezint o coloan de frecvene cumulate i o coloan de procente
cumulate pentru distribuia de frecvene din tabelul 2.6
Tabelul 2.7 Distribuia de frecvene a scorurilor
obinute la un test de cunotine
Intervale de clas f fc % %c
2024 1 1 0,56 0,56
2529 2 3 1,11 1,67
3034 7 10 3,89 5,56
3539 18 28 10,0 15,56
4044 22 50 12,22 27,78
4549 42 92 23,33 51,11
5054 30 122 16,67 67,78
5559 37 159 20,56 88,34
6064 15 174 8,33 96,67
6569 6 180 3,33 100,0
TOTAL 180 100,0
Pentru a construi distribuia de frecvene cumulate din tabelul 2.7 ncepem cu
primul interval de clas, 2024. Pentru acest interval, intrarea n coloana de frecvene
cumulate este identic cu numrul de scoruri din interval, 1. Pentru intervalul imediat
urmtor, 2529, se adun numrul de scoruri din interval, 2, cu numrul de scoruri
att pentru frecvenele cumulate, ct i pentru procentele cumulate, c intervalele de
clas apar n tabel n ordine cresctoare.
3 Considernd,
32
pild, cum vom vedea n seciunea urmtoare, pentru construirea unei histograme.
de interval sunt utile n construirea histogramelor.
5 Centrele
33
circumferina unui cerc are 3600, vom aloca 1260 (35% din 3600) pentru prima
categorie, 1800 (50% din 3600) pentru cea de-a doua categorie i 540 (15 % din 3600)
pentru cea de-a treia categorie.
Obinem urmtoarea diagram circular:
35
Ogive
Ogivele, numite i curbe cumulative ale frecvenelor sau poligoane de
frecvene cumulate, prezint vizual frecvenele cumulate sau procentele cumulate
ale unei distribuii O ogiv utilizeaz limitele de clas reale superioare ale
intervalelor (LCRS) i se construiete dup cum urmeaz:
1. LCRS se dispun pe axa absciselor.
2. Frecvenele cumulate sau procentele cumulate se dispun pe axa
ordonatelor.
3. Se plaseaz cte un punct n dreptul fiecrei LCRS, la nlimea
corespunztoare frecvenei cumulate sau procentului cumulat n intervalul
40
Rezumat
Funcia de baz a statisticii descriptive este prezentarea clar i concis a
rezultatelor cercetrii. n acest capitol sunt expuse o serie de tehnici de organizare i
prezentare rezumativ a datelor: procente, proporii, raporturi, rate, distribuii de
frecvene, diagrame i grafice.
Cuvinte cheie
Centre de interval;
Frecvena cumulat;
Intervale de clas;
Limite de clas reale;
Ogiva;
Histograma.
Teste de autoevaluare
1. Definii pe scurt procentele (pg. 32 ).
2. Definii pe scurt proporiile (pg.32).
3. Definii raporturile. (pg.34)
4. Definii ce este o distribuie de frecvene (pg. 36)
5. Ce sunt frecvenele cumulate ? (pg. 39 )
Concluzii.
Aceast unitate de studiu asigur o introducere general n problematica
statisticii, prezentnd aspecte teoretice legate de: procente i proporii, raporturi i
rate, distribuii de frecven, diagrame i grafice.
Scopul ei este de a familiariza studentul cu elementele fundamentale ale
acestei discipline.
UNITATEA III
MRIMILE TENDINEI CENTRALE
Obiective. 42
Cunotine preliminarii... 42
Resurse necesare i recomandri de studiu. 42
Durata medie de parcurgere a unitii..... 42
3.1 Media aritmetic .......................... 43
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de aplicarea
statisticii n psihologie ;
- s dobndeasc abilitatea de a calcula media, mediana i modul raporturi
i rate ;
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
43
3.1MEDIA ARITMETIC
Media aritmetic se calculeaz doar pentru variabile msurate la nivel de
interval sau de raport i se definete ca rezultat al mpririi sumei tuturor scorurilor
dintr-o mulime de scoruri la numrul total de scoruri din acea mulime. Simbolul
folosit pentru media aritmetic a unui eantion este X , iar pentru media aritmetic a
unei populaii se folosete litera greceasc (miu). ntruct deocamdat va fi vorba
numai despre eantioane, vom folosi simbolul X . Formula matematic a mediei
aritmetice este urmtoarea:
Formula 3.1 X =
n
Xi
n care i X = suma scorurilor
n = numrul total de scoruri.
Spresupunem, de pild, c am nregistrat vrstele pentru un eantion de 11
persoane i c am obinut urmtoarea distribuie de frecvene:
Tabelul 3.1 Vrstele pentru un eantion de 11 persoane
Vrsta f
16 1
17 4
18 1
19 2
23 3
TOTAL 11
44
S remarcm c avem 11 scoruri, cte unul pentru fiecare persoan din eantion.
Pentru a afla media aritmetic a vrstelor persoanelor din eantion sau, pe scurt,
vrsta medie, trebuie s nsumm toate cele 11 scoruri i s mprim rezultatul
obinut la 11. Pentru a scurta procedura, nmulim fiecare scor cu frecvena cu care
apare, adunm rezultatele nmulirilor i mprim suma astfel obinut la 11:
19
11
209
11
(1 16) (4 17) (1 18) (2 19) (3 23)
n
X
Xi
Astfel, media aritmetic a vrstelor persoanelor din eantionul considerat este 19.
Media aritmetic este mrimea statistic folosit cel mai des n aprecierea
tendinei centrale a unei mulimi de scoruri de interval sau de raport deoarece este
uor de calculat i n plus are urmtoarele proprieti importante, pe care le vom
folosi n unele aplicaii ulterioare.
1. Pentru orice distribuie de scoruri, suma abaterilor scorurilor de la media
lor aritmetic este egal cu zero. Abaterea unui scor Xi fa de media aritmetic X
este diferena Xi X , astfel c aceast proprietate se exprim simbolic dup cum
urmeaz:
(X X ) = 0
i
n cuvinte, suma diferenelor dintre scoruri i media lor aritmetic este egal cu 0.
Aceast proprietate, care este folosit n obinerea unor formule statistice mai
complicate, poate fi exprimat i spunnd c pentru orice distribuie de scoruri,
media aritmetic este punctul n jurul cruia toate scorurile se anuleaz, ceea ce face
din media aritmetic o mrime descriptiv adecvat n msurarea centralitii
scorurilor.
2. Pentru orice distribuie de scoruri, suma ptratelor abaterilor scorurilor fa
de media lor aritmetic este mai mic dect suma ptratelor abaterilor scorurilor fa
de oricare alt scor din distribuie, n simboluri:
(X X )2 (X Xj)2
i
n cuvinte, suma ptratelor diferenelor dintre scoruri i media lor aritmetic este mai
mic dect suma ptratelor diferenelor dintre scoruri i oricare alt scor din
distribuie. Aceast proprietate, care este folosit pentru a defini unele mrimi ale
capitolul 11.
45
Tabelul 3.2 Proprieti ale mediei aritmetice pentru datele din tabelul 3.1
i X i X X ( i X X )2 ( i X 17) ( i X 17)2
16 3 9 1 1
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
17 2 4 0 0
18 1 1 1 1
19 0 0 2 4
19 0 0 2 4
23 4 16 6 36
23 4 16 6 36
23 4 16 6 36
0 74 118
Se poate constata c suma abaterilor ptratice ale scorurilor fa de media aritmetic
(74) este mai mic dect suma abaterilor ptratice ale scorurilor fa de scorul 17
(118). Aceast relaie are loc pentru oricare alt scor din distribuie. Este important de
reinut c n cazul n care o distribuie are foarte puine scoruri extreme (foarte mari
sau foarte mici), media aritmetic poate deveni o mrime neltoare n aprecierea
centralitii. De pild, mulimea de scoruri 15, 20, 25, 30, 35 are media aritmetic 25,
n timp ce media aritmetic a mulimii 15, 20, 25, 30, 3500 este 718, iar media
aritmetic a mulimii 1, 15, 20, 25, 30, este 18,2. Se poate constata c media
aritmetic este afectat disproporionat de prezena scorurilor 3500 i, respectiv, 1.
Media aritmetic este tras ntotdeauna n direcia scorurilor extreme, mai ales n
direcia celor relativ mari2. Acesta este un motiv pentru care se recurge uneori la o
alt mrime a tendinei centrale: mediana.
3.2MEDIANA
Mediana poate fi determinat att pentru variabile msurate la nivel de
interval sau de raport, ct i pentru variabile msurate la nivel ordinal. Ca i n cazul
mediei aritmetice, i n cazul medianei vom folosi dou simboluri: X~ pentru
mediana unui eantion i m~ pentru mediana unei populaii. De asemenea, ntruct
deocamdat va fi vorba numai despre eantioane, vom folosi simbolul X~ .
2 Aceasta
este sursa glumei numite paradoxul statisticii: dac X are 10 paltoane i Y nu are nici un
palton, atunci X i Y au n medie cte 5 paltoane.
46
mijloc. Dac n este par, atunci vor fi dou cazuri de mijloc i orice valoare cuprins
ntre cele dou scoruri ale cazurilor de mijloc satisface definiia medianei. ntr-un
astfel de situaie, dac scorurile sunt de interval sau de raport, prin convenie, se ia
drept median media aritmetic a celor dou scoruri ale cazurilor de mijloc.
n exemplu din tabelul 3.1 avem de-a face cu 11 cazuri. Vrsta median este
18, deoarece avem n eantion cinci persoane cu vrste mai mici de 18 ani i cinci
persoane cu vrste mai mari de 18 ani. S presupunem acum c am nregistrat
vrstele pentru un eantion de 7 persoane i c am obinut urmtoarea distribuie de
frecvene: Tabelul 3.3 Vrstele pentru un eantion de 7 persoane
Vrsta f
26 2
28 1
29 1
30 1
32 1
60 1
TOTAL 7
Pentru datele din acest tabel, X~ = 29: trei persoane au vrste mai mici de 29
de ani i alte trei persoane au vrste mai mari de 29 de ani. De remarcat c vrsta
tipic a persoanelor din acest eantion este mai bine reprezentat de vrsta median
dect de media aritmetic a vrstelor, 33, care este tras n sus de scorul 60. Acum,
dac adugm la acest eantion o persoan de 31 de ani, avem 8 cazuri cu scorurile
26, 26, 28, 29, 30, 31, 32 i 60. Astfel, apar dou cazuri de mijloc, unul cu scorul 29
i cellalt cu scorul 30, i orice numr cuprins ntre aceste dou scoruri satisface
definiia medianei. Ca atare, mediana este media aritmetic a scorurilor celor dou
cazuri de mijloc: 29,5.
Urmtoarele dou exemple arat de ce este inclus expresia sau egale n
definiia medianei. S presupunem c am nregistrat numrul de copii pentru un
eantion de 16 familii, rezultatele obinute fiind urmtoarele:
47
scorul median este 5, cci avem patru scoruri mai mici sau egale cu 5 (1, 2, 3, 5) i
patru scoruri mai mari sau egale cu 5 (5, 7, 10, 12).
Urmtorul exemplu ilustreaz determinarea medianei pentru variabile de
nivel ordinal. S presupunem c ntr-o cercetare privind modul de petrecere a
timpului liber, 11 subieci au fost solicitai s rspund la ntrebarea Ct de des ai
fost la cinematograf n ultimele ase luni? Rspunsurile la aceast ntrebare au fost
nregistrate pe o scal ordinal cu urmtoarele categorii: 1. Deloc, 2. Foarte rar, 3.
Rar, 4. Des, 5. Foarte des. Aranjnd scorurile n ordine descresctoare, datele sunt
urmtoarele:
Tabelul 3.5 Ct de des mergei la cinematograf?
Subiectul Rspunsul
A Foarte des
B Foarte des
C Foarte des
D Foarte des
E Foarte des
F Des
G Foarte rar
H Foarte rar
I Foarte rar
J Foarte rar
K De loc
48
este i motivul pentru care mediana se folosete cu precdere pentru date ordinale.
49
unui eantion din acea populaie. Pentru scopuri descriptive ns, dac lucrm cu date
de interval sau de raport, este recomandabil s folosim toate mrimile tendinei
centrale, deoarece, pe de o parte, ele pot furniza informaii relativ diferite i, pe de
50
n aceast distribuie, media aritmetic, mediana i modul apar mpreun n cel mai
nalt punct al curbei. Acest punct este modul, deoarece este punctul n care sunt
nregistrate cele mai multe cazuri, este mediana, deoarece numrul de cazuri
nregistrate la stnga acestui punct este egal cu numrul de cazuri nregistrat la
dreapta sa i este media aritmetic, deoarece scorurile aflate n partea dreapt ntrec
scorul median n aceeai msur n care scorurile aflate n partea stng sunt mai
mici dect scorul median. Atunci cnd o distribuie are doar cteva scoruri foarte
mari sau, altfel spus, scorurile relativ mici sunt predominante, media aritmetic este
mai mare dect mediana. ntr-un astfel de caz, se spune c distribuia respectiv
prezint o asimetrie pozitiv. Figura 3.2 ilustreaz cazul unei distribuii cu asimetrie
pozitiv. Figura 3.2 O distribuie cu asimetrie pozitiv ( X X~ )
Frecvena
Atunci cnd o distribuie are doar cteva scoruri foarte mici sau, altfel spus, scorurile
relativ mari sunt predominante, media aritmetic este mai mic dect mediana. ntrun
astfel de caz, se spune c distribuia respectiv prezint o asimetrie negativ.
Figura 3.3 ilustreaz cazul unei distribuii cu asimetrie negativ.
X , X~
X~ X
~
51
Formula 3.2
N
nX
X i i
n care ni = numrul de scoruri din fiecare grup
i X = media aritmetic a fiecrui grup
N = numrul total de scoruri
n exemplul nostru avem:
N
nX
X i i =
140
(86 7,33) (54 8,45)
=
140
1086,68 = 7,76
Dac am fi fcut media aritmetic a valorilor 7,33 i 8,45 am fi obinut 7,89,
ceea ce ar fi fost incorect, cci grupurile difer n privina numrului de scoruri.
X X~
52
Evident, media aritmetic ponderat poate fi calculat i pentru mai mult de dou
grupuri.
Este important de remarcat c, aplicate la aceeai mulime de scoruri,
formulele 3.1 i 3.2 produc acelai rezultat. Pentru ilustrare, fie urmtoarea mulime
de 10 scoruri, mprit n dou grupuri: n1 = 5, 5, 5, 6, 7, 7, n2 = 7, 8, 9, 10.
Media aritmetic pentru ntreaga mulime este
X=
n
Xi =
10
(5 3) 6 (7 3) 8 9 10
=
10
69 = 6,90
Acum, mediile aritmetice ale celor dou grupuri sunt, respectiv, 1 X = 5,83 i 2 X =
8,50, astfel c media aritmetic ponderat a celor dou grupuri este
N
nX
X i i =
10
(6 5,83) (4 8,50)
=
10
35 34
=
10
69 = 6,90
nc odat, calculul mediei aritmetice a celor dou medii conduce la un rezultat
greit: 7,16.
3.6 MRIMILE TENDINEI CENTRALE PENTRU DATE GRUPATE
n cele ce urmeaz sunt expuse tehnicile statistice de aflare a mrimilor
tendinei centrale pentru date de interval sau de raport grupate n distribuii de
frecvene. Aceste tehnici i dovedesc utilitatea n dou situaii.
O prim situaie apare atunci cnd trebuie s lucrm cu o mulime mare de
scoruri brute i nu dispunem de un calculator sau de un computer sau decidem c
valorile aproximative ale acestor mrimi sunt suficiente pentru scopurile noastre.
O a doua situaie apare atunci cnd avem de-a face cu date din surse
secundare, deja organizate n distribuii de frecvene cu intervale de clas, fr s
avem acces la scorurile brute iniiale. ntr-o astfel de situaie, ntruct nu cunoatem
modul n care scorurile sunt realmente distribuite, nu putem dect s aproximm
mrimile tendinei centrale ale distribuiilor respective.
Pentru ilustrare, s considerm exemplul privind scorurile obinute de 180 de
subieci la un test de cunotine, pe care am lucrat n capitolul anterior. nainte de a
trece mai departe, prezentm valorile calculate pentru scorurile brute, pentru a le
putea compara cu cele calculate pentru datele grupate.
Astfel, n exemplul nostru avem:
X = 49,22 X~ = 49 Mo = 56
Sconsiderm acum distribuia de frecvene a scorurilor obinute de 180 de
subieci la un teste de cunotine:
Tabelul 3.6 Distribuia de frecvene a scorurilor obinute la un test de cunotine
53
Intervale de clas f
2024 1
2529 2
3034 7
3539 18
4044 22
4549 42
5054 30
5559 37
6064 15
6569 6
TOTAL 180
Media aritmetic pentru date grupate
Pentru a calcula media aritmetic a unei mulimi de scoruri trebuie s
cunoatem dou valori: suma tuturor scorurilor, Xi, i numrul de scoruri, n. n
cazul distribuiei din tabelul 3.6, nu tim dect c n = 180. Deoarece datele au fost
grupate, nu cunoatem distribuia exact a scorurilor individuale i deci nu putem
determina exact Xi.
Formula 3.3
n
fm
X i i
Pentru a aplica aceast procedur la exemplul nostru, vom aduga dou
coloane la distribuia de frecvene din tabelul 3.6, una pentru centrele de interval i
una pentru produsele dintre centrele de interval i frecvene:
Tabelul 3.7 Calculul mediei aritmetice pentru date grupate
Intervale de clas f m fm
2024 1 22 22
2529 2 27 54
3034 7 32 224
3539 18 37 666
4044 22 42 924
4549 42 47 1974
5054 30 52 1560
5559 37 57 2109
6064 15 62 930
6569 6 67 402
TOTAL 180 8865
Totalul ultimei coloane este valoarea pentru fimi. mprind aceast valoare la
numrul total de cazuri obinem media aritmetic aproximativ a scorurilor:
n
fm
X i i =
180
8865 = 49,25
Dup cum se poate constata, valoarea obinut n acest fel reprezint o deosebit de
bun aproximare a valorii efective a mediei aritmetice.
Mediana pentru date grupate
tim c pentru a afla mediana unei distribuii ordonate de scoruri trebuie s
identificm mai nti cazul sau cazurile de mijloc al distribuiei respective. Atunci
cnd se lucreaz cu date grupate, se introduce o simplificare: cazul de mijloc este
identificat la n2, indiferent dac n este par sau impar. n exemplul nostru, avnd 180
de cazuri n eantion, cazul de mijloc va fi identificat la 1802, i.e. al 90-lea caz. Mai
departe, problema este de a localiza acest caz i apoi de a afla scorul asociat lui.
Evident, atunci cnd datele sunt grupate, cazul de mijloc se afl ntr-un interval de
clas. Supoziia calculului medianei pentru date grupate este c n fiecare interval de
clas, toate scorurile sunt distribuite uniform ntre limitele reale ale intervalului.
Astfel, dup ce identificm intervalul care conine cazul de mijloc, vom afla scorul
respectiv pe baza acestei supoziii. Pentru identificarea intervalului de clas care
conine cazul de mijloc, adugm o coloan de frecvene cumulate la distribuia de
frecvene iniial:
55
a cazurilor aflate sub intervalul n care se afl mediana: 90 50 = 40. Dac, aa cum
am presupus, scorurile sunt distribuite uniform, atunci cazul 90 se afl la 4042 din
distana dintre 44,5 i 49,5. Acum, 4042 din 5 (mrimea intervalului) este 4,76,
astfel nct putem aproxima mediana la 44,5 + 4,76 sau 49,26.
n general, sub supoziia c n fiecare interval de clas toate scorurile sunt distribuite
uniform ntre limitele reale ale intervalului, procedura de calcul a medianei pentru
date grupate este urmtoarea:
1. Se afl cazul de mijloc, dat de n/2.
2. Se construiete o coloan de frecvene cumulate i cu ajutorul acesteia se
identific intervalul care conine cazul de mijloc.
3. Se afl al ctelea caz din interval este cazul de mijloc, scznd din n/2
frecvena cumulat a cazurilor aflate sub intervalul identificat n pasul2.
4. Numrul obinut n pasul 3 se mparte la numrul de cazuri din interval.
5. Numrul obinut n pasul 4 se nmulete cu mrimea intervalului.
6. Numrul obinut n pasul 5 se adun cu limita de clas real inferioar a
intervalului care conine cazul de mijloc. Rezultatul reprezint valoarea
aproximativ a medianei.
4 Cu
56
~2
X
n care X LCRI ~ = limita de clas real inferioar a intervalului care conine al n2-lea
caz
n = numrul total de cazuri
fci = frecvena cumulat sub intervalul care conine al n2-lea caz
fi = numrul de cazuri din intervalul care conine al n2-lea caz
i = mrimea intervalului care conine al n2-lea caz
Aplicnd aceast formul la exemplul nostru, avem:
i
f
n fc
X LCRI
i
i
~2
= 5
42
(180 2) 50
5 , 44
57
3.7 PERCENTILE
Mrimile tendinei centrale furnizeaz informaii despre mulimi de scoruri.
n anumite cazuri ns, cercettorul poate fi interesat de descrierea poziiei unui scor
individual n raport cu celelalte scoruri dintr-o distribuie. Dac, de pild, un subiect
a obinut scorul 47 la un test de cunotine, semnificaia acestui scor poate fi
explicat inclusiv n termenii numrului de subieci din eantionul considerat care au
obinut scoruri mai mici dect 47.
Poziia unui scor individual ntr-o distribuie poate fi determinat cu ajutorul
percentilelor. Cea de-a m-a percentil a unei mulimi de scoruri, Pm, este valoarea
fa de care cel mult m% din scoruri sunt mai mici dect m i cel mult (100 m)%
din scoruri sunt mai mari dect m. ntruct mediana unei mulimi de scoruri este
valoarea fa de care cel mult 50% din scoruri sunt mai mici i cel mult 50% din
scoruri sunt mai mari, mediana este cea de-a 50-a percentil a acelei mulimi. Tot aa
cum exist un nume special pentru cea de-a 50-a percentil a unei mulimi de scoruri,
exist nume speciale pentru percentilele care mpart o mulime ordonat de scoruri n
sferturi i n zecimi: cuartile5 i, respectiv, decile. Lista urmtoare prezint cele mai
utilizate percentile, mpreun cu simbolurile uzuale pentru cuartile i decile
(considernd c este vorba despre o mulime de scoruri ordonat cresctor):
D1 = Prima decil = P10
Q1 = Prima cuartil = P25
Q2 = A doua cuartil = P50 = X~
Q3 = A treia cuartil = P75
D9 = A noua decil = P90
Pentru ilustrare, fie urmtoarea mulime ordonat de 15 scoruri:
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
Q1 X~ Q3
Prima cuartil este valoarea fa de care cel mult 25% din scoruri, i.e. cel mult
(15/100)25 = 3,75 scoruri sunt mai mici i cel mult 75% din scoruri, i.e. cel mult
(15/100)75 = 11,25 scoruri sunt mai mari. Singurul scor care satisface acest criteriu
este 5, deci Q1 = 5. Cea de-a doua cuartil, mediana, este scorul central, i.e. 12. Cea
de-a treia cuartil este valoarea fa de care cel mult 75% din scoruri, i.e. cel mult 11,
25 scoruri sunt mai mici i cel mult 25% din scoruri, i.e. 3,75 scoruri sunt mai mari.
Singurul scor care satisface acest criteriu este 21, deci Q3 = 21.
5 Cuartilele
sunt valori care mpart o mulime ordonat de scoruri n patru pri egale. n practic,
termenul cuartil se folosete adesea pentru referire la unul dintre aceste sferturi.
58
c P75 este o valoare cuprins ntre limita real inferioar i limita real superioar
ale intervalului 5559, adic ntre 54,5 i 59,5. Mai departe, presupunem c toate
cele 37 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale
ale intervalului, cazul 123 fiind situat la limita real inferioar (54,5), iar cazul 159 la
limita real superioar (59,5). n intervalul care conine P75 sunt 37 de cazuri, cazul
135 fiind al 13-lea: cazul 123 este primul, 124 al doilea, , 135 al 13-lea. Aceasta
revine la a spune c, pentru a afla al ctelea caz este cazul 135, scdem din 135
frecvena cumulat a cazurilor aflate sub intervalul n care se afl cazul 135: 135
122 = 13. Dac, aa cum am presupus, scorurile sunt distribuite uniform, atunci cazul
135 se afl la 1337 din distana dintre 54,5 i 59,5. Acum, 1337 din 5 (mrimea
intervalului) este 1,75, aa nct putem aproxima P75 la 54,5 + 1,75 sau 56,25.
Formula urmtoare rezum paii de calcul al percentilelor pentru date
grupate:
Formula 3.5 Pm LCRIm + i
f
np fc
i
i
au scoruri mai mici sau egale cu 47 este (47,0 44,5)/5 = 2,5/5 = 0,5. Ca atare, n
acest interval sunt 42 0,5 = 21 de scoruri mai mici sau egale cu 47. Prin urmare,
numrul total de scoruri mai mici sau egale cu 47 este 50 + 21 = 71, iar rangul
percentilei scorului 47 poate fi aproximat la (71/180) 100 = 39,4. Aceasta nseamn
c 39,4% din cazuri au un scor mai mic sau egal cu scorul 47.
Urmtoarea formul rezum paii de calcul al rangului percentilelor pentru
date grupate:
Formula 3.6 RPX 100
n
f
i
X LCRI
fc i
X
i
= 100
180
50 21
= 39,4
60
Pentru a afla, de pild, P58, din punctul 58 de pe axa procentelor trasm o paralel cu
axa scorurilor care s intersecteze curba, iar din punctul de intersecie trasm o
perpendicular pe axa scorurilor. Punctul de intersecie al acestei perpendiculare cu
axa scorurilor este P58. Pentru a afla RP62, din punctul 62 de pe axa scorurilor trasm
o paralel cu axa procentelor care s intersecteze curba, iar din punctul de intersecie
trasm o perpendicular pe axa procentelor. Punctul de intersecie al acestei
perpendiculare cu axa procentelor este RP62.
Rezumat
Utilizarea distribuiilor de frecvene i a tehnicilor grafice de prezentare a
acestora permite relevarea formelor globale ale distribuiilor unor scoruri. Pentru
descrierea mai detaliat a unei distribuii de scoruri, statisticienii folosesc dou tipuri
de mrimi numerice descriptive. Este vorba despre ideea de caz tipic sau central ntro
distribuie, redat prin mrimile tendinei centrale, i despre ideea de varietate
sau eterogenitate a unei distribuii, redat prin mrimile dispersiei. Determinarea
acestor mrimi furnizeaz valori precise care por fi uor interpretate i comparate
ntre ele.
Cuvinte cheie
Media aritmetic;
Mediana;
61
UNITATEA IV
MRIMILE DISPERSIEI
Obiective ........................................................................................................ 63
Cunotine preliminarii .................................................................................. 63
Resurse necesare i recomandri de studiu ................................................... 63
Durata medie de parcurgere a unitii ........................................................... 63
4.1 Indicele variaiei calitative ...................................................................... 64
4.2 Amplitudinea i amplitudinea intercuartilic .......................................... 66
4.3 Abaterea medie i variana ...................................................................... 68
4.4 Abaterea standard i coeficientul de variaie ........................................... 71
4.5 Calculul abaterii standard pentru date grupate ........................................ 72
Rezumat ......................................................................................................... 74
Cuvinte cheie ................................................................................................. 74
Teste de autoevaluare .................................................................................... 74
Concluzii ....................................................................................................... 74
63
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s dobndeasc abilitatea de a calcula procente i proporii, raporturi i
rate ;
- s dobndeasc abilitatea de a reprezenta grafic datele statistice .
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
64
tabelul urmtor:
Tabelul 4.1 Apartenena religioas n trei colectiviti
Denominaia
Colectivitatea
ABC
Cretinortodox 90 60 30
Catolic 0 20 30
Altele 0 10 30
TOTAL 90 90 90
Simpla inspecie a datelor din acest tabel arat c, dintre cele trei colectiviti,
A este cea mai puin eterogen. Mai exact, eterogenitatea religioas n colectivitatea
A este nul, ntruct toi membrii acestei colectiviti sunt cretinortodoci. Apoi,
colectivitatea C este cea mai eterogen, B situndu-se ntre A i C. S vedem acum
cum sunt reflectate aceste observaii de ctre IQV, a crui formul de calcul este
urmtoarea:
1 Prescurtare
65
nk
knf
n care k = numrul de categorii
n = numrul total de cazuri din cele k categorii
ntruct valorile pentru k i n sunt aceleai n toate cele trei distribuii, IQV
pentru celelalte dou colectiviti poate fi calculat schimbnd doar valorile pentru
f
f
Pentru colectivitatea C:
66
IQV = 1,00
16200
16200
16200
3 5400
16200
3(8100 2700)
limita de clas real superioar a ultimului interval i limita de clas real inferioar
a primului interval2:
A = LCRSmax LCRImin
Astfel, pentru datele din tabelul 3.6, A 69,5 19,5 = 50.
Amplitudinea intercuartilic (Q) se definete ca diferena dintre cea de-a
treia i prima cuartil a unei distribuii de scoruri ordonate cresctor:
Q = Q3 Q1
2 Considernd
67
68
Cea de-a doua posibilitate conduce la o alt mrime a dispersiei, numit varian6,
notat cu s2 atunci cnd este vorba despre un eantion i cu 2 atunci cnd este vorba
despre o populaie. Formula de calcul a varianei pentru populaii este urmtoarea:
Formula 4.3
N
Xi
2
2
( )
m
s
n care = media aritmetic a populaiei
N = numrul total de scoruri din populaie
aritmetic. De obicei, amplitudinea relativ se nmulete cu 100 i se prezint ca procent.
Amplitudinea relativ nu are ntotdeauna sens intuitiv atunci cnd se dorete aprecierea omogenitii
unei singure distribuii; de pild, n cazul eantionului 1 din ultimul exemplu de mai sus, A% = 110%.
5 Revedei capitolul 1, seciunea 1.2.
6 Uneori, aceast mrime este numit chiar dispersie.
69
n
XX
si
Pentru a ilustra calculul abaterii medii i al varianei, vom folosi datele din
tabelul 3.2, adugnd o coloan pentru modulele diferenelor X X i i, pentru o
simplificare pe care o vom folosi ulterior, o coloan pentru ptratele scorurilor
individuale, Xi
2:
Tabelul 4.2 Calculul abaterii medii i al varianei ( X 19 )
iX 2
i X i X X X X i ( i X X )2
16 256 3 3 9
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4
17 289 2 2 4
18 324 1 1 1
19 361 0 0 0
19 361 0 0 0
23 529 4 4 16
23 529 4 4 16
23 529 4 4 16
7 Dup
cum vom vedea n capitolele dedicate statisticii infereniale, mrimile statistice pentru
eantioane servesc drept estimatori ai valorilor respective pentru populaie, unii estimatori fiind
nedistorsionai, alii fiind distorsionai. ntruct variana pentru un eantion este un estimator
distorsionat al varianei pentru populaie, numitorul n 1 are rolul de a corecta distorsiunea. Aceleai
consideraii sunt valabile i pentru abaterea standard. n cadrul statisticii descriptive, unii statisticieni
prefer s foloseasc numitorul n, tratnd eantioanele ca i cum ar fi populaii foarte mici.
70
209 4045 0 24 74
Pentru datele din acest exemplu, avem:
n
XX
d i
2,20
11
24
1
( )2
2
XX
s i 7,40
10
74
De notat c variana calculat cu ajutorul formulei 4.3 reprezint ptratul
mediu al abaterilor, i.e. media aritmetic a ptratelor abaterilor scorurilor populaiei
de la media lor aritmetic .
n cazul eantioanelor mari, aplicarea formulei definiionale 4.4 poate fi
greoaie, mai ales dac valoarea pentru X conine zecimale, ceea ce presupune multe
rotunjiri. Din formula 4.4 se pot deduce alte formule de calcul care, aplicate la
aceleai date, produc aceleai rezultate ca i formula 4.4 i care permit calcularea mai
uoar i mai rapid a varianei8. Prezentm n continuare dou astfel de formule, n
care nu mai este nevoie de calcularea diferenelor Xi X .
Formula 4.5
1
22
2
n
X nX
si
Formula 4.6
1
2
2
2
n
n
X
X
s
i
i
formule de calcul care, aplicate la aceleai date, produc aceleai rezultate se numesc
echivalente algebric.
71
7,40
10
74
10
4045 3971
10
4045 (11 19 )
1
222
n
X nX
si
Dei pare mai complicat dect formula 4.4, formula 4.6 ne scutete de calcularea
mediei aritmetice a scorurilor, astfel nct pentru calcularea varianei cu ajutorul
acestei formule este nevoie doar de scorurile individuale. n exemplul nostru:
7,40
10
74
10
4045 3971
10
11
4045 209
1
22
2
n
n
X
X
s
i
i
n
XX
si
Relaia dintre abaterea standard i varian fiind s s 2 , valoarea abaterii standard
pentru datele din tabelul 4.2 este s 7,40 = 2,72.
Corespunztor formulelor 4.5 i 4.6, avem urmtoarele formule de calcul
simplificat al abaterii standard:
72
Formula 4.8
1
22
n
X nX
si
Formula 4.9
1
2
2
n
n
X
X
s
i
i
73
1
2
2
n
n
fm
fm
s
ii
ii
Pentru ilustrare, vom folosi datele din tabelul 3.7, n care vom aduga dou
coloane: una pentru ptratele centrelor de interval i una pentru produsele dintre
ptratele centrelor de interval i frecvene:
Tabelul 4.3 Calculul abaterii standardpentru date grupate
Intervale de clas f m fm m2 fm2
2024 1 22 22 484 484
2529 2 27 54 729 1458
3034 7 32 224 1024 8428
3539 18 37 666 1369 24642
4044 22 42 924 1764 38808
4549 42 47 1974 2209 92778
5054 30 52 1560 2704 81120
5559 37 57 2109 3249 120213
6064 15 62 930 3844 57660
6569 6 67 402 4489 26934
TOTAL 180 8865 452525
Totalul ultimei coloane este valoarea pentru fimi
2. Aplicnd formula 4.11 la aceste
date obinem:
1
2
2
n
n
fm
fm
s
ii
ii
=
179
180
452525 8865
2
=
179
452525 436601,25
=
=
179
15923,75 = 88,96 = 9,43
74
UNITATEA V
DISTRIBUIA NORMAL
Obiective ........................................................................................................ 76
Cunotine preliminarii .................................................................................. 76
Resurse necesare i recomandri de studiu ................................................... 76
Durata medie de parcurgere a unitii ........................................................... 76
5.1 Caracteristicile distribuiei normale ......................................................... 77
5. 2 Calculul scorurilor standard .................................................................... 78
5.3 Distribuia normal standard ................................................................... 79
5.4 Utilizarea distribuiei normale standard ................................................... 80
Rezumat ......................................................................................................... 81
Cuvinte cheie ................................................................................................. 81
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s neleag caracteristicile distribuiei normale;
- s dobndeasc abilitatea de a calcula scorurile standard;
- s utilizeze distribuia normal standard .
Cunostine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
77
normal a fost studiat pentru prima dat n secolul al XVIII-lea de ctre Abraham De
Moivre. La nceputul secolului al XIX-lea a fost descoperit independent de Carl Friedrich Gauss i
Pierre Simon de Laplace.
2 n onoarea matematicienilor Gauss i Laplace, curba normal este cunoscut i sub numele de
clopotul lui Gauss sau curba GaussLaplace.
78
Z
1,00
20
120 100
120
Z
2,50
20
150 100
150
Z
Fiecare dintre aceste scoruri Z arat la cte abateri standard fa de media aritmetic
se afl scorul brut corespunztor. Un scor Z negativ arat c scorul brut se afl sub
media aritmetic, iar un scor Z pozitiv arat c scorul brut este mai mare dect media
aritmetic. Evident, un scor Z egal cu 0 arat c scorul brut corespunztor este egal
cu media aritmetic.
Se demonstreaz c dac toate scorurile unei distribuii particulare se transform n
scoruri Z, atunci:
Forma distribuiei scorurilor Z este aceeai cu cea a distribuiei iniiale;
Media aritmetic a distribuiei scorurilor Z este 0, indiferent de valoarea
mediei aritmetice a distribuiei iniiale;
79
Abaterea
0,0 0000
0,1
0,2
0,3
0,4 1736
0,5
80
n corpul tabelului apar numere alctuite din patru cifre. Aceste numere
reprezint ariile cuprinse ntre un scor Z dat i media aritmetic.
Numerele nscrise n prima coloan din stnga, etichetat Z, reprezint
primele dou cifre ale unui scor Z, iar numerele nscrise pe primul rnd de sus
reprezint cea de-a treia cifr. De pild, pentru a afla aria cuprins ntre un scor Z =
0,45 i media aritmetic, se coboar n prima coloan din stnga pn la 0,4 (primele
dou cifre ale scorului Z considerat) i apoi se parcurge spre dreapta rndul respectiv
pn cnd se ajunge sub 0,05 (cea de-a treia cifr).
Numrul gsit la intersecia acestor dou coordonate este 1736, care poate fi
citit sau ca un procent (17,36%), sau ca o proporie (0,1736). n primul caz vom
spune c 17,35% din aria total a curbei normale standard se afl ntre scorul Z =
0,45 i media aritmetic (punct n care Z = 0); n cel de-al doilea caz vom spune c
proporia din aria total a curbei normale standard cuprins ntre scorul Z = 0,45 i
media aritmetic este de 0,1736. ntruct orice curb normal este simetric, aceeai
procedur se aplic i pentru afla aria cuprins ntre un scor Z negativ i media
aritmetic. Astfel, rezultatul de mai sus poate fi interpretat spunnd c 17,35% din
aria total a curbei normale standard se afl ntre scorul Z = 0,45 i media
aritmetic.
-1 +1
95,44%
-3 -2 +3
34,13% 34,13%
13,59% 13,59%
2,15% 2,15%
0,13% 0,13%
0 +2
81
Teste de autoevaluare
1. Definii distribuia normal. (pg. 89 ).
2. Definii scorurile standard. (pg.90)
3. Cum este numit graficul corespunztor distribuiei normale standard? (pg. 91)
4. Cum mai este numit tabelul curbei normale standard? (pg. 91 )
Concluzii.
Distribuia normal este un model teoretic ce poate fi folosit pentru a descrie
distribuii particulare ale scorurilor unor variabile msurate la nivel de interval sau de
raport, despre care s-a constatat c aproximeaz suficient normalitatea ntr-o
populaie, precum coeficientul de inteligen, rezultatele obinute la diferite teste de
cunotine sau numrul de erori comise n ndeplinirea anumitor sarcini. Scorurile
unor astfel de variabile tind s se grupeze simetric n jurul scorului central, dnd
natere unui grafic de distribuie n form de clopot.
UNITATEA VI
EANTIONAREA I DISTRIBUII DE EANTIONARE
Obiective. 84
Cunotine preliminarii... 84
Resurse necesare i recomandri de studiu. 84
Durata medie de parcurgere a unitii. 84
6.1 Procedee de eantionare aleatorie .............................................................. 86
6. 2 Distribuia de eantionare ......................................................................... 88
6. 3 Determinarea probabilitilor pentru medii aritmetice ............................. 90
6. 4 Strategia inferenial ................................................................................. 91
Rezumat 92
Cuvinte cheie 93
Teste de autoevaluare... 93
Concluzii 93
84
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere asupra procedeelor de eantionare aleatorie;
- s dobndeasc abilitatea de a determina probabilitile pentru medii
aritmetice.
- s cunoasc noiunile fundamentale cu care opereaz statisticile
infereniale.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
85
aleatoriu provine din limba latin, n care substantivul lea nseamn joc cu zaruri sau
ans, iar adjectivul leatrius nseamn de joc, cu referire la jocurile de noroc. Dup cum se tie,
aruncarea cu zarul este experimentul tipic luat n considerare n teoria probabilitilor.
86
aleatorie simpl. n procesul de selecie a unui eantion aleatoriu simplu, fiecare caz
din populaia de referin are o probabilitate egal de a fi inclus n eantion, iar
selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
Procesul de selecie aleatorie simpl se poate baza pe diferite tipuri de operaii. n
mod tipic, se folosesc tabele cu numere selectate aleatoriu de un computer. Un
exemplu de astfel de tabel este dat n Anexa B. Aceste tabele conin numere alctuite
din cinci cifre, de la 0 la 9. Pentru a folosi un astfel de tabel, se atribuie fiecrui caz
din populaia de referin un numr unic de identificare, dup care se alege la
ntmplare un rnd i o coloan din tabel i, pornind de la acel punct la dreapta sau la
stnga, n sus sau n jos, se citesc numerele, selectnd n eantion cazurile ale cror
numere de identificare corespund cu numerele citite n tabel. Selecia se oprete
atunci cnd s-a ajuns la dimensiunea dorit a eantionului. Pentru ilustrare, s
presupunem c dorim s alctuim un eantion de dimensiune n = 20 dintr-o populaie
de dimensiune N = 600. Mai nti, numerotm membrii populaiei ntr-o ordine
oarecare 001, 002, , 600. Pentru a forma eantionul, considerm doar ultimele trei
cifre ale numerelor din tabel i, evident, ignorm numerele mai mari de 600. Alegem
la ntmplare un rnd i o coloan i ncepem selecia pornind de la numrul
respectiv i mergnd, de pild, n jos pe coloana aleas, pn cnd obinem 20 de
numere. Dac un numr de identificare este selectat mai mult dect o singur dat, se
ignor repetarea i se trece la urmtorul numr din secven2. Eantionul va fi alctuit
din acei membri ai populaiei ale cror numere de identificare au fost astfel selectate.
Statisticienii atrag atenia asupra necesitii de a schimba des tabelul cu
numere aleatorii, dac cercettorul folosete des procedeul menionat: Natura
uman este n aa fel, nct fiecare dintre noi are tendina de a porni aproximativ din
acelai loc i de a parcurge repetat aproximativ aceeai cale. De aceea, folosirea
repetat a aceluiai tabel poate s conduc la selectarea aceluiai ir de numere3.
Svedem acum cum poate fi folosit tabelul cu numere aleatorii pentru a
repartiza aleatoriu un numr de subieci n grupuri. S presupunem c avem 15
subieci i, n vederea unui experiment, dorim s alctuim trei grupuri cu cte cinci
2 De
notat c ignorarea repetrilor implic selecia fr nlocuire, n care, dup ce un membru din
populaia de referin a fost selectat, el este eliminat din populaie. n selecia fr nlocuire,
probabilitatea de selecie crete pe msura efecturii seleciei, ca urmare a micorrii treptate a
dimensiunii populaiei cu cte o unitate. De pild, avnd o populaie de 1000 membri, probabilitile
de selecie fr nlocuire vor fi 1/1000, 1/999, 1/998 .a.m.d. Ca atare, riguros vorbind, ignorarea
repetrilor afecteaz caracterul aleatoriu al procesului de selecie. Totui, dac dimensiunea
eantionului este relativ mic, probabilitatea de a selecta acelai membru din populaia de referin de
dou ori i astfel de a neglija repetrile este foarte mic. Prin contrast, n selecia cu nlocuire, dup ce
un membru din populaia de referin a fost selectat, el nu este eliminat din populaie, astfel c
probabilitatea de selecie rmne constant pe tot parcursul seleciei.
3 G. Keller, B. Warrack, 1991.
87
A 10 1
B 37 2
C 08 1
D 09 1
E 12 1
F 66 2
G 31 2
H 85 3
I 63 2
J 73 2
K 98 3
L 11 1
M 83 2
N 88 3
O 99 3
Evident, procedeul poate fi folosit pentru orice numr de grupuri ntr-un experiment.
Procedura de eantionare aleatorie simpl devine incomod, atunci cnd
dimensiunea populaiei de referin este foarte mare (10000, de pild). ntr-un astfel
de caz se poate folosi eantionarea sistematic, numit i selecie mecanic. Mai
nti, se stabilete o fracie de selecie (fracie de eantionare, pas de numrare): K =
N/n, n care N este numrul total de cazuri din populaia de referin, iar n este
dimensiunea dorit a eantionului. De pild, dac N = 10000 i n = 300, K = 34 (K se
rotunjete ntotdeauna pn la un numr ntreg). Dup ce s-a stabilit pasul de
numrare, se listeaz la ntmplare membrii populaiei de referin i se alege la
88
ntmplare, eventual prin tragere la sori, un caz din primele K cazuri care se include
n eantion i apoi se alege fiecare al Klea caz pentru a fi inclus n eantion pn se
ajunge la dimensiunea dorit a eantionului. n exemplul nostru, dac din primele 34
de cazuri a fost ales la ntmplare cazul cu numrul 5, atunci se vor include n
eantion urmtoarele cazuri: 5, 39, 73, 107, .a.m.d. pn la n = 300.
De notat c n cazul eantionrii sistematice, selecia nu mai este
independent, deoarece, cu excepia primului caz, fiecare caz selectat depinde de
numrul de ordine al cazului precedent. De aceea, acest procedeu este considerat ca
fiind cvasialeatoriu. Caracterul aleatoriu este asigurat prin alctuirea ntmpltoare a
listelor din care sunt selectate cazurile.
Un al treilea procedeu de eantionare, eantionarea stratificat, conduce la
creterea cantitii de informaie despre populaie. Pentru a alctui un eantion
aleatoriu stratificat, se clasific populaia de referin dup criterii relevante i se
alctuiesc eantioane aleatorii simple din fiecare clas (strat). De pild, pot fi folosite
criterii precum sexul, vrsta sau ocupaia.
Cititorul interesat de detalii privitoare la procedurile de eantionare descrise
sumar mai sus sau/i de alte procedee de eantionare poate consulta cri despre
eantionare sau manuale de metodologie a cercetrii psihologice.
aleatoriu dintr-o populaie. Cu alte cuvinte, vom considera c media aritmetic este
ea nsi o variabil, ale crei scoruri sunt mediile aritmetice ale tuturor eantioanelor
aleatorii posibile de dimensiune constant n dintr-o populaie.
Spresupunem c ne intereseaz media aritmetic a vrstelor dintr-o
populaie de dimensiune comparabil cu populaia Romniei. Selectm un eantion
aleatoriu de 100 de persoane din aceast populaie i nregistrm vrstele pentru acest
eantion. Evident, ceea ce am obinut este distribuia vrstelor pentru eantionul
considerat, pentru care putem calcula media aritmetic. Acum, s presupunem c am
selectat (cu nlocuire) toate eantioanele posibile de dimensiune 100 din populaia
respectiv i c am calculat media aritmetic pentru fiecare eantion. Rezultatele pe
care, n principiu, le-am obine n acest fel constituie distribuia mediilor aritmetice
pentru toate eantioanele posibile de dimensiune 100 din populaia de referin.
Aceast distribuie este numit distribuia de eantionare a mediilor aritmetice ale
tuturor eantioanelor aleatorii de dimensiune 100 din populaia de referin. n
general, distribuia de eantionare a mediilor aritmetice se definete ca distribuia
mediilor aritmetice ale tuturor eantioanelor aleatorii de dimensiune constant n din
populaia de referin. n mod similar, se definesc distribuiile de eantionare pentru
alte mrimi statistice (proporii, coeficieni de corelaie etc.), pe care le vom
considera n unele dintre capitolele care urmeaz. n continuare, ne vom concentra
atenia asupra distribuiei de eantionare a mediilor aritmetice.
Ca i distribuiile de frecvene considerate pn acum, distribuia de
eantionare a mediilor aritmetice (i cele ale celorlalte mrimi statistice) are (1) o
form, (2) o medie aritmetic i (3) o abatere standard. Pentru media aritmetic i
abaterea standard a distribuiei de eantionare a mediilor aritmetice vom folosi,
respectiv, simbolurile X m i X s .
Cei trei parametri menionai ai distribuiei de eantionare a mediilor aritmetice
sunt dai de urmtoarea teorem, numit teorema limitei centrale:
Dac se alctuiesc toate eantioanele posibile de dimensiune n dintr-o
populaie cu media aritmetic i abaterea standard , atunci distribuia
de eantionare a mediilor aritmetice ale acestor eantioane are
91
pentru a determina probabilitatea de selecie a unui scor cuprins ntr-o plaj dat de
scoruri ale unei distribuii aproximativ normale.
Aici, valorile 115 i 120 sunt medii aritmetice. Scorurile Z corespunztoare acestor
valori se calculeaz cu ajutorul urmtoarei formule:
X
X
Z
s
m
Z
1,28
2,34
120 117
120
Z
Din tabelul curbei normale aflm c probabilitatea corespunztoare scorului Z =
0,85 este 0,3023 i c probabilitatea corespunztoare scorului Z = +1,28 este
0,3997. Ca atare, probabilitatea ca un eantion cu n = 36 s aib media aritmetic
ntre 115 i 120 este de 0,7020 (0,3023 + 0,3997).
Snotm i aici c pentru determinarea probabilitilor de selectare a mediilor
aritmetice se utilizeaz aceleai proceduri ilustrate pentru determinarea procentelor
de cazuri. De pild, probabilitatea ca un eantion aleatoriu cu n = 36 selectat din
populaia considerat mai sus s aib media aritmetic peste 120 este de 0,1003
(0,5000 0,3997).
X
92
aleatoriu provine din limba latin, n care substantivul lea nseamn joc cu zaruri sau
ans, iar adjectivul leatrius nseamn de joc, cu referire la jocurile de noroc. Dup cum se tie,
aruncarea cu zarul este experimentul tipic luat n considerare n teoria probabilitilor.
Populaie
(parametri)
Eantion
(statistici)
Distribuie
de
eantionare
Selecie aleatorie
Inferen
Cuvinte cheie
Eantionare aleatorie;
Teorema limitei centrale;
Distribuia de eantionare a mediilor aritmetice;
Statistici;
Paramteri;
Teste de autoevaluare
1. Cum se numeste procedeul fundamental de eantionare aleatorie ? (pg. 99 ).
2. Enumerai cele trei proprieti ale distribuiei de eantionare a mediilor
aritmetice. (pg.104)
3. Enumerai regulile de construire a unei distribuii de frecvene (pg 28
UNITATEA VII
PROCEDURI DE ESTIMARE STATISTIC
Obiective. 95
Cunotine preliminarii...... 95
Resurse necesare i recomandri de studiu... 95
Durata medie de parcurgere a unitii... 95
7.1 Caracteristici ale estimatorilor .................................................................... 96
7. 2 Estimarea mediei aritmetice cnd este cunoscut .................................... 98
7. 3 Estimarea mediei aritmetice cnd este necunoscut ................................ 101
7. 4 Estimarea proporiilor ................................................................................ 105
7.5 Dimensiuni ale eantioanelor i nivele de precizie .................................... 107
Rezumat 110
Cuvinte cheie 110
Teste de autoevaluare... 111
Concluzii 111
95
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere a caracteristicilor estimatorilor;
- s dobndeasc abilitatea de estimare a mediei aritmetice cnd este
cunoscut;
- s dobndeasc abilitatea de estimarea a mediei aritmetice cnd este
necunoscut.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
96
98% din cazuri ntre 3Z fa de medie. Aici, cazurile sunt medii aritmetice ale
eantioanelor, astfel c exist o probabilitate mare (aproximativ 68 de anse din 100)
ca media aritmetic a eantionului considerat, 5000000, s se afle ntre 1Z, o
probabilitate foarte mare (95 din 100) ca aceast medie s se afle ntre 2Z i o
probabilitate extrem de mare (98 din 100) ca aceast medie s se afle ntre 3Z fa
de media aritmetic a distribuiei de eantionare X m , care are aceeai valoare cu m :
97
-1 +1
95,44%
-3 -2 +3
34,13% 34,13%
13,59% 13,59%
2,15% 2,15%
0,13% 0,13%
X m +2
m
98
CUNOSCUT
Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se
calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea
parametrului respectiv este egal cu valoarea calculat pentru eantion. n acest tip de
estimare se ine cont faptul c eficiena estimatorului este direct proporional cu
dimensiunea eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie
aproximativ egal cu parametrul corespunztor este cu att mai mare, cu ct
dimensiunea eantionului este mai mare.
Procedura de estimare a intervalelor este relativ mai complicat, dar este mai
sigur, n sensul c, atunci cnd se estimeaz un interval, probabilitatea ca n acel
interval s se afle parametrul de interes este mai mare i poate fi stabilit cu precizie.
Fie o populaie cu media aritmetic i cu abaterea standard . Selectm
aleatoriu un eantion de dimensiune n din aceast populaie i calculm media
aritmetic pentru eantion, X . Conform teoremei limitei centrale, distribuia de
eantionare a mediilor aritmetice ale tuturor eantioanelor posibile de dimensiune n
din populaia de referin este aproximativ normal, cu media aritmetic egal cu cea
a populaiei de referin i cu abaterea standard egal cu s n . Pe baza
caracteristicilor distribuiei de eantionare i a tabelului distribuiei normale standard
putem formula enunuri de probabilitate despre mediile aritmetice ale eantioanelor.
1 Cea
de-a doua distribuie conine aproximativ 68% din mediile aritmetice ale tuturor eantioanelor
posibile ntre 8697 fa de X m , n timp ce prima distribuie conine ce 68% din mediile aritmetice
ntr-un interval mult mai larg: 27500.
2 Aceste relaii precizeaz ideea intuitiv c putem avea mai mult ncredere n rezultatele obinute pe
eantioane mari, dect n cele obinute pe eantioane mici, evident, cu condiia ca i unele i altele s
fie selectate aleatoriu.
99
De pild, din tabel aflm c proporia de cazuri (medii aritmetice ale eantioanelor)
cuprinse ntre Z = 1,96 i media aritmetic este de 0,475. ntruct curba este
simetric, proporia de cazuri cuprinse ntre Z = 1,96 i media aritmetic este tot de
0,475. Astfel, proporia de cazuri cuprinse ntre 1,96 abateri standard fa de medie
este de 0,95, iar proporia de cazuri aflate sub 1,96 i peste 1,96 abateri standard
fa de medie este de 0,05 (0,025 + 0,025):
Acelai lucru ca mai sus poate fi exprimat spunnd c 95% din mediile
aritmetice ale eantioanelor se afl n intervalul dintre m 1,96(s n) i
m 1,96(s n) sau, pe scurt, n intervalul m 1,96(s n) . Structura acestui tip de
enun de probabilitate poate fi folosit pentru a estima valoarea parametrului , prin
construirea unui interval centrat pe valoarea cunoscut pentru eantion, X .
Rezultatul este un interval de ncredere estimat o amplitudine de valori n care
este probabil (nu sigur) s se afle . Astfel, putem estima c exist o probabilitate de
0,95 (sau 95%) ca media aritmetic a populaiei s se afle n intervalul
X 1,96(s n) , ceea ce nseamn c probabilitatea ca media aritmetic a populaiei
s nu se afle n acest interval este de 0,05 (sau 5%).
Probabilitatea ca media aritmetic a populaiei s nu se afle n intervalul
estimat sau, altfel spus, probabilitatea de eroare a estimrii se numete nivel de
semnificaie sau nivel alfa (), iar probabilitatea ca intervalul estimat s conin
media aritmetic a populaiei se numete nivel de ncredere. Dup cum reiese i din
cele de mai sus, nivelul de ncredere este complementarul nivelului alfa, fiind egal cu
1 sau, n procente, cu (1 )100. A stabili, de pild, c = 0,05 nseamn
acelai lucru cu a spune c nivelul de ncredere este de 95%. ntruct probabilitatea
de eroare este mprit n mod egal n extremitatea inferioar i cea superioar a
distribuiei de eantionare, stabilindu-se astfel limita inferioar i limita inferioar de
ncredere, vom nota scorul Z corespunztor nivelului ales cu Z/2. Astfel, n cazul n
care este cunoscut, formula de construire a unui interval de ncredere estimat (IE)
bazat pe media aritmetic a unui eantion este urmtoarea:
0,475 0,475
0,95
1,96 1,96
0,025 0,025
100
Formula 7.1 ( ) 2 IE X Z s n a
Ca exemplu, s presupunem c dorim s estimm media aritmetic zilnic a
orelor de vizionare a programelor TV de ctre femeile casnice. Pentru aceasta,
alctuim un eantion aleatoriu de 200 de femei casnice (n = 200) i aflm c acestea
petrec n medie 6 ore pe zi vizionnd programe TV ( X 6 ). Prin testri extensive
tim c abaterea standard a populaiei pentru vizionarea programelor TV este de
aproximativ 0,7 ( = 0,7). n aceast cercetare suntem dispui s asumm o ans de
a grei de 10%, stabilind = 0,10. Pentru a determina limitele de ncredere inferioar
i superioar, trebuie s scdem 0,05 (i.e. /2) din 0,5 (proporia de cazuri aflate de o
parte i de alta a mediei aritmetice a distribuiei de eantionare). Rezultatul scderii
este 0,450, ceea ce reprezint proporia de cazuri dintre o limit de ncredere i
medie:
Astfel, pentru = 0,10 trebuie s cutm proporia 0,4500 n tabelul distribuiei
normale standard. Gsim ns o proporie de 0,4495, corespunztoare scorului Z/2 =
1,64 i o proporie de 0,4505, corespunztoare scorului Z/2 = 1,65. Scorul Z/2 pe
care l cutm se afl undeva ntre aceste dou scoruri. n aceste condiii, se ia cel
mai mare dintre cele dou scoruri: 1,65. n acest fel, intervalul de ncredere va fi cel
mai mare posibil n circumstanele date. Prin urmare, vom avea:
( ) 6 1,65(0,7 200) 2 IE X Z s n a 6 1,65(0,7/14,14) =
= 6 1,65 0,0495 = 6 0,08
0,450 0,450
0,90
1,65 1,65
0,05 0,05
101
n ultimul exemplu de mai sus. n acest caz, = 0,01 i scznd 0,005 (/2) din 0,5
obinem 0,495. n tabel nu apare proporia 0,4950, dar apar proporiile 0,4949 (Z/2 =
2,57) i 0,4951 (Z/2 = 2,57). Ca mai sus, se ia cel mai mare dintre cele dou
scoruri: 2,58. Tabelul urmtor rezum toate datele de care avem nevoie:
Tabelul 7.1 Niveluri de ncredere i scoruri Z/2
Nivelul de ncredere
(1 ) 100
/2 Z/2
90% 0,10 0,050 1,65
95% 0,05 0,025 1,96
99% 0,01 0,005 2,58
t=0
103
practic foarte mari (i teoretic infinite). Astfel, ntruct exist o distribuie t specific
pentru fiecare eantion de dimensiune dat, distribuia t este, de fapt, o familie de
distribuii.
Distribuia t particular cerut pentru rezolvarea unei anumite probleme
depinde de un concept matematic numit grade de libertate. Acest concept se refer
la numrul de valori libere s varieze ntr-o distribuie. De pild, dac tim c o
distribuie de cinci scoruri are media aritmetic egal cu 3 i c patru dintre aceste
scoruri sunt 1, 2, 3, i 4, atunci valoarea celui de-al cincilea scor este fixat: 5. n
general, pentru media aritmetic a unui eantion de dimensiune n, o distribuie are n
1 grade de libertate. Fiecare distribuie t este asociat cu un numr unic de grade de
libertate. Mai precis, dac se selecteaz toate eantioanele posibile de dimensiune n
dintr-o populaie normal, atunci distribuia de eantionare a cantitii
1
sn
tX
m
este distribuia tStudent cu n 1 grade de libertate.
Distribuia t va fi utilizat ndeosebi n testarea ipotezelor. Deocamdat vom
descrie tabelul valorilor critice ale distribuiei t, prezentat n Anexa C, i vom
ilustra utilizarea acestui tabel pentru estimarea intervalelor. Schema general a
acestui tabel este prezentat n figura 6.3.
Figura 7.3 Schema tabelului valorilor critice ale distribuiei t
gl t0,10 t0,05 t0,025 t0,01 t0,005
1
2
3
29 2,045
30
104
grade de libertate (gl), dispuse pe prima coloan din stnga, de la 1 la 30 i apoi 40,
60, 120 i . De notat c, pe msur ce numrul de grade de libertate crete,
diferena dintre distribuia t i distribuia normal descrete, precum i c pentru o
infinitate de grade de libertate, distribuia t este identic cu distribuia normal.
Pentru estimarea intervalelor, ca i pentru alte scopuri, avem nevoie de t/2. Aceast
valoare se localizeaz nmulind cu 2 valoarea aflat pe primul rnd. De pild,
pentru n = 30 i = 0,05, numrul de grade de libertate este 29; la intersecia
coloanei de sub t = 0,025 i liniei corespunztoare pentru gl = 29 gsim valoarea
2,045. Astfel, n acest caz, vom spune c valoarea lui t/2 este 2,045.
Formula pentru cazurile n care este necunoscut i n 30 este urmtoarea:
Formula 7.3 ( ) 2 IE X t s n a
Pentru ilustrare, s presupunem c un eantion aleatoriu de 20 de adolesceni cu
dificulti de nvare au obinut urmtoarele rezultate la un test de cunotine la care
scorul maxim ce poate fi obinut este de 40:
Tabelul 7.2 Scoruri obinute la un test de cunotine de ctre 20 de adolesceni
cu dificulti de nvare
18
31
26
24
22
20
32
28
27
33
12
25
23
20
28
30
29
20
19
22
Presupunnd c variabila msurat este normal distribuit n populaia de adolesceni
cu dificulti de nvare, care este intervalul de ncredere estimat pentru media
aritmetic a acestei populaii, la un nivel de ncredere de 99%? Calculm mai nti
media aritmetic a scorurilor din eantion:
t
105
X = 24,45
20
489
n
Xi
Abaterea standard la nivelul eantionului este:
29,4 5,42
19
12515 20 597,8
1
22
n
X nX
si
Pentru n = 20, numrul de grade de libertate este 19; avnd = 0,01, la intersecia
coloanei de sub t = 0,005 i liniei corespunztoare pentru gl = 19 gsim valoarea
2,861. Astfel, valoarea lui t/2 este 2,861. Aplicnd formula 7.3, obinem:
( ) 24,45 2,861(5,42 20) 24,45 3,46 2 IE X t s n a
Astfel, estimm c media aritmetic pe care o cutm este cuprins ntre 21,03 i
27,91 i exist doar 1% anse ca acest interval s nu conin media aritmetic a
populaiei.
De reinut c formula 7.3 poate fi aplicat doar dac variabila de interes este
normal distribuit.
a
n aceast formul, valorile pentru p i n provin de la eantion, iar valoarea lui Z/2 se
determin la fel ca mai sus. Problema cu aceast formul este c valoarea proporiei
pentru populaie, P, nu este cunoscut. Pentru a rezolva aceast problem, se poate
proceda n dou moduri.
Un prim mod de a rezolva problema const n a stabili c P = 0,5. n aceast
situaie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat c
0,25 este valoarea maxim pe care o poate lua numrtorul fraciei de sub radical,
P(1 P). Stabilind pentru P orice alt valoare diferit de 0,5, valoarea expresiei P(1
P) va fi mai mic dect valoarea pentru P = 0,5. De pild, dac P = 0,4, atunci 1
P = 0,6 i
106
P(1 P) = 0,4 0,6 = 0,24. ntruct P(1 P) are valoarea maxim cnd P = 0,5, ne
asigurm c intervalul obinut va fi cel mai mare posibil pentru p, Z/2 i n date.
Practic, adoptnd aceast soluie, lucrm cu formula urmtoare:
Formula 7.5
n
IE p Z 0,25
a 2
A doua soluie a problemei menionate const din a estima valoarea lui P prin
p, lucrnd cu formula urmtoare:
Formula 7.6
n
IE p Z p(1 p)
2
a
Oricum, formulele de mai sus pot fi folosite doar dac dimensiunea eantionului
considerat estre destul de mare, astfel nct np 5 i n(1 p) 5.
Spresupunem, de pild, c ne dorim s estimm proporia de studeni de la
universitatea X care au lipsit cel puin o zi pe motiv de boal ntr-un anumit semestru
i c dintr-un eantion aleatoriu de 200 de studeni, gsim 30 n aceast situaie.
Astfel, proporia eantionului pe care ne bazm estimarea este p = 30/200 = 0,15. La
un nivel de ncredere de 95%, intervalul estimat cu ajutorul formulei 7.5 este
urmtorul:
0,15 0,07
200
0,25 0,15 1,96 0,25
2
n
IE p Za
Pe baza proporiei de 0,30 a eantionului, estimm c proporia cutat este cuprins
ntre 0,08 i 0,22. Estimarea poate fi exprimat i n termeni de procente, spunnd c
ntre 8% i 22% dintre studenii universitii X au lipsit cel puin o zi pe motiv de
boal n semestrul considerat.
Saplicm acum formula 7.6 la aceleai date, pstrnd nivelul de ncredere
de 95%:
200
0,15 1,96 0,15 0,85
200
(1 ) 0,15 1,96 0,15(1 0,15)
2n
IE p Z p p a
0,15 0,05
200
0,15 1,96 0,13
n acest caz, estimm c proporia cutat este cuprins ntre 0,10 i 0,20 sau, altfel
spus, c ntre 10% i 20% dintre studenii universitii X au lipsit cel puin o zi pe
motiv de boal n semestrul considerat.
De notat c intervalul estimat cu ajutorul formulei 7.5 este mai larg dect cel
estimat cu ajutorul formulei 7.6, astfel c prima estimare este cea mai conservatoare
soluie posibil, cci este mult mai probabil ca intervalele mai largi s conin
parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este
preferabil celei de-a doua estimri.
107
s
a
Din aceast egalitate l putem obine pe n:
Formula 7.7 2
2
22
2
L
Z
n
s a
Pentru a folosi aceast formul trebuie s cunoatem valoarea lui , or, dup cum am
mai menionat, n aproape toate cazurile aceast valoare nu este cunoscut. Totui,
valoarea lui poate fi aproximat, dac cunoatem amplitudinea variabilei msurate,
A. Astfel, o aproximare conservatoare a lui este A/4.
L
Z
n
sa
Prin urmare, psihologul trebuie s selecteze un eantion aleatoriu de aproximativ 300
de muncitori pentru a estima durata medie de executare a reglajului respectiv cu o
precizie de 20 de secunde, la un nivel de ncredere de 95%.
Spresupunem acum c se dorete dublarea preciziei de la 20 de secunde la
10 secunde, la acelai nivel de ncredere. n acest caz avem:
1244,48 1244
10
(1,96) 180
2
2
22
2
22
L
Z
n
sa
Se observ c dimensiunea eantionului crete mai repede dect precizia: pentru a
dubla precizia de la 20 de secunde la 10 secunde, dimensiunea eantionului trebuie s
creasc de aproximativ patru ori. Aceast relaie este important pentru planificarea
costurilor unei cercetri. Eantioanele impresionant de mari pot constitui o irosire de
resurse fr un ctig semnificativ n privina preciziei, n raport cu eantioanele mai
2
110
0,25
L
Z
n s
Spresupunem c un institut de sondare a opiniei publice dorete s estimeze
rezultatul unor alegeri prezideniale nuntrul unei marje de eroare de 3%. Ct de
mare trebuie s fie eantionul cerut pentru a sigura acest nivel de precizie la un nivel
de ncredere de 95%? Exprimnd limita de eroare sub form de proporie, obinem:
1067,11 1000
(0,03)
(1,96) 0,25
2
2
2
n
Prin urmare, pentru a obine o precizie (o limit de eroare a estimrii) de 3%, este
nevoie de un eantion de aproximativ 1000 de persoane.
i aici se poate constata uor c dimensiunea eantionului crete mai repede
dect precizia. Tabelul urmtor prezint relaiile dintre precizie i dimensiunea
eantionului pentru proporii ale eantioanelor:
Tabelul 7.3 Precizia i dimensiunea eantionului ( = 0,05, P = 0,5)
Precizia
(Mrimea intervalului)
Dimensiunea aproximativ
a eantionului
10% 100
7% 200
5% 400
3% 1000
2% 2400
1% 9600
Se poate observa, de pild, c pentru a dubla precizia de la 10% la 5%, dimensiunea
eantionului trebuie s creasc de patru ori.
Rezumat
Un estimator trebuie s satisfac dou condiii: s fie nedistorsionat i relativ
eficient. Se spune c un estimator este nedistorsionat, dac media aritmetic a
distribuiei sale de eantionare este egal cu media aritmetic a populaiei de
referin. Prin contrast, un estimator este distorsionat, dac media aritmetic a
distribuiei sale de eantionare este diferit de media aritmetic a populaiei.
Cuvinte cheie
Estimator distorsionat;
Estimator nedistorsionat;
111
distribuia tStudent;
grade de libertate;
tabelul valorilor critice ale distribuiei t.
Teste de autoevaluare
1. Definii ce este un estimator nedistorsionat (pg. 109).
2. Definii ce este un estimator distorsionat? (pg.109).
3. Definii nivelul de semnificaie sau nivelul alfa (). (pg. 112)
4. Cand se folosete distribuia tStudent? (pg. 115 )
5. La ce se refer conceptul de grade de libertate? (pg. 116 )
Concluzii.
Atunci cnd se estimeaz un punct, se alctuiete un eantion aleatoriu, se
calculeaz o medie aritmetic sau o proporie i se estimeaz c valoarea
parametrului respectiv este egal cu valoarea calculat pentru eantion. n acest tip de
estimare se ine cont de faptul c eficiena estimatorului este direct proporional cu
dimensiunea eantionului, ceea ce nseamn c probabilitatea ca estimatorul s fie
aproximativ egal cu parametrul corespunztor este cu att mai mare, cu ct
dimensiunea eantionului este mai mare.
UNITATEA VIII
TESTAREA IPOTEZELOR DESPRE O SINGUR POPULAIE
Obiective. 113
Cunotine preliminarii... 113
Resurse necesare i recomandri de studiu. 113
Durata medie de parcurgere a unitii... 113
8.1 Testul scorurilor z pentru medii aritmetice cnd este cunoscut .............. 114
8.2 Erori n testarea ipotezelor .......................................................................... 120
8.3 Testarea ipotezelor pentru medii aritmetice cnd este necunoscut ......... 122
8.4 Testul scorurilor z pentru proporii ............................................................. 124
Rezumat 126
Cuvinte cheie 126
Teste de autoevaluare... 126
Concluzii 127
113
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere a Testului scorurilor z pentru medii aritmetice cnd
este cunoscut;
- s dobndeasc abilitatea de testarea a ipotezelor pentru medii aritmetice
cnd este necunoscut;
- s dobndeasc abilitatea de a detecta erori n testarea ipotezelor;
- s calculeze testul scorurilor z pentru proporii.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
114
= 152 n = 130
Am notat cu H media aritmetic presupus a populaiei, pentru a o deosebi de media
aritmetic efectiv a populaiei, .
Ipoteza de nul, pe care o vom nota H0, specific o anumit valoare pentru
parametrul respectiv. n general, ipoteza de nul despre media aritmetic a unei
populaii are forma
H0: = H
Denumirea de ipotez de nul se justific prin aceea c forma sa poate fi redat
echivalent prin
115
H0: H = 0
n cuvinte, ipoteza de nul enun c nu exist nici o diferen semnificativ
ntre valoarea efectiv a parametrului respectiv i valoarea presupus a acelui
parametru. Dac ipoteza de nul este adevrat, atunci diferena dintre eantion i
populaie nu este semnificativ, putnd fi atribuit ntmplrii.
n mod obinuit, cercettorul este de prere c exist o diferen semnificativ
ntre eantion i populaie i dorete s resping ipoteza de nul ca neadevrat.
Aceast opinie constituie ipoteza alternativ, pe care o vom nota cu Ha. Dac
cercettorul nu are posibilitatea sau nu dorete s prezic sensul diferenei, atunci
ipoteza alternativ ia forma
Ha: H
Dac, ns, sensul diferenei dintre eantion i populaie poate fi prezis sau
dac cercettorul este interesat doar de un singur sens al diferenei, atunci ipoteza
alternativ poate lua una dintre urmtoarele dou forme:
Ha: H
Ha: H
n cazul n care Ha are forma H, se spune c testul este bilateral sau nondirecional,
iar n cazurile n care Ha are una dintre celelalte dou forme, se spune c
testul este unilateral sau direcional. Vom reveni la aceste noiuni ceva mai departe.
S reinem deocamdat c n orice test se decide dac se respinge sau nu se respinge
ipoteza de nul, pe baza dovezilor aduse n sprijinul ipotezei alternative. Astfel, dac
putem respinge H0 ca neadevrat, atunci vom accepta Ha.
Revenind la exemplul nostru, ipoteza de nul este H0: = 800. Din enunul
problemei rezult c nu este vorba despre un sens al diferenei menionate, astfel c
ipoteza alternativ este Ha: 800.
Termenul statistic a testului se refer la formula a crei aplicare n testul
respectiv permite obinerea unei valori ce formeaz baza deciziei asupra ipotezei de
nul. Pentru mediile aritmetice, atunci cnd se cunoate sau se poate aproxima
valoarea lui , statistica testului este dat de urmtoarea formul:
Formula 8.1
n
ZXH
s
m
n
ZXH
s
m
Din motive care vor deveni imediat evidente, vom desemna rezultatul aplicrii
formulei 8.1 prin Z (obinut). Aici, Z (obinut) = 3,36.
Regula de decizie se refer la o anumit amplitudine de valori pentru
rezultatul statisticii testului, numit zon critic sau zon de respingere, care
conduce la respingerea ipotezei de nul. n cazul testului scorurilor Z pentru medii
aritmetice, zona critic se stabilete cu ajutorul distribuiei de eantionare a X .
Astfel, n exemplul de mai sus, eantionul alctuit este unul dintre toate eantioanele
posibile cu n = 130 din populaia de referin. S presupunem c H0 este adevrat,
Dac s-ar calcula toate mediile aritmetice posibile, atunci teorema limitei centrale
asigur urmtorul rezultat:
n general, cu ct X este mai aproape de centru (diferena dintre X i
m m X este mai mic), cu att vom fi mai nclinai s nu respingem ipoteza de nul i
cu ct X este mai departe de centru (diferena dintre X i m m X este mai mare),
cu att vom fi mai nclinai s respingem ipoteza de nul. Cu alte cuvinte, ipoteza de
nul poate fi respins dac rezultatul statisticii testului este un numr negativ prea
mare sau un numr pozitiv prea mare. nelesul expresiei prea mare se fixeaz
prin alegerea unui nivel de ncredere sau nivel (revedei capitolul anterior). n cazul
ipotezei alternative de forma Ha: H, nivelul ales se mparte n mod egal n cele
Aria de sub Z/2 plus aria de peste +Z/2 reprezint zona critic: dac scorul Z
corespunztor mediei aritmetice a unui eantion cade n aceast arie (i.e. sub Z/2
sau peste +Z/2), atunci media aritmetic respectiv are prin definiie o probabilitate
de apariie mai mic dect . Scorurile Z/2 i +Z/2 se numesc scoruri Z critice i
se desemneaz, respectiv, prin -Z/2 (critic) i +Z/2 (critic).
Srevenim iari la exemplul nostru i s stabilim = 0,05. tim c pentru
aceast valoare a lui , Z/2 = 1,96. Z (obinut) se afl n zona critic (3,36
1,96), dup cum se ilustreaz n figura urmtoare:
Ca atare, suntem ndreptii s respingem ipoteza de nul: probabilitatea de
apariie a mediei aritmetice a eantionului considerat este mai mic dect 0,05 i deci
nu poate fi atribuit ntmplrii. Cu alte cuvinte, diferena dintre media aritmetic a
eantionului i media aritmetic presupus pentru populaie este statistic
semnificativ (eantionul de rezideni difer semnificativ de populaia din care a fost
selectat), astfel c ipoteza de nul poate fi respins.
De notat c decizia pe care am luat-o (respingerea ipotezei de nul) comport
un element de risc: aceast decizie poate fi greit, ntruct este posibil ca eantionul
Z/2 Z/2
/2 /2
1,96 0 1,96
-3,36
118
un test n sensul opus, Ha ia forma H.. n cazul unui test unilateral, ntreaga zon
critic specificat de nivelul este plasat n extremitatea de interes a distribuiei de
eantionare. De pild, ntr-un test bilateral n care = 0,05, zona critic ncepe de la
Z/2 (critic) = 1,96. ntr-un test unilateral, la acelai nivel , Z (critic) este +1,65
dac este vorba despre extremitatea superioar (dac Ha este de forma H) i este
1,65 dac este vorba despre extremitatea inferioar (dac Ha este de forma H)1.
De notat c aici folosim Z n loc de Z/2, ntruct ntreaga zon critic este plasat
ntr-o singur extremitate a distribuiei de eantionare.
ntr-un test unilateral, indiferent de nivelul ales, dac Ha este de forma
H (test unilateral dreapta), atunci regula de decizie este
Se respinge H0, dac Z (obinut) > +Z (critic)
Dac Ha este de forma H (test unilateral stnga) atunci regula de decizie este
Se respinge H0, dac Z (obinut) < -Z (critic)
0,05 din 0,5 (proporia de cazuri aflate de o parte i de alta a mediei aritmetice a distribuiei
de eantionare). Rezultatul scderii este 0,4500. Conform tabelului distribuiei normale standard,
scorul Z corespunztor acestei proporii este 1,65.
1 Scdem
119
Dup cum rezult i din cele de mai sus, un test unilateral este mai bun
dect unul bilateral, deoarece zona critic este tras mai aproape de media
aritmetic, mbuntind astfel probabilitatea de a respinge H0. Astfel, dac
cercettorul are mai mult experien i mai multe cunotine n legtur cu variabila
investigat, atunci se recomand folosirea unui test unilateral, ceea ce cere o ipotez
alternativ direcional.
Se obinuiete ca testarea ipotezelor statistice s fie organizat sub forma unui
model n n pai, numrul de pai diferind de la un autor la altul n funcie de
anumite opiuni de compactare sau de detaliere a informaiei. n cele ce urmeaz vom
folosi un model n 4 pai, pe care l exemplificm pentru problema tratat mai sus:
Pasul 1. Enunarea ipotezelor
H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test bilateral)
Z/2 (critic) = 1,96
(Zona critic este notat prin scorurile Z care i marcheaz nceputurile).
Pasul 3. Calcularea statisticii testului
3,36
13,4
45
152 11,40
45
152 130
755 800
n
ZXH
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (3,36 1,96), ipoteza de nul
poate fi respins. Diferena dintre eantionul de medici rezideni i populaia de
referin nu poate fi atribuit ntmplrii sau, altfel spus, aceast diferen este
statistic semnificativ (la un nivel de ncredere de 95%).
Pentru a ilustra aplicarea unui test unilateral, s presupunem c cercettorul
din exemplul de mai sus dorete s testeze ipoteza c media aritmetic a populaiei
de rezideni este mai mic dect 800, toate celelalte date fiind aceleai.
n acest caz, cercettorul este interesat doar de extremitatea stng a
distribuiei de eantionare i va plasa ntreaga zon critic n aceast extremitate. n
termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
120
H0: = 800
Ha: 800
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test unilateral stnga)
Z (critic) = 1,65
Pasul 3. Calcularea statisticii testului
3,36
13,4
45
152 11,40
45
152 130
755 800
n
ZXH
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (3,36 1,65), ipoteza de nul
poate fi respins i se poate accepta c media aritmetic a populaiei de rezideni este
mai mic dect 800 (la un nivel de ncredere de 95%).
Dup cum se indic n figura 8.1, H0 este n realitate adevrat sau fals i
sunt posibile dou decizii: se respinge H0 sau nu se respinge H0. Ca atare, sunt
posibile dou decizii corecte: respingerea unei ipoteze de nul false i nerespingerea
unei ipoteze de nul adevrate. Corespunztor, sunt posibile dou decizii greite:
respingerea unei ipoteze ne nul care este adevrat, numit eroare de tipul I, i
nerespingerea unei ipoteze de nul care este fals, numit eroare de tipul II.
Probabilitatea de a comite o eroare de tipul I este desemnat prin , iar probabilitatea
de a comite o eroare de tipul II este desemnat prin .
Probabilitatea de a comite o eroare de tipul I este determinat de nivelul
ales. Astfel, atunci cnd se alege un nivel , distribuia de eantionare este mprit
n dou mulimi de rezultate ale eantioanelor posibile: zona critic, ce include toate
rezultatele definite ca improbabile sau rare i care ndreptesc respingerea H0, i
zona necritic, ce const din toate rezultatele definite drept non-rare. Cu ct nivelul
este mai mic, cu att este mai mic zona critic i, corespunztor, este mai mare
distana dintre media aritmetic a distribuiei de eantionare i nceputurile (n cazul
unui test bilateral) sau nceputul (n cazul unui test unilateral) zonei critice. De pild,
dac se alege = 0,05, probabilitatea de a comite o eroare de tipul I este de 0,05:
dac H0 este respins, exist 5 anse din 100 ca aceast decizie s fie greit; dac
= 0,01, probabilitatea de a comite o eroare de tipul I este de 0,01: dac H0 este
respins, exist doar 1 ans din 100 ca aceast decizie s fie greit. Prin urmare,
pentru a minimiza probabilitatea de a comite o eroare de tipul I, trebuie s folosim
nivele foarte mici.
Pe de alt parte, cu ct nivelul este mai mic, cu att este mai mare zona
necritic i, pstrnd celelalte date constante, este mai puin probabil ca rezultatul
obinut pe eantion s cad n zona critic, deci este mai mare probabilitatea de a
comite o eroare de tipul II.
Prin urmare, cele dou probabiliti sunt invers proporionale, nefiind posibil
s le minimizm pe amndou: dac alegem un nivel foarte mic pentru a pentru a
minimiza probabilitatea de a comite o eroare de tipul I, crete probabilitatea de a
comite o eroare de tipul II. Cu alte cuvinte, dac cretem dificultatea de a respinge
ipoteza de nul, probabilitatea de a nu respinge ipoteza de nul atunci cnd aceasta este
fals crete. n mod normal, n tiinele omului se dorete minimizarea probabilitii
erorii de tipul I, socotit a fi mai grav dect eroarea de tipul II, astfel c se aleg
valori mici pentru .
n tabelul urmtor sunt prezentate cteva scoruri Z critice pentru nivele mai
des folosite, att pentru teste bilaterale, ct i pentru teste unilaterale:
Tabelul 8.1 Scoruri Z critice
Niveluri Niveluri , Scoruri Z
critice
122
sn
X Z Hm
Aceast formul difer de formula 8.1 prin aceea c este nlocuit cu s, iar n este
nlocuit cu n 1 pentru a se corecta distorsiunea lui s.
n cazul eantioanelor cu n 30, distribuia de eantionare este distribuia
tStudent, prezentat n capitolul 6, iar n pasul 3 se folosete urmtoarea formul:
Formula 8.3
1
sn
X t Hm
Vom spune c este vorba despre testul scorurilor t pentru medii aritmetice i vom
desemna rezultatul aplicrii formulei 8.3 prin t (obinut).
Spresupunem c un cercettor primete informaia neverificat conform
creia media aritmetic a coeficientului de inteligen al participanilor la fazele
naionale ale olimpiadelor de matematic din ultimii 10 ani este de aproximativ 125.
Pentru a testa aceast ipotez, cercettorul selecteaz un eantion aleatoriu de 20 de
olimpici la matematic din ultimii 10 ani i constat c media aritmetic a
coeficientului de inteligen la nivelul eantionului este de 123, abaterea standard la
123
sn
t X Hm
Pasul 4. Luarea deciziei
ntruct t (obinut) nu cade n zona critic (+1,09 +2,539), cercettorul nu
poate respinge ipoteza de nul. Pe baza mediei aritmetice a eantionului nu se poate
Formula 8.4
PPn
Z p PH
(1 )
unde PH este proporia presupus pentru populaie. Acum, valoarea proporiei pentru
populaie, P, nu este cunoscut. Ca i n cazul estimrii intervalelor pentru proporii,
putem estima valoarea lui P prin p, lucrnd cu formula urmtoare:
Formula 8.5
ppn
pP
ZH
(1)
Sconsiderm un exemplu. Se pretinde c aproximativ 10% din studenii unei mari
universiti sunt cstorii. Pentru testarea acestei ipoteze, se selecteaz un eantion
aleatoriu de 200 de studeni de la universitatea respectiv i se constat c 24 de
studeni din eantion sunt cstorii. n baza acestui rezultat, se poate spune la un
nivel de ncredere de 95% c mai mult de 10% din studeni sunt necstorii? Datele
problemei sunt urmtoarele:
Populaie Eantion
PH
= 0,10 p= 0,12
n= 200
Folosind formula 8.5, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: P = 0,10
Ha: P 0,10
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05 (test unilateral dreapta)
Z (critic) = +1,65
Pasul 3. Calcularea statisticii testului
1,06
0,0188
0,02
0,12(1 0,12) 300
0,12 0,10
(1 )
ppn
Z p PH
126
relevante din eantion, calcularea valorii unei statistici i compararea acestei valori
cu valoarea presupus a parametrului corespunztor. n aproape toate situaiile de
cercetare vom gsi o anumit diferen ntre cele dou valori, iar tehnicile de testare a
ipotezelor permit s se decid dac diferena este att de mare, nct s justifice
respingerea presupunerii fcute pentru populaie.
Cuvinte cheie
ipotez de nul;
ipotez alternativ;
statistic a testului;
regul de decizie;
eroare de tipul I;
eroare de tipul II.
Teste de autoevaluare
1. Definii ipoteza de nul. (pg. 129 ).
2. Definii ipoteza alternativ. (pg.129).
3. La ce se refer termenul statistic a testului ? (pg. 129).
4. Definii eroarea de tipul I. (pg. 135).
5. Definii eroarea de tipul II. (pg. 135).
127
Concluzii.
Tehnicile de testare a ipotezelor prezentate n acest unitate i n unitaile care
urmeaz sunt teste despre valoarea parametrilor unei populaii i cer ndeplinirea
unor condiii sau supoziii despre populaiile respective, cum este, n principal,
normalitatea. Testele de acest fel se numesc teste parrametrice.
UNITATEA IX
TESTAREA IPOTEZELOR DESPRE DIFERENELE DINTRE
DOU POPULAII
Obiective.... 129
Cunotine preliminarii...... 129
Resurse necesare i recomandri de studiu... 129
Durata medie de parcurgere a unitii... 129
9.1 Testul scorurilor z pentru diferena dintre dou medii aritmetice .............. 130
9. 2 Testul scorurilor t pentru diferena dintre dou medii aritmetice .............. 132
9.3 Testul scorurilor z pentru diferena dintre dou proporii .......................... 134
Rezumat 136
Cuvinte cheie 136
Teste de autoevaluare... 137
Concluzii 137
129
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s neleag Testul scorurilor z pentru diferena dintre dou medii
aritmetice;
- s neleag Testul scorurilor t pentru diferena dintre dou medii
aritmetice;
xx
XX
()()
s
mm
n care 1 2 X X = diferena dintre mediile aritmetice ale eantioanelor
1 2 = diferena dintre mediile aritmetice ale populaiilor
131
2
2
2
1
2
1
nn
xx
ss
s
ntruct valorile abaterilor standard ale populaiilor, 1 i 2, nu sunt aproape
niciodat cunoscute, se utilizeaz abaterile standard ale eantioanelor, cu coreciile
corespunztoare pentru distorsiune. Astfel, formula folosit pentru estimarea abaterii
standard a distribuiei de eantionare n aceast situaie este urmtoarea:
Formula 9.2
1 12
12
2
2
1
2
1
12
n
s
n
s
sx x
Prin urmare, vom lucra practic cu formula urmtoare pentru Z (obinut):
Formula 9.3
1 12
2
2
1
2
1
12
n
s
n
s
XX
Z
Ca i pn acum, vom considera un exemplu. Un cercettor presupune c
brbaii i femeile difer sub aspectul capacitii de rezolvare de probleme. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 127 de
subieci i le administreaz un test de rezolvare de probleme. Eantionul este apoi
mprit n dou subeantioane dup criteriul sex, iar mrimile statistice sunt
calculate pentru fiecare subeantion, datele obinute fiind urmtoarele:
Eantion 1
(brbai)
Eantion 2
(femei)
62 1 X
s1 = 13
65 2 X
s2 = 14
n1 = 324 n2 = 317
Presupunnd c testul de rezolvare de probleme furnizeaz date de interval
sau de raport, se poate aplica testul scorurilor Z pentru semnificaia diferenei dintre
dou medii aritmetice. Se poate observa c scorul mediu al eantionului 1 este mai
mic dect cel al eantionului 2. Prin aplicarea testului menionat se poate afla dac
132
1,14
3
316
14
323
13
62 65
11
22
2
2
2
1
2
1
12
n
s
n
s
XX
Z
Pasul 4. Luarea deciziei
ntruct Z (obinut) se afl n zona critic (2,63 1,96), ipoteza de nul
poate fi respins, ceea ce reprezint o dovad n sprijinul ipotezei c brbaii i
femeile difer sub aspectul capacitii de rezolvare de probleme. Decizia de a
respinge ipoteza de nul are o probabilitate de doar 0,05 de a fi greit.
xx
XX
t
()()
s
mm
Ca mai sus, termenul 1 2 se reduce la zero, ntruct testul are loc sub
presupunerea c ipoteza de nul, 1 2 = 0, este adevrat. n cazul testului prezentat
133
2nn
nn
nn
nsns
xx
s
Astfel, pentru a afla valoarea lui t (obinut) vom folosi urmtoarea formul:
Formula 9.6
12
12
12
12
2
22
2
11
12
2nn
nn
nn
nsns
XX
t
abaterile standard egale (1 = 2). Aceast condiie este necesar pentru a justifica
supoziia de normalitate a distribuiei de eantionare i a estima abaterea standard a
acesteia. Egalitatea dispersiilor poate fi testat formal1. Pentru scopuri practice,
putem considera c supoziia 1 = 2 este satisfcut n msura n care eantioanele
au dimensiuni apropiate2.
Un cercettor presupune c o anumit metod modern de predare a
matematicii conduce la rezultate mai bune dect metodele tradiionale. Pentru a
verifica aceast ipotez, cercettorul alctuiete un eantion aleatoriu de 25 de elevi,
pe care l mparte aleatoriu n dou grupuri. Un grup de 12 elevi este repartizat ntr-o
clas n care matematica este predat dup metoda modern, iar cellalt grup de 13
elevi este repartizat ntr-o clas n care matematica este predat dup metode
tradiionale. Dup un an, ambele grupuri primesc acelai test la matematic, obinnd
urmtoarele rezultate:
Grupul 1
(m. modern)
Grupul 2
(m. tradiional)
8,80 1 X
s1 = 1,70
8,20 2 X
s2 = 1,20
n1 = 12 n2 = 13
Mediile aritmetice ale grupurilor difer n sensul prezis (1 2). Aplicarea testului t
arat dac aceast diferen este sau nu statistic semnificativ. Fie = 0,05.
Pasul 1. Enunarea ipotezelor
H0: 1 = 2
de pild, Hinkle, Wiersma i Jurs, 1988, pp. 280 284.
Healey, 1984.
1 Vezi,
2 Vezi
134
Ha: 1 2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia t
= 0,05 (test unilateral)
gl = 12 + 13 2 = 23
t (critic) = +1,714
Pasul 3. Calcularea statisticii testului
156
25
23
12(1,70) 13(1,20)
8,80 8,20
2
22
12
12
12
2
22
2
11
12
nn
nn
nn
nsns
XX
t
0,31
1,92
0,60
1,52 0,4
0,60
2,32 0,16
0,60
pp
()()
ZppPP
s
n care p1 p2 = diferena dintre proporiile eantioanelor
P1 P2 = diferena dintre proporiile populaiilor
p1 p2 = abaterea standard a distribuiei de eantionare a diferenelor dintre
proporiile eantioanelor
135
(1 )
nn
nn
ppPP
s
Cantitatea Pse numete estimare combinat a proporiilor pentru cele dou
populaii i este dat de urmtoarea formul:
Formula 9.9
12
12
1122
nn
Pnpnp
Prin urmare, pentru a afla valoarea lui Z (obinut) vom folosi urmtoarea formul:
Formula 9.10
12
12
12
(1 )
nn
nn
PP
Zpp
nn
Pnpnp
1,29
0,07
0,09
83 103
0,29(1 0,29) 83 103
0,34 0,25
(1 )
12
12
12
nn
nn
PP
Zpp
Pasul 4. Luarea deciziei
ntruct Z (obinut) nu cade n zona critic (+1,29 +1,69), nu se poate
respinge ipoteza de nul. Studenii de la cele dou universiti nu difer semnificativ
n privina acordului cu interzicerea avorturilor.
Rezumat
n aceast unitate sunt expuse procedee de testare a ipotezelor privind
diferenele dintre mediile aritmetice a dou populaii, 1 2, i dintre proporiile a
dou populaii, P1 P2.
Problema central n acest caz poate fi formulat dup cum urmeaz:
diferena dintre dou eantioane sub aspectul variabilei de interes este suficient de
mare pentru a putea conchide, cu o probabilitate de eroare cunoscut, c populaiile
reprezentate de eantioane sunt diferite sub aspectul variabilei respective?
Cuvinte cheie
distribuia Z;
distribuia tStudent;
2 grade de libertate;
Testul scorurilor z;
Testul scorurilor t.
137
Teste de autoevaluare
1. Cnd se poate folosi distribuia Z ? (pg.144)
2. Cnd este folosit distribuia tStudent, cu n1 + n2 2 grade de libertate ? (pg.
147).
3. Ce test se aplic pentru semnificaia diferenei dintre dou proporii atunci
cnd eantioanele sunt mari ? (pg.149
Concluzii.
Dou eantioane sunt independente dac selectarea cazurilor pentru un
eantion nu influeneaz selectarea cazurilor pentru cellalt eantion. Astfel, testele
prezentate n acest unitate nu pot fi aplicate atunci cnd ntre cele dou eantioane
exist o dependen de vreun fel sau altul, de pild n situaiile experimentale n care
aceeai subieci sunt testai nainte i dup aplicarea unui tratament.
UNITATEA X
ANALIZA DE VARIAN (ANOVA)
Obiective. 139
Cunotine preliminarii... 139
Resurse necesare i recomandri de studiu. 139
Durata medie de parcurgere a unitii. 139
10.1 ANOVA pentru o variabil independent ................................................ 140
10.2 ANOVA pentru dou variabile independente ......................................... 148
10. 3 ANOVA pentru eantioane dependente .................................................. 157
Rezumat 160
Cuvinte cheie 161
Teste de autoevaluare... 161
Concluzii 161
139
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s cunoasc testul ANOVA pentru o variabil independent;
- s cunoasc testul ANOVA pentru dou variabile independente;
- s cunoasc testul ANOVA pentru eantioane dependente.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
140
1
2
X = 4623
T = 22801
T2 = 118
n2 = 5
2 X = 23,60
1
2
2
X = 2832
T = 13294
T3 = 72
n3 = 5
3 X = 14,40
2
3
2
X = 1090
T = 5184
Pentru fiecare grup i, Ti este totalul scorurilor individuale, ni este numrul de
subieci, i X este media aritmetic a scorurilor, 2
i X este suma ptratelor scorurilor
individuale, iar 2
i T este ptratul totalului scorurilor. De notat c grupurile obinute
sunt independente, precum i c formulele de calcul care urmeaz sunt aplicabile i
n cazul n care este vorba despre un numr diferit de subieci n fiecare grup.
n ANOVA pentru o variabil independent se consider dou surse de
variaie: (i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat
diferenelor dintre subiecii din fiecare grup, care poate fi atribuit procesului de
eantionare. Pentru nceput, se calculeaz trei sume de ptrate ale abaterilor fa
de medie sau, pe scurt, sume de ptrate. Vom desemna generic prin SS aceste sume
de ptrate1: (1) SSTOTAL suma ptratelor abaterilor fiecrui scor individual fa de
media aritmetic a tuturor scorurilor, numit i marea medie; (2) SSA suma
ptratelor abaterilor fiecrei medii de grup fa de marea medie; (3) SSEROARE suma
ptratelor abaterilor fiecrui scor individual fa de media aritmetic a grupului
respectiv. Litera A din SSA arat c lucrm cu variana sistematic a variabilei
independente A. SSA reflect prima surs de variaie, iar SSEROARE pe cea de-a doua.
3
1 Prescurtarea
142
Putem calcula aceste abateri direct pe baza datelor din tabel. ntruct astfel de
calcule sunt greoaie, vom utiliza formule simplificate.
Formula 10.1
N
SS X G TOTAL
2
2
15
(4623 2823 1090) (151 118 72)
22
2
N
SS X G TOTAL
8545 7752,07 792,93
Atunci cnd calculm SSTOTAL este recomandabil s reinem termenii diferenei, 8545
i 7752,07, pe care i vom folosi pentru simplificarea calculelor ulterioare.
Odat de am calculat SSTOTAL, putem calcula SSA dup urmtoarea formul:
Formula 10.2
n
G
n
T
SS
i
i
A
22
n aceast formul, Ti este un simbol general pentru T1, T2 i T3, iar ni este un
simbol general pentru n1, n2 i n3.
Astfel, odat ce cantitatea i i T 2 n este calculat pentru fiecare grup,
cantitile sunt adunate, dup cum arat simbolul . S notm c a doua parte a
formulei 2, G2/N, a fost deja calculat, atunci cnd am obinut SSTOTAL, aa nct vom
prelua direct rezultatul respectiv n calculul SSA:
143
N
G
n
T
n
T
n
T
n
G
n
T
SS
i
i
A
2
3
2
3
2
2
2
1
2
1
22
7752,07
5
72
5
118
5
1512 2 2
8381,80 7752,07 629,73
i aici vom reine unul dintre termenii diferenei, i anume 8381,80, pe care l vom
folosi pentru calculul SSEROARE, dup urmtoarea formul:
Formula 10.3
i
i
EROARE
T
SS X
2
2
Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:
8545 8381,80 163,20
2
2
i
i
n
T
SS X
De notat c SSTOTAL = SSA + SSEROARE. Aceast relaie poate fi utilizat pentru
a controla corectitudinea calculelor.
Pasul urmtor n calculul ANOVA const n calcularea a dou medii
aritmetice ale sumelor de ptrate ale abaterilor fa de medie sau, pe scurt, medii
aritmetice ale sumelor de ptrate. Vom desemna generic prin MS aceste medii2: (1)
MSA media aritmetic pentru SSA, numit variana sistematic i (2) MSEROARE
media aritmetic pentru SSEROARE, numit variana de eroare.
Formula 10.4
1
EROARE
k
MS SSA
A
k
MS SS A
A
2 Prescurtarea
144
Formula 10.5
Nk
SS
MS EROARE
EROARE
Nk
SS
MS EROARE
EROARE
Forma exact a unei curbe F depinde de valorile pentru glA i, respectiv, pentru
glEROARE. De notat c folosirea distribuiei F cere ca variabila dependent s fie
normal distribuit n cele k populaii i ca aceste populaii s fie egal dispersate3.
n tabelul distribuiei F (vezi Anexa D) n prima coloan din stnga sunt
trecute gradele de libertate pentru MSEROARE (glEROARE = N k), de la 1 la 120 i . Pe
cea de-a doua coloan din stnga apar nivelele . Pe primul rnd al tabelului apar
gradele de libertate pentru MSA (glA = k 1), de la 1 la 120 i .
omogenitii dispersiei i cea a normalitii distribuiei, mpreun cu ipoteza de nul, spun
c distribuiile la nivelul populaiilor au aceeai form, aceeai medie aritmetic i aceeai abatere
standard sau, cu alte cuvinte, c este vorba despre una i aceeai populaie.
3 Supoziia
145
0,25
0,10
0,05
.
.
.
.
.
.
.
..
..
....
..
..
..
..
..
= 2, alegnd un nivel = 0,05, F (critic) = 3,8853 sau, rotunjit, 3,89. Valoarea pentru
F (obinut) se calculeaz cu formula urmtoare:
Formula 10.6
EROARE
A
MS
F MS
Dac intervin doar factori ntmpltori, valoarea ateptat pentru F (obinut) este 1,0.
Cu ct este mai mare valoarea pentru F (obinut), cu att este mai mic probabilitatea
ca rezultatele experimentului s se datoreze ntmplrii.
Regula de decizie este urmtoarea:
146
MS
F MS
ntruct F (obinut) cade n zona critic (23,15 3,89), vom conchide c rezultatele
experimentului sunt semnificative i vom respinge ipoteza c mediile aritmetice sunt
egale la nivelul populaiei.
n termenii modelului n patru pai, testul ANOVA pentru o variabil
independent, n exemplul nostru, decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: 1 = 2 = 3
Ha: Cel puin o medie aritmetic difer de celelalte
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia F
= 0,05
glEROARE = N k = 12
glA = k 1 = 2
F(critic) = 3,89
Pasul 3. Calcularea statisticii testului
Organizarea calculului ANOVA se face cu ajutorul unui tabel de calcule iniiale (v.
tabelul 9.1), precum i al unui tabel ANOVA rezumativ, numit tabel al surselor de
variaie. Forma general a unui astfel de tabel este urmtoarea:
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A SSA k 1 MSA
EROARE SSEROARE N k MSEROARE MSA/MSEROARE
TOTAL SSTOTAL N 1
147
148
nA1B1 = 5
X A1B1 = 70,80
X 2 A1B1 = 25094
TA1B2 = 450
nA1B2 = 5
X A1B2 = 90,00
X 2 A1B2 = 40552
Modern (A2)
85
87
83
90
89
87
94
93
89
92
TA2 = 788
nA2 = 10
X A2 = 88,90
TA2B1 = 434
nA2B1 = 5
X A2B1 = 86,80
X 2 A2B1 = 37704
TA2B2 = 455
nA2B2 = 5
X A2B2 = 91,00
X 2 A2B2 = 41439
TB1 = 788
nB1 = 10
X B1 = 78,80
TB2 = 905
nB2= 10
X B2 = 90,50
n ANOVA pentru dou variabile independente se testeaz trei ipoteze de nul,
fiecare corespunznd unei surse de variaie:
150
XXX
N
SS X G
144789 143312,45 1476,55
20
(354 450 434 455)
(25094 40552 37704 41439)
()
TOTAL A B A B A B A B
2
2
11122122
N
T T T T ABABABAB
i aici, atunci cnd calculm SSTOTAL, este recomandabil s reinem termenii
diferenei, 144789 i 143312,45, pe care i vom folosi pentru simplificarea calculelor
ulterioare.
Formula 10.2 este modificat corespunztor pentru calculul SSA i SSB. Astfel,
SSA se calculeaz cu ajutorul urmtoarei formule:
Formula 10.7
n
G
n
T
SS
a
a
A
22
151
n aceast formul, Ta este un simbol general pentru TA1 i TA2, iar na este un simbol
general pentru nA1 i nA2. Prin urmare, atunci cnd calculm SSA, lum n considerare
doar grupurile variabilei independente A.
143312,45
10
889
10
2 8042 2
2
2
2
1
2
1
22
N
G
n
T
n
T
n
G
n
T
SS
A
A
A
A
a
a
A
T
SS
b
b
B
22
n aceast formul, Tb este un simbol general pentru TB1 i TB2, iar nb este un simbol
general pentru nB1 i nB2. Prin urmare, atunci cnd calculm SSB, lum n considerare
doar grupurile variabilei independente B.
143312,45
10
905
10
2 7882 2
2
2
2
1
2
1
22
N
G
n
T
n
T
n
G
n
T
SS
B
B
B
B
B
B
B
ab
ab
SS SS
AB
N
G
n
T
SS
22
n aceast formul, Tab este un simbol general pentru TA1B1, TA1B2, TA2B1 i TA2B2, iar
nab este un simbol general pentru nA1B1, nA1B2, nA2B1 i nA2B2. Prin urmare, atunci cnd
calculm SSA B, lum n considerare grupurile constituite dup categoriile combinate
152
A B.
A B
AB
AB
AB
AB
AB
AB
AB
AB
SS SS
AB
N
G
n
T
n
T
n
T
n
T
SS
2
22
2
22
21
2
21
12
2
12
11
2
11
T
SS X
2
2
Ambele cantiti cerute de aceast formul au fost calculate anterior, cnd am obinut
SSTOTAL i, respectiv, SSA B, aa nct vom prelua direct rezultatele respective n
calculul SSEROARE:
144789 144639,40 149,60
2
2
ab
ab
n
T
SS X
De notat c SSTOTAL = SSA + SSB + SSA B + SSEROARE. Aceast relaie poate fi utilizat
pentru a controla corectitudinea calculelor.
Mediile aritmetice ale sumelor de ptrate pentru fiecare surs de varian se
calculeaz prin mprirea sumei de ptrate respectiv la numrul corespunztor de
grade de libertate.
Formula 10.11
1
EROARE
A
A
k
MS SS
A
153
361,25
21
361,25
1
A
A
k
MS SS
Formula 10.12
1
B
B
k
MS SS
n formula 12, kB 1 este numrul de grupuri constituite dup categoriile variabilei
B, iar kB 1 este numrul de grade de libertate asociate SSB, notat cu glB. n exemplul
nostru,
684,45
21
684,45
1
B
B
k
MS SS
Formula 10.13
( 1)( 1)
B
AB
B
kk
MS SS
n formula 13, (kA 1)(kB 1) este numrul de grade de libertate asociat SSA B, notat
cu glA B. n exemplul nostru,
281,25
(2 1)(2 1)
AB
281,25
( 1)( 1)
A
AB
B
kk
MS SS
Formula 10.14
AB
AB
EROARE
Nkk
SS
MS
n formula 14, N kAkB este numrul de grade de libertate asociat SSEROARE, notat cu
glEROARE.
EROARE
154
9,35
16
149,60
20 4
149,60
AB
EROARE
EROARE
Nkk
SS
MS
Valoarea pentru F (obinut) se calculeaz pentru fiecare surs de varian
sistematic (efectele principale pentru A, pentru B i pentru interaciunea A B).
Prezentm n continuare formulele de calcul pentru FA (obinut), FB (obinut) i FAB
(obinut), mpreun cu calculele respective, corespunztoare exemplului nostru.
Formula 10.15
EROARE
A
MS
F MS
38,64
9,35
361,25
A
EROARE
MS
F MS
Formula 10.16
A
EROARE
B
MS
F MS
30,08
9,35
684,45
B
EROARE
B
MS
F MS
Formula 10.17
B
EROARE
AB
MS
F MS
30,08
9,35
281,25
AB
EROARE
AB
MS
F MS
Pentru luarea deciziei, fiecare valoare pentru F (obinut) se compar cu F
(critic). ntruct n fiecare caz din exemplul nostru, glEROARE = 16, iar numrul de
grade de libertate din numrtor pentru media aritmetic este egal cu 1 (glA = glB =
AB
155
glAB = 1), pentru = 0,05, F (critic) = 4,4940 sau, rotunjit, 4,495. Deoarece fiecare F
(obinut) este mai mare dect F (critic), toate cele trei ipoteze de nul pot fi respinse.
De notat c toate cele trei ipoteze de nul pot fi respinse (rezultatele experimentului
sunt semnificative) i pentru = 0,01, pentru care F (critic) = 8,53.
n termenii modelului n patru pai, testul ANOVA pentru dou variabile
independente decurge astfel:
Pasul 1 Enunarea ipotezelor
H01: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice
ale rezultatelor obinute prin cele dou metode.
Ha1: La nivelul populaiei mediile aritmetice ale rezultatelor obinute prin cele
dou metode difer.
H02: La nivelul populaiei nu exist nici o diferen ntre mediile aritmetice
ale rezultatelor obinute de elevii cu nivele IQ diferite.
Ha2: La nivelul populaiei mediile aritmetice ale rezultatelor obinute de elevii
cu nivele IQ diferite difer.
H03: La nivelul populaiei nu exist interaciune ntre cele dou variabile.
Ha3: La nivelul populaiei exist interaciune ntre cele dou variabile.
dac cele trei grade de libertate ar fi fost diferite, am fi avut trei valori pentru F (critic).
156
F (critic), se resping cele trei ipoteze de nul. Pentru efectul principal al variabilei A,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute
prin cele dou metode difer semnificativ. Pentru efectul principal al variabilei B,
concluzia este c la nivelul populaiei, mediile aritmetice ale rezultatelor obinute de
elevii cu nivele IQ diferite difer semnificativ. Enunul de probabilitate asociat
ambelor concluzii este urmtorul: probabilitatea ca diferenele observate ntre
mediile aritmetice ale grupurilor constituite dup categoriile unei variabile
independente s apar din ntmplare, dac H0 respectiv ar fi n realitate adevrat,
este mai mic de 0,05 (i dup cum am vzut, chiar dect 0,01).
Pentru interaciune, concluzia este c la nivelul populaiei exist o
interaciune ntre metoda de instruire i nivelul IQ al subiecilor. Enunul de
probabilitate asociat acestei concluzii este urmtorul: probabilitatea ca diferenele
observate ntre mediile aritmetice ale scorurilor din categoriile combinate ale celor
dou variabile s apar din ntmplare, dac H03 ar fi n realitate adevrat, este mai
mic de 0,05 (i dect 0,01).
8
6
5
5
7
4
3
5
4
8
6
9
6
6
5
5
7
14
11
14
13
10
8
10
11
196
121
196
169
100
64
100
121
TA1 = 39
2
A1 =
201
nA1 = 8
X A1 = 4,88
TA2 = 52
2
A2 =
352
nA2 = 8
X A2 = 6,50
T = 1067
n acest tabel, s T se refer la totalul scorurilor acordate de fiecare subiect pentru cele
s
dou femei, 2
s T este ptratul acestui total, iar 2
s T este suma acestor ptrate pentru
toi subiecii.
Principala diferen dintre ANOVA pentru eantioane dependente i ANOVA
pentru o variabil independent const n aceea c efectul diferenelor dintre subieci
devine o surs de varian. n ANOVA pentru eantioane dependente apar patru surse
de varian i deci se calculeaz patru sume de ptrate: (1) SSTOTAL, (2) SSA, (3)
SSSUBIECI i
(4)SSEROARE. SSTOTAL se calculeaz cu ajutorul formulei 10.1:
N
SS X G TOTAL
2
= (201 + 352)
16
(39 52)2
= 553 517,56 = 35,44
SSA se calculeaz cu ajutorul formulei 10.7:
2
159
n
G
n
T
SS
a
a
A
22
=
8
392 522
517,56 = 10,57
SSSUBIECI se calculeaz cu ajutorul urmtoarei formule:
Formula 10.18
n
G
n
T
SS
S
S
SUBIECTI
22
2
22
1067
n
G
n
T
SS
S
S
SUBIECTI
A SSA k 1 MSA
SUBIECI SSSUBIECI s 1 - MSA/MSEROARE
EROARE SSEROARE (k 1)(s 1) MSEROARE
TOTAL SSTOTAL N 1
Procedurile de calcul pentru mediile sumelor de ptrate i pentru F (obinut) sunt
similare cu cele deja cunoscute. De notat c, n acest caz, media sumei de ptrate i F
(obinut) pentru SSSUBIECI nu se calculeaz. n mod obinuit, nu este necesar s
cunoatem dac exist diferene semnificative ntre subieci. Aflarea cantitii
corespunztoare sursei de varian SSSUBIECI contribuie, ns, la reducerea sursei de
variaie SSEROARE (formula 10.19). n exemplul nostru, avem urmtorul tabel:
Tabelul 10.6 ANOVA rezumativ, eantioane dependente
Sursa de
variaie
Sume de
ptrate
Grade de
libertate
Medii ale
sumelor
F (obinut)
A 10,57 1 10,57
8,26
SUBIECI 15,94 7 EROARE 8,93 7 1,28
TOTAL 35,44 15
Lsm ca exerciiu pentru cititor formularea n termenii modelului n patru pai a
testului ANOVA aplicat aici, n principal a deciziei pentru = 0,05, precum i a
enunului de probabilitate asociat concluziei6.
Rezumat
n acest unitate se prezint o procedur de testare a ipotezei conform creia
mediile aritmetice ale k populaii (k 2) sunt egale. Aceast procedur este numit
analiza de varian (ANOVA).
161
Cuvinte cheie
analiza de varian (ANOVA).;
sume de ptrate;
distribuia F;
termenul nS;
Teste de autoevaluare
1. n ANOVA pentru o variabil independent cte surse de variaie se
consider ? (pg.156 ).
2. Care este principala diferen dintre ANOVA pentru eantioane dependente i
ANOVA pentru o variabil independent ? (pg. 173)
3. n ANOVA pentru eantioane dependente apar patru surse de varian, deci
cte sume de ptrate se calculeaz ? (pg. 173 )
4. La ce se refer termenul nS ? (pg. 174 )
Concluzii.
n ANOVA pentru o variabil independent se consider dou surse de
variaie: (i) variaia mediilor aritmetice ale grupurilor i (ii) variaia datorat
diferenelor dintre subiecii din fiecare grup, care poate fi atribuit procesului de
eantionare. Pentru nceput, se calculeaz trei sume de ptrate ale abaterilor fa
de medie sau, pe scurt, sume de ptrate.
Pasul urmtor n calculul ANOVA const n calcularea a dou medii
aritmetice ale sumelor de ptrate ale abaterilor fa de medie sau, pe scurt, medii
aritmetice ale sumelor de ptrate.
Organizarea calculului ANOVA pentru dou variabile independente se face
cu ajutorul unui tabel de calcule iniiale, precum i al unui tabel ANOVA rezumativ
(tabel al surselor de variaie).
UNITATEA XI
TESTE NONPARAMETRICE
Obiective. 163
Cunotine preliminarii.... 163
Resurse necesare i recomandri de studiu. 163
Durata medie de parcurgere a unitii... 163
11.1 Testele chiptrat (2) .............................................................................. 164
11. 2 Testul McNemar ..................................................................................... 165
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s utilizeze Testele chiptrat (2);
- s utilizeze Testul McNemar;
- s utilizeze Testul MannWhitney U;
- s utilizeze Testul Wilcoxon T;
- s utilizeze Testul KruskalWallis H.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
164
3 38
4 57
5 64
6 44
Comparnd frecvenele observate cu cele teoretice, suntem ndreptii s spunem c
zarul respectiv este msluit sau diferenele pot fi puse pe seama fluctuaiilor
ntmpltoare?
Testul chiptrat poate fi folosit pentru verificarea independenei a dou
variabile sau pentru verificarea concordanei dintre frecvenele observate i
frecvenele ateptate ale unei singure variabile. Corespunztor, se vorbete despre
165
lectura
documentelor
166
c 2( )
Pentru exemplul de mai sus, testul formal este urmtorul:
Pasul 1. Enunarea ipotezelor
H0: Exist un numr egal de schimbri n ambele direcii
Ha: Numrul de schimbri ntr-o direcie este semnificativ diferit
fa de numrul de schimbri n cealalt direcie
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia 2
= 0,05
gl = 1
2 (critic) = 3,841
Pasul 3. Calcularea statisticii testului
9,00
16
144
16
12
14 2
( )2 (14 2)2 2
2
AD
cAD
Pasul 4. Luarea deciziei
ntruct 2 (obinut) cade n zona critic (9,00 3,841), se poate respinge
ipoteza de nul. Exist o diferen statistic semnificativ ntre numrul de schimbri
ntr-o direcie i numrul de schimbri n cealalt direcie (o diferen care nu poate
167
fi pus pe seama ntmplrii). Din tabelul 10.4 rezult c mai multe femei salariate
i-au schimbat opinia de la Da la Nu dect de la Nu la Da, iar testul arat c aceast
diferen este statistic semnificativ.
Dac ntlnim dou sau mai multe scoruri identice (dou sau mai multe cazuri cu
acelai scor), procedm dup cum urmeaz:
considerm rangurile pe care aceste scoruri le-ar fi avut dac ar fi fost diferite
i imediat succesive;
calculm media aritmetic a acestor ranguri;
atribuim fiecrui scor rangul mediu astfel obinut.
n exemplul nostru, cazurile 8
i 17 au acelai scor, 30. Scorului cazului 8
I-am fi
atribuit rangul 14, iar scorului cazului 17 I-am fi atribuit scorul 15. Prin urmare,
atribuim ambelor scoruri rangul 14,5 ((14 + 15)/2), iar scorului imediat urmtor n
ordine cresctoare (32) i atribuim rangul 16 (rangul pe care l-ar fi avut acest scor,
dac cele dou scoruri 30 ar fi fost diferite). Dup aceast operaie, calculm suma
rangurilor pentru fiecare eantion. Intuitiv vorbind, dac cele dou eantioane
reprezint populaii care nu difer semnificativ ntre ele sub aspectul variabilei
msurate, atunci cele dou sume sunt apropiate ca valoare. Dac, ns, cele dou
eantioane reprezint populaii care difer semnificativ ntre ele sub aspectul
variabilei msurate, atunci cele dou sume sunt mult diferite.
Calcularea statisticii testului presupune mai nti calcularea a dou mrimi
2
U n n n (n 1) R
Formula 11.3 2
112
22
2
U n n n (n 1) R
170
interes. n exemplul nostru, ipoteza de nul enun c nu exist nici o diferen ntre
studente i studeni sub aspectul satisfaciei exprimate n raport cu serviciile sociale
oferite n campus. De regul, ipoteza alternativ enun c populaiile din care au fost
selectate eantioanele sunt diferite sub aspectul variabilei de interes. Aceast form a
ipotezei de nul conduce la un test nondirecional. Desigur, putem apela la un test
direcional, atunci cnd sensul diferenei poate fi prezis, i.e. atunci cnd putem
prezice c scorurile unei populaii sunt mai mari sau mai mici dect scorurile
celeilalte populaii. ntr-un test nondirecional, regula de decizie este urmtoarea:
Se respinge H0, dac U (obinut) < U (critic)
De remarcat c ipoteza de nul se respinge dac valoarea obinut este mai mic dect
cea critic. Aceast regul difer de regulile de decizie din cele mai multe teste de
semnificaie, n care ipoteza de nul este respins dac valoarea obinut este mai
mare dect cea critic.
Dac se poate prezice c scorurile populaiei 1 sunt mai mari dect cele ale
populaiei 2, regula de decizie este
Se respinge H0, dac U1 < U (critic),
iar dac se poate prezice c scorurile populaiei 1 sunt mai mici dect cele ale
populaiei 2, regula de decizie este
Se respinge H0, dac U2 < U (critic)
Testul formal decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: Satisfacia1 = Satsfacia2
Ha: Satisfacia1 Satisfacia2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia U
= 0,05 (test nedirecional)
U (critic) = 23
Pasul 3. Calcularea statisticii testului
85,5 100 55 85,5 69,5
2
(10 10) 10 11
2
( 1)
1
11
112
U n n n n R
124,5 100 55 124,5 30,5
2
(10 10) 10 11
2
( 1)
2
22
U n n n n R
112
171
min( , ) 30,5 1 2 U U U
Pasul 4. Luarea deciziei
ntruct U (obinut) U (critic) (30,5 23), nu putem respinge ipoteza de nul.
Studentele nu difer semnificativ de studeni sub aspectul nivelului de satisfacie n
raport cu serviciile sociale oferite n campus (la un nivel de ncredere de 95%).
Atunci cnd n1 20 i n2 20, distribuia de eantionare pentru U se apropie
de distribuia normal, astfel nct putem folosi tabelul scorurilor Z pentru a stabili
zona critic. Lund drept cadru modelul n patru pai, n pasul 2, distribuia de
eantionare este distribuia Z, zona critic fiind cea marcat de Z (critic), n funcie de
nivelul ales i de tipul de test (unilateral sau bilateral). Formula pentru Z (obinut)
este urmtoarea:
Formula 11.4
U
U
Z
s
m
nnnn
nn
U
Z
172
ranguri scorurilor. ntruct avem un numr par de cazuri (20), mediana va fi media
aritmetic a scorurilor celor dou cazuri de mijloc, 31 i 32:
31,5
2
~ 31 32
X
Cu ajutorul unui tabel 2 2, prezentm pentru fiecare eantion numrul de scoruri
aflate deasupra i sub mediana scorurilor combinate:
7
A
3
B
3
C
7
D
20
Fiind un tabel 2 2, numrul de grade de libertate este egal cu 1.
Ipoteza de nul pentru testul medianei enun c populaiile din care au fost
selectate cele dou eantioane au aceeai median ( 1 2
m~ m~ ), iar ipoteza alternativ
enun c medianele celor dou populaii sunt diferite ( 1 2
m~ m~ ).
Pentru un tabel 2 2, notnd celulele ca mai sus, formula de calcul pentru
testul medianei poate fi simplificat, dup cum urmeaz:
Formula 11.8
( )( )( )( )
( )2
ABCDACBD
n AD BC
c
n termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: 1 2
m~ m~
Ha: 1 2
m~ m~
Eantion 1 Eantion 2
Deasupra
medianei
Sub
median
10
10
10 10
174
ABCDACBD
n AD BC c
Pasul 4. Luarea deciziei
ntruct 2 (obinut) nu cade n zona critic (3,20 3,841), nu se poate
respinge ipoteza de nul, ceea ce nseamn c nu exist nici o diferen statistic
semnificativ ntre femeile salariate i cele casnice n privina atitudinii fa de
micrile feministe (la un nivel de ncredere de 95%).
Cele dou litere F din extrema stng reprezint dou studente care au cele mai mici
scoruri din ambele eantioane; urmtoarea liter, B, reprezint un student cu scorul
urmtor n ordine cresctoare .a.m.d. De notat c nici o iteraie alctuit din
elemente de un anumit tip nu se nvecineaz cu o iteraie alctuit din elemente de
acelai tip. Dac, de pild, am considera primul element al iteraiei 3 drept o iteraie
distinct, atunci aceasta s-ar nvecina la dreapta cu o iteraie alctuit din elemente de
acelai tip, F.
Diferena dintre eantioane, i deci dintre populaii, este cu att mai
semnificativ, cu ct numrul de iteraii este mai mic. Cel mai mic numr de iteraii
posibil este, desigur, 2. n exemplul de mai sus, dac toi studenii ar exprima o
satisfacie mai mare dect studentele n raport cu serviciile sociale din campus, am fi
obinut urmtoarele dou iteraii:
BBBBBBBBBBFFFFFFFFFF
12
Evident, numrul maxim posibil de iteraii este egal cu numrul de cazuri din cele
dou eantioane.
Este important de reinut c n aplicarea acestui test, cazurile care nu fac parte
din acelai eantion i au scoruri identice pot crea probleme serioase, deoarece
numrul de iteraii poate fi mult afectat de felul n care sunt aranjate cazurile cu
scoruri identice. Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite
este recomandabil s folosim alt test de semnificaie.
Distribuia de eantionare pentru iteraii aproximeaz normalitatea. Media
aritmetic a acestei distribuii ( R m ) i abaterea sa standard ( R s ) se calculeaz cu
ajutorul urmtoarelor formule:
Formula 11.9 1
2
12
12
nn
nn
Rm
Formula 11.10
( ) ( 1)
2 (2 )
12
2
12
121212
nnnn
nnnnnn
Rs
Statistica testului iteraiilor, Z (obinut), se calculeaz cu urmtoarea formul:
Formula 11.11
R
R
Z
s
m
176
17 20 37 25
18 22 38 26
177
19 22 39 27
20 23 40 27
S observm c aici nu exist scoruri identice n eantioane diferite (scorurile
identice n acelai eantion nu au nici o influen asupra numrului de iteraii).
Folosind tot literele B i F, obinem urmtoarele iteraii:
FFBBBBBFFBBFFBFBBBFFFFBFF
1 2 3 4 5 6 7 8 9 10 11
BBBBFFFBBBFFFF
12 13 14 15
n aceste date se afl 15 iteraii i putem acum s aplicm testul formal pentru
semnificaie.
Pasul 1. Enunarea ipotezelor
H0: Atitudinea1 = Atitudinea2
Ha: Atitudinea1 Atitudinea2
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia Z
= 0,05
Z (critic) = 1,96
Pasul 3. Calcularea statisticii testului
1 21
20 20
1 2 20 20
2
12
12
nn
nn
Rm
178
3,12
(20 20) (20 20 1)
2 20 20(2 20 20 20 20
( ) ( 1)
2 (2 )
2
12
2
12
121212
nnnn
nnnnnn
Rs
1,92
3,12
15 21
R
Z
s
m
Pasul 4. Luarea deciziei
ntruct Z (obinut) Z (critic) (1,92 1,96), rezultatul statisticii testului
nu cade n zona critic. Prin urmare nu putem respinge ipoteza de nul. n exemplul de
mai sus, brbaii i femeile nu difer semnificativ n privina atitudinii fa de politic
i politicieni.
R
Datele obinute sunt prezentate n tabelul 11.5, n care un scor nalt indic un
comportament agresiv.
Tabelul 11. 5 Scoruri ale comportamentului agresiv pentru adolesceni cu
dificulti de nvare
179
Cazul
Scorul
pretratament
Scorul
posttratament
Scorul
diferen
Rangul
diferenei
Ranguri cu cel
mai puin
frecvent semn
1 36 21 15 11
2 23 24 1 1 1
3 48 36 12 10
4 54 30 24 12
5 40 32 8 7
6 32 35 3 3 3
7 50 43 7 6
8 44 40 4 4
9 36 30 6 5
10 29 27 2 2
11 33 22 11 9
12 45 36 9 8
T (obinut) = 4
Pentru calcularea statisticii testului se procedeaz dup cum urmeaz:
1. Pentru fiecare caz, se calculeaz diferena dintre scorul pretratament i
scorul posttratament; rezultatul scderii se numete scor diferen.
2. Se atribuie ranguri valorilor absolute ale scorurilor diferen (modulelor
scorurilor diferen), ncepnd cu cea mai mic valoare absolut;
rangurile scorurilor diferen pozitive primesc semnul +, iar rangurile
scorurilor diferen negative primesc semnul .
3. Se nsumeaz valorile absolute ale rangurilor cu semnul care are cele mai
puine apariii; rezultatul nsumrii reprezint valoarea pentru T (obinut).
Ca i n cazul testului iteraiilor, n aplicarea testului Wilcoxon T, cazurile
care nu fac parte din acelai eantion i au scoruri identice pot crea probleme
serioase. Dac ntlnim multe cazuri cu scoruri identice n eantioane diferite este
recomandabil s folosim alt test de semnificaie.
180
tabel sunt date valorile T critice pentru diferite nivele i diferite dimensiuni ale
eantioanelorperechi . n exemplul de fa, cu n = 12, pentru = 0,01 (test
unilateral), T (critic) = 10.
Ipoteza de nul enun c nu exist nici o diferen n privina
comportamentului agresiv al populaiei de adolesceni cu dificulti de nvare,
nainte i dup o serie de edine de consiliere. Ipoteza alternativ, n conformitate cu
datele problemei, enun c agresivitatea adolescenilor cu dificulti de nvare este
diminuat dup respectivele edine de consiliere. Aceast ipotez alternativ
conduce la un test unilateral stnga, n care vom respinge ipoteza de nul dac T
(obinut) T (critic). n cazul unui test unilateral dreapta, se respinge ipoteza e nul
dac T (obinut) T (critic). Pentru un test bilateral, se respinge ipoteza de nul dac T
(obinut) T (critic) sau T (obinut) T (critic).
n termenii modelului n patru pai, testul decurge dup cum urmeaz:
Pasul 1. Enunarea ipotezelor
H0: Nu exist nici o diferen n privina comportamentului agresiv al
populaiei de adolesceni cu dificulti de nvare, nainte i dup o
serie de edine de consiliere
Ha: Comportamentul populaiei de adolesceni cu dificulti de
nvare
este mai puin agresiv dup edinele de consiliere.
Pasul 2. Selectarea distribuiei de eantionare i stabilirea zonei critice
Distribuia de eantionare = Distribuia T
= 0,01 (test unilateral stnga)
T (critic) = 10
Pasul 3. Calcularea statisticii testului
Dup cum am vzut n tabelul 11.5, calculm scorurile diferen i atribuim
ranguri valorilor absolute ale acestor scoruri ncepnd cu cea mai mic valoare
absolut, pstrnd semnele corespunztoare. Rangurile cu semnul care are cele mai
puine apariii, considerate n valoare absolut, sunt 1 i 3; prin nsumarea acestor
valori, gsim T (obinut) = 4.
Pasul 4. Luarea deciziei
181
Formula 11.13
24
( 1)(2 1)
n n n
Ts
n aceste formule, n reprezint numrul de cazuri din fiecare eantion sau, altfel spus,
numrul de perechi de cazuri alctuite din cele dou eantioane. Z (obinut) se
calculeaz cu urmtoarea formul:
Formula 11.14
T
T
Z
s
m
182
identice sub aspectul variabilei de interes. Ipoteza alternativ enun c cel puin
dou dintre cele k populaii difer sub aspectul variabilei de interes.
De notat c o condiie de aplicabilitate a acestui test este ca fiecare eantion j
s conin un numr de cazuri nj 5.
Calcularea statisticii testului const din aflarea valorii unei mrimi statistice,
H, cu ajutorul urmtoarei formule:
Formula 11.15
3( 1)
( 1)
12
1
2
N
n
R
NN
H
k
jj
j
3(17 1) 7,86
6
78
5
46
6
29
17(17 1)
12
3( 1)
( 1)
12
222
1
2
N
n
R
NN
H
k
jj
j
Testul MannWhitney U;
Testul medianei;
Testul Wilcoxon T;
Testul KruskalWallis H
Teste de autoevaluare
1. Definii Testul chiptrat. (pg. 179).
2. Definii Testul McNemar. (pg.180)
3. Definii Testul medianei. (pg. 187)
4. Definii Testul Wilcoxon T. (pg. 193 )
5. Definii Testul KruskalWallis H. (pg. 197)
Concluzii.
Testele nonparametrice sunt teste de semnificaie care nu necesit supoziii
UNITATEA XII
MRIMI ALE CORELAIEI
Obiective. 187
Cunotine preliminarii... 187
Resurse necesare i recomandri de studiu. 187
Durat medie de parcurgere a unitii. 187
12.1 Noiunea de corelaie ................................................................................ 188
12.2 Mrimi ale corelaiei la nivel nominal ...................................................... 192
12.3 Mrimi ale corelaiei la nivel ordinal ....................................................... 195
12.4 Mrimi ale corelaiei la nivel de interval sau de raport ............................ 202
12.5 Corelaia parial ...................................................................................... 208
12.6 Regresia multipl ...................................................................................... 210
12.7 Corelaia multipl ..................................................................................... 213
Rezumat 214
Cuvinte cheie 214
Teste de autoevaluare... 214
Concluzii 214
187
Obiective
La sfritul acestei prelegeri, studentul va putea :
- s aib o nelegere mai larg a diferitelor aspecte legate de noiunea de
corelaie ;
- s neleag diferite aspecte legate de mrimi ale corelaiei la nivel
nominal;
- s neleag diferite aspecte legate de mrimi ale corelaiei la nivel
ordinal;
- s cunoasc corelaia parial, regresia multipl i corelaia multipl.
Cunotine preliminarii
nelegerea materialului prezentat n aceast unitate nu cere o cunoatere
avansat a matematicii, ci doar o familiarizare cu aritmetica, algebra elementar i cu
unele simboluri matematice folosite cu precdere n statistic.
Resurse necesare i recomandri de studiu.
Resurse bibliografice obligatorii:
Dumitru Gheorghiu Statistic pentru psihologi. Editura Trei,
Bucureti 2004
Durata medie de parcurgere a unitii de studiu
Este de dou ore.
188
celeilalte variabile. Altfel spus, ntr-o corelaie negativ, creterea valorii unei
variabile este nsoit de descreterea valorii celeilalte variabile. Tabelul 12.3
prezint o corelaie negativ ntre nivelul de educaie i vizionarea programelor TV
(date fictive).
Tabelul 12.3 Nivelul de educaie i vizionarea programelor TV
(ilustrare pentru corelaie negativ)
Gradul de urmrire
a programelor TV
Nivelul de educaie
Sczut Mediu nalt
nalt 60% 20% 10%
Mediu 30 60 30
Sczut 10 20 60
TOTAL 100% 100% 100%
Orice corelaie, pozitiv sau negativ, poate fi apreciat dup tria sau
puterea sa. Un caz extrem este cel al corelaiei perfecte. Corelaia dintre dou
variabile este perfect, dac fiecare scor al unei variabile este asociat cu un singur
scor al celeilalte variabile, astfel c scorurile unei variabile pot fi determinate exact
pe baza cunoaterii scorurilor celeilalte variabile. Dac, de pild, ntre nivelul de
educaie i vizionarea programelor TV ar fi o corelaie (negativ) perfect, atunci
ntr-un tabel cu dubl intrare pentru aceste variabile, toate cazurile de pe fiecare
coloan ar fi localizate ntr-o singur celul, ceea ce ar arta c nu exist nici o
variaie a variabilei Y pentru orice scor dat al variabilei X. O astfel de situaie este
prezentat n tabelul 12.4.
191
192
Dominana
Sexul
TOTAL
Masculin Feminin
Dreapta 15 35 50
Stnga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100
Dup cum am constatat prin aplicarea testului 2, relaia dintre cele dou
variabile este statistic semnificativ, i.e valoarea 2 (obinut) = 18 s-a dovedit a fi
semnificativ la un nivel de ncredere de 95%. Ceea ce ne intereseaz acum este tria
corelaiei. Aplicnd formula 12.1, obinem:
0,42
100
2 18
n
c
j
Valoarea = 0,42 indic o corelaie cel mult moderat ntre sex i dominana
funcionaloperativ a minilor. Relaia dintre aceste variabile este statistic
semnificativ (2), dar nu este puternic. Problema este c ia valori cuprinse ntre 0
(nici o corelaie) i 1 (corelaie perfect) numai pentru tabele 2 2. Pentru tabelele
de mare dimensiune, poate depi valoarea 1, ceea ce face ca interpretarea acestui
coeficient s devin problematic. Oricum, dup cum vom vedea, valoarea lui
obinut pentru exemplul de mai sus este foarte apropiat de valorile obinute prin
calcularea celorlali coeficieni de corelaie menionai.
Coeficientul C se calculeaz cu ajutorul urmtoarei formule:
Formula 12.2 2
2
c
c
n
C
Aplicnd aceast formul la datele din tabelul 12.5, obinem:
0,39
100 18
18
2
2
c
c
n
C
Deficiena coeficientului C este aceea c, fiind o mrime subunitar, nu poate lua
niciodat valoarea 1. Se demonstreaz c pe msur ce dimensiunea tabelului crete,
C tinde ctre 1. De pild, valoarea maxim a lui C este 0,82 pentru un tabel 3 3 i
0,87 pentru un tabel 4 4. De aceea, se recomand folosirea acestui coeficient numai
pentru tabele de mare dimensiune (aproximativ de la 10 linii sau/i coloane n sus).
Coeficientul V se calculeaz cu ajutorul urmtoarei formule:
194
Formula 12.3
( 1)
2
nq
V
c
n care q este cea mai mic dintre valorile numerice r (numr de rnduri) i c (numr
de coloane) pentru tabelul respectiv. Aplicnd formula 12.3 la datele din tabelul 12.5
obinem:
0,42
100(2 1)
18
( 1)
2
nq
V
c
Dup cum se poate constata, rezultatul obinut prin calcularea coeficientului V este
acelai cu cel obinut prin calcularea coeficientului . Coeficientul V are valoarea
maxim 1, dar numai pentru tabele mai mari de 2 2.
Cu toate deficienele lor, ntruct sunt uor de calculat, coeficienii , C i V
pot fi folosii n calitate de primi indici ai importanei unei corelaii.
n situaii de cercetare mai pretenioase se obinuiete s se utilizeze
coeficientul ., care ia valori cuprinse ntre 0 i 1. n cazul n care nu se dorete sau
nu se poate identifica variabila independent, se folosete varianta simetric a
coeficientului , a crui formul de calcul este urmtoarea:
Formula 12.4
mc mr
mc mr
r
y
my
c
x
mx
nnn
nnnn
2
l 11
n care nmx = cea mai mare frecven n coloana x
nmy = cea mai mare frecven n rndul y
nmc = cel mai mare marginal de coloan
nmr = cel mai mare marginal de rnd
Spresupunem c ntr-o cercetare privind relaia dintre apartenena religioas
i atitudinea fa de pedeapsa capital s-au obinut rezultatele din tabelul 12.6.
Tabelul 12.6 Apartenena religioas i atitudinea fa de pedeapsa capital
Atitudinea
Apartenena religioas
Cretinortodox
Catolic Altele
Nici
una
TOTAL
Favorabil 5 10 9 14 38
Neutr 10 14 12 6 42
mpotriv 25 11 4 10 50
TOTAL 40 35 25 30 130
195
mr
mc
r
y
my
c
x
mx
n
n
n
n
Aplicnd formula 12.4, obinem:
0,16
2(130) 40 50
65 53 40 50
2
1 1
mc mr
mc mr
r
y
my
c
x
mx
nnn
nnnn
l
Dac se poate identifica variabila independent, atunci se folosete varianta
asimetric a coeficientului , notat y, a crui formul de calcul este urmtoarea:
Formula 12.5
mr
mr
c
x
mx
nn
nn
l
Considernd exemplul de mai sus, dac cercettorul identific drept variabil
independent apartenena religioas, atunci se obine:
0,19
130 50
1 65 50
mr
mr
c
x
mx
nn
nn
l
Pentru cele mai multe situaii de cercetare, interpretarea celor dou variante
ale coeficientului este similar interpretrii coeficienilor C i V. Pentru exemplul
considerat aici, putem conchide c cele dou variabile sunt corelate, dar c aceast
corelaie este foarte slab2.
y
196
cazul din celula c12 i la fel, cazul din celula c31 are un nivel de descurajare
profesional mai mic dect cazul din celula c12. Numrul total de perechi de cazuri
alctuite selectnd un caz din celula c31 i un caz din celula c12 se afl nmulind
frecvenele din cele dou celule: 20 11 = 220. Cu alte cuvinte, contribuia acestor
dou celule la cantitatea Na este de 220 de perechi. Procednd la fel pentru fiecare
dintre celelalte trei celule situate deasupra i la dreapta celulei c31 (c13, c22 i c23) i
adunnd produsele astfel obinute aflm numrul total de perechi de cazuri alctuite
selectnd un caz din celula c31 i un caz din fiecare celul situat deasupra i la
dreapta celulei c31:
(20 11) + (20 21) +(20 15) + (20 5) = 1040
Acelai calcul l putem efectua dup cum urmeaz:
20(11 + 21 + 15 + 5) = 1040
Prin urmare, pentru a afla cantitatea Na, se nmulete frecvena din fiecare
celul cu suma frecvenelor din toate celulele situate deasupra i la dreapta celulei
respective, dup care se adun produsele astfel obinute. De notat c nici una dintre
celulele situate pe primul rnd sau pe ultima coloan nu poate contribui la Na,
deoarece nu exist celule situate deasupra i la dreapta acestora. Calcularea Na pentru
tabelul 12.7 decurge dup cum urmeaz:
Pentru c31: 20(11 + 21 + 15 +5) = 1040
Pentru c32: 6(21 + 5) = 156
NN
NN
g
Valoarea coeficientului pentru datele din tabelul 12.7 este:
0,57
1831 499
1831 499
ad
ad
NN
NNg
Vom conchide c vechimea n munc este corelat moderat cu nivelul de descurajare
profesional, aceast corelaie fiind pozitiv: dac, de pild, tim c A are o vechime
mai mare n munc dect B, suntem ndreptii s spunem c este probabil ca A s
aib un nivel de descurajare profesional mai nalt dect B.
Este important de observat c aplicarea coeficientului presupune (pentru a
obine cantitile Na i Nd) ca tabelul pe care se lucreaz s fie construit n maniera
tabelului 11.7, cu categoriile de pe coloane dispuse n ordine cresctoare de la stnga
la dreapta i categoriile de pe linii dispuse n ordine cresctoare de jos n sus. este o
mrime simetric a corelaiei: valoarea acestui coeficient va fi aceeai indiferent de
variabila care este luat ca independent.
Ca i , coeficienii d al lui Somer i b al lui Kendall se utilizeaz n situaii
de cercetare n care avem dou variabile msurate la nivel ordinal cu un numr mic
de valori i necesit calcularea cantitilor Na i Nd. n plus, aceti coeficieni necesit
calcularea a dou cantiti, notate Ly i respectiv Lx. Cantitatea Ly reprezint numrul
total de perechi de cazuri legate ale variabilei dependente. Cantitatea Lx reprezint
numrul total de perechi de cazuri legate ale variabilei independente.
Numrul total de perechi de cazuri legate ale variabilei dependente, Ly, se
determin aflnd numrul de perechi de cazuri de pe fiecare rnd (prin definiie, toate
cazurile aflate pe acelai rnd sunt legate n privina variabilei dependente) i
adunnd cantitile astfel obinute. Pentru a afla contribuia fiecrui rnd la Ly, se
nmulete frecvena din fiecare celul cu suma frecvenelor din toate celulele situate
la dreapta (pe rndul respectiv), dup care e adun produsele astfel obinute. Evident,
celulele situate pe ultima coloan nu pot contribui la Ly, deoarece nu exist celule
situate la dreapta acestora. Calcularea Ly pentru tabelul 12.7 decurge dup cum
urmeaz:
Pentru rndul 1: 8(11 + 21) + (11 21) = 487
199
Formula 12.7
ady
ad
NNL
NN
d
ady
ad
NNL
NN
d
Aceast valoare a coeficientului d indic o corelaie pozitiv cel mult moderat ntre
cele dou variabile.
Dup cum se poate constata, coeficientul d este o mrime asimetric a
corelaiei. Dac variabila ale crei categorii sunt capete de rnduri este luat drept
variabil independent, atunci se calculeaz numrul de perechi de cazuri pe coloane
i nu pe rnduri (n notaia noastr, n formula 12.7 se ia Lx n loc de Ly ). n cazul
datelor din tabelului 12.7, valorile cantitilor Lx i Ly sunt apropiate, ceea ce
nseamn c o astfel de schimbare nu ar afecta mult valoarea coeficientului d. n
cazul n care cele dou cantiti sunt sensibil diferite, trebuie s fim precaui n
privina alegerii variabilei dependente, deoarece valoarea lui d poate fi considerabil
afectat de aceast decizie.
200
NNLNNL
NN
t
Pentru tabelul 12.7 avem:
0,40
(1831 499 986)(1831 499 970)
1831 499
( )( )
adyadx
ad
NNLNNL
NN
t
Particularitatea coeficientului b const din aceea c poate lua valori cuprinse ntre 0
i 1 doar pentru tabele ptratice (r = c), deci nu se recomand calcularea sa pentru
orice tabel rectangular.
Coeficientul s al lui Spearman se utilizeaz, de regul, n situaii de
cercetare n care avem dou variabile msurate la nivel ordinal, care au o amplitudine
relativ larg de scoruri diferite i puine cazuri legate n privina fiecrei variabile. S
presupunem c dorim s verificm ipoteza conform creia persoanele care practic
jogging au un sentiment mai puternic de respect fa de sine. Pentru aceasta, 10
persoane care practic jogging au fost chestionate cu ajutorul a dou scale, prima
msurnd gradul de implicare n practicarea jogging-ului, cealalt msurnd nivelul
respectului fa de sine. Datele obinute, mpreun cu o serie de calcule cerute de
determinarea coeficientului s, sun prezentate n tabelul 12.8.
Tabelul 12.8 Practicarea jogging-ului i respectul fa de sine
Cazul Nivel de
implicare
Rangul Respect fa
de sine
Rangul d d2
1 18 1 15 3 2 4
2 17 2 18 1 1 1
3 15 3 12 4 1 1
4 12 4 16 2 2 4
5 10 5 6 8 3 9
6 9 6 10 5 1 1
7 8 7,5 8 6 1,5 2,25
8 8 7,5 7 7 0,5 0,25
9595900
b
10 1 10 2 10 0 0
d = 0 d2 =
22,5
201
Mai nti, atribuim ranguri scorurilor fiecrei valori, ncepnd cu cel mai
mare scor. Apoi, pentru fiecare caz, calculm diferena dintre rangul scorului n
privina primei variabile (X) i rangul scorurilor n privina celeilalte variabile (Y) (n
tabel, coloana etichetat d). S observm c suma acestor diferene este 0, ceea ce
nseamn c diferenele negative sunt egale cu cele pozitive, acesta fiind ntotdeauna
cazul. Dac obinem d 0, atunci am greit n atribuirea rangurilor sau/i n
calcularea diferenelor. Fiecare diferen astfel obinut este apoi ridicat la ptrat
pentru a elimina semnele minus (n tabel, coloana d2), dup care se calculeaz suma
acestor diferene ridicate la ptrat, d2.
Formula de calcul a coeficientului s al lui Spearman este urmtoarea:
Formula 12.9
( 1)
162
2
nn
d
sr
n care n este numrul de perechi de ranguri. Aplicnd aceast formul la datele din
tabelul 12.8, obinem:
0,86
10(100 1)
1 6 22,5
( 1)
162
2
nn
d
sr
Acest rezultat indic o corelaie pozitiv puternic ntre cele dou variabile, ceea ce
sprijin ipoteza cercetrii.
n anumite situaii de cercetare ne intereseaz s aflm dac dou variabile
sunt corelate la nivelul populaiei de referin. n cazul variabilelor msurate la nivel
n
NN
Z ad
n sine, 2 nu este o mrime a corelaiei. Dei valorile diferite de 0 ale lui 2 indic existena
unei corelaii, valoarea numeric efectiv pentru 2 (obinut) nu st n nici o legtur necesar cu tria
corelaiei: 2 (obinut) poate avea o valoare mare, n timp ce corelaia efectiv poate fi slab. Cu alte
cuvinte, independena (2) i corelaia sunt dou aspecte diferite. Este perfect posibil ca dou variabile
s fie corelate (2 (obinut) 0) i totui s fie independente, n cazul n care nu putem respinge
ipoteza de nul.
5 Unii autori folosesc simbolurile g i rs, respectiv, pentru i , atunci cnd este vorba despre
eantioane, rezervnd literele greceti pentru cazul populaiilor.
4 Luat
202
n ts
203
110
120
0 10 20 30 40 50 60 70 80 90 100 110 120
Abiliti de limbaj
Abiliti aritmetice
Fiecare elev este reprezentat printr-un punct plasat la intersecia celor dou scoruri
obinute de acesta. Dispunerea punctelor poate fi pus n eviden prin trasarea unei
linii drepte care s ating fiecare punct sau s treac ct se poate mai aproape posibil
de fiecare punct. Dup cum vom vedea, aceast linie, numit linie de regresie,
poatefi descris precis printr-o ecuaie, dar deocamdat este suficient trasarea sa
aproximativ:
0
10
20
30
40
50
60
70
80
90
100
110
120
0 10 20 30 40 50 60 70 80 90 100 110 120
A b ili
t i a r itm e t i
ce
Abiliti de limbaj
204
abscisa (este orizontal), ceea ce nseamn c ntre cele dou variabile nu exist nici
o corelaie. Coeficientul de regresie se calculeaz cu ajutorul urmtoarei formule:
Formula 12.13 2 2n X ( X )
b n XY X Y
(9 43422) 588
(9 42453) (588 607)
2 ( )2 2
nXX
b n XY X Y
206
a
n
XX
n
YY
Aceast valoare a parametrului a arat c linia de regresie intersecteaz axa Y
(ordonata) n punctul n care Y = 30,8. De notat c a poate fi calculat i cu ajutorul
urmtoarei formule, echivalent algebric cu formula 12.14:
Formula 12.15
n
aYbX
Formula 12.16
(n X 2 ( X )2 )(n Y 2 ( Y )2 )
r n XY X Y
r
Ca i n cazul celorlali coeficieni ai corelaiei, valorile coeficientului r
diferite de 0 i de 1 nu au o interpretare direct precis. Valorile apropiate de 0 pot
fi interpretate ca indicnd o corelaie foarte slab, iar cele care se apropie de 1 ca
indicnd o corelaie foarte puternic. O interpretare mai direct este dat de
calcularea coeficientului de determinare bivariat, care este pur i simplu r2. n
exemplul nostru, r2 = 0,435. Aceast valoare arat c scorurile obinute n privina
abilitilor de limbaj (X) explic aproximativ 43,5% din variaia total a scorurilor
obinute n privina abilitilor aritmetice, restul de 56,5% din aceast variaie
rr
rrr
r
209
4 15 9
5 14 7
ryz = 0,50 rxy = 0,78 rxz = 0,70
Valoarea ryz = 0,50 indic o corelaie pozitiv moderat ntre variabilele Y i Z.
Aplicnd formula 12.18, obinem:
0,098
(1 (0,78) )(1 (0,70) )
0,5 (0,78 0,70)
(1 2 )(1 2 ) 2 2
xy xz
yz xy xz
rr
rrr
yzx
r
Aceast valoare a coeficientului parial de ordinul nti este mult mai mic dect
valoarea coeficientului parial de ordinul zero ryz = 0,50. Acest rezultat, pe care l
vom nota prin ryzx ryz, arat c dac eliminm influena variabilei X asupra
variabilelor Y i Z, corelaia dintre variabilele Y i Z se reduce de la 0,5 la aproape 0.
ntr-un astfel de caz, se poate ca X s determine att variaia lui Y, ct i variaia lui
Z, relaia dintre Y i Z fiind inautentic (aparent) sau ca variabilele Y i Z s fie
corelate, dar nu direct, ci prin intermediul variabilei X:
sau
n exemplul nostru, valorile rxy = 0,78 i rxz = 0,70 pot fi luate drept un indiciu
probabil al tipului de relaie reprezentat prin diagrama din stnga. De notat c
distincia dintre cele dou tipuri de relaie nu poate fi fcut cu precizie doar pe baza
metodelor statistice. ntr-o situaie real de cercetare, distincia se poate face pe
criterii de coninut al cercetrii respective (ordinea temporal dintre variabile .a).
Un al doilea tip de rezultat posibil este acela n care ryzx i ryz au valori
apropiate. Acest rezultat, pe care l vom nota prin ryzx ryz, arat c dac eliminm
influena variabilei X asupra variabilelor Y i Z, corelaia dintre variabilele Y i Z
rmne neschimbat, sau, altfel spus c X nu influeneaz semnificativ corelaia
dintre Y i Z, relaia dintre variabilele Y i Z fiind direct.
Al treilea tip de rezultat posibil este acela n care valoarea lui ryzx este mult
mai mare dect valoarea lui ryz. Acest rezultat, pe care l vom nota prin ryzx ryz,
arat c variabila luat iniial drept independent i variabila de control (X) au fiecare
n parte o influen separat asupra variabilei dependente i nu sunt corelate una cu
alta. Urmtoarea diagram prezint acest tip de relaie pentru cazul n care Z este
variabila dependent:
X
Y
Z
YXZ
210
1r
rrr
s
s
b yyy
Formula 12.21 2
1
12
2 1 12
2
1r
rrr
s
s
b yyy
Z
211
18 8,10 36
21 11,20 44
26 9,40 35
14 10,30 43
19 8,50 37
22 7,60 41
20 8,40 40
s1 = 4,06 s2 = 1,34 s3 = 3,92
r1y = 0,39 r2y = 0,77 r12 = 0,45
Aplicnd formulele 12.20 i 12.21, obinem:
0,052
1 (0,45)
0,39 (0,77 0,45)
4,06
3,92
1 22
12
1 2 12
1
r
rrr
s
s
b yyy
2,18
1 (0,45)
0,77 (0,39 0,45)
1,34
3,92
1 22
1
12
2 1 12
2
r
2
rrr
s
s
b yyy
Parametrul a se calculeaz cu ajutorul urmtoarei formule:
Formula 12.22 1 1 2 2a Y b X b X
n exemplul nostru, avem:
19,73
15
1 295
1
n
X X 8,90
15
2 133,6
2
n
X X 39,86
15
598
n
YY
39,86 (0,052 19,73) (2,18 8,90) 19,38 1 1 2 2 a Y b X b X
n fine, ecuaia de regresie multipl pentru exemplul nostru este:
19,38 (0,052 ) (2,18 ) 1 1 2 2 1 2 Y a b X b X X X
212
0,74
3,92
2,18 1,34
0,0538
3,92
0,052 4,06
2
22
1
11
y
y
s
bs
s
bs
b
b
Astfel, ecuaia de regresie multipl standardizat pentru acest exemplu este:
(0,0538 ) (0,74 ) 1 2 Z Z Z y
Concluzia este c variabila X2 are o influen mult mai puternic asupra variabilei
dependente dect variabila X1, astfel c prediciile asupra scorurilor standardizate Zy
nu vor fi influenate semnificativ de scorurile Z1.Inspectarea datelor din tabelul 12.12
ofer unele indicii privind explicaia rezultatului obinut. Astfel, putem observa c X2
este puternic corelat cu Y (r2y = 0,77), n timp ce X1 prezint o corelaie slab pn
la moderat cu Y (r1y = 0,39). De notat c dac am fi obinut 1 2, am fi tras
concluzia c variabila X1 are o influen mult mai puternic asupra variabilei
dependente dect variabila X2, iar dac am fi obinut 1 2, am fi tras concluzia c
cele dou variabile independente au aproximativ aceeai influen asupra variabilei
dependente.
GLOSAR
Date: informaii, n principal numerice, care reprezint anumite caracteristici.
Eantion: o submulime strict a unei populaii.
Nivel de msur: ansamblu de proprieti matematice ale unei variabile, determinat
de procesul prin care variabila a fost msurat.
Populaie: grup care include toate cazurile de care este interesat cercettorul..
Statistica: set de metode i tehnici matematice de organizare i prelucrare a datelor,
folosite cu scopul de a rspunde la anumite ntrebri i de a testa anumite ipoteze.
Statistici descriptive: tehnici statistice utilizate pentru a prezenta, clasifica i nsuma
scorurile (valorile) unei variabile.
Statistici infereniale: tehnici statistice utilizate pentru a face generalizri despre o
populaie pe baza studiului unui eantion din acea populaie sau, altfel spus, pentru a
trage concluzii despre caracteristicile unei populaii prin caracteristicilor
corespunztoare ale unui eantion din acea populaie.
Variabil: orice trstur care i poate schimba valoarea de la caz la caz
Centre de interval: puncte situate exact la mijlocul unui interval de clas.
Diagram circular: cerc mprit ntr-un numr de sectoare egal cu numrul de
categorii ale variabilei de interes, mrimea fiecrui sector fiind proporional cu
procentul de cazuri din categoria respectiv.
Diagram cu coloane: modalitate de prezentare vizual a distribuiei unei variabile,
n care categoriile sunt reprezentate prin coloane cu baza egal, nlimea fiecrei
coloane fiind proporional cu procentul de cazuri din categoria respectiv.
Distribuie de frecvene: dispunere a valorilor unei variabile, care arat cte cazuri
sunt coninute n fiecare categorie a variabilei respective.
Frecven cumulat: numrul de cazuri dintr-un interval de clas i din toate
intervalele precedente.
Histogram: modalitate de prezentare vizual a distribuiilor de frecvene pentru
variabile de interval sau de raport, n care categoriile sunt reprezentate prin coloane
continue cu baza egal cu limitele reale ale inervalelor de clas respective, nimea
fiecrei coloane fiind proporional cu procentul de cazuri din interval.
Intervale de clas: categorii utilizate n cazul distribuiilor de frecvene pentru
variabile de interval sau de raport.
Limite de clas reale: limitele superioar i inferioar ale intervalelor de clas,
folosite atunci cnd distribuia de frecvene respectiv este considerat ca fiint
continu.
Varian: ctul dintre suma abaterilor ptratice ale scorurilor fa de media lor
aritmetic i n 1 pentru eantioane sau N pentru populaii.
Curb normal: grafic al unei distribuii normale; acest grafic are form de
clopot cu ambele extremiti extinse la infinit.
Curba normal standard: graficul corespunztor distribuiei normale standard.
Distribuie normal: distribuie teoretic de scoruri unimodal, simetric i
continu.
217
Distribuia normal standard: distribuie normal particular n care media
aritmetic egal cu 0 i abaterea standard este egal cu unitatea.
Scoruri standard ( scoruri Z): scoruri care folosesc abaterea standard ca unitate
de msur i descriu poziia relativ a unui scor individual n raport cu ntreaga
mulime de scoruri din care face parte.
Tabelul curbei normale standard: tabel n care sunt prezentate sub form de
proporii ariile dintre un scor Z i media aritmetic a distribuiei normale
standard.
Variabila normal standard: variabila corespunztoare distribuiei normale
standard.
Distribuia de eantionare a mediilor aritmetice: distribuia mediilor aritmetice ale
tuturor eantioanelor aleatorii de dimensiune constant n din populaia de referin.
n mod similar, se definesc distribuiile de eantionare pentru alte mrimi statistice
(proporii, coeficieni de corelaie etc.).
Eantionare aleatorie simpl: metod de selecie a unui eantion n care fiecare caz
din populaia de referin are o probabilitate egal de a fi inclus n eantion, iar
selectarea fiecrui caz este independent de selectarea tuturor celorlalte cazuri.
Eantionare sistematic: metod de selecie a unui eantion n care primul caz
dintr-o list a populaiei de referin este selectat aleatoriu, dup care este selectat
fiecare al k-lea caz.
Eantionare stratificat: metod de selecie a unui eantion n care populaia de
referin este clasificat dup criterii relevante i se alctuiesc eantioane aleatorii
simple din fiecare clas (strat).
Parametri: mrimi statistice pentru populaii; prin contrast, mrimile statistice
pentru eantioane sunt numite statistici.
Teorema limitei centrale: teorem care specific media aritmetic, abaterea
standard i forma distribuiei de eantionare a mediilor aritmetice.
Curba t: grafic al unei distribuii t; ca i curba normal, curba t este simetric i are
form de clopot cu ambele extremiti extinse la infinit; spre deosebire curba
normal, forma exact a curbei t depinde de dimensiunea eantionului.
Distorsiune: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este nedistorsionat, dac media aritmetic a distribuiei sale de
eantionare este egal cu media aritmetic a populaiei de referin.
Distribuia t: distribuie teoretic ce descrie distribuia de eantionare a mediilor
aritmetice n cazul n care eantioanele sunt mici (n 30) i valoarea lui este
necunoscut.
Eficien: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este cu att mai eficient, cu ct distribuia de eantionare este mai
grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este mai mic abaterea
standard a distribuiei de eantionare.
Grade de libertate: concept care se refer la numrul de valori libere s varieze ntro
distribuie.
218
Curba t: grafic al unei distribuii t; ca i curba normal, curba t este simetric i are
form de clopot cu ambele extremiti extinse la infinit; spre deosebire curba
normal, forma exact a curbei t depinde de dimensiunea eantionului.
Distorsiune: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este nedistorsionat, dac media aritmetic a distribuiei sale de
eantionare este egal cu media aritmetic a populaiei de referin.
Distribuia t: distribuie teoretic ce descrie distribuia de eantionare a mediilor
aritmetice n cazul n care eantioanele sunt mici (n 30) i valoarea lui este
necunoscut.
Eficien: criteriu folosit pentru selectarea unei mrimi statistice ca estimator; o
mrime statistic este cu att mai eficient, cu ct distribuia de eantionare este mai
grupat n jurul mediei sale aritmetice sau, altfel spus, cu ct este mai mic abaterea
standard a distribuiei de eantionare.
Grade de libertate: concept care se refer la numrul de valori libere s varieze ntro
distribuie.
Interval de ncredere estimat: amplitudine de valori n care este probabil s se afle
un parametru al populaiei de interes.
Nivel alfa (): Probabilitatea ca un parametru s nu se afle n intervalul estimat sau,
altfel spus, probabilitatea de eroare a estimrii.
Nivel de ncredere: probabilitatea ca intervalul estimat s conin parametrul de
interes.
Proceduri de estimare: tehnici statistice n care pe baza unei statistici calculate
pentru un eantion, numit estimator, se face o apreciere despre parametrul
corespunztor al populaiei de referin.
Punct estimat: o singur valoare calculat pentru un eantion i folosit pentru a
face o apreciere despre parametrul corespunztor al populaiei de referin.
Eroare de tipul I: respingerea unei ipoteze de nul care este adevrat; probabilitatea
de a comite o eroare de tipul I este desemnat prin .
Eroare de tipul II: nerespingerea unei ipoteze de nul care este fals; probabilitatea
de a comite o eroare de tipul II este desemnat prin .
Ipotez alternativ: n contextul statisticilor infereniale, ipotez care enun c
exist o diferen ntre valoarea efectiv a unui parametru i valoarea presupus
pentru acel parametru; dac sensul diferenei poate fi prezis, ipoteza alternativ este
direcional, n caz contrar este nedirecional.
Ipotez de nul: n contextul statisticilor infereniale, ipotez care enun nu exist
nici o diferen semnificativ ntre valoarea efectiv a unui parametru i valoarea
presupus a acelui parametru.
Regul de decizie: enun referitor la o anumit amplitudine de valori pentru
rezultatul statisticii testului, numit zon critic sau zon de respingere, care
conduce la respingerea ipotezei de nul.
Statistic a testului: formula a crei aplicare n testul respectiv permite obinerea