Sunteți pe pagina 1din 206

UNIVERSITATEA TRANSILVANIA DIN BRAOV

FACULTATEA DE PSIHOLOGIE I TIINELE EDUCAIEI


CENTRUL PENTRU NVMNT LA DISTAN I NVMNT
CU FRECVEN REDUS

AUREL ION CLINCIU

STATISTIC
APLICAT N
PSIHOLOGIE

Editura Universitii Transilvania din Braov


2014
1

EDITURA UNIVERSITII TRANSILVANIA DIN BRAOV


Adresa:

500091 Braov,
B-dul Iuliu Maniu 41A
Tel:0268 476050
Fax: 0268 476051
E-mail : editura@unitbv.ro
Tiprit la:

Tipografia Universitii Transilvania din Braov


B-dul Iuliu Maniu 41A
Tel: 0268 476050
Copyright Autorul, 2013
Editur acreditat de CNCSIS

Adresa nr.1615 din 29 mai 2002

Descrierea CIP a Bibliotecii Naionale a Romniei


Clinciu, Aurel Ion
Statistic aplicat n psihologie / Aurel Ion Clinciu.
Braov : Editura Universitii "Transilvania", 2013
Bibliogr.
ISBN 978-606-19-0239-2
311:159.9

Cuprins
Cuvnt nainte .................................................................................................................

Capitolul 1. Introducere
1.1. Scurt istoric al statisticii ....................................................................................

10

1.2. Obiectivele statisticii .

12

1.3. Cteva concepte cheie ale demersului statistic .................................................

13

1.4. Exerciii i aplicaii practice ..............................................................................

17

Capitolul 2. Msurarea. Organizarea coleciei de date


2.1. Msurarea n tiinele socio-umane ...................................................................

19

2.2. Proprieti ale scalelor .......................................................................................

20

2.2.1. Magnitudinea ........................................................................................

20

2.2.2. Intervale egale .......................................................................................

20

2.2.3. Zero absolut ...........................................................................................

21

2.3. Tipuri de scale ...................................................................................................

21

2.3.1. Scalele nominale ...................................................................................

21

2.3.2. Scalele ordinale .....................................................................................

22

2.3.3. Scalele de interval .................................................................................

23

2.3.4. Scalele de raport ...................................................................................

24

2.4. Organizarea datelor brute ..................................................................................

25

2.5. Exerciii i aplicaii practice ..............................................................................

26

2.6. Quiz ...................................................................................................................

27

Capitolul 3. Distribuii i frecvene


3.1. Ordonarea i gruparea datelor ...........................................................................

28

3.1.1. Limitele de grupare ...............................................................................

31

3.1.2. Centrele intervalelor .............................................................................

31

3.2. Histograma i poligonul frecvenelor ................................................................

31

3.3. Frecvenele cumulate .........................................................................................

34

3.4. Histograma i poligonul frecvenelor cumulate ................................................

35

3.5. Criterii de evaluare vizual a formei distribuiilor ............................................

37

3.6. Exerciii i aplicaii practice ..............................................................................

39

Capitolul 4. Indicatori ai tendinei centrale


4.1. Media aritmetic ................................................................................................

40

4.2. Mediana .............................................................................................................

44

4.3. Modul ................................................................................................................

47

4.4. Comparaie ntre medie, median i mod n funcie de distribuie ....................

48

4.5. Cteva concluzii relative la indicatorii distribuiei univariate ..........................

50

4.6. Exerciii i aplicaii practice ..............................................................................

51

4.7. Quiz ...................................................................................................................

52

Capitolul 5. Msuri ale variabilitii


5.1. Amplitudinea mprtierii .................................................................................

56

5.2. Abaterea intercuartilic .....................................................................................

57

5.3. Abaterea medie absolut ...................................................................................

59

5.4. Abaterea standard i variana (dispersia) ..........................................................

60

5.4.1. Semnificaia abaterii standard ..............................................................

63

5.5. Coeficientul de variaie .....................................................................................

64

5.6. Indicatori ai formei distribuiei .........................................................................

65

5.6.1. Coeficientul de simetrie (skewness) i boltirea (kurtosis) .....................

65

5.7. Exerciii i aplicaii practice ..............................................................................

66

Capitolul 6. Inferena statistic


6.1. Introducere ........................................................................................................

68

6.2. nelesul conceptului de semnificaie statistic .................................................

69

6.3. Eroarea standard a unei medii de selecie i semnificaia ei .............................

70

6.4. Eroarea standard a unui cuantum procentual i semnificaia ei ........................

71

6.5. Sarcini i probleme de comparaie ....................................................................

71

6.6. Eantioane necorelate de volum mare. Ipoteza de nul ......................................

72

6.7. Eantioane de volumm mare, corelate ...............................................................

75

6.8. Semnificaia diferenei dintre dou cuantumuri procentuale ............................

76

6.9. Tabelele t i z pentru testele de semnificaie .....................................................

76

6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate ....

77

6.11. Semnificaia diferenei mediilor a dou eantioane de volum mic necorelate

80

6.12. Exerciii i aplicaii practice ............................................................................

82

Capitolul 7. Studiul asocierii dintre variabile prin corelaie


7.1. Introducere ........................................................................................................

86

7.2. Calculul coeficientului de corelaie ...................................................................

89

7.2.1. Interpretarea orientativ a coeficientului de corelaie .........................

91

7.3. Coeficientul de corelaie a rangurilor ................................................................

93

7.4. Limitele de ncredere ale unui coeficient de corelaie .......................................

96

7.5. Interpretarea unui coeficient de corelaie ..........................................................

96

7.6. Interpretarea varianei unui coeficient de corelaie prin coeficientul de


determinare ...............................................................................................................

97

7.7. Ali coeficieni de corelaie ...............................................................................

99

7.7.1. Coeficienii de corelaie biseriali i triseriali .......................................

99

7.7.2. Ali coeficieni de corelaie ...................................................................

100

7.8. Utilizrile coeficientului de corelaie ................................................................

101

7.9. Exerciii i aplicaii practice ..............................................................................

102

7.10. Quiz .................................................................................................................

105

Capitolul 8. Utilizarea predictiv a asocierii dintre variabile


Regresia liniar simpl i multipl
8.1. Introducere ........................................................................................................

106

8.2. Predicia determinist i probabilist ................................................................

108

8.3. Regresia bivariat ..............................................................................................

109

8.3.1. Regresie versus corelaie ......................................................................

114

8.4. Regresia liniar multipl (multivariat) ............................................................

114

8.4.1. Probleme speciale implicate n regresie ...............................................

116

8.4.2. Validarea modelului regresiv ...............................................................

118

8.4.3. Glosar de termeni cheie ai regresiei liniare .........................................

118

8.5. Exerciii i aplicaii practice ..............................................................................

119

Capitolul 9. Testare ipotezelor prin tehnica chi-ptrat


9.1. Teste neparametrice, distribuii binomiale i multinomiale ..............................

121

9.2. Termeni cheie i definiii implicate n testul chi-ptrat .....................................

122

9.3. Condiii i restricii pentru efectuarea lui chi-ptrat ..........................................

124

9.4. Utiliarea practic a testului chi-ptrat ...............................................................

124

9.5. Exemple de aplicare practic a testului chi-ptrat de potrivire i de asociere ...

126

9.6. Mrimea efectului pentru testul chi-ptrat al asocierii dintre variabile .............

133

9.7. Exerciii i aplicaii practice ..............................................................................

133

Capitolul 10. Metode nonparametrice de testare a ipotezelor statistice.


10.1. Teste de semnificaie parametrice i neparametrice ......................................... 135
10.2. Testul U Mann-Whitney pentru eantioane independente ..............................

136

10.3. Exerciii i aplicaii practice ............................................................................

139

10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate ...

140

10.5. Exerciii i aplicaii practice ............................................................................

143

10.6. ANOVA pe o cale prin testul Kruskal-Wallis .................................................

143

10.7. Exerciii i aplicaii practice ............................................................................

147

10.8. Testul rsngurilor Friedman pentru msurtori repetate ...................................

148

10.9. Exerciii i aplicaii practice ............................................................................

150

Test pentru verificarea de sintez .

151

Bibliografie .................................................................................................................

154

Anexe cu utiliti statistice ....

157

Glosar de simboluri i formule de calcul .....................................................................

177

Rspunsuri la exerciiile i aplicaiile practice propuse .

184

Cuvnt nainte
Prezena Statisticii ca materie obligatorie la tiinele socio-umane, n spe la
specializarea Psihologie, este justificat printre altele de faptul c eafodarea acesteia ca
tiin a depins n mod esenial de ncorporarea experimentului - i implicit a msurtorii - ca
metod de baz n constituirea corpului su de cunotine i legi. Pe de alt parte, naterea
psihologiei aplicate i extinderea sa pervaziv spre toate domeniile socialului nu ar fi fost
posibil fr apelul la cuantificare, msurtoare i cifr. Deci, att psihologul practician, care
colecteaz, stocheaz i prelucreaz n mod constant date cantitative, ct i cel din spaiul
academic, care trebuie s fie la zi cu cercetarea tiinific din domeniul su, ca i din cele
conexe (medicin, biologie, sociologie au tiinele educaiei), trebuie s aib cel puin o
iniiere, dac nu chiar o formare solid n domeniul Statisticii, fr de care nu se poate pstra
contactul cu progresele tiinei.
Apare astfel ca inexplicabil rezistena activ i rezerva aproape ostil a studentului de
la tiinele socio-umane fa de Statistic, care vede adesea n acest obiect de studiu ceva ce ar
contraveni chiar dimensiunii umaniste a tiinei n care el se iniiaz. Exist multe explicaii
posibile pentru faptul semnalat. Una dintre cele mai plauzibile ar fi aceea c studenii de la
Psihologie, Pedagogie, Sociologie sau Asisten social au o formaie iniial umanist, cu un
grad de elaborare i consolidare mai sczute a conceptelor i deprinderilor intelectuale de tip
matematic. Acest fapt poate produce din start o rezerv fa de abordrile de tip cantitativ. Pe
de alt parte, progresele incredibile din ultimele decenii n domeniile metodologiei i al
prelucrrii datelor fac ca centrarea pe metodele statistice elementare s nu mai fie deloc
suficient pentru a ine pasul cu evoluiile din domeniu, ceea ce transform n mod obligatoriu
Statistica ntr-un obiect de studiu al nvrii permanente.
n cel de al treilea rnd extinderea progresiv, uneori exploziv, a arsenalului de
metode statistice genereaz tot mai mari dificulti de mai pstra unitatea intern i
perspectiva coerent asupra corpului de cunotine al acestui domeniu. n cazul n care se
nzuiete spre acest lucru, alocarea permanent de resurs cognitiv pentru a menine n
priz domeniul statistic devine o condiie intrinsec a progresului i evoluiei n carier.
Tendina la entropie a informaiei ce intr n sistemul cognitiv uman, adic la uniformizare i
la tergere a diferenelor specifice, ca urmare a marii varieti de tehnici i procedee ce apar
fr ncetare n cadrul acestei tiine att de dinamice i evolutive, poate genera sentimentul c
Statistica este unul dintre principalii contributori la imperialismul metodologic din tiin.

Dincolo de cauzele enumerate exist cu siguran i elemente contextuale sau


conjuncturale care pot explica rezistena activ a studentului de la tiinele sociale fa de
Statistic, explicabil i prin stilul sau maniera de predare, prin calitatea cursurilor editate i a
aplicaiilor propuse, prin gradul de utilizare a metodelor i tehnicilor moderne de predarenvare-evaluare, prin numrul de ore de studiu alocate acesteia de programa universitar etc.
Pe de alt parte, exist o mulime de semnale care indic faptul c starea de fapt
analizat anterior poate fi depit cu bine de majoritatea studenilor. Astfel, n Romnia
ultimului deceniu au aprut cel puin cinci lucrri de referin n domeniul Statisticii tiinelor
sociale (pentru a face referin doar la Rotariu i colaboratorii, la Clocotici i Stan, la Sava,
Labr i Popa), la care se adaug multitudinea de lucrri de iniiere n SPSS din literatura
romna i din cea strin. Extinderea progresiv a numrului de aplicaii incluse n pachetele
de programe computerizare pentru tratarea datelor (SPSS, SAS, NCSS etc.) a fcut ca
accesarea i derularea unor foarte complicate i avansate tehnici statistice s depind efectiv
doar de o apsare de buton. Aceast facilitate i accesibilitate extraordinar nu elimin ns n
nici un fel problema crerii infrastructurii conceptuale i a deprinderilor matematice, fr de
care tehnica rmne mut n faa neiniiatului.
Lucrarea de fa este n fapt un curs de iniiere n Statistica psihologic. Prin
elaborarea sa ne-am propus s prezentm conceptele i procedeele de baz ale statisticii
descriptive i infereniale, univariate i bivariate, ntr-o manier prietenoas, inteligibil i cu
bune valene formative. Preocuparea noastr de baz a constat n selectarea informaiei utile,
lsnd n plan secundar prezentarea ntemeierii matematice a tehnicilor statistice prezentate.
De asemenea, legtura cu programele computerizate de prelucrare a datelor, acolo unde s-a
produs o revoluie nevzut la care suntem cu toii martori, este doar vag i inconstant
sugerat. Aceasta deoarece considerm c prelucrarea informatizat a datelor trebuie s se
fac ulterior n mod distinct, dup ce s-a construit eafodajul minimal de concepte i tehnici
necesare utilizrii programelor computerizate.
Cartea de fa nu este una extins ca volum, cele 10 capitole care o compun putnd fi
ntlnite, cu mici variaiuni, n toate lucrrile actuale de iniiere n Statistic. Astfel, dup
primele trei capitole introductive, relative la istoricul, obiectivele i conceptele de baz ale
domeniului statistic, despre msurare, tipuri de scale, distribuii i frecvene, sunt prezentai
indicatorii tendinei centrale, determinarea indicilor de mprtiere a datelor i ai celor relativi
la forma distribuiei. Capitolul al aptelea trateaz inferena statistic i testarea ipotezelor
bazate pe diferene ale mediilor, el continundu-se n mod firesc cu un capitol care prezint
testarea ipotezelor relative la asocierea variabilelor prin corelaie i cu un altul despre regresia
8

bivariat. Acest capitol face doar trimiteri la regresia multivariat, rmnnd cantonat
preponderent n zona regresiei simple, deoarece regresia multipl depete nivelul iniierii
statistice, fiind greu de prezentat fr cunotine avansate i fr apelul la programe puternice
de tratare a datelor. Ultimele dou capitole trimit la testarea ipotezelor statistice prin teste
neparametrice, aplicabile datelor nominale i categoriale, cum sunt testele chi-ptrat, ManWhitney, Wilcoxon, Kruskal-Wallis sau Friedman. Aa cum se poate observa cu uurin,
lucrarea a acordat un spaiu amplu testrii ipotezelor statistice, fiind prezentat aproape toat
gama procedeelor tehnice destinate acestui scop. Nu am inclus aici i tehnicile analizei de
varian ANOVA care, prin multitudine i complexitate, fac obligatoriu apel la un program
automat de prelucrare computerizat a datelor, fiind mai potrivit s fie incluse n volumul
destinat statisticilor multivariate. Menionm, de asemenea, c am preferat s prezentm toate
metodele de testare a ipotezelor incluse n acest volum fr a face n nici un fel apel la
resursele SPSS, cci acest lucru face obiectul unui curs special elaborat cu aceast misiune.
Fiind destinat nceptorului, lucrarea de fa a ncercat s in cont maximal de
principiul accesibilitii, prin simplificarea discursului teoretic i prin reliefarea constant mai
ales a informaiei utile. Pe de alt parte, o lege a nvrii leag temeinicia i calitatea acesteia
de calitatea i profunzimea interaciunii cu materialul de nvat. Pentru a facilita centrarea pe
aspectele aplicative, toate capitolele, inclusiv cel introductiv, sunt nsoite de exerciii i
aplicaii practice, de teste rapide de verificare a cunotinelor (quiz, pstrnd terminologia
englez) i de testul final de sintez i evaluare de ansamblu, destinat autoverificrii stadiului
atins n nvarea statisticilor introductive. Pentru majoritatea acestor aplicaii practice s-au
oferit soluiile problemelor propuse, nsoite deseori de explicaii adiionale care s contribuie
la mai buna lor nelegere. Astfel, o seciune final a lucrrii ofer soluia rezolvrii corecte a
majoritii problemelor prezentate cu scop de autoevaluare la sfritul fiecrei uniti de curs.
Lucrarea de fa i are continuarea ntr-un al doilea volum, destinat deprinderii i
perfecionrii n utilizarea procedurilor computerizate de prelucrare a datelor cu SPSS, dar i
de un al treilea volum, destinat prezentrii statisticilor avansate (Statistici multivariate pentru
psihologie). Ordinea apariiei lor editoriale nu este cea din secvena prezentat anterior, acest
volum introductiv fiind eleaborat ultimul, complexitatea i mai ales miza lui pedagogic
deosebit genernd cele mai mari probleme de elaborare i editare. n felul acesta se poate
vorbi de o trilogie statistic, ce se constituie ntr-un ghid complex de monitorizare a
formrii i perfecionrii n domeniul abordrilor de tip cantitativ. Feedback-ul primit din
partea principalilor si utilizatori, studenii, va contribui la mbuntirea calitii acestui
volum, motiv pentru care sugestiile acestora sunt ateptate cu real i legitim interes.
9

CAPITOLUL 1

INTRODUCERE

1.1. Scurt istoric al statisticii


Statistica nu s-a nscut n cmpul psihologiei tiinifice, aceasta prelund i
ncorpornd procedeele ei pentru a putea depi posibilitile limitate oferite de cea mai
rspndit dintre metodele sale, observaia, ... care plaseaz psihologul () n domeniul
relativului empiric, adic n lumea fenomenelor, a caracteristicilor i a proprietilor care sunt
vag conturate i neasamblate n sisteme de cunotine riguros nchegate (Clocotici i Stan,
2000, p. 11).
Destinul nsui al tiinei nou aprute, psihologia, a depins de ruperea acesteia din
cmpul filosofiei i translarea spre tiinele pozitive, care i-au ncorporat experimentul ca
metod predilect de cercetare a relaiei cauz efect. Intrarea ei n laborator, separarea
variabilelor independente i dependente presupunea cu necesitate metode i tehnici statistice
de prelucrare a datelor obinute prin msurtoare.
Impactul acestei apropieri reciproce avea s fie benefic reciproc, o serie de mari
psihologi (Galton, Spearman, Pearson, Guilford sau Cattell) avnd contribuii remarcabile,
care au schimbat faa statisticii. Aceasta deoarece domeniul faptelor psihice este mai complex
dect fizica cuantic, biologia celular sau astronomia, prin aceea c el este marcat de
multicauzalitate, cauzalitate retroactiv sau de alte aspecte caracteristice ale cauzalitii.
Muli autori leag apariia statisticii de probleme pragmatice, preponderent economice
sau administrative, cum ar fi aa-numitele tabele de mortalitate ale lui Graunt (1661), prin
care ptura negustoreasc din Anglia ncerca s pun bazele unui sistem de asigurri pe via.
Graunt este considerat a fi i printele demografiei, pe care a fundamentat-o prin aa-numita
aritmetic politic, nscut n 1662 (termenul aparine lui Petty). Analiza datelor despre
evenimentele demografice, n spe despre decese, arta o neateptat constan i
regularitate, ceea ce sugereaz posibilitatea gsirii unor legi n domeniul vieii sociale, de
consisten apropiat celor din tiinele naturii (Rotariu, 1999, p. 16).
Curiozitatea tiinific produs de o asemenea descoperire remarcabil va fi
generatoarea unei activiti sistematice de culegere, stocare, prelucrare i interpretare a unor
informaii numerice despre importante domenii ale statului, corespondentul centrelor
10

naionale de statistic din timpurile moderne. De altfel, chiar i etimologic statistic pleac de
la status, care poate fi interpretat att ca stare de fapt, ct i ca stat, deci statistica ar putea fi
considerat o tiin de stat. Aceasta corespunde i etimologiei propuse de cel considerat a fi
introdus termenul de statistic, Achenwall.
Corespondena susinut dintre Pascal i Fermat (1654) a stat la baza fundamentrii
unei teorii matematice asupra verosimilitii, n timp ce cooperarea mai tardiv dintre Gauss i
Laplace (1809-1812) s-a concretizat n conceptul de distribuie normal (clopotul lui Gauss).
Dei problemele demografice i economice au fost primordiale n conturarea
obiectului statisticii, contactul psihologiei cu aceast tiin avea s fie fundamental pentru
destinul ei. Iat cteva aspecte mai semnificative:

Cel care a introdus psihologia n registrele de stare civil, dup inspirata expresie a
lui Pavelcu, n anii 1730 i 1732, Christian Wolff (prin lucrrile Psihologia empirica
i Psihologia rationalis) anticipa chiar de atunci necesitatea existenei unei subramuri
matematice a acesteia, pe care el a numit-o, inspirat, psihometrie. Dei termenul va
cpta o cu totul alt semnificaie la cei care au studiat fenomenele paranormale n
Anglia secolului al XIX-lea (care au i creat o Societate Regal de Psihometrie),
sensul iniial va fi cel care se va impune, prin ncercrile lui Galton i Binet de a
dezvolta domeniile aplicative ale psihologiei, indestructibil legate de un aparat
matematic de tip statistic.

Este meritul unui astronom belgian, Qutelet (1796-1874) de a fi extins aplicarea unor
legi ale statisticii, cum ar fi legea distribuiei normale sau binomial, derivat din
luarea n considerare a distribuiilor probabiliste, spre alte domenii dect cele sociale,
aici incluzndu-se i cele psihologice.

Galton, iniiatorul colii psihometrice engleze (al crei punct forte va fi chiar ideea de
msurtoare i cuantificare a faptului psihic) a creat metode statistice de abordare a
legilor ereditii (metoda gemenilor i a genealogiilor, de exemplu), avndu-i ca
succesori pe Pearson, teoreticianul metodei corelaiei prin metoda produselor (1896),
pe Spearman, creatorul metodei corelaiei prin metoda rangurilor i ntemeietorul
analizei factoriale (1904). Continuatorii acestora (Fisher, Burt i Vernon) vor merge
mai departe pe liniile de for ale colii engleze de statistic, considerat principala
contributoare n conturarea domeniului acesteia. n domeniul personalitii, H. J.
Eysenck i R. B. Cattell (ultimul a imigrat n America dup perioada de formare n
Anglia) vor fi exponeni strlucii ai metodelor statistice i cu precdere ai analizei
factoriale.
11

Al doilea mare contributor a fost coala german, prin Conring (1606-1682),


Achenwall (1719-1772) i, bineneles, Gauss (1777-1785).

n America muli matematicieni i psihologi au continuat n mod natural coala


englez, prin Thurstone, Hotelling, Guilford, Lord, Novick, Fruchter sau Cronbach.

n psihologie, statistica a evideniat o evoluie de la distribuii spre corelaie, analiza


factorial i de cluster, teoria rspunsurilor la itemi sau a generalizabilitii, pe lng
analiza varianei simple aprnd tehnici de analiz multivariat (ANOVA, MANOVA.
ANCOVA, MANCOVA), n timp ce pentru psihologia social i sociologie, pe lng
problema analizei relaiilor dintre variabile, s-au impus tot mai mult problemele legate
de selecie, eantionare i reprezentativitate (statistica inferenial).

1.2. Obiectivele statisticii


De la o tiin global a statului (vezi Rotariu et al., 1999, pp. 15-22), care i
propunea s ofere conductorilor instrumente de aciune eficace, rezultate din investigarea
principalelor aspecte ce puteau fi nregistrate, pstrate, prelucrate i interpretate, statistica s-a
extins spre planurile psihologic, biologic, fizic, chimic, economic, politic, agricultur,
devenind un mod de gndire al viitorului (Vod, 1977). S-au nscut o multitudine de ramuri
i de abordri speciale, bazate pe proceduri ce se adapteaz la specificul domeniului
investigat, desprinse toate din trunchiul aceleiai tiine, statistica general.
Aceast tiin cuprinde un corp sistematic de cunotine i de metode statistice, care
au ca obiect colectarea, prelucrarea i interpretarea rezultatelor care provin de la populaii i
indivizi statistici. Acetia pot fi oameni, nsuiri, plante, gene, porumbei, maimue, peti,
culturi, chiar i atomi sau electroni, pentru toate legile statisticii opernd ntr-o manier
similar.
Datele statisticii provin fie de la aceleai populaii, care se comport diferit ca urmare
a faptului c asupra lor acioneaz o multitudine de cauze, fie de la acelai individ, entitate,
de-a lungul diferitelor sale manifestri pe scara timpului. Dei nu este o ramur a matematicii
(nu pleac de la axiome, pentru a deriva prin demonstraii sau teoreme enunuri sistematice),
statistica ofer un larg cmp de aplicaii matematicii, n primul rnd datorit faptului c
ambele lucreaz cu numere i reguli de calcul i, de la un anumit nivel, relaiilor dintre
entitile statistice li se substituie raporturi matematice abstracte, tipice entitilor ideale.
Aceasta face foarte dificil trasarea unei linii de demarcaie ntre matematic i statistic. Dei
nu are un referenial empiric anume (ea propundu-i s stabileasc regula general aplicabil,
indiferent de domeniul realitii de care se ocup) statistica coboar totui din planul general
12

abstract (matematica rmnnd cantonat n turnul de filde al propriilor sale abstracii),


avnd un caracter aplicativ mult mai explicit, deoarece i propune s rezolve probleme
concrete.
Mai mult, demersul statistic nu este posibil fr materia prim a datelor colectate
anterior, ntr-o direcie n care prelucrarea i interpretarea datelor este doar o parte a secvenei,
adic cea mai tehnic i mai specializat. S nu uitm totui c momentul creator al cercetrii
tiinifice, scnteia sau impulsul iniial sunt date de conturarea ipotezei specifice. Apoi,
sesizarea semnificaiei datelor prelucrate nu este posibil fr o solid cultur a domeniului n
care sunt aplicate metodele statistice. Psihologul, pedagogul, sociologul sau economistul sunt
cei care valorific rezultatele tehnice pe care le ofer statistica sau statisticienii.

1.3. Cteva concepte cheie ale demersului statistic


Termenul de populaie statistic, alctuit din indivizi statistici, care pot fi persoane,
fapte, entiti fizice etc. a fost deja definit anterior. El nu este sinonim cu cel de populaie din
limbajul comun.
Cum tot ceea ce exist, n plan fizic sau ideal, are o mulime de determinri i de
atribute ce nu pot fi cuprinse i analizate simultan, separat sau exhaustiv, sunt selectate doar o
parte dintre aceste determinri, limitarea fiind impus i de mijloacele de care dispunem la un
moment dat. Asfel, indivizii umani se pot diferenia n funcie de vrst, apartenen de gen,
mediu de provenien, nivel propriu de instrucie (proprie sau a prinilor), status cultural,
nivel economic, religie, ras, etnie etc. Fiecare dintre aceste criterii care opereaz diferene se
numete variabil, deoarece n absena lor oamenii ar fi identici.
Unele variabile sunt discontinue (discrete), cum ar fi sexul (masculin, feminin),
mediul (urban, suburban, rural); altele sunt continue (nlimea, greutatea, vrsta). Mulimea
valorilor pe care le poate lua o caracteristic particular constituie distribuia variabilei
respective. Fiecare populaie are propria sa distribuie pentru fiecare variabil. De exemplu se
tie c la natere raportul dintre biei i fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta s se inverseze dup primii ani de via din cauza vulnerabilitii infantile, i
implicit a mortalitii mai mari n rndul sexului masculin. La vrsta a treia acest raport se
dezechilibreaz i mai mult, femeile avnd o speran de via cu aproape 10 ani mai mare
dect brbaii. Deci aceeai populaie are, n trei momente diferite ale existenei sale, trei
distribuii diferite, n funcie de aceeai caracteristic, apartenena de gen.
Parametrii sunt valorile fixe ce exist la un moment dat pentru o populaie, luat n
ansamblul ei, n raport cu o variabil. Ideea de variabil este strns asociat cu aceea de
13

cuantificare, msurtoare, ca mijloc de determinare a variabilitii. Orice msurtoare


presupune, la rndul ei, o scal de msurare. Toate aceste elemente: individ, populaie
statistic, variabil, distribuie definesc domeniul statisticii descriptive, alctuit din corpul
de metode prin care pot fi caracterizate faptele i fenomenele studiate.
Dar statistica a tins de la nceputuri spre numerele mari, spre populaiile extinse, a
cror cuprindere i descriere detaliate sunt adesea imposibile sau extrem de dificile, din cauza
costurilor pe care le-ar antrena. Chiar i atunci cnd acest lucru ar fi tehnic posibil,
investigaiile i prelucrrile ar presupune perioade mari de timp, care este el nsui o mare
surs de variabilitate, antrennd modificri nsemnate ale multor variabile, sau chiar moartea
experimental. Soluia gsit acestei probleme este statistica inferenial, un ansamblu de
tehnici i de metode (de eantionare, de selecie etc.), prin care determinrile fcute asupra
unui numr mai mic de entiti ce compun populaia de ansamblu sunt extrapolate ca estimri
asupra acestei populaii, n limite de ncredere rezonabile. Acest domeniu al statisticii este
extrem de utilizat de sociologie, metoda anchetei pe baz de chestionar sau a sondajelor de
opinie fiind doar dou exemple. Dac vom lua n considerare faptul c instrumentul de baz al
psihodiagnozei, testul psihologic, este etalonat pe populaii reprezentative zonal sau naional,
vom vedea c statistica inferenial are importante utilizri i n psihologie.
Statistica inferenial presupune alte cteva concepte care o circumscriu. Eantionul
este o parte, redus ca numr, din populaia statistic de baz care, atunci cnd este extras
corect, permite estimaia parametrilor acestei populaii, adic o aproximare a valorii reale a
acestora n limite de ncredere ce pot fi determinate. O ndelung practic social a dus la
dezvoltarea puternic a statisticii infereniale, i aceasta din mai multe motive:

Costurile incomparabil mai mici (s comparm costurile unui referendum naional cu


ale unui sondaj de opinie desfurat pe un eantion reprezentativ naional).

Utilizarea ei extensiv, pentru un numr tot mai mare de beneficiari: ageni economici,
organizaii, partide, guverne etc., n scopuri diagnostice, dar i prognostice, care
fundamenteaz decizii de o mare importan social.

Rafinarea progresiv a tehnicilor de eantionare, ceea ce a fcut ca marja de eroare s


fie tot mai mic, astfel nct predicia pe eantioane mici s poat fi extrapolat la
populaii statistice foarte mari.
Statistica din tiinele socio-umane are ca i concept primar pe acela de variabilitate a

datelor, care poate fi interindividual (cel mai adesea), dar i intraindividual. Acesta
angajeaz alte concepte, cum ar fi cel de surs de variaie (previzibil sau imprevizibil,
sistematic sau aleatoare, determinabil sau nedeterminabil), sau cel de msurare. Dac
14

sursele previzibile de variaie sunt dinainte tiute i circumscrise din start de investigaia n
cauz (a se vedea controlul variabilelor de la metoda experimental, variabilele test, subiect i
examinator, la metoda testului), exist i o multitudine de surse fortuite de variaie (variabilele
externe necontrolate, n primul exemplu, i variabila situaional, n cel de al doilea). Analiza
statistic ncearc s deceleze ponderea fiecrei surse de variaie n efectul final. Deoarece
datele numerice de natur statistic reprezint rezultatul amalgamrii unui mare numr de
cauze, este posibil ca statistica s fie continuarea fireasc a experimentului, pe care tinde s l
nlocuiasc (Yule i Kendall, 1969, p. 16), ntruct ea ... va determina care sunt cauzele cele
mai importante i care sunt rezultatele observrii ce pot fi atribuite fiecrei categorii de
cauze.
Msurarea este operaia prin care se atribuie numere unor aspecte ale obiectelor sau
evenimentelor, potrivit unei reguli (Smith, 1974). Dup cum arta i Piaget, problema metriei
este una fundamental n psihologie, deoarece puine din domeniile sau fenomenele sale se
preteaz, n sens strict, la cuantificare. Aceasta poate fi chiar una dintre cauzele (dac nu
cumva i cea mai important) pentru care psihologia are un trecut lung, dar o istorie scurt ca
tiin (Ebbinghaus). Msurarea aduce cu sine problema scalei de msur, care trebuie s fie
corect, constant (produce date identice pentru fenomene identice, n condiii de msurare
identice), exhaustiv (ea poate msura toate entitile crora le este destinat) i reciproc
exclusiv (n urma msurtorii, fiecare entitate capt o valoare i numai una). Principalele
tipuri de scale cunoscute (nominal, ordinal, de interval i de raport) evideniaz proprieti
care dau conotaii i aplicaii specifice msurtorilor ce rezult din fiecare tip, astfel nct cele
mai complexe nglobeaz caracteristicile celor mai simple, dar aducnd aducnd suplimentar
elemente i posibuiliti noi, difereniatoare.
Caracteristicile variabilei pot fi calitative i cantitative, continue i discontinue.
Distribuiile obinute aduc n discuie problema frecvenelor (absolute i relative, simple sau
cumulate), dar i a modalitilor de a le reprezenta grafic: poligon al frecvenelor, histograme,
curbe, grafice, scatter etc.
O bun parte a statisticii descriptive urmrete definirea celor mai importante tendine
centrale, adic media, mediana i modul, dar i a tendinelor extreme, cum ar fi amplitudinea
mprtierii, abaterea medie, abaterea semiinterquartil, abaterea standard sau dispersia,
variana. Distribuia n sine poate fi judecat din punctul de vedere al formei (simetrie sau
boltire, adic skewness i kurtosis, n englez). Toate aceste noiuni, unele dintre ele derivate
din teoria probabilitilor, prin care sunt fundamentate matematic valorile tipice ale
15

variabileleor, dar i repartiiile de diverse tipuri, contureaz mai exact domeniul statisticii
descriptive.
Statistica inferenial, pe lng conceptele deja amintite (populaie, eantion
eantionare, estimare), include i testarea ipotezelor statistice. n capitole distincte, statistica
trateaz corelaia, asocierea datelor cantitative i calitative, analiza dispersional, unifactorial
sau bifactorial, analiza factorial i analiza de cluster. Cursul de fa este unul de iniiere, n
consecin el va acoperi doar o parte dintre problemele enunate, adic elementele care
fundamenteaz cunoaterea statistic n scopul aplicrii ei la situaii uzuale, comune.
Pentru atingerea acestui obiectiv avem n vedere dou aspecte importante:
comprimarea la minimum a prii de ntemeiere matematic a subiectelor tratate, problem
care rmne n grija teoreticienilor statisticii, adic a celor ce contureaz dimensiunea
savant, tiinific a domeniului; permanenta preocupare de a oferi exemple sau aplicaii
concrete, pentru a evidenia puterea real a procedeelor de lucru prezentate. n fond, acest curs
se adreseaz n principal studenilor de la psihologie i pedagogie, cel mai adesea avnd o
dominant umanist a formaiei i pregtirii lor. Intenia noastr a fost aceea de a nu-i inhiba
cu demonstraii abstracte, de factur matematic, ci de a-i familiariza cu cele mai des ntlnite
aplicaii statistice, prin care s fie capabili s-i valorifice cercetrile proprii. Cursul are de
asemenea n vedere practicianul din aceste domenii, cel care, dup ce acumuleaz o cantitate
de date brute prin metoda testlor sau a chestionarelor, tinde s le valorifice sau s le
gestioneze mai bine.
Aplicaiile speciale sau savante ale statisticii presupun, pe lng aceast iniiere,
stagii de pregtire mai avansate, susinute de programe computerizate (SPSS, SAS sau
NCSS). Extraordinara lor putere de lucru, precizia, elegana, multitudinea opiunilor i alte
faciliti de acerst gen par a transforma o ntreag evoluie a domeniului (i procedee de lucru
altdat extensiv utilizate) n istorie. Susinem ns opinia potrivit creia sensul acestor
aplicaii computerizate nu poate fi dedus fr o cultur a domeniului, fr un stagiu prealabil
de iniiere dup procedeele i cu mijloacele clasice (creion, caiet de matematic, rigl,
minicalculator cu panou de lucru statistic), prin care vom deslui cele mai importante aplicaii
statistice n situaiile curente. Saltul spre puternicele programe computerizate va fi astfel mult
facilitat, deoarece vom ti ce s cerem computerului, la ce tip de prelucrri s facem apel i ce
relevan vor avea datele pe care acesta ni le ofer cu generozitate.

16

1.4. Exerciii i aplicaii practice


1. V intereseaz problema abandonului colar la ciclul gimnazial din Romnia de azi.
Precizai care este populaia studiului i care eantionul.
Identificai cteva dintre variabilele de interes pentru studiul desfurat.
Evideniai cteva dintre variabilele categoriale i real numerice implicate n acest studiu.
2. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel (5 000 de locuitori).
3. Dac ai folosi cartea de telefon ai putea obine un eantion randomizat pentru acest ora?
4. De ci cai ai avea nevoie pentru a determina cu exactitate cte picioare are un cal? Dar
de ci cai ai avea nevoie pentru a determina precis care este greutatea medie a unui cal?
Explicai unde avem de-a face cu o variabil i unde cu o constant i care dintre cele
dou categorii este mai informativ.
5. Cineva ar putea obiecta c a doua ntrebare de mai sus conine o capcan: caii de vrste
foarte mici (sub un an, adic mnjii) aparin i ei speciei cabaline, dar dac i-am include n
eantion ei ar putea contribui la scderea semnificativ a mediei greutii cailor ca specie.
Apoi, greutatea medie poate diferi de la ras la ras i de aceea determinarea greutii
medii a speciei cabaline s-ar putea s nu aib sens. Mai mult, ca i la oameni, caii au
oasele mai grele dect iepele i n consecin un indicator sintetic al greutii comune
ntregii specii cabaline ar fi irelevant.
Identificai n exemplul de mai sus variabilele implicate.
Identificai care sunt datele categoriale i cele real numerice (de msurtoare).
Precizai i alte variabile de interes pentru greutatea medie a cailor, indicnd tipul
acestora.
Identificai care sunt cazul, variabilele i valorile implicate n exemplul analizat.
6. Dai cte trei exemple n care interesul de cercetare este:
6.1. De a determina diferena dintre dou sau mai multe grupuri.
6.2. De a determina realaiile sau gradul de asociere dintre aceste variabile.
6.3. De a exemplifica cu cteva date categoriale.
6.4. De a exemplifica cu cteva date de msurtoare.
7. Precizai care este diferena dintre:
7.1. Eantion i populaie.
7.2. Statistici i parametri.
7.3. Eantioane randomizate i eantioane de convenien.
8. Explicai urmtoarele:
8.1. De ce variabilitatea este conceptul de baz al statisticii?
8.2. Ce nelegei prin faptul c genul masculin prezint mai mult variabilitate dect
cel feminin n ceea ce privete nlimea, greutatea sau inteligena?
8.3. Din ntrebarea de mai sus rezult c brbaii ca grup sunt neaprat mai nali, mai
grei sau mai inteligeni dect femeile? Pe ce v bazai afirmaia?

17

9. Explicai diferenele existente ntre statistica descriptiv i cea inferenial.


10. Facei parte din echipa care studiaz pattern-urile de dezvoltare fizic a populaiei
infantile i tinere (0 - 20 de ani) a Romniei de azi. n planificarea studiului dvs. utilizai ct
mai multe concepte, termeni (populaie, eantion, variabile etc.) i metode (eantionare)
prezentate n capitolul de fa.
11. Definii pe scurt termenii de: date, variabil, eantionare, populaie i inferen statistic.
12. Vom lua n considerare toi studenii de anul nti de la specializarea Psihologie a
Facultii de Psihologie i tiinele Educaiei. Dai cteva exemple din care s rezulte c:
12.1. Acetia reprezint populaia.
12.2. Acetia reprezint doar un eantion dintr-o populaie.
12.3. Cnd l considerm eantion, acesta este unul randomizat sau nealeator?
(Explicai opiunea fcut).
13. Rectorul universitii noastre este interesat de repartiia pe judee, pe sexe, pe grupuri
etnice i pe categorii de vrst a studenilor admii la aceast universitate, ca i de evoluia lor
ca rezultate academice n ultimii 10 ani.
13.1. Care este populaia studiat?
13.2. Care sunt variabilele implicate n acest studiu?
13.3. Avem de-a face cu eantioane aleatorii sau cu unele de convenien?
13.4. Identificai variabilele categoriale i pe cele real numerice prezente n studiul
invocat.
14. La un meci de fotbal sunt prezentate la final de partid urmtoarele statistici:
- uturi pe poart;
- uturi pe spaiul porii;
- goluri marcate;
- pase de gol;
- cartonae galbene i roii primite de fiecare echip;
- posesia mingii exprimat n procente pentru fiecare echip;
- numrul mediu de kilometri alergat de fiecare juctor pe parcursul perioadei jucate.
14.1. Care dintre aceste date sunt tipice statisticii descriptive i care celei infereniale?
14.2. Care dintre datele de mai sus sunt real numerice i care categoriale?
14.3. Argumentai care dintre datele de mai sus prezint cea mai mare variabilitate.
14.4. Care dintre aceste date provin de la variabile continue i care de la variabile
discontinue?
14.5. Ierarhizai i explicai care dintre primele patru variabile prezint mai mult
variabilitate.

18

CAPITOLUL 2

MSURAREA
ORGANIZAREA COLECIEI DE DATE

2.1. Msurarea n tiinele socioumane


Cele mai multe aspecte pe care dorim s le msurm n tiinele socioumane
(psihologie, pedagogie, sociologie) se prezint adesea sub form numeric, sau sunt aduse
ntr-o asemenea form printr-o operaie de codare. Psihologul msoar adesea date fizice
(stimuli vizuali, auditivi, tactili, kinestezici etc.), prin manifestrile lor caracteristice
(intensitate, durat, frecven, greutate), culese de aparate special elaborate, ce dispun de
propriile uniti metrice. El msoar n egal msur efectul stimulilor asupra fiinei vii i
atunci determin timpul de reacie, numrul rspunsurilor corecte, erorile. Msura poate
ajunge la niveluri de rafinare i complexitate foarte ridicate: msurm inteligena prin
componentele acesteia, determinate prin intermediul unei teorii; msurm memoria prin
parametri de volum, fidelitate, numr de repetiii necesare ntipririi; msurm factorii de
personalitate de ordin primar sau secundar, dedui din complexe construcii teoretice;
msurm atitudini sau reacii interpersonale (simpatie-antipatie, atracie-respingere).
Unele caracteristici sunt foarte uor de degajat (msurtorile fizice), altele sunt
deductibile doar prin construcii sau montaje experimentale ingenioase, iar altele se
fundamenteaz pe soluii reieite din teorii tiinifice. De multe ori datele calitative culese prin
observaie sau experiment sunt transformate n date cantitative printr-o gril de observaie,
care ofer cadrul de referin n clasificarea datelor. Acest instrument n care faptele sunt
clasificate pentru a putea fi urmrite sub raportul intensitii i al frecvenei se cheam
protocol i este alctuit dintr-un tabel ce descrie faptele observate pe linii i frecvena de
apariie a acestora pe coloane.
Msurarea n psihologie trebuie luat n sensul ei cel mai larg, acela de atribuire de
numere datelor continue sau discontinue (discrete), pentru c psihologia nu i-a conturat
uniti metrice la fel de tari matematic ca cele din tiinele fizice. i totui, ea aspir s fac
prin operaiile de msurare mai mult dect o operaie de codare, cum este de exemplu aceea
de atribuire a notelor colare (operaie care nu poate exclude subiectivitatea).

19

Din punct de vedere matematic msurarea este o operaie prin care fiecrui element
din mulimea de obiecte (domeniul de definiie al variabilei) i se ataeaz un numr i numai
unul din mulimea n care aceasta ia valori (domeniul variabilei). Se stabilete astfel o relaie
de izomorfism ntre mulimea obiectelor i mulimea msurilor obiectelor, fiecare obiect fiind
definit de o singur msur.
Sistemul de reguli impus de teoria i practica din domeniu definete mai multe tipuri
de msurare n funcie de tipul de scal utilizat: nominal, ordinal, de interval i de raport.
Alegerea celui mai potrivit tip de scal este impus de numrul i mai ales de tipul de relaii
existente ntre elementele investigate. De remarcat un fapt esenial: toate caracteristicile unei
scale de rang inferior se regsesc la cele de ordin superior, care ns adaug posibiliti
suplimentare. Aadar fiecare scal permite doar anumite operaii i procedee matematice. Cu
ct este mai sus n aceast ierarhie, cu att ea este mai precis, permind prelucrri statistice
mai complexe i implicit concluzii mai fundamentate matematic.

2.2. Proprietile scalelor


Exist trei proprieti care fac ca scalele de msurare s difere ntre ele: magnitudinea
intervalele egale i zero absolut.

2.2.1. Magnitudinea
O scal are aceast proprietate atunci cnd se poate spune c o caracteristic a
atributului msurat reprezint mai mult, mai puin sau la fel (tot att, adic egal) o cantitate
sau nsuire, comparativ cu o alt stare a aceluiai atribut. n ceea ce privete talia, de
exemplu, putem afirma c George este mai nalt, mai scund sau la fel de nalt ca Horia, deci
scala nlimii are proprietatea magnitudinii. Numerele de pe tricourile fotbalitilor nu au n
schimb aceast nsuire, deoarece ele sunt atribuite ca nite etichete, servind doar la
identificarea juctorilor.

2.2.2. Intervalele egale


O scal are intervale egale dac diferena dintre dou puncte aflate pe oricare zon a
scalei are aceeai semnificaie, valoare, ca diferena dintre alte dou puncte care difer prin
acelai numr de uniti. De exemplu, diferena dintre anii 1200 i 1400 este egal cu
diferena dintre anii 1800 i 2000, n timp ce diferena dintre coeficienii de inteligen 50 i
100 nu are aceeai semnificaie ca diferena dintre coeficienii 100 i 150, dup cum nu putem
spune c cel cu QI de 100 este de dou ori mai inteligent dect cel cu QI de 50.
20

Psihometricienii au ncercat s ocoleasc aceste dificulti i, folosind tehnici matematice


sofisticate, au creat instrumente care se apropie de cerina unei scale de interval (adic avnd
intervale de scal egale).

2.2.3. Zero absolut


Acest proprietate este posibil de evideniat cnd variabila msurat are un nivel la
care ea nu mai exist deloc: zero ca distan nseamn absena oricrei distane, zero ca ritm
cardiac nseamn moartea, dar zero ca agresivitate, emoie, curaj, inteligen (caracteristici
umane) este extrem de greu, dac nu imposibil, de evideniat sau de definit.
Tabelul 2.1. Scalele de msurare i proprietile lor (dup Kaplan i Saccuzzo, 1993, p. 32).
Proprieti
Magnitudine

Intervale egale

Zero absolut

Nominal

Nu

Nu

Nu

Ordinal

Da

Nu

Nu

De interval

Da

Da

Nu

De raport

Da

Da

Da

Tip de scal

2.3. Tipuri de scale


2.3.1. Scalele nominale
n sens strict, scala nominal nu este o scal, pentru c ea nu are nici una dintre cele
trei caracteristici enumerate anterior. Scopul ei este s numeasc obiectele, aa cum se
ntmpl cu numerele de pe tricourile fotbalitilor. Cu toate acestea este comod s atribuim
numerele 1, 2, 3 i 4 pentru a codifica etnia romn, maghiar, german i altele, 0 i 1 pentru
sexul masculin i feminin sau 1, 2 i 3 pentru mediul urban, suburban i rural, ntr-un studiu n
care apar astfel de variabile. Singura restricie este aceea ca numerele s fie atribuite tuturor
obiectelor care au aceleai caracteristici, i numai lor.
Fiind n fond vorba de o operaie de clasificare, singurul procedeu matematic admisibil
aici este determinarea frecvenelor de apariie, care se pot calcula fie n valori brute, fie n
valori relative, adic n procente. n acest din urm caz, dei ar fi normal ca eantionul s
depeasc 100 de cazuri (prin definiie pro-cent implic ideea de sut), se accept totui
exprimarea procentual i a numerelor de la 30 n sus, dar nu mai mici. Aceasta deoarece, prin
transformarea n procente, numerele mai mici de 100 se amplific i cu ele eroarea de
msurare, procedeu care ... n ciuda rigorii aparente, trdeaz superficialitatea metodologic
(Chelcea, 1982, p. 158).
21

n sintez, pot fi reinute cteva aspecte mai importante pentru acest tip de scal:

Scala nominal este mai degrab una calitativ, ea fiind de fapt o premsurare.

Ea se preteaz foarte bine pentru datele culese prin observaie, anchet, chestionar,
care vor fi repartizate n categorii distincte, astfel nct un element s se afle numai
ntr-o categorie (clas) i numai una.

Literele sau cifrele folosite ca etichet nu vor face obiectul calculelor statistice, ci
vor servi doar la reperarea claselor, la determinarea frecvenelor brute i a celor
relative. Fiecare element al unei clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeai clas.

Singurul procedeu matematic de verificare este aa-numitul test chi-ptrat (2).

2.3.2. Scalele ordinale


Dup Favrge acestea reprezint nivelul cel mai rspndit de msurare din psihologie
i pedagogie, deoarece n majoritatea lor valorile din aceste domenii sunt continue i simplu
ordonate. Aceasta permite ca elementele s fie aranjate fie cresctor, fie descresctor, existnd
i posibilitatea ca mai multe elemente s ocupe acelai loc. Se stabilete astfel o relaie de
ordine total ntre elemente, dat de formula Pxxy, care va fi interpretat ca x este superior,
preferat sau naintea lui y (Radu, 1993, p. 49). Deoarece relaiile formulate (A B C D)
permit stabilirea unei ierarhii, nseamn c importante caracteristici umane, fizice (nlime,
greutate, perimetre), dar i psihice (capaciti, aptitudini, preferine, interese, atitudini, valori)
pot beneficia de acest tip de scal.
Numerele asociate obiectelor i fenomenelor n msurarea de tip ordinal au doar
semnificaia unui rang, adic nu indic mrimi absolute. Pentru a atribui numerele n serie
cresctoare sau descresctoare, trebuie ca i caracteristica respectiv s aib valori care cresc
sau descresc. n scalele de tip Likert, de exemplu, se pot atribui numere de la 1 la 7, 4
exprimnd neutralitatea, numerele mici (3, 2 i 1) dezacordul sau insatisfacia tot mai
accentuate, n timp ce numerele mari (5, 6 i 7) acordul sau satisfacia tot mai intense.
Creterea regulat a numerelor nu trebuie s sugereze ns c i caracteristicile
respective cresc n aceeai proporie. Exemplul clasic este cel al militarilor dintr-un pluton,
aezai ntr-o ordine ierarhic, de la mic la mare: al distana dintre al cincilea i al aselea din
irul ordonat nu este aceeai ca distana dintre al doilea i al treilea, i aceasta deoarece scalele
ordinale nu au o unitate de msur care s indice i cantitatea diferenei dintre ranguri. Scala
metric a inteligenei, publicat de Binet n 1905, permitea un clasament ierarhic al unor

22

inteligene diferite care, pentru nevoile practice, echivala cu un clasament. n psihodiagnoz,


exemplul tipic pentru acest tip de msurare este procedeul centilrii i decilrii (ordonarea
ierarhic pe o scar cu 100, respectiv 10 trepte), iar n pedagogie nota colar, ca procedeu de
evaluare care n acelai timp i ierarhizeaz elevii.
n concluzie pot fi reinute urmtoarele aspecte:

Deoarece scala ordinal nu are o unitate de msur constant, ea nu permite adunarea


i scderea, adic nu are proprietatea aditivitii.

Este legitim ns calcularea frecvenelor brute i a celor relative (a procentelor) i


aplicarea procedurilor statistice neparametrice (adic exprimate calitativ sau prin
numere ce exprim categorii): coeficientul de corelaie al rangurilor al lui Spearman,
coeficientul de corelaie Kendall, testele de semnificaie Mann-Whitney, Wilcoxon,
Kruskal-Wallis etc.

Centilarea, decilarea - n psihodiagnoz, i nota colar - n pedagogie, sunt ilustrrile


cele mai frecvente ale utilizrii acestui tip de scal n domeniile amintite.

Cel mai important indicator al tendinei centrale este n cest caz mediana.

2.3.3. Scalele de interval


Scalele de interval nu reprezint nivelul curent de msurare n tiinele socioumane,
dei se tinde spre aceasta, deorece, pe lng ordinea i ierarhia nivelurilor anterioare, trebuie
s existe specificarea mrimii exacte a intervalelor sau a distanelor care separ elementele
aflate pe toate treptele succesive ale scalei. Aceasta presupune cu necesitate prezena unitii
constante i comune de msur. Exemplul cel mai concludent l dau calendarele, unde
existena unei uniti de msur precizat i constant, anul, face posibil echivalena a 200 de
ani de la nceputul mileniului cu 200 de ani de la sfritul lui. Mai mult, dac operm cu
calendare diferite (iulian, gregorian, evreiesc sau mahomedan), deoarece unitile de msur
nu sunt diferite, ... transpunerea dintr-un calendar n altul nu pune nici un fel de problem
(Richelle, 1995, p. 222).
Rezumm cteva dintre nsuirile de baz ale scalei de interval:

Specificul scalei de interval este proprietatea aditivitiii (intervalele - i nu valorile! pot fi adunate i sczute).

Neexistnd un punct zero (care s exprime absena caracteristicii msurate),


intervalele pot fi deplasate, extinse sau comprimate, dac prin aceasta ele devin mai
maniabile sau mai bine adaptate realitii msurate.

23

La acest nivel se pot aplica procedee statistice mai elaborate, cum ar fi corelaia r prin
produsul momentelor a lui Pearson, testele de semnificaie t i z ale lui Fisher, ca i
analiza de regresie.

Aceasta deoarece la nivelul scalei de interval se pot determina media aritmetic,


abaterea standard i variana.

2.3.4. Scalele de raport


Acestea au toate proprietile unei scale de msur: magnitudine, intervale egale i
zero absolut. Ele sunt caracteristice mrimilor fizice (nlime sau lungime, greutate, for),
ceea ce nu se ntmpl cu fenomenele sau faptele din psihologie, sociologie sau pedagogie,
deoarece neputnd fiina fr un minimum de inteligen, coeziune, atracie etc. acestor
fenomene nu li se poate stabili starea zero. Cu temperatura lucrurile stau altfel: deoarece
scalele Celsius i Fahrenheit au un punct zero convenional, n timp ce sistemele Kelvin sau
Rankine au un punct zero neconvenional (absena oricrei temperaturi), doar acestea din
urm sunt scri de raport.
Elementele eseniale ale scalelor de raport sunt deci urmtoarele:

Scalele de raport se cheam aa pentru c, pe lng toate caracteristicile scalelor de


sub ele, permit relaia de proporionalitate de tipul b/a = c/b = d/c.

Ele permit toate tipurile de statistici, parametrice i neparametrice, toate procedeele de


verificare i toi coeficienii de corelaie cunoscui.

Aceasta deoarece se permite calculul mediei geometrice i a coeficientului de variaie.

n afara unor situaii de excepie (mrimi fizice de intrare, puse n legtur cu timpul
de reacie, de exemplu), psihologii, pedagogii i sociologii nu sunt ndreptii s
foloseasc un asemenea tip de scal.
Corespunztor tipurilor de scal amintite, vom avea tipuri de variabile (nominale,

ordinale sau numerice), care sunt definite de domeniul de variaie, adic de registrul de valori
pe care acestea le pot lua. Cnd lum n considerare numrul indivizilor sau al cazurilor
susceptibile de a prezenta aceast modalitate, vorbim de domeniul de definiie. De exemplu, la
o prob de motricitate, tapping, numrul de puncte btute cu mn dreapt, adunat cu numrul
punctelor btute cu mna stng ia valori diferite n funcie de vrst, sex i de lateralizare
(dreptaci sau stngaci). De pild, la 6 ani acest numr poate s ia valori de la 10 la 60, acesta
fiind domeniul de variaie, n timp ce numrul subiecilor ce nregistreaz aceste valori, pentru
fiecare punctaj, d domeniul de definiie (al frecvenelor).

24

O atitudine, considerat ca o variabil codificat pe o scar Likert, are mai multe


modaliti de manifestare, dar i o populaie care prezint toate aceste modaliti. Deci
fiecrui individ din domeniul de definiie i se poate face s i corespund o modalitate i
numai una n domeniul de variaie. Noiunea de variabil este ns mai general pentru c ea
se poate referi fie la o mulime de date, fie la efective observate, fie la date prezumate,
ipotetice, virtuale. Scalele descrise anterior se refer la date efectiv observate.
Ion Radu (1993, p. 51) apreciaz c n prelucrarea datelor, n funcie de cerinele
studiului i pentru a ne nscrie ntr-o schem statistic, noi introducem astfel o metric, adic
tratm datele ca i cum s-ar situa la nivelul scalei de interval. (). Se comite astfel o eroare,
care practic este neglijabil. Deoarece prediciile fcute n felul acesta sunt valide,
transformarea respectiv este considerat ca fiind acceptabil.

2.4. Organizarea datelor brute


Pentru a fi posibile procedurile detaliate de tratare i de analiz statistic a datelor,
acestea trebuie culese i ordonate n tabele sau grafice. Datele brute efectiv rezultate din
anchet, testare sau evaluare nu au nici o semnificaie prin ele nsele, ci prin raportarea la un
sistem de referin. Cel mai adesea acesta rezult din comparaia scorurilor individuale cu
datele obinute de un eantion mai larg din populaia investigat, prin care se pune n eviden
poziia unui subiect n cadrul grupului mai larg. n calitatea lui de sistem de referin, grupul
ofer posibilitatea construciei unei tipologii ori a unui tabel de norme (barem sau etalon).
Acestea alctuiesc aa-numitele cote standard, ceea ce arat c investigaia individului i a
grupului sunt corelative i complementare. Extragerea informaiilor coninute de datele brute
i organizarea lor ntr-o colecie sau baz de date, presupune intrarea n funciune a unor
proceduri statistice elaborate (determinarea medianei, a mediei, a abaterii standard i a
varianei, aprecierea msurii n care cele descoperite pot fi generalizate i la ce nivel de
ncredere).
Dac prin organizarea primar a datelor (ordonare i grupare) se poate face o prim
inspecie vizual a acestora, cci ele se prezint ca histograme, poligoane ale frecvenelor,
scattere etc., prin calculul tendinelor aflate pe centrul distribuiei (media, mediana i modul),
ca i a celor aflate spre extreme (amplitudinea mprtierii, abaterea standard i dispersia) se
pot face inferene statistice valide, pentru ca prin corelaie, analiz factorial i de cluster s
avem o nelegere mai de adncime a relaiilor i a structurilor subiacente. Analiza de
varian, regresia simpl i multipl permit, dincolo de sesizarea structurii de adncime a
datelor studiate, predicia unor legiti, aa cum reies din analiza i modelarea lor matematic.
25

2.5. Exerciii i aplicaii practice


1. Dai cte unu-dou exemple de variabile ntlnite n psihologie care apeleaz la scale de
msur nominale, ordinale, de interval i de raport.
2. Avei mai jos spectrul culorilor vizibile de ochiul uman, reprezentat pe dou tipuri de scal.
Simbol
Nume
Lungime de
und

R
Rou
800-620

O
Oranj
619-590

G
Galben
589-575

V
Verde
574-510

A
Albastru
509-480

I
Indigo
479-450

V
Violet
449-430

2.1. Precizai numele fiecrui tip de scal, indicnd avantajele i locul lor de utilizare.
2.2. Lumina este o variabil continu sau discontinu? (Argumentai).

3. Msurnd nlimea a 10 studente de la Psihologie s-au obinut urmtoarele valori:


165

160

168

170

156

158

163

180

155

162

Utiliznd pe X ca simbol al acestei variabile (nlimea):


3.1. Precizai care sunt X3, X5, X8 i X10.
3.2. Calculai X.
3.3. Scriei formula de nsumare de la punctul anterior ntr-o form mai complet.

4. Concomitent s-a determinat i greutatea pentru cele 10 studente, obinndu-se valorile de


mai jos (n kilograme).
62

61

70

72

52

55

66

80

49

53

Utiliznd pe Y ca simbol al acestei noi variabile (greutatea):


4.1. Precizai care sunt Y2, Y4, Y7 i Y9.
4.2. Calculai X din exemplul anterior.
4.3. Calculai (X)2 i X2. Folosind semnele = i indicai care este relaia dintre cele
dou valori obinute.
4.4. Determinai X/N i Y/N, unde N (10) reprezint numrul de scoruri observate.
4.5. Cum numii valorile pe care tocmai le-ai calculat la punctul anterior?
4.6. n mod similar calculai pe (Y)2 i Y2.
4.7. Utiliznd valorile numerice deja obinute determinai valoarea formulei de mai jos
2
(
Y)
2

Y N
N 1
4.8. Extragei rdcin ptratic din valoarea numeric a expresiei de mai sus.
5. Utilizai datele de mai sus pentru a arta c:
5.1. (X+Y) = X + Y
5.2. XY XY
5.3. CX = CX, n care C este o constant.
5.4. X2 (X)2
5.5. (X+C) = X + NC, n care N este numrul de cazuri iar C are valoarea 3.
6. Poate o variabil ordinal s fie msurat cu o scal continu (de interval sau de raport)?
Poate o variabil continu s fie msurat cu o scal ordinal? Argumentai folosind cte un
exemplu adecvat.
7. Notele colare trecute n catalog sunt msurtori tipice unei scale ordinale sau uneia de
interval? Dar mediile colare pentru fiecare obiect n parte (rotunjite)? Dar media general
(nerotunjit)?
8. Media (nerotunjit) de la Matematic i cea de la Purtare sunt msurate pe acelai tip de
scal? (Argumentai rspunsul).

26

2.6. Quiz: Da Nu
(Exemplu) Pentru scalele de interval suntem ndreptii s utilizm frecvenele absolute
1.
(count) i pe cele relative (procente). Rspuns: Adevrat, pentru c, dei tipice scalelor ordinale,
procedeele respective sunt prezente i la scalele de interval i de raport, tiut fiind c scalele de rang
superior ncorporeaz proprietile celor de rang inferior.
2.
Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers.
Deoarece distana (n cunotine sau deprinderi) dintre nota 8 i nota 9 este egal cu distana
3.
dintre nota 3 i nota 4, nseamn c sistemul de notare colar are proprietile scalei de interval.
4.
Atunci cnd codificm genul masculin cu 1 i pe cel feminin cu 2 efectum o operaie de
msurare.
5.

Inteligena nu are uniti de msur tipice scalelor de interval.

6.
raport.

Scala care msoar era noastr are un zero natural naterea lui Iisus fiind deci o scal de

7.
IQ-ul se msoar pe o scal ordinal deoarece distana de 10 puncte dintre IQ 50 i 60 are
aceeai semnificaie psihologic ca i diatana dintre IQ 120 i 130.
Pentru datele de observaie, de anchet i de chestionar sunt utilizate scalele nominale, care
8.
fac de fapt o premsurare.
La un chestionar s-a utilizat o scal Likert n 5 trepte cu urmtoarea semnificaie:
1=Foarte rar 2=Uneori 3=Aa i aa 4=Deseori 5=Foarte des.
Se poate determina o valoare numeric medie a rspunsurilor pentru ntregul chestionar? Argumentai.

9.

10.
Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
11.
n tiinele socio-umane nivelul de msurtoare maximal este al scalelor de interval iar cel
uzual al scalelor ordinale.
Scala de interval permite deplasarea punctului zero (adic a originii) spre stnga sau spre
12.
dreapta scalei i, de asemenea, permite comprimarea sau dilatarea acesteia.
13.
Scalele de msurare a timpului (calendarele iulian, gregorian, iudaic, mahomedan, maya
etc.) pot fi transpuse unul n altul i obinute valori echivalente deoarece au uniti de scal egale.
14.

Scalele nominale i ordinale sunt categoriale, cele de interval i raport sunt real numerice.

15.
n sistemul romnesc de notare colar domeniul de definiiei al variabilei l reprezint
elevii iar domeniul ei de variaie intervalul de notare 1-10.
16.
Notele colare i centilarea/decilarea nu fac dect s stabileasc ierarhii, adic s rangheze
subiecii cresctor sau descresctor.
n principiu notele colare nu pot fi adunate pentru a se determina media pe materii
17.
deoarece scala de notare nu are proprietatea matematic a intervalelor egale.
Nu pot fi inventate uniti de msur valabile, tipice scalelor de interval, pentru iubire,
18.
fric, simpatie sau depresie.
19.
Funciile cognitive senzaiile, gndirea, memoria se bucur de scale de msur mai
tari dect funciile afective.
20. Numii tipul de scal de msurare reprezentat de categoriile de mai jos, alocnd cifrele 1, 2, 3 i 4
pentru scalele nominal, ordinal, de interval i de raport: scala Celsius, scala Kelvin,
numrul de pe uile camerelor unui hotel, ordinea de sosire la maraton, scorul la acest test QUIZ,
presiunea sanguin, genul i greutatea. (Se acord punctul pentru minimum 5 rspunsuri
corecte din cele 8 posibile).

27

CAPITOLUL 3

DISTRIBUII I FRECVENE

Pentru determinarea celor mai importani indicatori statistici este nevoie de frecvene.
n domeniul variabilei, fiecare mrime are un numr de reprezentani, numit efectiv. n
statistic efectivul se numete frecven sau frecven absolut. Cnd frecvena este
transformat n procente, ea se numete frecven relativ i este foarte util pentru
compararea, de exemplu, a dou colective diferite ca mrime, i aceasta pentru c
transformarea n procente pstreaz echivalena i proporia n ce privete distribuia i
caracteristicile ei.

3.1. Ordonarea i gruparea datelor


Cea mai mare parte a operaiilor i procedeelor de lucru care urmeaz s fie prezentate
mai jos sunt extrem de mult facilitate de programele de prelucrare computerizat a datelor, de
tip SPSS, NCSS sau SAS. Ele fac parte din abc-ul statisticii, fiind primele ordonri i
prelucrri ale datelor brute, la sfritul crora distribuiile respective i dezvluie o parte din
caracteristicile de suprafa, adic cele vizuale.
Le vom prezenta detaliat, pentru c ele reprezint moduri de lucru practice, uor de
executat ntr-o diversitate de situaii concrete, ca un preambul al unor prelucrri ulterioare mai
elaborate. Parcurgnd aceti pai vom putea sesiza fora pe care instrumentul statistic l poate
da muncii noastre, deoarece el ordoneaz, triaz, clasific datele, forndu-le s i dezvluie
semnificaiile. De aceea operaiile iniiale de ordonare i de grupare a datelor ar trebui s
devin operaii de rutin pentru oricine este interesat s dea muncii sale rigoare tiinific. Iat
scorurile brute la un test de vocabular (Recombinare Verbal) culese la biei i fete de 14 ani
din eantionul care a fost utilizat pentru etalonarea acestui test:
Biei

Fete

57 56 48 36 24 23 28 23 33 26 16

57 56 45 35 36 43 26 34 46 24 25

53 34 22 34 34 42 34 25 24 29 18

53 55 55 48 43 48 35 36 27 27 26

60 33 51 40 47 36 36 29 26 22 14

60 62 44 57 70 36 38 35 28 31 19

52 34 60 61 56 34 22 28 30 23 34

52 53 56 49 46 37 48 33 27 19 29

51 64 37 33 36 28 35 19 18 15

51 58 44 51 38 48 26 36 22 25 15.
28

Avem nevoie de o foaie de hrtie cu liniatur matematic, format A4, de o rigl i un


creion, la care vom putea aduga ulterior un minicalculator cu panou statistic, ca instrumente
i materiale de lucru uzuale. Foaia de hrtie va fi mprit prin 3 linii orizontale, trasate pe
lungul ei, n 3 panouri (registre) de lucru, pentru biei, fete i total. Se observ c cea mai
mic valoare de scor (Xmin) este la biei 14 i la fete 15, iar cea mai mare (Xmax) 64 la biei i
70 la fete. Prin urmare fiecare ptric de pe linia de baz va fi numerotat de la 11 la 70,
avnd grij ca aceast numerotaie s fie identic pe toate cele trei registrele, pentru a le putea
nsuma ulterior pe vertical. Dup aceea se descarc primul tabel pe primul registru al foii,
sub care se va scrie Biei, al doilea tabel n al doilea registru, sub care se va scrie Fete,
fcnd un x s-au o bif n ptrica corespunznd scorurilor care se descarc, la valoarea
corespunztoare de pe linia de baz.
La sfritul operaiei se vor numra frecvenele corespunztoare fiecrui scor de la 11
la 70 iar numrul va fi trecut sub ptrica corespunztoare fiecrui scor, att la biei, ct i la
fete i total (care rezult din nsumarea pe vertical a frecvenelor pentru fiecare scor).
Inspecia vizual a datelor evideniaz urmtoarele aspecte:
- amplitudinea scorurilor (Xmax - Xmin) este uor diferit pentru cele dou categorii: 64 - 14 =
50, la biei i 70 - 15 = 55, la fete;
- aglomerarea datelor este mai accentuat n prima jumtate (spre stnga), cu o mai mare
densitate pe zona central (34, 36 i 37), la biei; o repartiie spre dreapta a datelor fetelor;
- bieii au o singur frecven maxim (la scorul 34 sunt 7 cazuri), n timp ce fetele au dou
(la scorurile 36 i 48 sunt cte 4 cazuri). Prima ntrebare care se pune este dac pentru
anumite tratamente statistice (alctuirea unui etalon) datele trebuie tratate separat sau
mpreun. Rspunsul poate fi aflat prin condensarea informaiei pentru a fi vizualizat, dup
ce datele vor fi grupate.
Pentru a determima mrimea intervalului de grupare reinem cteva reguli de lucru:

Vor fi preferate nu mai puin de 5 - 7 intervale i nu mai mult de 20. Pentru gruparea
datelor, uzual se folosesc ntre 9 i 15 clase.

Pentru determinarea mrimii intervalului, amplitudinea mprtierii se mparte la


cteva din mrimile dorite ale intervalului, pentru a vedea cte clase rezult i se alege
aceea care se apropie cel mai mult de numrul de clase considerat convenabil.

Ca mrime a intervalului este preferabil s folosim numere impare (3, 5 sau 7), pentru
a avea ca valori centrale de interval numere ntregi.

29

Este bine ca primul interval s nceap cu un multiplu al mrimii lui. De exemplu


intervalele de lungime 3 pot ncepe cu 3, 6 sau 9, cele de lungimea 5 pot ncepe cu 5,
10 sau 15 etc.
n cazul analizat, dac am dori s avem intervale din 3, atunci rezult 55/3 = 15

intervale, iar dac am dori intervale de 5, atunci ar rezulta 55/5 = 11 intervale. Pentru c avem
o distribuie relativ mic, optm pentru a doua variant. Delimitm prin linii verticale clasele
astfel obinute (10-14, 15-19, 20-24, , 70-74) i n dreptul fiecreia se vor trece n mijlocul
clasei i n partea ei de sus frecvenele clasei respective, rezultate prin nsumarea valorilor
individuale din interiorul fiecrui interval (1, 5, 8, 8, ..., 0, pentru biei; 0, 3, 2, 10, , 1,
pentru fete).
Trebuie inut cont c percepia noastr opereaz din ce n ce mai greu cu intervale care
depesc cifra 12, chiar dac mrimea populaiei i lungimea spectrului de variaie ar impuneo. De aici recomandarea de a nu avea nici prea puine intervale (prin gruparea datelor se
pierde o parte din informaia primar, pentru c nu se mai cunoate exact valoarea msurat a
fiecrei observaii), i nici prea multe (intervalele rezultate sunt mai greu de manevrat i de
sesizat perceptiv), de unde regula deja enunat a celor 9 -15 clase de grupare a datelor.
Sturges (citat de Rotariu et al.,1999, p. 33) propune o formul de lucru pentru aceast
operaie prin care se determin numrul intervalelor de grupare, lund n calcul amplitudinea
variaiei i numrul de cazuri:

i=

X max X min
1 + 3,222 log N

(3.1)

Utiliznd formula lui Sturges, se obine urmtorul tabel orientativ pentru stabilirea numrului
de interval (clase) de grupare n funcie de mrimea eantionului:
Tabel 3.1. Numrul de interval de grupare dup formula lui Sturges.
Nr. de observaii
Nr. de clase

15-24

25-44

45-89

90-179

180-359

360-719

720-1500

10

11

Aplicat n cazul nostru, pentru biei, i = (64-14)/(1+3,322 log54) = 50/6,755 = 7,40; pentru
fete vom avea i = (70-15)/(1+3,322 log55) = 55/7,77 = 7,21. Pentru numrul de cazuri ale
distribuiei noastre am avea teoretic nevoie de 8 intervale. S reinem i regula practic a celor
7 - 12 intervale, care realizeaz cel mai bun echilibru ntre nevoia de condensare a datelor i
aceea de a avea pierderi de informaie ct mai mici.

30

3.1.1. Limitele de grupare


n cazul variabilelor continue, cel mai adesea raportm clasele la nite numere ntregi,
care constituie limitele de raportare a acestora. n cazul variabilei continue care este
nlimea, de exemplu, putem avea clasele 125-129, 130-134, 135-139 etc. Ce se ntmpl
ns cu nlimile de 129,54 sau 134,82, care par a cdea n golurile dintre clase? Deoarece
limitele de raportare nu acoper n ntregime domeniul variabilelor continue, trebuie s se
defineasc nite limite exacte, asfel nct, respectnd regula de rotunjire, valorile interclase s
fie uor de alocat la una dintre clase. Aceste limite au deci dou funcii: a) reconstituie
continuitatea variabilei, nemailsnd goluri i b) servesc drept baz de calcul pentru
determinarea unor puncte speciale de pe linia valorilor variabilei, numite quantile, cum ar fi
mediana, centilele, decilele sau oricare alt punct percentil.
n acest sens trebuie precizat c fiecare interval are o limit superioar (ls) i o limit
inferioar (li). De exemplu, intervalul 125-129 se exprim matematic astfel, n funcie de cele
dou limite: [125,5; 129,5], sau 125,5-129,5.

3.1.2 Centrele intervalelor


Centrul unui interval, notat cu Ci, este valoarea situat n mijlocul intervalului
respectiv i se determin astfel Ci = (li + ls)/2. Aplicnd aceast formul la exemplul nostru,
intervalul 124,5-129,5 are drept centru valoarea 127, ceea ce justific preferina pentru
intervalele de numr impar, care dau o valoare ntreag pentru centrele lor. Celelalte centre de
interval se pot determina extrem de uor ulterior, pentru c ele sunt multipli ai lungimii
intervalului, deci n cazul nostru vor fi: 127, 132, 137 etc. Aproximarea prin centrele
intervalului creeaz posibilitatea ca toate valorile care aparin unui interval s fie tratate n
calcule ca egale cu centrul acestuia, de unde posibilitatea erorii pe care gruparea datelor o
introduce, lucru de care am amintit anterior.
Se poate dovedi matematic c aceast grupare satisface criteriul matematic al celei mai
mici erori. Important de menionat este i faptul c, cu ct intervalul este mai mare, cu att
mrimea acestei erori rezultat prin gruparea datelor va crete.

3.2. Histograma i poligonul frecvenelor


Dup ce am prezentat modul practic de lucru pentru cele dou reprezentri grafice ale
frecvenelor vom avertiza asupra faptului c exist precauii speciale privind mrimea
diagramei rezultate n raport cu spaiul de lucru al foii (problem rezolvat corect cu ajutorul
computerului), cu localizarea punctului de mijloc sau cu trasarea figurilor.
31

O problem care merit atenie o reprezint raportul dintre nlimea i limea


diagramei, care de regul este de 60%. Vom recunoate n aceasta o problem real, deoarece
ea face posibil minciuna statistic, dup expresia lui Smith: manevrnd (intenionat sau nu)
acest raport, se poate accentua sau aplatiza o pant de cretere a unui indicator pentru a sugera
ceva ce realitatea nu confirm.

Histograma d o imagine n scar a distribuiei, fiind cea mai potrivit reprezentare


a datelor ordinale, discontinue, caz n care ntre bare trebuie s existe mici spaii pentru a
sugera discontinuitatea, caz n care se numete reprezentare cu bare. Histograma este la fel de
mult utilizat i pentru datele continue, de interval, caz n care barele verticale apar unite ntre
ele. Ca i poligonul frecvenelor, histograma este informativ n legtur cu forma distribuiei,
cu simetria ei, dar este mai puin adecvat s exprime boltirea (aplatizarea acesteia), deoarece
am vzut c raportul dintre unitile de msur de pe abscis i de pe ordonat poate fi
modificat n funcie de opiunea cercettoului.
Cea mai bun redare a datelor de interval, fie ele brute, fie cumulate, o constituie

poligonul frecvenelor. Diferena dintre dou tipuri de grafice este nu numai de form
(scalar - la histogram, linii drepte care unesc ntre ele puncte - la poligon), ci este dat de
chiar asumpia lor de baz. Astfel, la histogram toate valorile dintr-un interval sunt egale
ntre ele ca frecven, i egale cu valoarea centrului de interval, n timp ce la poligonul
frecvenelor datele tind s se grupeze de o parte i de alta a acestei valori centrale.
Histograma ofer o imagine mai clar a numrului de cazuri din fiecare interval, dar
d o imagine cu totul confuz cnd pe aceeai linie de baz se redau, pentru comparaie, dou
sau mai multe distribuii. n acest caz este evident c poligonul frecvenelor apare ca mult mai
indicat, comparaia putndu-se face fie n valori absolute (cnd nu exist diferene prea mari
numeric ntre cele dou distribuii), fie n frecvene relative (procentuale), caz n care
comparaia devine posibil, deoarece distribuiile sunt redate proporional.
De asemenea poligonul frecvenelor poate s se refere la frecvenele brute simple sau
cumulate, dar i la cazul frecvenelor relative simple sau cumulate, cnd se obine aa-numita
ogiv a lui Galton.

32

20

160
140
120
100
80

10

Frequency

60
40
Std. Dev = 21.99

20

Std. Dev = 13.20

Mean = 132.2

Mean = 35.1

N = 1408.00

N = 54.00

0
5.
17
0
5.
16
0
5.
15
0
5.
14
0
5.
13
0
5.
12
0
5.
11
0
5.
10
.0
95
.0
85
.0
75
.0
65
.0
55
.0
45

15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0

RVBAIETI

MF_Metoda+Fisa

Figura 3.1. Dou histograme ale frecveelor brute pentru o distribuie foarte mare i una mic.

Cnd numrul indivizilor din cele dou grupuri difer foarte mult apare o problem de
comparaie grafic: deorece disparitatea este foarte mare, se pune problema unei scale care s
le cuprind pe amndou, asfel nct s fie pe deplin perceptibil distribuia mai mic, n
condiiile n care cea mai mare nu depete nite limite rezonabile. n acest caz este foarte
util conversia frecvenelor brute n frecvene relative (procentuale), situaie n care apare ca
i cnd am avea dou distribuii cu un numr egal de cazuri, i anume 100, ariile celor dou
poligoane, forma curbei i dispersia devenind pe deplin comparabile. Transformarea
procentual este extrem de simpl. Iat un exemplu preluat din Guilford (1978, p. 34).
Tabelul 3.2. Frecvenele brute i relative pentru dou grupuri.
Scoruri
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
Suma

f1

1
0
3
5
6
14
7
11
4
N1 = 51

f2
8
32
48
29
18
14
5
5
0
1

N2 = 160

33

p1

2,0
0,0
5,9
9,8
11,8
27,5
13,7
21,6
7,8
= 100,1

p2
5,0
20,0
30,0
18,10
11,20
8,8
3,1
3,1
0,0
0,6

= 99,9

Pe coloana f1 sunt 51 de cazuri. Prin regula de trei-simpl tim c dac un 1 caz din 51
reprezint x din 100, atunci x are valoarea 1100/51 = 1,96. Acest numr (1,96) devine
factorul de multiplicare pentru toat coloana respectiv (f1), ceea ce va da coloana p1 (p de la
procente). La fel se va proceda pentru coloana f2 (unde factorul de multiplicare este 1100/160
= 0,625) din care se va obine coloana p2.
Datele din tabel se convertesc ntr-o imagine grafic prin care cele dou poligoane ale
frecvenelor devin direct comparabile. Aa cum rezult dup construcia diagramei, este
evident c al doilea grup are valori medii mult mai mari dect primul, suprapunerea dintre ele
find foarte mic; forma amndurora este asimetric, primul fiind deplasat spre stnga, al
doilea spre dreapta; grupul al doilea este mai omogen dect primul (are un singur punct care
concentreaz frecvena maxim, numit mod, n jurul cruia se repartizeaz celelalte valori, n
timp ce primul grup are dou cocoae, adic dou zone de acumulare a cazurilor); frecvena
maxim este apropiat procentual la ambele grupuri. Comparaia evideniaz elocvent faptul
c acestea sunt dou grupuri foarte diferite, care trebuie tratate statistic separat.

3.3. Frecvenele cumulate


Dup ce am stabilit intervalele i le-am ntabelat astfel nct valorile inferioare s fie
amplasate jos i cele superioare sus, dup ce am stabilit limitele inferioare i superioare pentru
fiecare interval i centrul fiecrui interval (atunci cnd avem nevoie s lucrm cu aceste
coloane), urmtoarea coloan (fb) va fi alocat frecvenelor brute. Ele se pot obine fie printr-o
coloan special de bife, n care datele brute se descarc direct n tabel, fie prin procedeul de
lucru cu care am deschis acest capitol: trasarea liniei de baz, cu toate valorile i frecvenele
corespunztoare, apoi stabilirea claselor i a frecvenelor din fiecare clas.
Pe urmtoarea coloan se trec frecvenele brute cumulate (fbc), apoi frecvenele
relative (fr) i frecvenele relative cumulate (frc), dup procedeul exemplificat anterior. Modul
cum apar datele ntabelate pentru bieii din eantionul de etalonare la testul de Recombinare
Verbal, dup modelul descris anterior, poate fi analizat n Tabelul 3.3 de mai jos.
Determinarea frecvenelor cumulate, fie ele brute sau relative, se obine extrem de simplu
printr-o adunare succesiv, ce pleac de jos n susul coloanei respective. Raiunea acestei
operaii este aceea de a ti numrul exact de cazuri care cad sub un anumit punct, adic
punctul care este limita de sus a intervalului (sau procentul, n cazul frecvenelor relative).

34

Tabelul 3.3. Valorile frecvenelor brute i relative, simple i cumulate, pentru biei la RV.
Scoruri
clase

65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14

Limite
exacte

Punctul
central

64,5-69,5
59,5-64,5
54,5-59,5
49,5-54,5
44,5-49,5
39,5-44,5
34,5-39,5
29,5-34,5
24,5-29,5
19,5-24,5
14,5-19,5
9,5-14,5

67
62
57
52
47
42
37
32
27
22
17
12

Frecvene
brute

fb
0
4
3
4
2
2
6
11
8
8
5
1
N=54

Frecvene
brute
cumulate

fbc
54
54
50
47
43
41
39
33
22
14
6
1

Frecvene
relative

fr
0
7,4
5,6
7,4
3,7
3,7
11,1
20,4
14,8
14,8
9,3
1,8
=100

Frecvene
relative
cumulate

frc
100
100
92,6
87
79,6
75,9
72,2
61,1
40,7
25,9
11,1
1,8

Numr
interval

fb X
0
248
171
208
94
84
222
352
216
176
85
12
=1868

12
11
10
9
8
7
6
5
4
3
2
1

Se ncepe cu prima clas de pe coloana fb, ce are n cazul de fa frecvena 1, care va fi


trecut ca atare pe coloana fc; la a doua clas 1+5 = 6 (frecvena anterioar cumulat cu cea a
clasei respective), valoare care se i trece n rubrica corespunztoare. Valorile urmtoare, de
jos n sus, vor fi 6+8 = 14, apoi 14+8 = 22 i aa mai departe, pn la clasa din vrf unde,
dac operaia a fost executat corect, va fi regsit numrul total al eantionului (N=54), ceea
ce constituie chiar procedeul de control al acurateei calculelor.
Pentru coloana frecvenelor cumulate modul de lucru este similar, cu meniunea c pot
aprea i valori fracionare (care se pot rotunji la o zecimal), iar valoarea din vrf trebuie s
fie 100, sau ct mai aproape de aceast valoare, acesta fiind i procedeul practic de verificare
a corectitudinii n lucru.

3.4. Histograma i poligonul frecvenelor cumulate


Histograma cumulativ arat ce adaug fiecare nou frecven celei precedente, de sub
ea. Ca i n cazul histogramei obinuite construcia ei se face tot cu bare sau dreptunghiuri,
fiecare adugat colului din dreapta sus al celui precedent, ca n imaginea de mai jos. Unind
diagonalele stnga-jos dreapta-sus din fiecare dreptunghi, se obine poligonul frecvenelor
cumulate, care n cazul de fa evideniaz urmtoarele aspecte:

35

Curba este progresiv cresctoare i nu nregistreaz inversiuni sau ntoarceri, deoarece


frecvenele cumulative sunt valori pozitive progresiv cresctoare, exceptnd situaia
frecvenelor zero.

Linia de sus nu este dreapt, dei tinde spre orizontal.

Cnd distribuia noncumulativ (obinuit) este simetric, cea cumulativ are o form
foarte apropiat de litera S.

Figura 3.2. Poligonul frecvenelor cumulate i ogiva lui Galton.


Sursa: Guilford i Fruchter, 1978, pp. 37 i 39.

Ogiva lui Galton este de fapt o curb construit plecnd de la frecvenele relative
cumulate. n mijlocul fiecrei clase se trece un punct, corespunznd frecvenei relative
cumulate a clasei respective, iar n final se traseaz o curb care nu trece exact prin fiecare
punct, ci este ajustat astfel nct s ia forma cea mai regulat n raport cu punctele
respective (figura 2). De aceea forma ei de S este mai bine reliefat ca n cazul precedent, iar
cnd distribuia noncumulativ este simetric, acest lucru este cu att mai evident.
n cazul de fa se remarc o bun regularitate pentru prima jumtate a ogivei i un
deficit sau lips n partea ei superioar, dat de asimetria distribuiei noncumulative. O
raiune pentru care se ajusteaz ogiva, cnd acest lucru se poate face n mod rezonabil, este
aceea de a nivela anumite iregulariti ale distribuiei ce ar rezulta dintr-un numr prea mic
al cazurilor din eantion cu scopul de a ti cum ar arta de fapt distribuia probabil a
populaiei mai largi.
Deoarece pentru fiecare punct al curbei se poate determina numrul cazurilor care cad
sub el, ogiva lui Galton poate servi la construirea etaloanelor prin procedeul centilelor sau al
decilelor.

36

3.5. Criterii de evaluare vizual a formei distribuiilor


Pentru evaluarea de ansamblu a caracteristicilor unei distribuii exist o multitudine de
posibiliti, dintre care unele mai elementare, bazate pe inspecia ei vizual, iar altele mai
elaborate, care condenseaz sub form numeric precis aceste caracteristici. Acestea din
urm vor fi abordate ulterior, cnd vor fi prezentai indicatorii formei unei distribuii care sunt
simetria i boltirea.

O distribuie poate fi simetric, atunci cnd cele dou cozi ale sale se repartizeaz
simetric n raport cu tendina central care este media. Dar ea poate fi asimetric spre stnga,
situaie n care cel mai mare volum de date se aglomereaz spre latura stng, astfel c creoda
(coada) stng a distribuiei este mai scurt dect cea dreapt. O asemenea distribuie se
cheam pozitiv. Situaia invers este cea a datelor aglomerate spre dreapta, unde creoda
stng este clar mai lung dect cea dreapt. O asemenea distribuie se cheam negativ.
Exist i situaii n care anormalitatea distribuiei este mai mult dect evident, atunci
cnd ea este una trunchiat, n form de i sau de j, situaii n care modul este repartizat n
extrema stng, respectiv n cea dreapt a distribuiei, ca n exemplul al doilea de mai jos.
F2 Anorexie

CEDA total
100

50
48

45

35

90
43
40
38
37

60

30
25 26

30
27

40

2020
17

15

12

10

Std. Dev = 9.63

10 10

Mean = 12.8
4

66
57

22

20

Frequency

80

Frequency

40

N = 424.00

47
40
28

20

22
15

Std. Dev = 3.73


14

Mean = 3.6
9 10

7 6

N = 424.00

.5
2 1 .5
2 0 .5
1 9 .5
1 8 .5
1 7 .5
1 6 .5
1 5 .5
1 4 .5
1 3 .5
1 2 .5
1 1 .5
10
5
9.
5
8.
5
7.
5
6.
5
5.
5
4.
5
3.
5
2.
5
1.
.5

.0
57.0
55.0
53.0
51.0
49.0
47.0
45.0
43.0
41.0
39.0
37.0
35.0
331.0
39.0
2 .0
27.0
25.0
23.0
21.0
19.0
17.0
15.0
13.0
110
9.0
7.0
5.0
3.0
1.

F2 Anorexie

CEDA total

Figura 3.3. Dou distribuii asimetrice stnga dintre care cea de a doua este trunchiat (n i).

n afar de simetrie, inspecia vizual a unei histograme ne ajut s vedem dac

boltirea (excesul) distribuiei este una normal, adic dac distribuia este suficient de nalt
(normokurtic) sau dimpotriv prea joas (prbuit, cu deficit), situaie n care ea se numete
platikurtic. Dac distribuia este prea ascuit, adic prea nalt, adic acumuleaz un exces
de frecvene pe zona central, ea se numete leptokurtic. n figurile de mai jos, ambele

37

distribuii sunt asimetrice, una negativ, alta pozitiv, i ambele sunt leptokurtice (cu exces), la
cea care red nlimea excesul fiind mai accentuat dect la cea care red greutatea.
Inaltime

Greutate

350

350

352

331
300

300

250

227
200

264

250

255

232

223

200
188

177
150

150

154
133
100

50
0

Std. Dev = 9.02

56 54
18

Frequency

Frequency

100

Mean = 117.5

31

20

N = 1559.00

107
93
70

50

Std. Dev = 4.33


Mean = 22.3
29

0
12.0

16.0

0
2.
14 .0
8
13 0
4.
13 .0
0
13 .0
6
12 .0
2
12 .0
8
11 .0
4
11 .0
0
11 .0
6
10 .0
2
10
.0
98
.0
94
.0
90
.0
86
.0
82
.0
78

14.0

20.0
18.0

24.0
22.0

28.0
26.0

32.0
30.0

N = 1539.00

17
36.0
34.0

Figura 3.4. Dou distribuii cu asimetrii n sensuri opuse, dar ambele leptokurtice.

n unele situaii, inspecia unei reprezentri grafice a distribuiei evideniaz n mod


clar dou aglomerri de date, adic faptul c ea este bimodal (are dou moduri, modul fiind
indicatorul statistic ce indic valoarea de scor cu ceea mai mare frecven). O asemenea
situaie este prezentat n exemplul de mai jos, care este o histogram ce red grafic
distribuia pentru variabila nlime pentru un lot de biei i de fete. Prezena a dou moduri,
i implicit a dou cocoae, sugereaz eterogenitatea populaiei eantionului pentru variabila
respectiv i deci necesitatea de a identifica i trata statistic separat cele dou grupuri.
PSC Inaltimea
25

25

25

20
19
16

15
15

14 14
12
11

10

10
9

Frequency

8
6

5
3

3 3
0

Std. Dev = 8.54


Mean = 171.7
2 N = 205.00

0
4.
192.0
19 .0
0
198.0
186.0
18 .0
4
182.0
180.0
18 .0
8
176.0
174.0
17 .0
2
170.0
178.0
16 .0
6
16 .0
4
162.0
16 .0
0
168.0
156.0
15 .0
4
152.0
15

Figura 3.5. O distribuie bimodal (cu dou cocoae) pentru variabila nlime.

Atragem atenia asupra faptului c distribuiile cu dou sau mai multe moduri sunt cu
att mai probabile cu ct ele sunt mai reduse numeric. Bi- sau multimodalitatea nu indic
ntotdeauna necesitatea de a trata separat grupurile eterogene dintr-o distribuie, ci i nevoia
de a lrgi suficient de mult eantionul. Dac i n cazul unui eantion extins se pstreaz cele
38

dou aglomerri de date, atunci separarea grupurilor este cu att mai necesar cu ct distana
dintre moduri (i implicit eterogenitatea) este mai mare.

3.6. Exerciii i aplicaii practice


1. S se traseze poligoanele frecvenelor pentru biei, fete i total, cu efectivele de la
testul de Recombinare Verbal din curs, lund pe linia de baz clase de interval 10, mrimea
un centimetru, de la 10 la 70, iar pe vertical din unu n unu pentru fiecare ptric de caiet
de matematic, pentru biei i fete, i din 2 n 2 pentru total.
2. Iat urmtoarele scoruri nregistrate la o prob:
25

33

35

37

55

27

40

33

39

28

34

29

44

36

22

51

29

21

28

29

33

42

15

36

41

20

25

38

47

32

15

27

27

33

46

10

16

34

18

14

46

21

19

26

19

17

24

21

27

16

Pentru prelucrarea primar a acestor date se vor parcurge toate etapele descrise n curs:
se deseneaz linia de baz a scorurilor, se determin frecvenele pentru fiecare valoare
individual a variabilei, se stabilesc intervalele de grupare a datelor (din 5 n 5), se ntabeleaz
rezultatele cu toate rubricile de la exemplul anterior din curs i apoi se traseaz poligonul
frecvenelor brute (simpl i cumulat) i poligonul frecvenelor relative (simple i cumulate).
S se comenteze pe scurt rezultatele.
3. Artai pe scurt care sunt asemnrile i deosebirile dintre histogram i poligonul
frecvenelor ca mijloace de reprezentare i vizualizare a datelor.
4. Comentai asemnrile i deosebirile dintre cele dou distribuii ale stimei de sine
pentru biei i fete aa cum rezult ele din histogramele de mai jos.
Stima de sine total

Stima de sine total

Baieti

Fete

22

22

20

20

21

18

18
18

16

16

14
12

12

10

10
9

10

6
6

2
0

2
-70.0

2
-50.0

Std. Dev = 30.03


Mean = 28.9
N = 102.00

-30.0 -10.0

-60.0 -40.0

-20.0

10.0

0.0

30.0

20.0

50.0

40.0

14

13
11

Frequency

Frequency

16

14

70.0

60.0

2
-50.0

Mean = 22.8
N = 104.00

-30.0 -10.0
-20.0

Stima de sine total

39

Std. Dev = 30.58

-60.0 -40.0

Stima de sine total

-70.0

80.0

4
2
0

0.0

10.0

30.0

20.0

50.0

40.0

70.0

60.0

80.0

CAPITOLUL 4

INDICATORI AI TENDINEI CENTRALE

Statistica i-a conturat un numr de indicatori, adic de valori ataate variabilelor


continue, care s exprime sintetic informaia coninut de distribuia respectiv. Unii dintre
acetia se refer la ceea ce se ntmpl pe centrul distribuiei - indicatori ai tendinei centrale,
sau de poziie -, alii la mprtiere, adic la ceea ce se ntmpl spre extremele seriei de
variaie. Exist i o a treia categorie de indicatori, la fel de importani, care se refer la forma

distribuiei.

4.1. Media aritmetic


Exist mai multe tipuri de medie (aritmetic, geometric i armonic; medie simpl i
medie ponderat), dar cea mai cunoscut i utilizat n statistic este media aritmetic.
Acesteia i se mai spune i media, sau valoarea medie i se noteaz cu un X barat ( X ), pentru a
o distinge de notaia cu X a variabilei. Media este acea valoare care se obine mprind suma
tuturor indivizilor care compun populaia statistic la numrul acestora dup una din cele dou
formule echivalente de mai jos:

X=

X
i =1

X =

adic:

(4.1)
X =

X 1 + X 2 + X 3 + ... + X n
N

(4.2)

(4.3)

n care X este media, simbolul grecesc nseamn sum de (unele notaii prefer utilizarea
lui S de la Sum), X este fiecare dintre scorurile msurate, iar N este numrul acestora. Prima
formul este complet explicit matematic, deorce Xi desemneaz o singur msur observat,
fiecare din seria de msurtori X1, X2, X3, , Xn, adic prima, a doua, a treia i respectiv a n-a
msurtoare. Acest lucru este indicat de semnele de sub i de deasupra simbolului pentru a
arta c valorile nsumate (desemnate de Xi) merg de la primul la ultimul element din irul N
de valori. Dar, deoarece formula a doua este mai uor de neles i de citit fr simboluri
adiionale, optm pe tot parcursul lucrrii de fa pentru acest al doilea tip de scriere, mai
sintetic, dar mai puin complet matematic. Formulele de mai sus i gsesc echivalentul
k X
urmtor pentru datele ordonate:
(4.4)
X=
N
40

formul care spune c este mai simplu s nmulim frecvenele k ale unei valori cu ea nsi de
k ori, dect s o adunm cu ea nsi de k ori. Aceasta este o formul aplicabil deci datelor

ordonate, n care variabila ia valori individuale precizate, toi indivizii statistici ai populaiei
respective contribuind la generarea mediei prin valorile lor determinate prin msurtoare. De
aceea formulele 4.1 i 4.3 dau valori exacte ale mediei, fr pierdere de informaie.
Cnd datele sunt ordonate, dar i grupate n k clase (intervale), pentru determinarea
mediei se utilizeaz urmtoarea formul:

X =

f1c1 + f 2c2 + ... + f n cn


f c + f c + ... + f n cn
= 11 2 2
f1 + f 2 + ... + f n
N

(4.5)

unde cu k se noteaz numrul de intervale, cu f frecvena fiecrui interval, cu c centrele de


interval, iar cu N numrul de observaii, care de fapt este suma frecvenelor din fiecare
interval de clas. Deoarece n media final nu se mai regsesc exact valorile individuale, ele
fiind aproximate prin centrele de interval, pentru fiecare clas n parte, aceasta se mai numete
i media ponderat a centrelor intervalelor. Aceasta este mai puin precis, deoarece n acest
caz exist o pierdere de informaie. De exemplu, factorul b din testul de personalitatea HSPQ
Cattell d urmtoarele valori pe lotul de eantionare:
9 6 9 9 10 8 9 9 8 8 7 7 8 10 10 9 7 7 6 8 5 6 8 6 9 7 5 8 8 6 8 7 6 3 8 7 7 8 8 6 6 3 8 5 5 6
4 7 2 5 7 5, la biei i:
8 10 8 9 7 8 8 7 8 10 8 7 9 8 8 10 7 10 4 8 7 5 7 6 8 9 6 7 5 8 7 6 9 7 3 4 4 7 7 5 7, la fete.
Pentru biei, N = 52, X = 363, deci media este 363/52 = 6,98. Pentru fete, N = 41,
X = 294 i media este 294/41 = 7,17. Dac vom reuni cele dou populaii, lucru posibil

deoarece diferena mediilor lor nu este statistic semnificativ (testarea semnificaiei diferenei
fiind una dintre importantele aplicaii ale mediei aritmetice, cum vom vedea ulterior), vom
obine un numr total N = 52 + 41 = 93, X = 363 + 299 = 662 i media X = 662/93 = 7,12,
adic o valoare care se afl ntre cele dou medii.

x
xx
_____________________x xx x xx
0 1 2 3 4 5
variabile X
0 0 1 2 1 5
frecvene f
produsul fX
0 0 2 6 4 25
media X pentru eantionul de biei:

x
xx
xx
xx
xx
6
9
54

xx
xx
xx
xx
xx
7
10
70

41

x
xx
xx
xx
xx
xx
xx
8
13
104

x
xx
xx x
xx xx________________________
9 10
7
3
N = 52
63 30 fX = 363
363/52 = 6,98

Se remarc faptul c distribuia de mai sus este uor asimetric, deplasat spre dreapta
(adic negativ, cum se va vedea ulterior), valoarea central numit mod fiind 8, cu frecvena
de 13, iar media este foarte aproape de 7 (6,98). n calculul mediei este evident utilitatea
formulei 4.4 pentru datele ordonate. Mediana, adic valoarea de scor care mparte distribuia
n dou jumti a cte 21 de cazuri, va cdea undeva ntre 6 i 7, pentru care frecvenele
cumulate sunt 19, respectiv 29.

x
_________________________x_ xx
variabile X
0 1 2 3 4
frecvene f
0 0 0 1 3
produsul fX
0 0 0
3 12
media X pentru eantionul de fete:

x
xx
5
3
15

x
xx
6
3
18

xx
xx
xx
xx
xx
xx
7
12
84

x
xx
xx
xx
xx
xx
8
11
88

xx
xx
9
4
36

xx
xx________________________
10
4
N = 41
40 fX = 296
294/4 = 7,22

Se remarc faptul c valorile mediei (7,17), medianei (aflat ntre 6 i 7) i modului (7)
sunt foarte apropiate pentru cele dou eantioane, singura valoare care este uor diferit fiind
amplitudinea mprtierii R (de la englezescul Range), ceva mai mare la biei dect la fete
(8, comparativ cu 6). Acestea sunt argumente suficient de puternice pentru a reuni cele dou
eantioane n unul singur i a le trata statistic n comun, determinnd principalele valori ale
tendinei centrale, ceea ce poate constitui o sarcin pentru autoevaluarea de parcurs.
Media aritmetic are cteva proprieti remarcabile:

Ea este o mrime la care particip toate valorile variabilei respective.

Media se exprim n aceleai uniti de msur n care sunt exprimate i valorile


variabilei respective.

Suma abaterilor valorilor de la medie este ntotdeauna nul, adic (X X) = 0, ceea


ce constituie formula de definiie a mediei aritmetice. Aceasta conduce la cea mai
remarcabil nsuire a mediei, aceea de a fi centrul de greutate al ntregii serii de
valori al unei distribuii, de unde i marea sa importan ca indicator care concentreaz
cel mai bine datele. Din punct de vedere fizic putem compara irul de frecvene al unei
distribuii cu o bar gradat de lungime R, egal cu amplitudinea mprtierii, de care
sunt atrnate greuti la fiecare gradaie Xi, egale ca mrime cu frecvena f. Media va fi
pivotul, adic punctul de sprijin care realizeaz echilibrul perfect, fiind singura valoare

42

relativ la o distribuie pentru care suma abaterilor de la ea este zero. De aceea


expresia (X X)/N, numit momentul de gradul nti (prin analogie cu momentul
forei din fizic), va interveni, prin ridicare la puterea a doua, a treia i a patra, n
calculul dispersiei, a simetriei i a boltirii curbei de distribuie.

Aceasta datorit faptului c suma deviaiilor ptratice de la medie este cea mai mic
prin comparaie cu deviaia de la oricare alt indicator, ca mediana, de exemplu
(Guilford i Fruchter, 1978, p. 54).

Din acest motiv media este considerat indicatorul cel mai strns legat de eantion ca
ntreg, ea respectnd principiul matematic al celor mai mici ptrate. Aceasta este
raiunea pentru care calculul abaterii standard i al dispersiei se sprijin pe medie, i
nu pe median.

Media aritmetic rmne neschimbat dac valorile frecvenelor se nmulesc sau se


mpart cu acelai numr.

Media poate fi calculat chiar dac nu cunoatem distribuia caracteristicii respective,


ci numai suma valorilor ei.

Media poate fi o valoare pe care nu o ia nici un individ statistic, ba - mai mult - poate
s nu fie reprezentativ sau s nu aib sens la nivelul indivizilor concrei (Rotariu et
al., 1999). Este de ajuns s exemplificm cu costurile medii de producie, care se pot
exprima n lei, bani i fraciuni ai acestora, cu dimensiunea medie a unei familii, care
poate da fraciuni dintr-o persoan, sau chiar cu nlimea medie a unui grup,
neregsibil ca atare la niciunul dintre membrii acelui grup.

Aceasta duce la concluzia c, chiar dac media este o valoare care cade ntotdeauna n
interiorul spectrului de variaie, adic ntre valoarea minim i cea maxim, ea nu este
neaprat i valoarea cea mai tipic sau valoarea mijlocie a seriei respective. Uneori ea
poate mpri acest serie n dou pri foarte inegale. Astfel, dac vom considera 5
coeficieni de inteligen: 68, 84, 90, 100 i 160, media lor este 100,40 sub care cad 4
valori, doar una fiind deasupra sa.

Aceasta nseamn c media aritmetic aduce doar o parte din informaia necesar
interpretrii unei distribuii, deci c este nevoie i de ali indicatori ai tendinei centrale
i ai mprtierii pentru a avea o idee mai complet despre aceasta. Pentru a-i cita pe
Rotariu i colab. (1999) media, ca orice indicator, nu poate reflecta dect o parte
din informaia surprins n caracteristic i este evident c, cu ct populaia este mai
omogen, cu att media va reproduce mai mult din aceast informaie (p. 46).

43

Determinarea mediei este foarte util n cercetarea psihopedagogic n cteva situaii:

Pentru a localiza o valoare dintr-o distribuie. Nota 7 la matematic este una slab n
clasele primare, dar una bun la o clas realist de liceu, nivelul mediu al performanei
fiind foarte diferit pentru cele dou colectiviti.

n comparaia unor grupuri independente (necorelate este termenul consacrat n


statistic) sau al unor grupuri corelate. Lotul martor i lotul de control, faza de pre-test
i de post-test a unui aceluiai eantion presupun obligatoriu determinarea mediei i a
abaterii standard pentru ca, prin comparaii statistice, loturile iniiale s fie egalizate
pentru a se putea surprinde impactul variabilei independente asupra celei dependente.

Cnd un eantion a fost supus mai multor surse de variaie sistematic, se calculeaz
media asociat cu fiecare dintre strile sursei de variaie respective, pentru a se putea
descompune variaiile nregistrate n mai multe efecte, ce urmeaz a fi analizate
fiecare sub raportul ponderei n efectul final (regresia simpl i regresie multipl).

n analiza itemilor unui test, pentru a vedea dac acetia se supun unor exigene de
construcie (vezi Clocotici i Stan, 2000, pp. 56-57).

4.2. Mediana
Pentru a evita confuziile legate de acest indicator, uor de definit, dar care ridic
destule probleme cu determinarea sa n variate situaii concrete, vom spune c mediana nu
este nici un scor, nici o frecven sau vreo alt msur particular, ci este un punct aflat pe
scara scorurilor, sub i peste care se afl exact jumtate din numrul cazurilor.
Determinarea medianei (Me, Med sau Md) presupune deci ca o condiie prealabil
ordonarea cresctoare sau descresctoare a datelor furnizate de indivizii ce compun populaia
statistic respectiv. Locul pe care l ocup mediana n acest ir ordonat de date se determin
prin urmtoarea formul de lucru:
N +1
(4.6)
2
Iat, de exemplu, urmtorul ir ordonat al unor msurtori: 2, 4, 7, 8, 9, 10, 14. Deoarece
Md =

numrul lor este impar (N+1)/2 este (7+1)/2 = 4, deci mediana este a patra valoare din ir,
adic 8, deoarece ea mparte irul n dou jumti egale. Iat i un alt exemplu de msurtori:
7, 9, 10, 11, 13, 15, 17, 21. Deoarece numrul total este par (8), vom avea Md = (8+1)/2 = 4,5;
deci mediana se afl la jumtatea distanei dintre a 4-a i a 5-a valoare, adic ntre 11 i 13 i
aceasta nu poate fi dect 12.

44

Procedeul pare a fi foarte simplu, dar intervin o mulime de situaii particulare mai
greu de rezolvat. Iat un alt exemplu al unui ir ordonat de valori: 11, 11, 11, 11, 13, 13, 13,
15, 17, 17. Sunt 10 valori, deci mediana va trebui s fie situat la distana de (10+1)/2 = 5,5
fa de unul din capete, ori acesta se afl ntre 13 i 13! Este evident c vom avea nevoie de
un alt raionament, care va introduce n calcul limitele de interval, conform crora 11 se afl
amplasat n intervalul situat ntre 10,5 i 11,5; 12 n intervalul 11,5 i 12,5; 13 n intervalul
12,5 i 13,5 etc. Deoarece avem deja primele patru valori, care sunt 4 de 11, mai avem nevoie
doar de una pentru a putea determina punctul median. n intervalul 12,5 13,5 avem 3 valori
de 13; o singur valoare nseamn o treime din acest interval, adic 1/3 = 0,33, valoare care se
adaug la limita lui inferioar. Deci punctul median determinat cu exactitate va fi 12,50+0,33
= 12,83 = Md. n SPSS valoarea median indicat pentru acest set de date este 13: pentru
simplificarea algoritmului de lucru se ia frecvena cumulat cea mai apropiat de cea cutat,
fr a mai determina coreciile necesare, ceea ce este mai practic.
Determinarea medianei din datele grupate presupune un procedeu de lucru care se va
regsi i la determinarea cuartilelor, centilelor sau a decilelor, adic la ceea ce n statistic se
cheam cuantile. Tabelul 4.1 prezint datele pe care s-a lucrat n capitolul precedent.
Tabelul 4.1. Procedeul practic pentru determinarea medianei pentru date grupate (N = 54).
Limite
exacte

Frecvene
brute

Frec. brute
cumulate

Frec. brute

65 - 69

64,5 - 69,5

54

11

60 - 64

59,5 - 64,5

54

10

55 - 59

54,5 - 59,5

50

50 - 54

49,5 - 54,5

47

11

45 - 49

44,5 - 49,5

43

13

40 - 44

39,5 - 44,5

41

15

35 - 39

34,5 - 39,5

39

21

30 - 34

29,5 - 34,5

11

33

32

25 - 29

24,5 - 29,5

22

40

20 - 24

19,5 - 24,5

14

48

15 - 19

14,5 - 19,5

53

10 - 14

9,5 - 14,5

54

Nr.

Scoruri clase

12

cumulate

Md = 29,5 + (54/2-22)5/11 = 29,5 + 55/11 = 29,5 + 25/11 = 31,77


Md = 34,5 (54/2-21)5/11 = 34,5 - 65/11 = 34,5 - 30/11 = 31,77

45

n acest caz, formulele de lucru pentru determinarea medianei plecnd de jos n sus,
respectiv de sus n jos, sunt urmtoarele:
N
i
(4.7)
Md = li + ( f c )
2
fi
n care:

Md = ls (

N
i
fc )
2
fi

(4.8)

li i ls reprezint limitele inferioar, respectiv superioar, ale intervalului median


reperat;

fc este totalul frevenelor cumulate situate sub el (prima formul) sau deasupra lui (a
doua formul);

fi este frecvena corespunztoare intervalului localizat n care se afl mediana;

N este numrul de cazuri;

i este mrimea unui interval.


n cazul nostru N/2 = 54/2 = 27, valoare care cade n intervalul 29,5 - 34,5. Deoarece

valoarea frecvenelor cumulate este de 33 i aceasta o depete cu 6 pe cea cutat de noi


(27), aceasta nseamn c va trebui s plecm de la frecvena cumulat a intervalului imediat
inferior (22), la care s adugm prin interpolare o anumit valoare, corespunztoare celor 2722 = 5 cazuri care ne mai lipsesc. Iat raionamentul fundamentat pe regula de trei-simpl:
dac pentru totalul de 11 cazuri, care este frecvena intervalului localizat pentru median (fi)
avem o lungime a acestuia de i = 5, pentru cele 5 cazuri care mai trebuie este nevoie
proporional de 55/11 = 2,27 uniti care se vor aduga limitei inferioare a intervalului
median: 29,5+2,27 = 31,77, corespunznd punctului median cutat.
Prezentm n rezumat paii necesari interpolrii punctului median, care se vor regsi
ca procedeu de lucru n determinarea oricrei cuantile, unde n loc de N/2 vom pune quota
cutat:
1. Se gsete N/2, adic jumtate din numrul cazurilor care corespund distribuiei date.
2. Se stabilete de jos n sus, prin cumularea frecvenelor, locaia intervalului n care se
afl mediana.
3. Se determin prin scdere de cte cazuri mai este nevoie pentru a atinge N/2 cazuri.
4. Se mparte acest numr la numrul cazurilor din intervalul superior (median).
5. Se multiplic rezultatul cu mrimea intervalului de clas n care s-a fcut gruparea.
6. Se adaug acest rezultat la limita de jos a intervalului unde a fost localizat mediana.
7. Se verific de sus n jos, prin procedeul descris de la paii 2 la 5 inclusiv, cu
meniunea c:

46

8. Valoarea gsit se scade din limita de sus a intervalului ce conine mediana. Dac
toate calculele au fost fcute corect, atunci rezultatele vor fi, evident, identice.
Prezentm paii 7 i 8 pentru exemplul de fa: N/2 = 27 i clasa care este cel mai
apropiat ca valoare este, de sus n jos, cea care are, prin cumulare, 21 de cazuri; deci mai
trebuie 27-21 = 6 cazuri; 65/11 = 2,73 i 34,5-2,73 = 31,77, adic se obine aceeai valoare a
punctului median.
n determinarea medianei pot fi posibile i situaii speciale:

Situaia (norocoas) cnd nu mai este nevoie de nici o interpolare, deoarece jumtate
din totalul cazurilor cutate se regsesc, pe coloana frecvenelor cumulate, n
ntregime ntr-o anumit clas, a crei limit superioar (cnd se vine de jos n sus)
este chiar mediana. De exemplu, dac n clasa 24,5-29,5 am fi avut frecvena cumulat
54/2 = 27, atunci mediana ar fi fost 29,5.

Situaia n care mediana cade ntr-un interval care are zero cazuri, mediana se ia
arbitrar ca mijloc al acestui interval, dei aceast estimare este brut i susceptibil
de o anumit eroare, care este cu att mai mare cu ct intervalul de grupare este mai
mare, dar este bun pentru intervale mici de 2, 3 sau chiar 4 uniti.

Situaia cnd mai multe intervale din zona medianei au frecvena zero, nu se mai poate
face nici o estimare corect a acesteia, dei n principiu se poate lua ca median
punctul mijlociu al acestor intervale cumulate de frecven zero.
Toate aceste precauii sau artificii devin inutile prin prelucrarea automat a datelor

printr-un program computerizat, care are algoritmi de lucru adecvai pentru rezolvarea unei
mare diversiti de situaii. Singura precauie care mai rmne este aceea de ti s operm
corect cu semnificaia termenului, n circumstane adecvate.

4.3. Modul
Modul (Mo) este valoarea care are cea mai mare frecven, deci cea care
caracterizeaz individul tipic al populaiei statistice respective. Ea este foarte uor de reperat
pe un poligon al frecvenelor, unde modul corespunde punctului de maxim al acestei linii. n
cazul distribuiilor discontinue, nominale sau ordinale, modul este categoria cu cea mai mare
frecven, dar n cazul distribuiilor continue largi, acestea evideniaz deseori distribuii zigzagate, cu mai multe vrfuri care au nlimi egale sau apropiate. De aceea este necesar ca
datele s fie grupate, operaie prin care se va evidenia cu mai mult pregnan un interval
modal (intervalul cu frecvena maxim).

47

Exist distribuii unimodale (cu o singur valoare sau interval ce ating o frecven
maxim), bimodale i multimodale (curbe cu mai multe vrfuri sau cocoae egale sau foarte
apropiate ca mrime), la prima categorie omogenitatea fiind mai mare dect la celelalte. n
cazul distribuiilor bimodale, cu ct distana dintre cocoae este mai mare, cu att distribuia
respectiv este mai puin omogen i deci mai atipic, punndu-se problema identificrii celor
dou grupuri eterogene pentru a fi tratate statistic separat prin spargerea distribuiei.

4.4. Comparaie dintre medie, median i mod n funcie de distribuie


Aa cum s-a artat anterior, media este pivotul sau centrul de greutate al ntregii
distribuii. Deoarece mediana face abstracie de distana fiecrui caz fa de tendina central,
ea nu poate avea calitatea de centru de greutate al distribuiei. Menionm c relaia dintre cei
trei indicatori de poziie, media, mediana i modul, iese cel mai bine n eviden pentru
distribuiile asimetrice, deoarece n cele normale ele tind s se suprapun sau s dea diferene
neglijabile. Aceast tendin la suprapunere a celor trei indicatori ai tendinei centrale
reprezint un aspect important deoarece ajut la identificarea (a)normalitii unei distribuii.
i n distribuia de mai jos, asimetric negativ (adic deplasat spre dreapta), dar i n
una asimetric pozitiv (deplasat spre stnga), exist o distan nsemnat ntre medie i mod,
cu att mai mare cu ct distribuia este mai asimetric. n aceste situaii mediana este mai
aproape de medie dect de mod, i anume la o treime din distana existent ntre acestea.
Media se afl ntotdeauna pe creoda (coada) mai lung a distribuiei, n timp ce modul este cel
mai uor de reperat, fiind valoarea de scor cu cea mai mare frecven, adic vrful distribuiei
(sau vrfurile ei, atunci cnd sunt prezente mai multe moduri).

Figura 4.1. Relaiile dintre medie, median i mod nrtr-o distribuie asimetric dreapta.

48

Figura 4.2. Relaiile dintre medie, median i mod n distribuii cu asimetrii inverse.

Cele trei valori ale poziiei vor interveni n calculul unor indicatori ai formei
distribuiei, n spe simetria sau oblicitatea (skewness). Pentru distribuiile asimetrice, modul
este raportat cel mai adesea cnd exist un interes pentru cea mai probabil valoare sau
interval. n rest, media i mediana sunt considerai cei mai relevani indicatori ai tendinei
centrale, cci fiecare aduce o informaie specific, iar din mrimea diferenei dintre cei doi
indicatori, dar i a sensului acestei diferene, se pot trage concluzii valide n legtur cu
mrimea i sensul asimetriei.
Distribuiile trunchiate sunt unele foarte atipice, care au un vrf ascuit al frecvenelor
la una dintre marginile seriei de variaie. Acestea se mai numesc distribuii n i sau n j, n
funcie de sensul i de orientarea cozii (creodei). Ele sunt relativ frecvent ntlnite n
pedagogie, unde un test de cunotine poate fi trecut sau czut de aproape toi elevii sau
studenii, n funcie de dificultatea lui sau de timpul alocat rezolvrii testului.
n ambele tipuri de distribuii trunchiate, media nu mai este o valoare reprezentativ
pentru tendina central, deoarece o bun parte din valorile uneia dintre extreme lipsesc i
atunci este preferabil s folosim ca indicatori doar mediana i eventual modul. Fiind situate
foarte excentric i modul i pierde semnificaia de indicator al tendinei centrale.
500

350

472

335
300

308

400
388

250

251

300

200

292

194
174

150

200

153

88

Frequency

Frequency

100
Std. Dev = 3.71

50
44

51

Mean = 18.5
N = 1464.00

0
4.0

8.0
6.0

12.0
10.0

16.0
14.0

20.0
18.0

24.0

100
Mean = 8.5
N = 1464.00

0
1.0

22.0

Std. Dev = 1.50

89
50
2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

1.Motricitate grosiera

5.Limbaj

Figura 4.3. Comparaie dintre o distribuie asimetric negativ i o distribuie trunchiat n j.

49

4.5. Cteva concluzii relative la indicatorii distribuiei univariate

Separat sau mpreun, media i mediana sunt cei mai utilizai indicatori ai tendinei
centrale ai unei distribuii.

n distribuiile perfecte cei doi indicatori se suprapun, fiind foarte apropiai n cele
simetrice.

n cazul distribuiilor asimetrice, media tinde s se situeze ctre valorile extreme, spre
dreapta sau spre stnga, n sensul cozii asimetriei. n aceeai situaie mediana ofer o
imagine mai bun a centrului distribuiei, rmnnd mai apropiat de ramura mai
scurt a asimetriei.

n unele situaii un bun remediu pentru normalizarea distribuiilor va fi eliminarea


valorilor extreme sau aberante ale distribuiei (a se vedea criteriul 1,5 IQR, descris de
Clocotici i Stan, 2000, pp. 66-67). Este considerat ca fiind extrem orice valoare
care se situeaz la o deprtare mai mare de 1,5 abateri intercuartilice n raport cu
prima, respectiv a treia cuartil i aberant atunci cnd distana este mai mare de trei
cutii.

Folosirea mediei este preferat n cazul distribuiilor simetrice sau relativ simetrice, cu
utilizrile deja menionate anterior.

Distribuiile asimetrice, sau cele care au frecvent valori atipice (valori extreme i
aberante, adic outlieri sau parazii statistici) impun folosirea prioritar i uneori
exclusiv doar a medianei, n cadrul unor statistici ordinale, deoarece valorile atipice
pot afecta profund media.

n funcie de cei doi indicatori fundamentali ai tendinei centrale exist procedee


distincte de construire a baremelor psihologice. Pentru datele ordinale sau pentru
distribuiile asimetrice se va prefera mediana, etalonarea recomandat fiind n uniti
de arie (cuartile, decile sau centile). Pentru distribuiile simetrice, dar i pentru scalele
de interval sau de raport se pot construi etaloane de mai mare finee i precizie, n
uniti standardizate z, lund ca i repere fundamentale media i abaterea standard.

Concluzionm c media este implicat n procedee statistice mai elaborate, tipice


scalelor de interval sau de raport, cum ar fi regresiile sau transformrile liniare.
Aceasta deoarece ea este riguros definit, uor de calculat i repede de adus spre
tratamentul algebric. Ea propune cea mai bun estimare a tendinei centrale a
populaiei respective, att fa de median, ct i fa de mod.

50

Modul rmne cea mai tipic valoare individual i de clas pentru variabilele
nominale i ordinale, cu o utilitate incomparabil mai restrns fa de ceilali doi
indicatori de poziie, media i mediana.

4.5. Exerciii i aplicaii practice


La un extemporal aplicat la dou clase paralele s-au nregistrat urmtoarele note:
X
10
9
8
7
6
5
4
3
2
1

fb1
5
7
8
6
8
5
3
2
1
1

fb2
1
1
2
4
5
9
6
7
5
2

fb2c

X
10
9
8
7
6
5
4
3
2
1

N
Mod
Median
Medie

fb1
5
7
8
6
8
5
3
2
1
1
46
6
7
6,80

N
Mod
Median
Medie

fb1c
46
41
34
26
20
12
7
4
2
1

1. Completai coloana frecvenelor cumulate pentru fb2 dup modelul pentru fb1, deja rezolvat.
2. Trasai pentru fb2 poligonul i histograma frecvenelor brute.
3. Determinai pentru fb2 valorile pentru indicatorii de poziie (indicatorii tendinei centrale).
4. Pe poligonul frecvenelor de la punctul 2 redai grafic modul, mediana i media pentru fb2.
5. Comentai rezultatele pentru fb2 fcnd referin la forma distribuiei rezultate.
6. Cum ai utiliza histograma din figura b de mai jos pentru a determina mediana?
10
9

6
6

4
3

0
1

10

Frequency

C ount

Note

2
Std. Dev = 2.25
1

1.0

2.0

Mean = 6.8
N = 46.00

0
3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

7. Plecnd de la histograma frecvenelor brute pentru pentru fb2 determinai media, mediana
i modul. Comentai rezultatele obinute ca n modelul de mai jos.

51

Rezolvare pentru punctul 3

Media pentru fb1 este egal cu: (105 + 97 + 88 + 76 + 68 + 55 + 43 + 32 + 21 +


11)/46 = 313/46 = 6,80.

Mediana pentru fb1 se afl ntre valoarea a 23-a i a 24-a de rang. De jos n sus, pe
linia frecvenelor cumulate, cea mai apropiat valoare de a 23-a (fr a o depi) este
a 20-a, corespunznd scorului de 6. Rangurilor 21, 22, 23, 24 i 25 le corespunde
scorul de 7 i, deoarece el include rangurile 23i 24, mediana este 7.

La fb1 sunt dou valori modale, scorurile 6 i 8, avnd efective de cte 8 cazuri.

Comentarii pentru punctele 5 i 7: distribuia obinut este una negativ (asimetric


spre dreapta, cum indic i curba supra-imprimat de pe histogram). Ea are dou valori
modale, 6 i 8, cu efective de cte 8 cazuri, dar cele dou moduri sunt la mic distan unul
de altul, semn c distribuia este una relativ omogen. Pentru aceasta pledeaz i faptul c
media i mediana au valori foarte apropiate (6,80, respectiv 7), ele fiind chiar la jumtatea
distanei dintre cele dou moduri. Fiind marcate, barele permit uor identificarea celei mai
apropiate valori de scor pn la care frecvenele cumulate se apropie cel mai mult de a 23-a
valoare, fr a o depi. Ea este scorul 6, deci valoarea imediat urmtoare (7) este mediana.
Rangurile pentru scorul 8 sunt de la 27 la al 34, ele depind punctul median.

4.7. Quiz
1. Ce msur a tendinei centrale este mai potrivit atunci cnd:
a. Distribuia are scoruri extreme sau scoruri lips?
............................
b. Avei nevoie de o estimare rapid a tendinei centrale a distribuiei?
............................
c. Avei nevoie s utilizai valoarea cea mai stabil de la un eantion la altul ...........................
2. O distribuie unimodal cu modul 20 i media 25 este un exemplu de (sunt valabile dou
opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
3. O distribuie cu mediana 27 i cu media 29 este probabil o distribuie (pot fi dou opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
4. Folosind regulile de rotunjire, raportai cu precizie de dou zecimale urmtoarele 5 numere:
a. 23,85492
b. 3,8751
c. 3,33333
d. 75,66666
e. 101,4999
---------------------------------------------------------52

5. ntr-o cercetare ce avea ca indicator mrimea fratriei s-au obinut urmtoarele rezultate:
X
fb
fc
7
1
6
0
5
2
4
3
3
7
2
10
1
25
0
74
Determinai indicatorii tendinei centrale i comentai pe scurt rezultatele obinute.
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
6. ntr-o distribuie care este asimetric spre stnga:
a. Media este mai mare dect mediana.
b. Media este mai mic dect mediana.
c. Media este egal cu mediana.
d. Media, mediana i modul se suprapun.
7. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea mai multe
opiuni):
a. Distribuia este asimetric (stnga sau dreapta).
b. Cnd distribuia este ordonat cresctor sau descresctor.
c. Cnd distribuia are numeroase goluri (valori de scor lips).
d. Cnd distribuia are valori atipice sau extreme.
e. n toate situaiile anterioare (a, b, c, d).
8. ntr-o distribuie asimetric negativ, modul ca indicator al tendinei centrale:
a. Subevalueaz media i mediana (adic este mai mic dect acestea).
b. Este aproximativ egal cu media i mediana.
c. Supraevalueaz media i mediana (adic este mai mare dect acestea).
d. Subevalueaz doar media, dar nu i mediana.
9. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea dou
opiuni):
a. Distribuia reprezint o variabil nominal.
b. Distribuia reprezint o variabil categorial.
c. Distribuia reprezint o variabil ordinal.
d. Distribuia reprezint o variabil real numeric asimetric sau cu valori extreme.
10. Media nu va fi un indicator concludent al tendinei centrale atunci cnd (putei avea mai
multe opiuni):
a. Variabila este una discontinu (discret).
b. Variabila este una categorial.
c. Variabila are valori atipice sau extreme.
d. Variabila are un numr mic de scoruri (sub 20).
e. Variabila este tipic unei scale de raport.
53

11. Putem face inferene (extrapolri de la eantion la populaie) pentru:


a. Medie.
b. Median
c. Mod.
d. Pentru medie, median i mod.
12. Modul este un indicator de poziie util pentru c d o aproximare rapid a tendinei
centrale.
a. Adevrat
b. Fals.
13. Mediana reprezint percentilul 50.
a. Adevrat
b. Fals.
14. Alegei varianta cea mai corect pentru enunul care urmeaz mai jos.
n esen mediana reprezint:
a. Un scor.
b. O frecven.
c. Un punct de pe linia scorurilor care mparte frecvenele variabilei n dou pri egale.
d. Locul n care amplitudinea scorurilor se taie n dou jumti egale.
15. Centrul de greutate al unei distribuii este dat de:
a. Median
b. Medie
c. Mod

d. Medie i median n egal msur.

16. Selectai din coloana din dreapta toate literele corespunztoare elementelor pe care le
considerai caracteristice celor trei indicatori ai tendinei centrale, trecndu-i n spaiul punctat
de sub fiecare.

Indicator
a
Mod
............................. b
............................
c
d
Median
............................ e
............................ f
g
Medie
............................ h
............................ i

Caracteristic
Este cea mai tipic valoare a unei distribuii.
Este cea mai indicativ valoare pentru raportul omogenitate/
eterogenitate.
Este cea mai vulnerabil la outlieri.
Este cea mai util n distribuiile asimetrice.
Este mai aproape de coada distribuiei n distribuiile asimetrice.
Este util pentru distribuiile care au la extreme valori de tietur
convenionale.
Nu este influenat de valorile atipice sau extreme.
Este o estimaie nedistorsionat a parametrului omonim al populaiei.
Este cea mai rapid i facil determinare a tendinei centrale.

17. n distribuiile mici (putei avea dou opiuni):


a. Modul este un indicator instabil deoarece sunt posibile mai multe valori modale.
b. Media i pierde reprezentativitatea pentru populaia din care a fost extras.
c. Mediana este profund distorsionat i de aceea va fi preferat media.
d. Media, mediana i modul tind s se suprapun.
18. n privina stabilitii, ordinea pentru indicatorii de poziie este (de la cel mai puin stabil la
cel mai stabil):
a. Medie, median, mod
b. Median, medie, mod
c. Mod, medie, median
d. Mod, median, medie.

54

CAPITOLUL 5

MSURI ALE VARIABILITII

Cunoaterea tendinei centrale ne spune foarte mult despre un set de date, dar nu poate
s ne dea o imagine de ansamblu asupra grupului investigat. Dac am avea de exemplu dou
grupuri cu coeficienii medii de inteligen de 103, am putea concluziona asupra faptului c
un grup, luat ca ntreg, este tot att de inteligent ca i cellalt grup, n sensul n care QI-ul o
indic, sau vom atepta ca ele s aibe aceeai performan medie colar sau s se comporte
similar oriunde factorul inteligen este implicat ntr-un mod important. Dar iat c primul
grup nregistreaz valori de la 93 la 113, iar al doilea de la 75 la 125, deci primul este cu mult
mai omogen dect al doilea. Este de aceea de presupus c primul grup va fi mult mai uor de
instruit, n sensul de a putea transmite cunotinele i achiziiona noile idei n acelai ritm,
ceea ce nu se poate spune i despre eterogenul grup de comparaie.
Este foarte pertinent observaia lui Clocotici i Stan (op. cit., p. 63) cnd afirm c
valoarea informaional a unui indicator statistic trebuie apreciat dintr-o tripl perspectiv:

istoric ce s-a ntmplat la un moment dat sau ntr-o situaie dat; comparativ pentru a
putea raporta situaiile similare unele la altele; predictiv ce putem presupune despre
evoluia viitoare a unui fenomen, plecnd de la cunoaterea evoluiei lui de pn la un moment
dat.
Toate aceste argumente sunt importante pentru a arta c, aa cum la tendina central
am cutat cel mai potrivit indicator care s o exprime ct mai bine, avem nevoie s lum n
calcul n aceeai form sintetic i ceea ce se petrece spre extremele distribuiei, adic relativ
la mprtiere, pentru a obine indicatori adecvai studiului algebric. n principiu, acetia ar
trebui s condenseze mult informaie, s fie uor de calculat i s se bazeze pe ct mai multe
(dac nu pe toate) dintre observaiile efectuate.
Ataai indicatorilor de poziie, cei de dispersie msoar gradul de mprtiere al
indivizilor ce compun o populaie statistic, n cadrul seriei de valori pe care le iau. Ei vor fi
indicativi pentru raportul omogenitate/eterogenitate n legtur cu caracteristica dat. Uneori,
cnd variabila reflect scri valorice sau ierarhii acceptate social, ca inteligena, venitul etc.
aceti indicatori reflect gradul de inegalitate dintre indivizi. i ntr-o situaie i n cealalt ei

55

reduc gradul de indeterminare (variabilitate) a unui fenomen, fcnd posibile att comparaia,
ct i predicia.

5.1.Amplitudinea mprtierii
Cea mai simpl msur a mprtierii, dar i cea mai srac, este cu siguran

amplitudinea mprtierii, care se definete ca diferen dintre cea mai mare i cea mai mic
valoare, dup formula:
AI = R (Range) = Xmax Xmin

(5.1)

Amplitudinea mprtierii se mai noteaz i cu AI sau V, dar noi am preferat s utilizm


simbolul R (de la englezescul Range), pentru c l ntlnim ca atare n softul de specialitate.
Deficiena fundamental a acestui indicator este aceea c el ia n calcul doar dou
valori din seria de variaie, i anume cele extreme, ntre care celelate valori pot nregistra
distribuii extrem de diferite. Mai mult, aceste valori extreme pot fi foarte atipice, aberante, n
raport cu restul seriei de variaie i de aceea ele nu vor putea fi indicative n raport cu
populaia respectiv n ansamblul ei. Iat de exemplu dou iruri de note: 6, 6, 7, 7, 8, 8, 8, 9,
9, 10 i 1, 6, 7, 7, 8, 8, 87, 9, 9, 10. n primul caz amplitudinea este de 10-6 = 4, n al doilea de
10-1 = 9, dei diferena o face doar un singur elev (care s presupunem c a fost prins copiind,
fapt pentru care a luat nota 1), n rest grupurile fiind identice.
Atragem atenia c amplitudinea mprtierii nu ine cont de forma distribuiei (una
simetric i alta asimetric, dou distribuii pot avea aceeai amplitudine). Ca o tendin de
ordin foarte general vom remarca i faptul c, cu ct numrul de observaii sau de indivizi
statistici crete, cu att crete i probabilitatea ca spectrul de variaie s fie mai larg. Asfel, un
coeficient de inteligen are probabilitatea de 25% s fie cuprins ntre 100-109, de 16,7% s
fie cuprins ntre 110-119, de 6,3% s fie ntre 120-129 i de doar 2,2% s depeasc 130,
deci trebuie ca ntr-un eantion s fie de cel puin 50 de cazuri pentru a putea spera s ntlnim
pe cineva cu o inteligen de supradotat, adic de peste 130.
Valoarile aberante, cele care modific att de mult acest indicator, relativizndu-l, sunt
considerate astfel nu pentru c variabila nu le-ar putea nregistra, cci cele mai multe dintre
variabile sunt deschise spre ambele extremiti, ci pentru c n raport cu mrimea
eantionului, probabilitatea lor de apariie este una extrem de mic i de aceea ele devin
atipice. nlimea de 200 cm, att de des ntlnit printre bastchetbaliti, este extrem de rar
regsibil n populaia general, cu o probabilitate ce poate fi dedus din tabele. Deoarece
paraziii statistici afecteaz nu numai amplitudinea mprtierii, ci i valorile de poziie, n
special media (pe care o fac inoperant), exist (cum am menionat deja) procedee de
56

detectare i eliminare a unor asemenea valori. Exist i alte procedee de a lsa pe dinafar
valorile aflate spre extreme pentru a surprinde mai bine forma unei distribuii, cum ar fi
utilizarea abaterii intercuartilice sau a celei interdecilice. Menionm faptul c, n ciuda
tuturor inconvenientelor artate, determinarea amplitudinii este primul pas pentru stabilirea
mrimii intervalelor, n operaia de grupare n clase a datelor.

5.2. Abaterea intercuartilic


Exist o multitudine de procedee prin care o distribuie este mprit n mai multe
pri egale, numite cuantile, acestea putnd fi cuartilele (4 pri), decilele (10 pri) sau
centilele (100 de pri). Vom descrie n capitolul urmtor aceast operaie de gradare pe
curb, foarte important n construirea etaloanelor i a baremelor.
Uzual, dup ce se ordoneaz valorile de la cea mai mic la cea mai mare, se determin
trei puncte de pe linia de baz, notate cu Q1 ,Q2 i Q3, numite cuartilul unu, doi i trei, care au
proprietatea de a mpri ntreaga distribuie n patru pri egale ntre ele. Evident, cuartila a
doua, cea care mparte populaia n jumti, este binecunoscuta median.

Figura 5.1. Poziia cuartilelor Q1, Q2 i Q3, abaterea intercuartilic i cele


patru sferturi rezultate pe o distribuie uor asimetric stnga (pozitiv).
Sursa: Guilford i Fruchter, 1978, p. 64.

IQR = Q3 Q1 = 2Q

(5.2)

AQ = (Q3 Q1)/2 = Q

(5.3)

Vom distinge astfel cuartilul inferior - aflat ntre Xmin i Q1, curtilul mediu-inferior - aflat ntre
Q1 i Q2, cuartilul mediu-superior - ntre Q2 i Q3 i cuartilul superior - ntre Q3 i Xmax.

57

Abaterea intercuartilic (sau amplitudinea intercuartilic) este diferena dintre


cuartila a treia Q3 i cuartila nti Q1 iar abaterea semiintercuartilic Q este jumtatea acestui
interval. n intervalul intercuartilic Q3 Q1 se afl 50% din cazuri, dar ele nu sunt centrate
pe median (Q2) dect dac distribuia este una simetric. Acest lucru poate fi uor sesizat
prin reprezentarea grafic de tip boxplot (adic cutie, vezi Figura 5.2).
Pentru o distribuie normal ntreg spectrul de variaie, desemnat de amplitudinea
mprtierii, are 7,5 abateri cuartile Q i 6 abateri standard (de care vom vorbi ulterior):
R = Xmax Xmin = 7,5Q = 6.
Raportul dintre ele este deci = 7,5Q/6 = 1,25Q. n funcie de tipul de scal de msur
utilizat, n operaia de gradare pe curb, adic de convertire a unor valori ale variabilei n
grade sau n zone egale ntre ele, se pot utiliza fie mediana i abaterea cuartil, fie media i
abaterea standard.
Abaterea intercuartilic ofer i un criteriu de identificare a valorilor aberante -

criteriul 1,5IQR -, de care am vorbit deja. Prin programul de prelucrare computerizat a


datelor SPSS se obine reprezentarea grafic numit boxplot, n care ntreaga distribuie este
definit prin 5 valori, ca n figura de mai jos: Xmin, Q1, mediana Q2, Q3 i Xmax. Limea
cutiei reprezint 50% din cazuri, n interiorul ei linia median putnd cdea pe centru (ca n
distribuiile simetrice) sau mai excentric, mai aproape de Q1 sau de Q3 (distribuii cu asimetrie
spre stnga sau spre dreapta). Liniile inferioar i superioar (sau mustile diagramei)
reprezint cea mai mic sau cea mai mare valoare care nu este un outlier, adic nu este o
valoare atipic, aflat la o distan mai mare de o cutie i jumtate (1,5 abateri intercuartile)
sau aberant (la o distan mai mare de 3 cutii) de marginile de sus, respectiv de jos ale cutiei.
160
21

140

120

100

BG

80

60
N=

24

33

1.00

2.00

SEX

Figura 5.2. Reprezentarea boxplot a testului Bender-Gestalt (B-G)


pentru genul masculin (1) i feminin (2)

58

n exemplul de mai sus este evident faptul c fetele au o distribuie cu o amplitudine


mai larg i cu o median centrat pe medie, deci cu o bun simetrie pe poriunea
intercuartilic, dar uor alungit pentru ramura superioar a distribuiei, n zona de QI 100135. Asimetria distribuiei este mai evident la biei, unde mediana cade mai aproape de
ramura scurt a distribuiei.
ncercnd s reduc o parte din neajunsurile pe care amplitudinea le introduce n
problema mprtierii, abaterea intercuartilic aduce altele, cci ea las pe dinafar jumtate
din cazuri. Chiar dac ar fi s judecm o distribuie dup ce eliminm valorile extreme i
aberante, sau pe cele aflate sub primul i peste ultimul decil (i cu att mai mult pe cele aflate
sub primul i peste ultimul cuartil), rmne de rezolvat aceeai problem, i anume gsirea
unei valori a dispersiei care, ca i n cazul tendinei centrale, s ia n calcul toate valorile
distribuiei, cu frecvenele corespunztoare. Statisticienii au i propus un astfel de indicator
(indicele lui Gini) prin care se determin o medie a abaterilor fiecrei valori de scor n raport
cu fiecare valoare, costituite ca perechi i luate n valori absolute. Aceasta presupune ns un
volum mare de munc, pe care computerul l poate rezolva rapid, dar rezultatele sunt
discutabile i neconcludente. De aceea s-au imaginat determinri ale mprtierii datelor prin
raportare la o valoare fix, care este cel mai adesea media aritmetic, tocmai pentru c ea este
uor de determinat algebric i ia n calcul toate valorile variabilei. Atunci cnd distribuia nu
este una real numeric (de interval sau de raport) sau este prea mic sau atipic, indicatorul
tendinei centrale ce va fi luat n consideraie va fi mediana.

5.3. Abaterea medie absolut


Se mai numete i abaterea medie (AM) i se definete ca fiind media aritmetic a
abaterilor absolute de la medie.

AM =

X X
N

(5.4)

Pentru datele grupate formula ei este:


k X X
(5.5)
AM =
N
n care k sunt frecvenele fiecrei clase. Pentru c n cadrul ei intr fiecare valoare a variabilei
din distribuie, abaterea medie absolut este un indicador al distribuiei mult mai precis dect
amplitudinea mprtierii. Faptul c n ambele formule de mai sus diferena de la medie se ia
59

n modul nseamn c se vor lua n calcul doar valorile absolute, fr a se ine seama de
semnul minus al valorilor negative. Exist i o valoare medie a abaterilor de la median, mai
puin utilizat, dei Yule i Kendall (1969, p. 157) au demonstrat c cea mai mic abatere
medie este atunci cnd folosim mediana, i nu media aritmetic.
n cazul distribuiilor simetrice, n intervalul X 1AM se gsesc aproximativ 57% din
cazuri, comparativ cu 68% care se afl n intervalul X 1. Deci o abatere standard este cu
aproximaie egal cu 1,25 abateri medii.

5.4. Abaterea standard i variana (dispersia)


Abaterea standard sau media ptratic a abaterilor de la medie (s sau ) i dispersia
sau variana (s2 sau 2) sunt msurile cele mai reprezentative ale variabilitii, cu o foarte
larg utilizare. Variabilitatea este de altfel una dintre nsuirile remarcabile ale ntregii
materii, cci universul nsui a evoluat de la primul big-bang (explozia originar) prin
difereniere i integrare progresiv. tefan Lupaco formula chiar un principiu al excluziunii,
potrivit cruia nu pot exista doi electroni identici pe aceeai orbit, deci diferenierea ar ncepe
chiar de la nivel subatomic.
Cu att mai mult lucrurile i fenomenele complexe integreaz elemente care, fiind
diferite, contribuie la diversificarea a tot ceea ce exist, adic la variabilitate. Ideea
diferenelor interindividuale, att de important n psihologie, este prezent nc de la Platon
(Republica) i a gsit o larg recunoatere n opera lui Darwin, la care evoluia speciilor (un
principiu universal al lumii vii) se bazeaz pe selecia, dintr-un vast patrimoniu de caractere
ce compune variabilitatea speciilor (unele ereditare, altele dobndite), doar a acelor elemente
care au o valoare adaptativ.
Dincolo de speculaiile filosofice, variabilitatea interuman ca fapt atestat tiinific
(nici chiar gemenii unizigoi nu sunt identici) este important pentru c permite exprimarea
diferenelor dintre oameni ntr-o manier cantitativ. Variabilitatea uman nu se refer doar la
lucruri simple (timp de reacie, sensibilitate a analizatorilor, discriminri de finee), ci are n
vedere toate nivelurile de analiz, de la cel perceptiv la cel cognitiv superior (unii au o
memorie bun, alii o inteligen superioar etc.), de la structurile cunoaterii la cele ale
afectivitii, voinei sau personalitii, de la individ la grup, de la o vrst la alta, fcnd
posibil exprimarea cantitativ, deci formalizarea matematic i descoperirea de legi.
Din punct de vedere statistic variana sau dispersia este egal cu media aritmetic a
ptratelor abaterilor de la media unei distribuii i ea reprezint msura geometric a
suprafeei de sub curba lui Gauss. Radical din aceasta este Abaterea Standard (AS), care este
60

o nitate de lungime standardizada a liniei ce definite lungimea unei distribuii, adic


amplitudinea mprtierii sale. Ea este notat cu s sau (sigma), AS (Abatere Standard) sau
SD (Sigma Deviation, n englez) sau chiar cu ET (carte Type, n francez). Cel mai
frecvent se folosete simbolul grecesc , dei n crile de statistic se face diferena dintre
populaia n ansamblul ei i un eantion extras din aceasta (numit de selecie), n raport cu
care aplic simboluri distincte pentru abaterea standard (, respectiv s). Astfel, pentru
populaia de baz, teoretic infinit, se folosete simbolul grec , n timp ce s se refer la o
selecie ntmpltoare din aceast populaie.
Pentru a simplifica lucrurile noi vom folosi doar unul dintre simboluri i anume pe
primul. Furnizm alturat formulele de definiie pentru vriana unei populaii (formula 13) i
pentru o frecven de distribuii a unei populaii statistice (formula 14).
f ( X ) 2
2
(5.6)
( X ) 2
2

=
=
N
N

(5.7)

Cum n realitate statisticianul opereaz pe selecii (eantioane) extrase din aceast


populaie, formulele de definiie pentru varian sunt cele de mai jos.

s2 =

( X X ) 2
N 1

s2 =

(5.8)

f ( X X ) 2
N 1

(5.9)

Formula de calcul are la fel de mult ntemeiere matematic ca i cea de definiie,


prezentnd n plus avantajul practic al operrii cu date uor accesibile, ce se pot obine i cu
ajutorul unui minicalculator cu panou statistic.

s2 =

(X ) 2
N
N 1

X 2

(5.10)

s2 =

(fX )2
N
N 1

fX 2

(5.11)

De aici rezult c cea mai uoar cale de a determina abaterea standard manual
pentru date negrupate este aceea de a obine suma valorilor individuale i suma ptratelor
valorilor individuale i de a le introduce n formula 5.12, care este rdcin ptrat din
formula 5.10. Acest lucru este valabil i pentru obinerea abaterii standard dintr-o distribuie
de frecvene, formula 5.13, care este rdcina ptrat din formula 5.11).

s=

( X )
N
N 1

X 2

(5.12)

s=

(fX )
N
N 1

fX 2

(5.13)

Dintre toi indicatorii dispersiei cel mai utilizat este cu siguran abaterea standard,
pentru c acesta este cel mai exact, avnd marele avantaj c se exprim, ca i media, prin
61

aceleai uniti de msur ca i datele iniiale pe care le prelucrm. De exemplu, dac datele
noastre se bazeaz pe metri, abaterea standard se va exprima tot n metri iar dispersia n metri
ptrai.
Prin faptul c nu cuprinde radicalul expresiei, dispersia pare mai maniabil i mai
avantajoas dect abaterea standard. De fapt, abaterea standard ofer cele mai mari avantaje
legate de discutarea distribuiilor normale, facilitnd punerea n legtur a distribuiei obinute
cu proprietile matematice ale celei ideale, exprimat prin curba lui Gauss. Prin faptul c
deviaia standard ridic la ptrat diferenele individuale de la medie, inconvenientele semnelor
minus ale abaterii medii (AM) dispar, pstrndu-se doar proprietile matematice, de unde
rigurozitatea crescut a abaterii standard n raport cu abaterea medie. Ea poate fi folosit n
operaii algebrice n sensul n care o scal de interval sau de raport o permite.
Pe un minicalculator cu panou statistic sunt afiate urmtoarele valori:
N

= numrul de valori (cazuri) introduse;

= media aritmetic a acestora;

= abaterea standard i 2 = dispersia;

X = suma valorilor individuale;


X2 = suma ptratelor valorilor individuale.
Minicalculatorul indic automat valoarea abaterii standard pentru coloana de date
introduse, dar ofer i posibilitatea deducerii acestei msuri cnd reunim dou eantioane, fr
a introduce de dou ori datele. Aceasta ar presupune o operaie foarte laborioas ce trebuie
fcut cu mare atenie i verificat, deoarece orice eroare de introducere altereaz cele dou
valori fundamentale ale tendinei centrale, media i abaterea standard.
Fie exemplul de la cursul 2:
Biei

Fete

NX

52

6,98
1,81
363
2701

X
X
X2

Total
41

NY
Y

7,29
1,58
299
2281

Y
Y
Y2

NX+NY=NZ
Z
Z
X+Y=Z
X2+Y2=Z2

93
7,12
1,71
662
4982

Din date combinate rezult c media total este de 7,12 iar abaterea standard de 1,71.
n concluzie, la determinarea abaterii standard pentru eantioanele reunite este nevoie de suma
ptratelor valorilor individuale i de suma valorilor individuale.

62

5.4.1. Semnificaia abaterii standard


Am fcut deja distincia ntre abaterea standard a unei populaii i cea obinut pe o
colecie de date corespunznd unui eantion dintr-o populaie. Distingem de asemenea
variabilitatea inter-individual (dintre indivizi sau between), cel mai adesea luat n calcul, i
cea intra-individual (within, pentru acelai individ de-a lungul timpului, la examinri repetate
ale aceleiai caracteristici sau msurtori ale unor caracteristici diferite).
Marele avantaj al abaterii standard este c n cazul distribuiilor gaussiene simetrice,
ea poate fi luat ca unitate de msur pe abscisa curbei (poligonului sau histogramei)
frecvenelor.

Deoarece X = 25 i = 5, distana dintre 25 i 30 este de o abatere standard (1 = 5


uniti brute), dintre 20 i 30 este de 2 = 10 uniti brute; dintre 15 i 35 este de 4 = 20
uniti brute; dintre 10 i 40 este de 6 = 30 uniti brute.
Deci ntr-o distribuie simetric tipic, obinut pe o populaie extins, exist 3 sub
medie i 3 peste medie, ceea ce se poate scrie R = X 3, n care R este amplitudinea
mprtierii. nseamn c amplitudinea R (range) este egal cu 6 abateri sigmatice i c 1 =
R/6, deci abaterea standard devine unitate de msur pentru ntreaga ntinderea variaiei.
Relaia amintit se verific pe msur ce N crete:
R/ = 4,50

cnd N > 50

R/ = 5

cnd N > 90

R/ = 6

cnd N > 200.

63

De asemenea msoar distana la care se afl o valoare oarecare (brut) n raport cu media.
O distan sau interval dat n cote brute poate fi exprimat n uniti sigmatice, mprind
distana respectiv (X - X) la abaterea standard. Vom avea un punct de referin 0,
corespunznd mediei, i cotele transformate, adic scorurile z, pentru care formula de calcul
n funcie de statisticele eantionului este:

z=

XX

(5.14)

Formula datelor brute ale variabilei exprimat n note z este: X = z + X

(5.15)

ntr-o distribuie tipic normal, unde exist 3 abateri sub i peste medie, notele z vor
varia ntre 3 i +3, trecnd prin 0. Cu ajutorul notelor z putem face comparaii directe, ele
reunind cei mai importani indicatori de distribuie (media i abaterea standard), variaiile
diferite fiind aduse la acelai numitor comun.

5.5. Coeficientul de variaie


Dei abaterea standard d o informaie relevant despre gradul de mprtiere al
variabilei n jurul mediei, din care s-ar putea concluziona n legtur cu omogenitatea/
eterogenitatea populaiei respective de date, sau chiar n legtur cu diversitatea i inegalitatea
dintre indivizii statistici care o compun, acest indicator nu poate servi prin el nsui la
comparaii.
Unul dintre avantajele abaterii standard, acela de a se exprima n aceleai uniti de
msur ca ale variabilei respective, este i cel care mpiedic comparaia mai multor abateri
standard ntre ele, cci fiecare se exprim n alte uniti de msur. De exemplu, ar fi greu s
comparm dispersia salariilor exprimate n monede diferite (lire slabe italiene i lire tari
englezeti), sau chiar n aceeai moned la momente de timp diferite (leul slab de la
sfritul a 15 ani de inflaie i leul tare de dup denominaie). O soluie ar fi raportarea la o
moned extern, stabil n timp, dar inflaia lent o poate atinge i pe aceasta.
Pentru a fi posibil comparaia asupra raportului omogenitateeterogenitate ar fi deci
de preferat s avem o valoare amodal (care elimin problema unitii de msur), lucru intuit
de Pearson, care a propus pentru aceasta un indicator numit coeficient de variaie, notat cu V:

V=

(5.16)
X
El reprezint raportul abatere standard/medie i arat de fapt ce fraciune din medie i
corespunde unei abateri standard. Prin faptul c unitile de msur apar i la numrtor i la
numitor, prin simplificare se obine un indicator amodal. Elegana lui este ns subminat de
64

capcanele pe care acesta le presupune: el este aplicabil doar variabilelor msuratede pe scara
de raport (dar i acolo cu pruden), deoarece prin translaia valorilor, originea poate fi astfel
plasat nct media s devin zero, fcnd ca raportul s nu mai aib sens.

5.6. Indicatori ai formei distribuiei


Problema formei distribuiei se pune cu precdere pentru variabilele continue, care prin grupare - evideniaz foarte clar distribuiile frecvenelor. Se pune de asemenea pentru
numerele mari, a cror distribuie tinde spre o regularitate din ce n ce mai accentuat odat cu
creterea numeric. ntruct statistica clasic i distribuiile empirice i gsesc un puternic
suport n curba lui Gauss ca model ideal de distribuie, se impune o dubl comparaie:

a jumtii stngi cu cea dreapt a unei curbe, pentru a determina simetria/ asimetria
acesteia, creia i se mai spune i oblicitate (skewness, n englez);

a distribuiei reale cu cea ideal, pentru a determina gradul de suprapunere sau


excesul/ deficitul n sensul supranlrii sau al subnlrii prin indicatorul boltirii
(kurtosis nseamn n englez cocoa).

5.6.1. Coeficientul de asimetrie (skewness) i boltirea (kurtosis)


Pentru a lmuri problema boltirii i a simetriei este nevoie s clarificm noiunea de

moment centrat de un anumit ordin. Aici se evideniaz nc o dat importana mediei ca


indicator al tendinei centrale, deoarece n orice moment, de indiferent ce ordin, intervine
media aritmetic. Astfel:

Momentul centrat de ordinul nti consfinete natura mediei ca centru de greutate al


unei distribuii, deoarece:

1 =

(5.17)

Momentul centrat de ordinul al doilea este chiar variana (dispersia):

2 =

(X X ) = 0

(X X )
N

=2

(5.18)

Momentul centrat de ordinul al treilea este indicatorul pentru asimetrie:

3 =

(X X )
N 3

= asimetrie / skewness

(5.19)

ntr-un fel, raportul X/, ca indicator al coeficientului de variaie, i gsete justificarea n


faptul c i pentru asimetrie se introduce la numitor abaterea standard (ridicat la cub

65

pentru a fi n consens cu numrtorul), obinndu-se astfel o mrime amodal i


standardizat. Valorile apropiate de zero indic simetria, n timp ce valorile negative
indic curbele asimetrice prin deplasarea spre dreapta iar cele pozitive spre stnga.

Pentru boltire avem nevoie de momentul centrat de ordinul al patrulea:

4 =

(X X )

N 4

3 = 2 3 = kurtosis

(5.20)

n care 2 nlocuiete toat prima parte a expresiei de mai sus (vezi Pitariu, 1994, p. 208).
ntr-o distribuie normal, indicele de boltire 2 este egal cu 3. Atunci cnd kurtosisul ia
valoarea zero, repartiia este numit mezokurtic, dac este mai mare ca zero ea este
leptokurtic (curb nalt, ascuit), iar cnd este sub zero, adic negativ, ea se numete
platikurtic (curb plat, joas sau prbuit). Kurtosisul poate fi determinat i n funcie
de punctele percentile C10, C25, C75 i C90

Ku =

(pentru curba mezokurtic).

(C75 C25 ) 2 Q 2
(5,21)
=
= 0,2632
C90 C10
D

Curba leptokurtic i platikurtic dau valori mai mici, respectiv mai mari dect 0,2632
(vezi Pitariu, op. cit., p. 208). Exemple pentru cele trei tipuri de distribuii sunt prezente n
figura de mai jos.

5.7. Exerciii i aplicaii practice


1. Presupunem c datele de mai jos (X) reprezint evaluri medii rotunjite extrase
dintr-o populaie studeneasc larg, cu media = 6 i abaterea standard = 1,50.
X = 1 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 5 6 6 7 7 7 7 8 8 8 9 9 10
a. Reprezentai grafic distribuia acestor date.
b. Convertii distribuia dat n una X .
c. La pasul urmtor convertii aceast distribuie ntr-o distribuie z.
2. Utiliznd distribuia de la exerciiul precedent determinai notele z atunci cnd X =
4,5, 7,25 i 9. De asemenea, determinai valoarea lui X cnd z este 1,33, -2,15, -0,56 i 1,97.
66

3. Rezultatele unui test de citire pentru clasa a cincea a dat media de 25 i abaterea
standard de 5, n timp ce un alt grup de copii de clasa a opta a obinut la acelai test media de
30 i abaterea standard de 10. Cerine:
a. Reprezentai grafic cele dou distribuii, pe aceeai figur.
b. Ce procentaj din cei de clasa a cincea scoreaz mai bine dect elevul mediu de a opta?
4. Calculai media, abaterea standard i mediana pentru urmtoarele date:
a. 2 12 27 33 9 21 10 9 6 11 23 25 27 14 10 5
X
152
148
146
138
131
118
105
102

fb
3
5
7
5
8
4
3
2

5. Care indicatori ai tendinei centrale sunt mai indicai atunci cnd:


a. avei multe scoruri lips sau destule valori extremen baza de date
b. dorii o determinare rapid
c. dorii valoarea care este cea mai stabil de la un eantion la altul.
6. O distribuie unimodal cu modul de 44 i media de 35 este un exemplu de
distribuie: a. asimetric stnga

b. simetric

c. asimetric dreapta.

7. Examinai cu atenie cele patru distribuii de mai jos dup care facei o descriere
detaliat a fiecreia, fcnd referire la mrimea/ volumul distribuiei, la ce se poate spune
dup o inspecie vizual atent n legtur cu indicatorii tendinei centrale, mprtierii i
formei distribuiei.

67

CURSUL 6

INFERENA STATISTIC

6.1. Introducere
Cel mai adesea atunci cnd facem anchete, sondaje, experimente sau teste, avem n
vedere o populaie int mai larg pe care ar trebui s o investigm integral. Practic, de cele
mai multe ori, acest lucru este imposibil din cauza volumului de munc enorm, a costurilor
ridicate, a timpului lung de investigare, a degradrii materialelor i instrumentelor etc. i de
aceea cutm un compromis rezonabil ntre toate acestea i precizia tiinific, alegnd aaanumitul eantion convenabil.
n asemenea cazuri din populaia avut n vedere se extrag eantioane1, care n
statistic se numesc selecii, termen impropriu dup Smith (1971, p. 29), pentru c el
sugereaz alegerea intenionat selectiv, dup anumite criterii. Ori condiia fundamental n
teoria seleciei este ca extragerea acestora s se produc la ntmplare, aleator, cci
eantioanele pe baz de ntmplare sunt de nalt improbabilitate (op. cit., p. 3). n final,
concluziile trase de pe asemenea eantioane populaionale sunt extrapolate asupra ntregii
colectiviti vizate prin cercetare, problema care se pune fiind ct ncredere (fundamentat
matematic) putem avea n concluziile noastre.
Orice grup natural intact, luat n compoziia sa dat, poate fi considerat un eantion
extras la ntmplare (dac nu am introdus chiar noi factorii de selecie, aflai sub control
experimental). Aplicnd la mai multe clase de elevi (selecii aleatoare) acelai test, constatm
fluctuaii de la o clas la alta, numite fluctuaii de eantionaj, la nivelul unor procente, medii,
abateri standard etc. n ce msur datele astfel obinute sunt relevante pentru ntreaga
populaie din care lotul de lucru a fost extras este principala problem a inferenei statistice.
Lund ca baz valorile eantionului ales i extrapolndu-le la ntreaga populaie din care el a
fost extras se comite o anumit eroare, a crei valoare evident c va trebui s fie ct mai mic.
n psihologie, pedagogie, sociologie multe dintre datele rezultate din msurtoare teste, anchete, chestionare - dac sunt determinate din analiza unor selecii de volum mare i
1

Atragem atenia asupra termenului de eantion care, n sens foarte strict, presupune utilizarea unei metode sau a
unui procedeu de eantionare. De aceea este de preferat s folosim termenul de eantion doar n acest caz, n rest
putnd utiliza termenii de lot, grup etc.

68

nedistorsionate (experimental sau natural), tind s se distribuie conform curbei probabilitii


normale. De aceea noiunile statistice de semnificaie i de ncredere pot fi exprimate n
termeni de probabilitate, prin referire la caracteristicile curbei lui Gauss.

Figura 6.1. Probabilitile producerii evenimentelor statistice asociate suprafeelor curbei gaussiene

Cum se observ, n poriunea haurat X 1,96 cad 95% din cazuri, 5% fiind n
afara acestei zone; n poriunea X 2,58 cad 99% din cazuri, doar 1% din cazuri fiind n
exteriorul acestui interval (5% i 1% fiind distribuite simetric, n dou jumti egale la
capetele curbei). Prin aducerea oricrei distribuii normale reduse la o distribuie etalon, n
note z (cu o medie zero i o abatere standard de 1) s-a generat un tabel al legii normale
reduse, care ne permite s vorbim de semnificaie i ncredere n termeni de ans i de
probabilitate. Conform acestui tabel exist probabilitatea de 95 la sut ca o valoare s cad n
intervalul X 1,96 i de 5 la sut n afara acestui interval; probabilitatea de 99 la sut de a
cdea n intervalul X 2,58 i doar de 1 sut n afara acestui interval; de 999 la mie de a
cdea n intervalul X 3,3 i numai o ans dintr-o mie de a fi n afara lui.

6.2. nelesul conceptului de semnificaie statistic


O msur obinut ar fi adevrat dac am investiga fie un numr mare de cazuri
(teoretic infinit), fie toate cazurile care o compun. Cum aceasta nu este practic posibil, pentru
c se opereaz cu eantioane mai mici, extrase din populaia de baz, media, abaterea standard
sau ali indicatori sintetici obinui sunt de fapt estimri ale msurii adevrate, aceast
estimaie fiind cu att mai bun cu ct este mai stabil, deci cu ct variabilitatea, mprtierea
69

msurrilor pe diferite eantioane din aceeai populaie este mai mic. A doua condiie este ca
volumul eantionului s fie mare, cci cu ct volumul su crete, precizia valorilor msurate
crete i ea (dac eantionul este aleator i nedistorsionat). De aceea conceptul de semnificaie
implic att variabilitatea (adic pe ) ct i numrul (N).

6.3. Eroarea standard a unei medii de selecie i semnificaia ei


Este locul s facem distincie ntre variabil i parametru: variabila (termen statistic
consacrat) este cuprins ntre nite limite ale registrului de variaie, care constituie domeniul
ei de definiie, pe care nregistreaz anumite frecvene (domeniul variabilei); foarte adesea ea
este una continu. Prin opoziie, parametrul este o caracteristic constant a unei populaii.
Media nlimii sau a greutii unei populaii sunt parametri, dei din perspectiva genetic
nlimea i greutatea sunt variabile, deoarece ele cresc odat cu vrsta. Dar chiar mediile
acestor variabile pot fi tratate ele nsele ca variabile: atunci cnd vrem s aflm nlimea unei
populaii de 12 ani, putem extrage un numr foarte mare de eantioane din acea populaie i,
reunind mediile (parametrii) diverselor eantioane, vedem c ele se comport ca nite
variabile, pentru c se plaseaz mai strns sau mai larg n jurul unei medii a mediilor,
respectnd legile distribuiei normale (gaussiene). De aceea este posibil s se considere
mediile de selecie (ale eantioanelor) ca variabile aleatorii/ ntmpltoare, s se trateze
mprtierea lor n termeni probabilistici i s se extrapoleze concluziile asupra populaiei de
baz. Abaterea standard a unei asemenea colecii de medii de selecie este denumit eroare
standard a mediei i se estimeaz dintr-un singur eantion extras aleator dup formula:

ES = S X =
Cnd N este mai mare de 100:

s
N 1

(6.1)

s
N

(6.2)

SX =

n care s este abaterea standard de selecie, iar N este numrul cazurilor (volumul seleciei).
Formulele de mai sus sunt ntrebuinate pentru a estima ct de mult se apropie media de
selecie X de media populaiei totale ().
Exemplu: la testul Domino 48 (D 48) 226 de copii de 15 ani au obinut valoarea medie
a scorului de 41,20 cu o abatere standard de 18.

ES = S X =

18
18
=
= 1,20
225 15

Se poate afirma c, pentru un grad de ncredere limitat (pentru 68% din cazuri), media
real se afl ntre 41,201,20, adic ntre 40 i 42,40; c pentru un nivel mai ridicat de
70

ncredere (pentru 95% din cazuri) media real se afl ntre 41,201,961,20, deci ntre
41,202,35, adic n intervalul 38,85 i 43,55; i, n sfrit, pentru un nivel de ncredere foarte
ridicat (pentru 99% din cazuri) aceast interval este 41,202,581,20, deci 41,203,10, adic
media cade cu o probabilitate de 99% n intervalul 38,10 i 44,40. n primul caz riscul de
eroare este de 100-68,32 = 31,68% (eroare foarte mare), n al doilea caz de 5% (acceptabil) iar
n ultimul caz de 1% (foarte mic, deci foarte acceptabil).
Se obinuiete s se noteze riscul de a grei pe care ni-l asumm fcnd o aseriune sau
alta i pentru aceasta s-a introdus conceptul de prag sau nivel de semnificaie. Astfel,
intervalul X 1,96Sx se numete interval de ncredere la pragul de 0,05 (exist riscul de
eroare de 5% ca adevrata medie s cad n afara acestui interval); intervalul de X 2,58Sx se
numete interval de ncredere la pragul de 0,01 (exist risc de eroare doar de 1% din cazuri).

6.4. Eroarea standard a unui cuantum procentual i semnificaia ei


ntr-un studiu s-a detectat la 6 ani 10 stngaci din 64 de biei investigai i 6 stngace
din 56 de fete. Procentul p al bieilor este de 15,63% iar al fetelor este de 11,11%.
Eroarea frecvenei are urmtoarele valori pentru biei i fete:
Ep = S p =

15,63 84,37
11,11 88,89
= 20,60 = 4,54 la baieti; Ep = S p =
= 17,64 = 4,20 la fete
64
56

n care p a fost deja determinat (15,63), iar q este procentajul complementar (q = 100-p, n
cazul nostru q reprezintnd dreptacii); pentru biei q este 84,37 iar pentru fete q este 88,89.
Putem concluziona c pentru biei proporiile reale se afl - la un prag de ncredere de
5% - ntre limitele p1,96Sp n intervalul 15,631,964,54 = 15,638,9, adic ntre limitele
6,73 - 24,53; la un prag de ncredere de 1%, ntre limitele p2,58Sp, n intervalul
15,632,584,54 = 15,6311,71, adic ntre limitele 3,92 - 27,34. La fete localizrile
proporiilor reale vor fi determinate n mod analog: 11,111,964,20 = 11,118,23, n
intervalul 2,88 - 19,34, pentru un prag de ncredere de 5% i 11,112,584,20 = 11,1110,84,
n intervalul 0,27 - 21,95, pentru un prag de ncredere de 1%.

6.5. Sarcini sau probleme de comparaie


ntr-un exerciiu anterior (aplicaie la cursul 4) pe unul din factorii testului de
personalitate HSPQ 52 de biei aveau X = 9,75 i = 3,15, iar 41 de fete aveau X = 10,56
i = 3,40. Diferena mediilor celor dou grupuri (9,75-10,56 = -0,81) este suficient de mare
pentru a afirma c nu este datorat hazardului i a construi tabele de norme separat pentru cele

71

dou genuri? Aceast problem o rezolv testul semnificaiei diferenei celor dou medii,
hotrtor n luarea deciziei. Diferena poate fi semnificativ statistic la un anumit prag de
semnificaie (i atunci tratm separat cele dou grupuri) sau nesemnificativ, adic datorat
ntmplrii. n aceast situaie mrirea numeric a eantioanelor sau alegerea altor eantioane
ar putea nivela, eventual chiar inversa sensul diferenei.
Facem urmtoarele precizri: cu ct numrul de cazuri este mai mare, cu att mai mult
aceeai diferen dintre medii crete ca semnificaie; cu ct variabilele sunt mai centrate pe
medie (abaterea standard mai mic), cu att diferenele tind s fie mai semnificative.
a

n cazul a i n cazul b de mai sus, valoarea diferenei mediilor nu este aceeai, dar n
primul caz ea este semnificativ (dispersie mic, ce au n comun cele dou eantioane este
mult mai puin dect ceea ce au ele diferit), pe cnd n cazul b poriunea comun este att de
mare (din cauza dispersiei mari) nct ele pot fi considerate ca fcnd parte din aceeai
populaie i tratate n comun. Calculul semnificaiei diferenei dintre dou medii se face n
funcie de mrimea eantioanelor (mari sau mici) i a faptulului dac sunt corelate ntre ele n
vreun fel sau sunt independente.

6.6. Eantioane necorelate de volum mare. Ipoteza de nul


Limita dintre eantioanele de volum mic i cele de volum mare este mai curnd una
arbitrar, tabelele tratnd difereniat problema pentru o valoare critic a lui N de 30 de cazuri.
Pentru unele tipuri de analize, ca analiza factorial de exemplu, numerele mari nseamn ns
sute, uneori mii de participani.
n legtur cu faptul dac eantioanele sunt independente sau corelate trebuie fcute
cteva precizri importante. n principiu distincia are n vedere faptul c participanii la un
experiment sunt msurai o singur dat sau de mai multe ori pe parcursul aceluiai

72

experiment. Atunci cnd pentru fiecare condiie experimental este alocat un alt grup de
subieci, acelai subiect neparticipnd la mai multe tratamente experimentale, eantioanele se
numesc independente. n acest caz n rezultatul final al interveniei vor interveni cu ponderi
diferite dou surse majore ale variabilitii datelor, una care se refer la tratamentul
experimental n sine i alta datorat diferenelor individuale dintre membrii alocai diferitelor
condiii/ grupuri experimentale, care niciodat nu vor fi perfect echivaleni. Acest tip de
eantion n care participanii sunt msurai o singur dat se cheam eantioane independente.
Testarea diferenelor mediilor pentru variabila dependent are n vedere testul t pentru
eantioane independente (necorelate).
Din aceast perspectiv pare a fi mult mai avantajos ca acelai grup experimental s
treac prin toate fazele, etapele sau condiiile experimentale, situaie n care variabilitatea
interindividual (fiind aceeai) nu mai intervine n determinarea efectului final, practic ea ne
mai contnd. Acest tip de design experimental are o mult mai mare capacitate de a pune n
eviden efectul curat al unui tratament experimental, dac acesta exist cu adevrat.
Puterea cercetrii (adic posibilitatea rejectrii ipotezei nule) este mai mare n acest al doilea
caz, i atunci apare firesc ntrebarea de ce nu sunt folosite exclusiv acest tip de eantioane,
care prezint i alte avantaje suplimentare. Astfel, eantioanele corelate permit un mult mai
bun control al variabilelor externe ce pot distorsiona rezultatele cercetrii. Exist i un mare
avantaj financiar legat de acest tip de eantioane, deoarece ele sunt mai economice, n msura
n care acelai efect este pus n eviden cu un numr mult mai mic de participani.
Dezavantajele acestui tip de eantionare sunt i ele de luat n calcul n proiectarea
cercetrii. n principal efectele de ordine i efectele de nvate sunt cele care trebuie avute n
vedere cci, participnd la toate condiiile experimentale, apare efectul de ordine n
performan generat de chiar succesiunea n care tratamentele au fost administrate. Acest fapt
ar putea fi rezolvat prin contrabalansare (ordini aleatoare ale tratamentelor), dar expunerea la
msurtorile i tratamentele iniiale genereaz reactivitate, i deci o anumit sensibilizare la
tratamentele ulterioare. Efectul de nvare acioneaz nesistematic, adic n mod inegal
asupra participanilor, de unde i implicaiile negative asupra validitii interne a cercetrii.
Atunci cnd eantioanele sunt de volum mare (peste 30) i independente (necorelate),
procedeul de calcul al semnificaiei diferenei mediilor se face n ase trepte (pai):
a. Se calculeaz cele dou medii.
b. Se calculeaz cele dou abateri standard (de selecie) ale distribuiilor.
c. Se calculeaz erorile standard ale celor dou medii.
73

d. Se calculeaz eroarea standard a diferenei dintre cele dou medii dup formula:
2

S X Y = S X SY

sY
sX
=
+
=
N 1 N 1
X
Y

sX
s
+ Y
N X 1 NY 1

(6.3)

e. Se calculeaz semnificaia statistic a diferenei mediilor dup formula:


t=

X Y
=
S X Y

X Y
2

(6.4)

sX
s
+ Y
N X 1 NY 1

f. se evalueaz t n tabela corespunztoare. n cazul nostru:


Biei

t=

10,56 9,75
3,152 3,402
+
51
41

Fete

52

42

9,75

10,56

3,15

3,40

10,56 9,75
0,81
0,81
0,81
=
=
=
= 1,17.
9,92 11,56
0,195 + 0,28 2
0,477 0,69
+
51
41

n tabelul legii normale de distribuie t, cea mai apropiat valoare de 1,17 este 1,20, la
care ansele de eroare sunt de 23%, mult mai mari dect 5% (primul prag de semnificaie) sau
dect 1% (al doilea prag de semnificaie), deci se poate considera c diferena dintre cele dou
medii este una ntmpltoare, datorat hazardului, fluctuaiilor de eantionaj etc.
n statistic ne micm ntre dou ipoteze contradictorii: ipoteza specific Hs, care este
de fapt ipoteza de cercetare (ce afirm c diferena dintre medii este una real, care nu se
datoreaz ntmplrii) i ipoteza de nul Ho, care presupune c diferenele aprute sunt datorate
hazardului, erorilor de eantionare etc. Dac plasm pe o ax orizontal probabilitatea de
eroare obinem reprezentarea de mai jos:
p=5%

p < 5%

p=1%

p < 1%

Probabilitatea 1----------------------------- 0,05 ----------------------- 0,01 -------------------------- 0


Ho se consider infirmat
Ho nu se consider infirmat
se suspend decizia
i se accept Hs
t sau z calculai
1,96
2,58
Cele dou limite ale semnificaiei

74

a. dac t calculat (sau z, pentru eantioanele cu volum de peste 30 de participani) este mai
mic de 1,96 nseamn c diferena este nesemnificativ statistic, ipoteza de nul neputnd fi
rejectat;
b. dac t are valoare mai mare de 2,58 se admite n mod ferm ipoteza specific, la un nivel de
ncredere de 1%;
c. dac t este cuprins ntre 1,96 i 2,58 nseamn c semnificaia diferenei mediilor este una
nesigur, rezultatul rmnnd n dubiu (nivel de ncredere de 5%).
Tradiia a acreditat ca praguri de semnificaie p 0,05 ( sau p .05), pentru situaii n
care riscul lurii unei decizii nu are implicaii practice sau teoretice mari, i pragul de p 0,01
(sau p . 01) pentru deciziile majore sau care implic un risc crescut.

6.7. Eantioane de volum mare, corelate


Cnd acelai grup este comparat cu el nsui, nainte i dup introducerea unui factor
experimental sau atunci cnd dou grupuri au fost prealabil comparate, egalizate i puse ntr-o
situaie prin care se influeneaz reciproc, vorbim de eantioane (selecii) corelate. Exist de
asemenea eantioane perechi construite astfel nct fiecrui element dintr-un eantion s-i
corespund un altul din cellalt eantion, cu care formeaz pereche (eantioane apariate). n
felul acesta se pot compara dou procese didactice sau de instruire, la originile sale cele dou
eantioane fiind egalizate dup unul sau mai multe criterii (QI, nivel de cunotine, vrst,
apartenen de gen etc.), cu ct criteriile sunt mai numeroase comparaia fiind mai ntemeiat,
dar cu dificulti i costuri aferente tot mai ridicate. Aa a procedat Gily atunci cnd a
comparat 28 de elevi buni cu 28 de elevi slabi apariai pentru a determina cauzele diferenei
de performan colar, pentru niveluri egale ori direct comparabile de inteligen, vrst, gen
sau profesiune a prinilor. Formula de calcul a erorii diferenei mediilor este n acest caz
urmtoarea:

S X Y = S X + SY 2rXY S X SY

(6.5)

Apare aici un simbol nou rxy care este coeficientul de corelaie. Se observ c S X Y
(eroarea diferenei celor dou medii ale eantioanelor corelate) este tot mai mic pe msur ce
corelaia crete. Deci corelaii mai mari dau valori tot mai mari ale lui t, cci n rest formula
este aceeai:

t=

X Y
S X Y

75

(6.6)

6.8. Semnificaia diferenei dintre dou cuantumuri procentuale


n exemplul anterior relativ la lateralizare, procentajul stngacilor i al stngacelor este
diferit (15,63 - 11,11 = 4,52), dar este aceast diferen semnificativ statistic sau este doar
una datorat ntmplrii? Pentru a rspunde la ntrebarea de mai sus trebuie s calculm
eroarea standard a diferenei dintre cele dou cuatumuri procentuale (procentaje de selecie),
dup formula:

S( p1 p 2 ) = S p21 S p22

S( p1 p2 ) =
Cum diferena t =

(6.7)

p1q1 p2 q2
+
N1
N2

(6.8)

p1 p2
, valoarea lui t pentru N mai mare de 30 va fi dat de formula 6.9
S ( p1 p 2 )

iar pentru N sub aceast valoare de formula 6.10.

t=

p1 p 2
p1q1 p 2 q 2
+
N1
N2

1
1
p 2
p1
2 N1
2N2
t=
p1q1 p 2 q 2
+
N1
N2

(6.9)

(6.10)

n cazul nostru diferena nu este semnificativ statistic pentru c nu atinge un t critic de 1,96
(p = 5%) sau 2,58 (p = 1%), dei n realitate stngacii sunt de aproximativ patru ori mai
frecveni dect stngacele. n cazul nostru:
t=

15,63 11,11
=
15,63 84,37 11,11 88,89
+
64
56

4,52
4,52
=
= 0,73.
20,60 + 17,64 6,18

6.9. Tabelele t i z pentru testele de semnificaie


Cu toate c este de dorit s se lucreze cu selecii sau eantioane de volum mare, n
psihologie adeseori suntem pui n situaia de a lucra cu selecii de volum mic. Chiar mrimea
obinuit a claselor noastre (ntre 20 i 30 de elevi) ne oblig la aceasta. n plus, multe dintre
prelucrrile statistice presupun ruperea eantioanelor de volum mare n subeantioane mai

76

mici, dup diverse criterii: al apartenenei de gen, al vrstei, al primilor i ultimilor la


nvtur, al subrealizailor, realizailor sau suprarealizailor colar, dup prezena sau
absena unui atribut sau nsuiri. Multe date rezultate din msurtori senzoriale sau fiziologice
au o relativ stabilitate i se preteaz la acest tratament statistic.
Cnd eantioanele de cercetare sunt de volum mic, nu se mai poate presupune o
distribuie normal i de aceea tabelele z (ce exprim curba distribuiei normale reduse) au
fost nlocuite cu tabelele Student pentru valori t, de ctre W. S. Gosset, modificate, extinse
i perfecionate ulterior de ctre R. A. Fisher. Tabelele z i t dau n principiu aceeai
informaie, adic ne indic probabilitatea ca o valoare exprimnd diferena dintre medii i
procente s apar din cauza unor variaii ntmpltoare, rezultate din selecia eantionului.
Diferenele dintre cele dou tabele sunt urmtoarele:
1. Tabelele t dau valori pentru o singur valoare a lui N, care este cuprins ntre 30 i
infinit; tabelele Fisher (z) iau n considerare toate valorile lui N sub 30.
2. Tabelele z opereaz cu probabilitate exprimat n procente din 100 anse, tabela
Fisher opereaz cu fracii zecimale. Astfel p = 0,01 corespunde lui 1% sau o ans din o sut,
iar p = 0,50 cu 50 de anse la o sut (o ans din dou).
3. n tabela z aceasta are un numr de valori care variaz din aproape n aproape (la
una sau dou zecimi), n timp ce t este calculat pentru un numr relativ mic de valori alese
sistematic, cele mai importante fiind cele critice (p = 5%; p = 1%).
4. n tabelele Fisher nu apare n prima coloan din stnga N, ci f, care simbolizeaz
numrul de grade de libertate (degree of freedom). Cnd se lucreaz cu un singur grup sau cu
grupuri corelate f = N-1; cnd se lucreaz cu grupuri independente f = NX + NY - 2 iar cnd
grupul depete 30, tabelele z i t se egalizeaz.

6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate


Dei n esen metoda de calcul a diferenelor mediilor eantioanelor de volum mic
este aceeai ca i pentru eantioanele de volum mare (calcularea lui t, urmat de raportarea la
un tabel i determinarea faptului dac probabilitatea de eroare este sub sau peste un prag
critic), la eantioanele de volun mic apare o mare simplificare: n loc de a calcula dou medii,
dou abateri standard i apoi eroarea standard a diferenelor dintre mediile celor dou
eantioane, aici se lucreaz cu o singur medie, adic media diferenelor de performan a
subiecilor n situaia X i n situaia Y, sau la grupul 1 i grupul 2 cu care a fost egalizat i pus
n situaia de competiie (grupul martor i grupul de control). Ipoteza de nul este n acest caz
presupunerea c diferena mediilor dintre grupuri este zero, iar ipoteza specific este aceea c
77

diferena mediilor este semnificativ (la un prag specific diferit de zero). De exemplu, se tie
c diabetul juvenil poate ncetini dezvoltarea creterii dac boala s-a declanat nainte de
pubertate. Pentru a verifica acest lucru s-au msurat nlimea i greutatea pentru dou loturi
care au fost egalizate dup criteriul vrstei i al genului.
nlime

Greutate

Pretest

Posttest

Diferena

Pretest

Posttest

Nr

= Y-X

162

164

154

= Y-X

57

58

159

25

43

54

11

121

153

148

-5

25

48

50

167

163

-4

16

60

55

-5

25

133

142

81

38

50

12

144

138

140

39

39

154

156

47

43

-4

16

162

166

16

58

60

160

159

-1

56

60

16

10

148

163

15

225

50

52

11

142

145

48

47

-1

12

140

139

-1

44

45

13

149

170

21

441

49

51

14

131

140

81

39

42

149,50

153,86

61

993

48,29

50,43

30

350

A. Pentru nlime:
61
=
= 4,36
N 14

1. =

2. s 2 =

3. S =

4. t =

( ) 2
N = 993 265,79 = 55,94
N 1
13

s
7,48
=
= 2,07
N 1
13

4,36
=
= 2,11
S 2,07

78

s = 55,94 = 7,48

Diferena

5. Din tabela lui Fisher selectm pe p. Cea mai apropiat valoare este pe linia f = N-1
(13), n dreptul coloanei a 6-a la 2,16 (comparativ cu 2,11 obinut de noi). Aceasta nseamn
c exist mai mult de 5% anse de eroare n respingerea ipotezei de nul i deci aceasta nu va
putea fi rejectat. Fr a atinge pragul semnificaiei statistice (p < .05) diferena tinde totui s
fie semnificativ. Mrirea eantionului ar putea duce probabil la atingerea acestui prag minim
necesar respingerii ipotezei nule.
B. Pentru greutate:

30
=
= 2,14
N 14

1. =

2. s 2 =

3. S =

4. t =

( ) 2
N = 350 64,29 = 21,98
N 1
13

s = 21,98 = 4,69

s
4,69
=
= 1,30
N 1
13

2,14

=
= 1,65
S 1,30

5. Din tabelul lui Fisher, valoarea lui p la f = 13 este de 2,16 pentru 5% anse de
eroare. Valoarea obinut de noi fiind mult sub aceasta, ipoteza de nul nu poate fi respins.

Paii exemplificai prin cele dou exerciii anterioare sunt cei prezentai mai jos:
Etapa 1. Se ntabeleaz valorile obinute de subiecii celor dou grupe mperecheate
(corelate), diferena i ptratul acesteia. Se determin media diferenelor ( = X - Y, care de
regul nu se calculeaz, dar este un bun mijloc de control al corectitudinii n calcul).

Etapa 2. Se calculeaz nti dispersia ( s 2 =

() 2
N ), dup care abaterea standard (s
N 1

= s2 )
Etapa 3. Se calculeaz eroarea standard a mediei diferenelor: S =

79

s
N 1

Etapa 4. Se calculeaz t care este ctul dintre media diferenelor i eroarea standard a mediei
diferenelor: t =

cu t =

, dar cum = Y X se observ c t devine echivalent ca formul de calcul


S

YX
, care este totui mai greu maniabil, cci presupune dou medii, dou abateri
SY X

standard i dou erori standard ale diferenelor.


Etapa 5. Se evalueaz t alegnd de pe coloana f din tabelul lui Fisher numrul gradelor de
libertate echivalent cu N-1 (n cazul de fa 13). n funcie de valoarea gsit vedem dac, n
cazul respingerii ipotezei nule, probabilitatea de eroare este mai aproape de unul dintre
pragurile critice cutate (p = 0,05 sau p = 0,01).
Toate determinrile laborioase evideniate prin exemplul de mai sus pot fi extrem de
mult simplificate dac se apeleaz la o modalitate alternativ de calcul, dat de formula 6.15
de mai jos. Aceasta presupune ca datele s fie introduse pe un minicalculator cu panou
statistic i ntabelate ca n exemplul urmtor.
nlime

Greutate

(diferena)

(diferena)

14

14

4,36

2,14

7,16

4,69

61

30

x2

993

350

t=

t=

4,36 4,36
=
=
= 2,27 , pentru diferena de nlime.
s
7,16 1,91
N
14
2,14 2,14

=
=
= 1,70 , pentru diferena de greutate.
4,69 1,25
s
14
N

Cele dou valori rezultate din exemplele de mai sus, dei foarte apropiate de cele
obinute prin metoda precedent, nu sunt totui identice cu acestea. Pentru elegana i
rapiditatea n calcul presupuse de acesta recomandm cel de al doilea procedeu de lucru.

80

6.11. Semnificaia diferenei mediilor a dou eantioane de volum mic necorelate


Cnd se compar dou eantioane independente de volum mic exist posibilitatea de a
folosi metoda lui Fisher n calculul semnificaiei diferenei. n acest caz erorile standard ale
mediilor de selecie nu se mai calculeaz separat pentru a se combina n vederea obinerii
erorii standard a diferenei, ci ambele selecii sunt considerate mpreun, deoarece ipoteza de
nul presupune c ele reprezint o aceeai populaie. La modul cel mai general, formulele de
lucru pentru testele t destinate eantioanelor de volum mic necorelate sunt 6.11 i 6.12 de

t=

mai jos.

n care

X1 X 2

(6.11)

X 12 + X 2 2 N1 + N 2

N + N 2 N N
2
1 2
1

X 1 , X 2 sunt mediile celor dou eantioane; N1, N2 numrul de cazuri pentru

variabilele X1 i X2; X12 i X22 reprezint suma ptratelor abaterilor individuale de la medie.
O precauie important este aceea de a-l cuta pe t n coloana lui Fisher la df = N1 + N2 - 2
grade de libertate.
Cea mai des utilizat modalitate de calcul a testului t pentru eantioanele independente
ale cror dispersii nu difer semnificativ2, este ns formula 6.12 de mai jos, unde toate
notaiile sunt deja cunoscute. n aceast formul din dispersiile separate ale celor dou grupuri
comparate se obine una singur, cumulat, care este de fapt o estimare a dispersiei populaiei:

X1 X 2

t=

(6.12)

( N1 1) s12 + ( N 2 1) s2 2 1
1

N1 + N 2 2
N1 N 2

Cnd eantioanele comparate sunt independente, dar de volum mare, formulele de


determinare a lui t sunt cele de mai jos, n care diferena se mparte la eroarea diferenei:

t=

X1 X 2
sX X
1

t=

(6.12)

X1 X 2

12
N1

22

(6.13)

N2

n fine, testul t pentru un singur eantion este posibil prin apelul la formula 6.14 de mai jos:
t=

X
s
N

t=

(6.14)

s
N

(6.15)

2
Pentru a rspunde la ntrebarea dac cele dou dispersii sunt similare sau diferite, n SPSS exist testul Levene
pentru egalitatea varianelor. Valorile acestui test sunt indicate ntotdeauna nainte de testul t, ghidnd selecia
celei mai potrivite valori a acestuia.

81

n care la numrtor se afl diferena dintre media eantionului de selecie i cea a populaiei,
s este abaterea standard a eantionului iar N volumul acestuia. Pentru grupe corelate/ apariate,
atunci cnd se fololete ca variabil diferena perechilor (delta), formula 6.14 devine 6.15, n
care s devine s.
Presupunem c n exemplul de mai jos X i Y sunt dou eantioane independente.
nlime

Greutate

X1
14

X2
14

X1
14

X2
14

X
X

149,50
11,36
2093
314581

153,86
11,07
2154
333002

48,29
7,32
676
33338

50,43
6,65
706
36178

Se determin semnificaia diferenei celor dou nlimi dup formula 6.11:


t=

153,86 149,50
=
314581 + 333002 14 + 14

14 + 14 2
14 14

4,36
4,36
4,36
=
=
= 0,07
647583 28
3558,15 59,65

26
196

n acelai fel se procedeaz i pentru greutate:


t=

50,43 48,29
=
33338 + 36178 14 + 14

14 + 14 2
14 14

2,14
2,14
2,14
=
=
= 0,11
69516 28
381,96 19,54

26 196

Cutnd n tabelul lui Fisher la f = 14 + 14 - 2 = 26, se observ c ambele valori


determinate prin calcul sunt foarte departe de pragurile de semnificaie critice pentru p = 0,05
i p = 0,01, ceea ce ne ndreptete s acceptm ipoteza de nul. n concluzie, cele dou grupe
fac parte din aceeai populaie.

6.12. Exerciii i aplicaii practice


1. Un grup de adolescente anorexice au urmat timp de ase luni un tratament terapeutic
care trebuia s dea ca rezultat ameliorarea greutii nregistrate la faza de posttest.
Tabelul de mai jos indic greutatea msurat naintea i dup tratamentul efectuat, ca
i diferenele de greutate constatate dup tratament. S se rezolve urmtoarele cerine:
a. Parcurgnd paii din curs s se determine dac exist un ctig semnificativ de
greutate n urma aplicrii programului psihoterapeutic.
b. S se fac aceeai determinare utiliznd pe N, media i abaterea standard prezente pe
ultimele trei rnduri din tabel, dup algoritmul din curs.
c. S se formuleze ipoteza specific i apoi s se raporteze rezultatele obinute.
82

Greutate

Greutate

Diferena

nainte

dup

38

43

38

43

39

42

38

42

39

46

36

35

-1

35

35

43

46

33

39

10

37

34

-2

11

37

35

-2

12

37

43

13

35

41

14

38

42

15

41

43

16

39

42

17

40

45

18

35

35

-1

19

39

42

20

38

40

21

34

35

22

43

46

23

34

35

24

37

38

25

35

36

26

43

47

26

26

26

37,75

40,33

2,58

2,74

4,18

2,51

83

2. Un grup de 58 de copii din coala general au fost chestionai cu inventarul MASC


pentru a li se determina nivelul de anxietate. Ipoteza specific a fost aceea c nivelul anxietii
acestui grup este semnificativ mai mic dect al copiilor care nu practic sportul. Grupul de
sportivi a obinut o medie a scorurilor de 12,50 i o abatere standard de 7,25. n populaia de
covrstnici nivelul mediu al anxietii a fost de 15,50. Rspundei la ntrebarea dac ipoteza
cercetrii se confirm sau nu, raportnd rezultatele obinute.
3. n grupul de mai sus exist 30 de fete i 28 de biei, ale cror valori statistice
descriptive la testul de anxietate sunt sintetizate n tabelul de mai jos:
N
X
X
X
X
SX

Biei
28
10

Fete
30
14

5,25
280
3544
1,01

6,31
420
7035
1,17

Total

a. S se formuleze o nou ipotez de cercetare legat de diferenele de grup ale


mediilor anxietii i precizai dac aceasta se confirm, raportnd rezultatele obinute.
b. S se completeze coloana Total, dup regulile furnizate n curs.
c. S se determine eroarea standard a mediei pentru coloana Total.
d. S se determine intervalele de ncredere ale mediei pentru CI (Interval de ncredere)
de 5% i de 1%.
4. S se testeze ipoteza potrivit creia cei 70 de studeni de anul I de la Facultatea de
Psihologie, cu un QI de 114 i o abatere standard de 11, au un nivel de inteligen
semnificativ mai mare comparativ cu populaia de baz (QImediu = 100).
5. Pentru un grup de 120 de copii din grupa pregtitoare a grdiniei s-a aplicat un test
destinat determinrii aptitudinii pentru colaritate, cuprinznd o component motric, una
cognitiv i combinaia acestora ntr-un scor total. Acest test a furnizat urmtoarele
rezultate pentru biei (M) i fete (F):

84

Teste

Motricitate

Gen

54

Cogniie
M+F

66

54

19,83

20,55

2,54

X
X

Total
M+F

66

54

66

36,65

38,03

56,48

58,58

3,39

5,57

5,13

7,35

7,82

1071

1356

1979

2510

3050

3866

21583

28607

74171

97167

175132

230429

M+F

Variana
SX
F-M
t1
t2
Cerine:
a. S se testeze ipoteza diferenei semnificative a mediilor dintre fete i biei pentru
cele trei perechi de variabile ale testului aplicat.
b. S se raporteze rezultatele obinute.
c. Agregai datele pentru biei i fete, completnd corect i integral coloana M+F.
d. S se determine variana i eroarea standard a mediei (SX) pentru toate coloanele
tabelului.
e. S se determine t1 cu formula 6.12, t2 cu formula 6.13 i s se comenteze rezultatele
obinute.

85

CAPITOLUL 7

STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE

7.1. Introducere
Nicio alt procedur statistic nu a deschis att de multe ci de descoperire tiinific
n psihologie, tiinele comportamentului i educaie ca metoda corelaiei. Dac pn acum
ne-am ocupat de distribuii cu o singur variabil (univariate), prin corelaie avem n vedere
distribuiile bivariate, n legtur cu care ne punem problema gradului de asociere dintre
variabile.
Un coeficient de corelaie este un numr unic care indic mrimea relaiei dintre dou
fenomene, procese psihice, lucruri, adic n ce grad variaz unul n paralel cu variaia
celuilalt. Fr corelaie nu ar fi posibil predicia i chiar atunci cnd sunt implicate relaii
ntmpltoare, fr cunoaterea covariaiei (a variaei comune a dou variabile) nu am fi
capabili s controlm o variabil prin manipularea celeilalte.
Iat cteva exemple: exist vreo legtur ntre scorurile la testele de inteligen i
performana colar? dar ntre nlime i greutate; ntre ploaia czut i recolte; ntre statutul
economic, social i cultural al prinilor i prezena elevilor n colile ajuttoare; ntre studiile
prinilor i performana colar a copiilor; ntre inteligena prinilor i inteligena copiilor;
ntre inteligena gemenilor uni- i bivitelini; dar a frailor ntre ei?
Gradul de paralelism, msura n care dou colecii de msurtori co-variaz se explic
cel mai adesea prin coeficientul de corelaie. n studierea relaiei dintre anumite nsuiri se
pleac de la variaia simultan a datelor, numit covarian, prin analiza legturii dintre ele
cutnd s identificm modul lor de asociere.
Trebuie spus c, spre deosebire de experiment, corelaia nu dezvluie o relaie de tip
cauzefect, nu este deci o msur a cauzalitii, ci doar a gradului de paralelism, a modului
de asociere, natura relaiei urmnd a fi interpretat. O corelaie perfect ntre X i Y (r

1)

arat c cele dou variabile covariaz perfect, la unison, variaia lui X putnd fi cauza
variaiei lui Y, a lui Y cauza lui X sau a amndurora s fie cauzat de o a treia variabil Z.
Dac n experiment relaia este unidirecional (X determin pe Y), ntr-un studiu corelaional
variabilele sunt date i nu manipulate, relaia dintre ele nefiind una vectorizat.

86

Determinarea corelaiei se face lund n consideraie ntotdeauna cte dou variabile;


astfel, n cazul variabilelor X, Y, Z vom calcula succesiv corelaiile rXY, rXZ, rYZ, datele de
plecare putnd fi msuri cantitative, poziii ntr-o ierarhie sau note comparate cu categorii.
Pentru a avea o imagine concret despre cum se corelaioneaz dou variabile se construiete
aa-numita diagram de corelaie care este un grafic n care fiecrei valori X de pe abscis i
corespunde valoarea Y de pe ordonat.
Fie 10 indivizi msurai cu dou forme paralele ale aceluiai test:
Cazuri

Test X

10

12

13

Test Y

10

11

12

14

15

Se poate observa faptul c fiecare X este egal cu Y-2 fr nicio excepie, deci corelaia
va fi r = 1 (sau Y = X+2). Iat un alt exemplu:
Cazuri

Test P

11

12

15

Test Q

10

14

16

18

22

24

30

i n acest caz corelaia este perfect r = 1, pentru c Q = 2P fr nici o excepie.


Cazuri

Test A

11

12

14

16

20

Test B

20

16

14

12

11

n cazul de mai sus corelaia dintre A i B este aproape perfect, dar negativ (r = .99).

12

10

-2

Z G re u ta te

Z In a ltim e

-10

M o tric ita te g ro s ie ra

10

-20
-5

-4

-3

-2

Z Punctaj total r = .10

-1

-4

-6
-5

-4

-3

-2

Z Punctaj total r = .20

a.

-1

0
0

10

20

Motricitate r = .54

b.

87

c.

30

20

C og nitie

M o tric ita te

10

0
10

20

30

40

50

Punctaj total r = .87

60

70

80

60

60

50

50

40

40

30

30

20

20

QI geaman 2

30

10

0
10

20

30

40

50

60

70

80

Punctaj total r = .97

d.

10

0
-80

-70

-60

-50

-40

-30

-20

-10

QI geaman 1 r= -.97

e.

f.

Diagramele de corelaie de mai sus, numite scattere, prezint cteva situaii distincte:
a. o corelaie extrem de sczut i nesemnificativ (r = 0,10, sau r = .10), aproape de a
indica absena oricrei relaii dintre cele dou variabile. n timp ce variabila X are o cretere
clar, variabila Y are un comportament ambiguu;
b. o corelaie foarte slab (.20), n care norul de puncte tinde s se aeze totui pe o
diagonal stnga jos dreapta sus (corelaie pozitiv);
c. aceast relaie devine mult mai evident pentru cele dou variabile (.54);
d. corelaia este una extrem de puternic (.87), tendina de norului de puncte de a se
ordona pe o diagonal stnga jos dreapta sus fiind foarte evident, ceea ce d acum
posibilitatea de a prezice cu o oarecare aproximaie pe fiecare X din fiecare Y, i invers;
e. relaia este de acelai tip pozitiv dar este una extrem de puternic (.97), norul
de puncte avnd o grosime relativ egal pe toat suprafaa diagramei de corelaie
(homoscedasticitate);
f. ordonarea norului de puncte din aceast diagram este n oglind fa de precedenta
reprezentare grafic: relaia este una extrem de puternic, dar negativ, deoarece creterea
variabilei X se asociaz cu descreterea variabilei Y, i reciproc.
Cu ct norul de puncte tinde s se aeze mai aproape de o dreapt corelaia este mai
mare, atunci putnd vorbi de o relaie liniar ntre X i Y, fapt ce permite deducerea unei
varianile din cellalt. n psihologie, bivariaia liniar este postulat cel mai adesea de
coeficientul de corelaie, acesta putnd avea valori cuprinse ntre 1 i +1, care nseamn
corelaiile maxime posibile, trecnd prin 0, care nseamn absena oricrei legturi sau
interdependena dintre ele. Diferena dintre corelaiile pozitive i negative rezult n principal
din orientarea norului de puncte. n cazul corelaiilor nule sau foarte mici norul de puncte
tinde s se distribuie haotic pe toat suprafaa diagramei de corelaie.

88

Diagrama de corelaie permite o inspecie vizual global a norului de puncte, fapt ce


poate informa n legtur cu urmtoarele aspecte ale relaiei dintre variabile:
-

cu ct distribuia tinde mai mult spre o dreapt (linia de regresie), cu att mai
intens este relaia dintre variabile;

care este orientarea ei, deci care este sensul relaiei, pozitiv sau negativ;

care este forma relaiei: rectilinie (situaie de dorit), curbilinie, neliniar;

dac exist o egalitate a grosimii norului de puncte de-a lungul liniei de regresie
(homoscedasticitate).

Cei mai muli coeficieni de corelaie folosesc modelul relaiei liniare, putndu-se
identifica relaii parametrice (ntre variabile numerice continue) i neparametrice, n care una
dintre variabile (sau chiar ambele) este categorial, discontinu (dihotomic sau trihotomic).

7.2. Calculul coeficientului de corelaie


Formula de definiie a coeficientului de corelaie este cea propus de Pearson:
rXY =

( X X )(Y Y )
( X X ) 2 (Y Y ) 2

(7.1)

n care X i Y sunt rezultatele obinute la cele dou nregistrri, iar X i Y reprezint mediile
celor dou distribuii. Cantitatea de la numrtor se numete suma produselor, numitorul
reprezentnd radical din suma ptratelor produselor.
ntr-o distribuie normal a dou variabile vom putea fi identificai cinci parametri:
dou medii i dou abateri standard i, al cincilea, coeficientul de corelaie. Orice program
statistic computerizat poate determina aceti parametri, problema fiind legat de calcularea
acestora cu un minicalculator. Cu minicalculatorul statistic se obin cteva date care vor fi
trecute astfel:
N

fiind perechi, N (numrul de cazuri) este acelai la cele dou variabile;

mediile distribuiilor;

abaterile standard pentru cele dou serii de date;

sumele valorilor individuale;

sumele ptratelor valorilor individuale;


2
2
= NX 2 (-X ) 2 i Y = NY (Y )

x
xy

XY

reprezint suma produselor dintre fiecare X cu fiecare Y, fiind valoarea


pentru obinerea creia este necesar foarte mare atenie, deoarece o
89

singur eroare de introducere a uei date poate distorsiona semnificativ


valoarea corelaiei obinute. n acest fel se ajunge la formula de lucru a
coeficientului de corelaie, indicat prin formula 7.2 de mai jos:

rXY =

[NX

(7.2)

N XY X Y
2

][

(X ) 2 NY 2 (Y 2 )

Mate

Fizic

Subiect

X2

Y2

XY

49

49

49

81

64

72

10

100

81

90

36

49

42

10

81

100

90

64

49

56

25

36

30

16

12

49

36

42

10

64

49

56

11

36

49

42

12

49

49

49

13

36

36

36

14

25

36

30

N=14

X=96

Y=97

X2=704

Y2=699

XY=696

14
14
6,86 6,93

n 1

1,88 1,44

X
X 2

96

x y
XY

97

704 699
640 377
696

X Y
N
2
2 (X ) 2 (Y ) 2
X N Y N

XY

rXY =

(7.3)
O alt metd de lucru pentru corelaia prin metoda produselor este formul 7.3 de mai
sus. n exemplul dat, coeficientul de corelaie de 0,88 (sau .88, pentru literatura de specialitate
anglo-saxon) este unul foarte de ridicat. Aceasta ne conduce la presupunerea c legtura

90

dintre fizic i matematic este una puternic, performana la ambele fiind determinat de un
factor comun (raionamentul abstract sau factorul general g al inteligenei).
Iat nlimile reale i cele dorite a 14 studente i 2 studeni de la facultatea de
psihologie (N = 14+2 = 16).
Subieci

IR

ID

GR

GD

169

169

58

55

170

170

70

62

172

172

57

60

160

170

52

55

170

175

55

55

167

167

65

55

167

175

55

60

156

160

55

55

160

160

46

49

10

172

175

50

50

11

163

165

54

53

12

184

180

77

80

13

193

193

113

104

14

158

168

54

58

15

170

170

77

65

16

158

165

49

50

16

16

16

16

168,06

170,88

61,69

60,38

9,75

8,00

16,55

13,81

2689

2734

987

966

453345

468132

64993

61184

22799

15356

6549

45788

X
2

X
x

IR_ID

460547

GR_GD

62310

rIR_ID

.91

rGR_GD

.79

Comentarii

Corelaia nlimii actuale cu cea dorit este extrem de ridicat (r = .91), ceea ce
nseamn c proiectare la nivelul sinelui corporal a nlimii dorite este n concordan
cu nimea real.

91

Greutatea real i cea dorit produc o corelaie mai joas, dei tot foarte ridicat (r =
.79), ceea ce nseamn c n imaginea de sine corporal elementul fundamental este
nlimea (mai statornic), i mai puin greutatea (indicator mai variabil i mai
fluctuant n funcie de circumstane).

Lotul nostru (foarte mic), alctuit preponderent din femei (88%), i-ar dori civa
centimentri n plus (2,82 cm) i ceva kilograme n minus (-1,31 kg), dar la praguri
nesemnificative statistic (N este mult prea mic).

Dac se va compara ptratul corelaiilor nlimii cu ptratul corelaiilor greutii


(0,912 = 0,82 i 0,792 = 0,62) se va vedea c primul acoper mai mult cu o cincime din
variana comun, fapt care susine ideea c nlimea pare a fi fundamental n raport
cu greutatea.

Aplicaie practic
Calculai i comentai corelaiile dintre nlimea i greutatea reale, apoi dintre
nlimea i greutatea dorite. Ce constatri ai putut face? Comentarii posibile: ntre valorile
reale ale nlimii i greutii exist aceeai corelaie ca i ntre cele dorite pentru cele dou
variabile. n raportarea noastr la planul corporal ideal se pare c pstrm aceeai atitudine pe
care o avem asupra eului nostru fizic i n plan real. Rezult deci c n plan antropometric
dorina se conformeaz realitii mai mult dect am fi dispui s credem.

7.2.1. Interpretarea orientativ a coeficientului de corelaie


Cum am artat deja, valorile corelaiei Pearson pot fi pozitive sau negative. Cnd r
este pozitiv, creterea valorilor variabilei X se asociaz cu creterea valorilor variabilei Y, caz
n care se spune c exist o asociere direct ntre cele dou variabile. Cnd r este negativ, n
timp ce una dintre variabile ia valori cresctoare, cealalt descrete. Corelaia (pozitiv sau
negativ) aflat n jurul lui zero indic distribuii necorelate (sau independente). n cazul cnd
exist legturi de asociere ntre variabilele X i Y (corelaie), atunci se pot stabili ntre nite
limite de precizie i de ncredere pe Y din X, i reciproc, prin aa-numita ecuaie de regresie.
Semnificaia coeficientului de corelaie va fi analizat mai detaliat n paginile
urmtoare. n funcie de scopul urmrit i de nivelul de exigen ales interpretarea lui r are
multe faete. Orientativ, se apreciaz c corelaiile de r < .20 sunt extrem de slabe; de la .20 la
.40 acestea sunt slabe; ntre .41 i .60 ele sunt medii; ntre .61 i .80 sunt puternice, iar cnd r
este peste .80 corelaia este extrem de puternic. Pentru variabile corelate invers (negativ),
interpretarea lui r este similar. ns, deoarece semnificaia corelaiei depinde de mrimea
92

eantionului (N), ca i cea a lui t , determinarea semnificaiei corelaiei presupune raportarea


lui r la tabele speciale. Pe de alt parte r indic i ct din variana comun se explic prin
corelaie, ceea ce trimite la coeficientul de determinare (r2).
Iat cteva corelaii descoperite a exista ntre rude:

ntre persoane diferite


Copii crescui separat

-0,01

Prini vitregi - copil

0,20

Copii crescui mpreun

0,24

Rude colaterale
Veri secundari

0,16

Veri primari

0,26

Unchi nepot

0,34

Rude n linie direct


Bunic nepot

0,47

Printe (adult) copil

0,50

Printe (copil) copil

0,56

Alte rude colaterale


Frai crescui aparte

0,47

Frai crescui mpreun

0,55

Gemeni dizigoi, de sex diferit

0,49

Gemeni dizigoi, de aceli sex

0,56

Gemeni dizigoi crescui separat

0,75

Gemeni monozigoi, crescui mpreun

0,87

7.3. Coeficientul de corelaie a rangurilor rho


Cnd numrul subiecilor este mai mic de 30, cnd distribuia se abate semnificativ de
la normalitate sau cnd datele despre subieci sunt redate sub forma unei clasificri ierarhice,
prin ranguri, este preferabil s utilizm coeficientul de corelaie a rangurilor (rho) al lui

Spearman, care este unul non-parametric. Multe dintre datele obinute de subieci n coal
permit asemenea clasificri ierarhice, fie c este vorba de rezultate la examene (de exemplu
capacitatea, admiterea la liceu), rezultate la probe sportive, la teste de cunotine, unde

93

diferenele dintre candidai nu sunt suficient de fine pentru a evidenia gradaiile pe care alte
variabile continue (nlimea, greutatea) le dau. Este cazul aici s invocm opinia lui Radu i
Szamoskzy3: rangul este mai stabil ca nota. La evaluarea succesiv a elevilor de ctre
profesor, alternativ prin note sau ranguri, acestea din urm indic o tendin mai accentuat
spre stabilitate, notele fiind mult mai variabile.
Atribuirea de ranguri (rangarea) nu este o operaie dificil: subiecii sunt ierarhizai n
ordinea performanei sau a scorurilor obinute, de la mare la mic sau invers. n mod practic, pe
o foaie de hrtie se scriu tot attea numere cte ranguri trebuie alocate (egale cu numrul
subiecilor) i se taie rangurile pe msur ce ele se aloc, ceea ce ajut la corecta gestiune a
acestora. Singura precauie important este aceea de a rezolva corect situaia n care dou, trei
sau mai multe cazuri au aceeai valoare de scor a variabilei. De exemplu, dac am ajuns cu
rangarea la al aptelea subiect i urmtorii trei au aceeai performan, din rangurile 8, 9, 10
se selecteaz rangul din mijloc - 9 - care se atribuie tuturor celor trei, urmtorul rang ce va fi
atribuit fiind 11. Dac ar fi fost doi subieci cu acelai scor, atunci pentru rangurile 8, 9 s-ar fi
acordat rangul intermediar 8,5, urmtorul rang atribuibil fiind 10. Pentru ca operaia de calcul
s nu produc o distorsiune prea mare a lui rho cazurile de acest fel trebuie s fie ct mai
puine. Dac operaia de rangare a fost corect executat, la sfritul ei toi subiecii vor avea
ranguri i toate rangurile vor fi epuizate, n caz contrar trebuind identificat i corectat
eroarea de rangare.
Un subiect poate fi clasat dup mai multe criterii, avnd deci mai multe ranguri, caz n
care corelaia se va face fiecare rang cu fiecare, dup formula:

=1

6d 2
N ( N 2 1)

(7.4)

unde d este diferena rangurilor i N numrul perechilor de subieci. Prin ridicarea lui d la
ptrat, semnul diferenei rangurilor devine ntotdeauna pozitiv.

Exemplu: ntr-o cercetare pe grupuri colare vocaionale 10 elevi de la coala de art


au fost ierarhizai dup crieteriul inteligenei (QI), al reuitei la nvtur aa cum o
apreciaz copiii i profesorii i al talentului pentru activitatea specific (evaluat de
profesorul de specialitate).

Radu, I. (coord.), Miclea, M., Albu, M., Moldovan, O., Neme, S., Szamoskzy, S. (1993). Metodologie
psihologic i analiza datelor. Cluj-Napoca: Editura Sincron, p. 122.

94

d2

d2

d2

d2

d2

d2

1-3

1-4

2-3

2-4

3-4

1-2

1-3

1-4

2-3

2-4

3-4

Elev

QI

copii medie talent 1-2

1.

2.

10

3.

-3

4.

10

-1

5.

-1

-2

6.

7.

6,5

0,5

0,5

0,25 0,25

8.

6,5

2,5

-0,5

6,25 0,25

9.

10

10

-1

-1

10.

-1

0
2

N=10

1 2 = 1

6 27,50
= 0,83
10(100 1)

27,50 8,50

0,83 0,95

1 3 = 1

6 8,50
= 0,95
10(100 1)

Din exemplul ipotetic de mai sus se poate remarca concordana ridicat dintre
ierarhia inteligenei msurate (QI) i ierarhia rezultatelor colare propus de elevi, corelaie
care nu este totui la fel de mare ca i cea dintre ierarhia inteligenei msurate i performana
la nvtur, exprimat prin mediile colare ( = 0,83 versus = 0,95). Pentru o mai bun
nelegere a modului de lucru recomandm calculul tuturor celorlalte coloane, urmat de
determinarea de fiecare dat a lui rho, ncheiat de interpretarea rezultatelor.
Ca i r, are valori cuprinse ntre 1 i +1, trecnd prin zero, situaie care indic
absena corelaiei (deci a concordanei dintre cele dou ierarhii exprimate prin ranguri).
Reluarea determinrilor prin mrirea eantionului poate duce la apariia unor corelaii
semnificative, chiar dac iniial ele nu atingeau iniial pragul semnificaiei statistice.
Deoarece supraevalueaz uor corelaia (de la 5 miimi spre zonele extreme, la 18
miimi pe zona central) dm mai jos tabelul de echivalare ale lui cu r.

.00

.10

.20

.30

.40

.50

.60

.70

.80

.90

.95

1.00

.000

.105

.209

.313.

.416

.518

.618

.717

.813

.908

.954

1.00

95

7.4. Limitele de ncredere ale unui coeficient de corelaie


Pentru coeficientul de corelaie Pearson putem stabili dac el se plaseaz ntre nite
limite de ncredere (p < .05, p < .01) dup o transformare propus de Fischer. Valorile r sunt
nlocuite cu valori z, a cror distribuie tinde s fie normal pe msur ce N crete, drept
pentru care s-a ntocmit un tabel de conversie, furnizat n Anexe. Specificitatea acestui tabel
rezult din aceea c z nu se determin direct. Primele dou valori (uniti i zeci) se iau dup
orizontal din coloana de pe extrema stnga, corespunznd celui mai apropiat coeficient de
corelaie de cel cutat, iar restul (sutimile) de pe prima linie vertical corespunznd aceluiai
coeficient. De exemplu, coeficientul r = 0,93 este cel mai aproape de .9302 din tabel, care are
n stnga 1,6, iar pe vertical 0,06, ceea ce prin combinare duce la z = 1,66.
Dispersia valorilor z din acest tabel este =

1
1
i deci 2 =
.
N 3
N 3

Dac am avea 39 de cazuri, atunci:

1 1
= = 0,167
36 6

n legtur cu pragul de semnificaie ales (p = 0,05 sau p = 0,01), pot fi stabilite


limitele de ncredere ale lui z, care sunt z = 1,96, pentru p < 0,05, i z = 2,58, pentru p <
0,01. n cazul nostru se alege pragul de semnificaie de 0,05. Deci vom avea: 1,66 1,961/6
= 1,66 0,33, coeficientul nostru trebuind s cad n intervalul din tabel corespunznd lui
1,99 i 1,33, adic ntre coeficienii de 0,96 i 0,87. Pentru p < 0,01 avem: 1,66 2,581/6,
intervalul este 2,09 1,23, corespunznd n tabel coeficienilor de corelaie 0,97 0,84.

7.5. Interpretarea unui coeficient de corelaie


Ca multe alte determinri r, sau ali coeficieni de corelaie sunt determinai plecnd
de la eantioane extrase dintr-o populaie general mult mai extins numeric. De aceea se
pune problema relaiei dintre acetia i coeficienii reali de corelaie, adic cei care ar fi reieit
din determinarea lor pe populaia general. Lund ca ipotez de nul corelaia zero, va trebui s
se stabileasc un interval de siguran identificnd aa-numitul coeficient de corelaie critic
(valoarea minim pe care ar trebui s o ia coeficientul de corelaie pentru a fi acceptat ca
semnificativ). n tabelul de mai jos se dau asemenea valori pentru r, lund n calcul numrul
subiecilor i dou praguri de semnificaie, p = 0,05 i p = 0,01. n tabelul de mai jos n = N-2.
Deoarece coeficienii de corelaie pot fi i negativi, r se d n modul4.

Pentru detalii suplimentare vezi Radu i colab., op. cit., p. 391.

96

p .05

.60

.58 .55

.53 .51 .50

.48 .47

p .01

.73

.71 .68

.66 .64 .62

.61 .59

10

11

12

13

14

15

16

17

18

19

20

25

30

35

40

45

50

.46 .44 .43 .42 .38

.35 .32 .30 .29

.27

.58 .56 .55 .54 .49

.45 .42 .39 .37

.35

Exemplificare: r = 0,35; N = 19 (N = 38); r = 0,50; N = 50


n primul exemplu la N-2 avem 19-2 = 17, valoarea coeficientului critic la pragul de p
< 0,05 este cu mult mai mare (0,46), dect valoarea obinut de noi (0,35) i deci corelaia
gsit nu este una semnificativ. Dac am regsi aceast corelaie i dup ce am dubla
eantionul (n = N2-2 = 36), am vedea c la acest numr de cazuri el ar deveni semnificativ la
p = 0,05. n cel de al doilea caz se observ c r critic este 0,27, coeficientul nostru fiind mult

mai mare; pentru un prag de semnificaie de 1 din 100, r este 0,35, deci cel gsit de noi (0,50)
este puternic semnificativ statistic (p < 0,01).
n programele statistice computerizate coeficienii de corelaie care ating pragurile de
semnificaie de p = 0,05 i p = 0,01 sunt notate cu o stelu (*), respectiv cu dou (**) iar
semnificaia steluelor este indicat de legenda aflat la subsolul tabelului.

7.6. Interpretarea varianei unui coeficient de corelaie


prin coeficientul de determinare
Un coeficient de corelaie nu este o proporie i trebuie tratat mai curnd ca o msur
tipic unei scale ordinale, care nu poate fi de exemplu adunat cu ali coeficieni de corelaie
pentru a li se determina o medie. Eventual, dac trebuie determinat o valoare reprezentativ
pentru o ntreag clas de coeficieni de corelaie, se poate alege valoarea coeficientului
median, care nu poate fi totui utilizat pentru calcule aritmetice. Un r = 0,60 nu este de dou
ori mai bun dect r = 0,30, iar distana dintre corelaiile 0,40 0,50 nu este deloc echivalent
cu distana dintre 0,80 0,90. O cale de a nelege i interpreta mai bine sensul coeficientului
de corelaie i de a-l aduce la o form accesibil tratamentului algebric este aceea de a-l trata
n termeni de varian, calculnd coeficientul de determinare, care este ptratul unui
coeficient de corelaie.
Variana comun a dou variabile X i Y (sxy, numit covarian) este acea parte din
variana lui Y care poate fi prezis sau atribuit varianei lui X, fiind o msur a informaiei pe
care o avem pentru Y de la X, i reciproc. Dac r = 0,80, r2 = 0,64, deci se poate spune c
variana lui X n raport cu Y este de 64%, adic exist aproape dou treimi din variana lui X
care ar permite s se fac o predicie perfect a lui Y. Deci r2 poate fi interpretat ca o proporie
iar r2100 ca un procentaj. n ncercarea de a conceptualiza gradul de relaie adus de

97

coeficientul de corelaie este mai util s se opereze cu ptratele corelaiilor dect cu corelaiile
n sine. Dei calcularea sa nu pune probleme speciale, tabelul de mai jos furnizeaz cteva
valori reprezentative ale coeficientului de determinare transformat n procente de covarian.
r

.05

.10

.20

.30

.40

.50

.60

.70

.80

.90

.95

1.00

r 100

0,25

16

25

36

49

64

81

90

100

Se poate rspunde acum unor probleme foarte concrete:

Diferena dintre coeficientul de corelaie 0,50 i 0,40 este aceea c ultimul aduce 0,502
- 0,402 = 25 16 = 9 procente de covarian n plus, necesar n predicia unei
variabile plecnd de la cunoaterea celeilalte; coeficienii 0,60 i 0,50 dau o diferen
de 36 25 = 11 procente, deci ofer cu dou procente mai mult fa de exemplul
anterior, dei diferena brut dintre ambele perechi a fost aceeai (o zecime).

Coeficientul de corelaie de 0,30 nseamn 9 procente de covarian explicat, pe cnd


0,60 nseamn 36 de procente, de unde rezult c al doilea coeficient este de 4 ori mai
util prediciei relaiei dintre X i Y, i nu de dou ori, cum ar rezulta la prima vedere.

Enumerm cteva din cauzele care pot afecta precizia unui coeficient de corelaie:

Presupunerea (de multe ori nentemeiat) c ntre X i Y exist coliniaritate, adic


faptul c norului de puncte ce materializeaz corelaia i-ar putea fi ajustat o linie
dreapt numit linia de regresie a lui Y n raport cu X. Unele distribuii evideniaz
foarte greu o asemenea liniaritate, ele putnd fi curbilinii, rectilinii pn la un punct i
apoi haotice etc. Pentru unele dintre aceste cazuri (distribuiile curbilinii) exist
procedee de normalizare a distribuiei (ridicarea la putere, logaritmarea etc.).

Distribuiile anormale care, prezentnd valori atipice sau extreme la capetele seriei de

variaie (valori atipice sau outlieri extremi), accentueaz mult variabilitatea datelor,
fapt ce conduce la creterea artificial (inflaionist) a coeficientului de corelaie.

Erorile de introducere a datelor: dac valorile de 168 pentru nlime i 75 pentru

greutate vor fi introduse din neatenie invers (75 pentru nlime i 168 pentru
greutate), corelaia va descrete dramatic.

Erorile de eantionare: cu ct omogenitatea grupului este mai mare, cu att corelaia

descrete, i invers.

Erorile de msurtoare sau de tastare: un simplu 0 tastat din greeal transform

nlimea de 175 n 1750, ceea ce va distorsiona grav corelaiile prin creterea


artificial a variabilitii datelor.

98

Concluzia care se poate extrage este aceea de a verifica atent acurateea i


corectitudinea datelor introduse nainte de a trece la determinarea corelaiilor. De asemenea,
diagramele de corelaie (scattere) pot folosi ele nsele drept metod de verificare vizual a
prezenei unor date atipice sau eronate.

7.7. Ali coeficieni de corelaie


7.7.1. Coeficienii de corelaie biseriali i triseriali
Cnd o variabil continu X este pus n paralel cu o variabil discontinu Y
dihotomic (cum ar fi bun/slab, admis/respins, talentat/netalentat, masculin/feminin) calculm
aa-numitul coeficient se corelaie biserial, notat rbis, dup formula:
m' m" pq
, n care:
rbis =
Y
- m media valorilor lui X pentru elementele clasei superioare (Y > Y0);
-

m media valorilor X pentru elementele clasei inferioare (Y < Y0);

Y0 este punctul de tietur al variabilei (cutoff, n raport cu care se separ

grupul);
-

- este abaterea standard a rezultatelor variabilei continue;

raportul pq/Y se citete dintr-un tabel special5 p fiind proporia admiilor, bunilor,
talentailor etc., iar q proporia complementar (adic 1-p);

Y este ordonata corespunztoare punctului de separaie.

Exemplu
Cota la test

10

Total

Admii

10

16

14

59

Respini

13

12

54

Total

10

18

22

25

18

113

naintea unui curs de instruire profesional, candidaii au parcurs un test psihologic ale
crui rezultate au fost raportate pe o scal C (cu 11 trepte, media 5, abaterea standard 2).
Variabila X este reprezintat tocmai de aceste rezultate. Dup testul psihologic s-a dat i un
examen de admitere, ale crui rezultate finale au fost dihotomice (admis/respins), aceasta
fiind variabila-criteriu Y. De notat c reuita-eecul nu permit o nuanare mai fin dect
aceasta. Proporia celor admii este p = 59/113 = 0,52, iar cea a respinilor q = 54/113 = 0,48,
adic q = 1-p (q este deci complementul lui p).

Radu i colab., op.cit., pp.392-393.

99

Media celor admii este notat cu m, iar a celor respini cu m i se determin astfel:
m = (00 + 11 + 20 + 33 + 45 + 510 + 616 + 714 + 86 + 93 + 101)/59

(0 + 1 + 0 + 9 + 20 + 50 + 96 + 98 + 48 + 10)/59 = 359/59 = 6,08; m = 4,46.


Date suplimentare (mediile i abaterile standard pentru cele dou categorii) sunt
furnizate n tabelul de mai jos.
Admii

Respini

Total

59

54

113

6,08

4,96

5,30

1,67

1,75

1,90

359

241

600

2347

1237

3584

x
2

pq/y = 0,6264 pentru p = 0,48.

Se poate determina acum coeficientul de corelaie biserial:

rbis =

Eroarea tip:
Deci:

m' m" pq 6,08 4,46


1,62
0,6264 =
=
0,6264 = 0,53

1,90
y
1,90
pq
r2
Y
, n care
N

pq se citete tot din anexe i este de 1,254.


Y

1,254 0,532 0,973


=
= 0,09.
10,63
113

7.7.2. Ali coefcieni de corelaie


Atunci cnd variabila continu X este pus n legtur corelaional cu o variabil
trihotomic (bun, mijlociu, slab) coeficientul de corelaie rezultat se cheam triserial i se
noteaz rtris. Atunci cnd avem de-a face cu dou variabile discontinue trihotomice (bun,
mijlociu, slab; introvert, ambivert, extravert), coeficientul de corelaie care se calculeaz se
numete eneahoric. Cnd dou distribuii sunt dihotomice prin natura variabilei, pentru
determinarea coeficientului de corelaie (Fi) este nevoie de o aezare caracteristic a
datelor. Coeficientul de concordan W al lui Kendall permite comparaia direct i simultan
a mai multor clasificri fcute de mai muli evaluatori (arbitri) asupra aceluiai lot de subieci,
produse, activiti etc. Calculnd corelaia dintre aceste clasamente se determin fidelitatea
msurtorii, adic gradul de acord ntre evaluatori, i nu conformitatea acesteia cu realitatea.
Acest tip de corelaie poate fi deci foarte util pentru construirea unei echipe performante de
evaluatori prin eliminarea celor care contribuie la diminuarea corelaiei interscoreri. n SPSS
100

opiunea pentru coeficientul W al lui Kendall este prezent alturi de r al lui Pearson i de rho
al lui Spearman.
O atenie special trebuie acordat coeficientului de corelaie multipl R, care st la
baza modelrii relaiilor dintre variabilele predictoare cu variabila criteriu prin regresia
multipl. Corelaia multipl poate fi utilizat de exemplu n clasarea unei ri ntr-o ierarhie
dup mai muli indicatori care intervin cu ponderi diferite sau n predicia reuitei colare,
acolo unde aspectele biologice (starea de sntate i constituia fizic), cognitive (atenie,
inteligen, memorie, creativitate), emoional-afective, temperamental-caracteriale, calitile
voluntare, nivelul de aspiraie, ali factori de personalitate, calitatea educaiei printeti i a
instruciei colare, calitatea colectivului de elevi i de profesori, a materialelor didactice
utilizate etc. pot interveni cu ponderi difereniate n efectul final (media general).
n general, la un efect X concur X1, X2, ... Xn factori a cror importan trebuie
cunoscut pentru a le da ponderea corespunztoare n efectul final sau n bateria de teste care
anticipeaz acest efect. Pentru a fi unul economicos, sistemul de predictori sau bateria de teste
utilizat trebuie s rein un numr nu prea mare de criterii (respectiv teste) care coreleaz
puin ntre ele, dar coreleaz strns cu criteriul prezis. Ca i strategii de determinare a acestor
ponderi, care se numesc coeficienii B (nestandardizai) sau (Beta, standardizai), se pot
folosi algoritmul condensrii pivotante a lui Aitken sau metoda Doolitle, care presupun
procedee de calcul laborioase, programele computerizate oferind soluii mult mai rapide.
Programul SPSS ofer mai multe metode de modelare a regresiei, la sfritul crora se
obine coeficientul de corelaie multipl R, care arat intensitatea relaiei dintre criteriul prezis
i variabilele predictoare, moderate de factorii B sau Beta. Ca i pentru r2, ridicarea la ptrat a
lui R d un coeficient de determinare, prin care se apreciaz sub forma unei proporii
procentuale ct la sut din variana criteriului este prezis de combinaia de predictori reinui
n ecuaia de regresie multipl.

7.8. Utilizrile coeficientului de corelaie


Dintre utilizrile coeficientului de corelaie cele mai frecvente sunt urmtoarele:

Analiza principalelor caliti psihometrice (fidelitatea i validitatea) ale testelor


psihologice.

Construirea unor scale sau subscale ale testelor cognitive, educaionale sau de
personalitate n care meninerea sau ndeprtarea unor itemi depinde de corelaia
acestora cu scala.

101

n selectarea dintr-o multitudine de itemi ai unei scale daor a itemilor celor mai buni
pentru a genera, prin analiza factorial, scale omogene, care msoar acelai construct
(scale unifactoriale, cu puritate factorial ridicat). Relevana unui item pentru
constructul n cauz este dat de saturaia acestuia n factorul identificat, care se
exprim tot printr-o corelaie.

Alctuirea unor baterii de teste care prezic cu o mai mare acuratee criteriul, graie
modelrii corelaiilor dintre criteriu i predictori prin ecuaia de regresie simpl sau
multipl.

Analiza de clustere, similar n multe privine analizei factoriale, dar indicnd ntr-o
form uor de vizualizat nu numai ierarhia factorilor care compun clusterele, dar i
ordinea sau nivelul la care intr n combinaie fiecare variabil cu cele anterioare.

Alegerea celui mai potrivit demers pentru calcularea coeficientului de corelaie


depinde de tipul de variabil (numeric sau categorial; continu sau discontinu; numr mic,
mediu sau mare de indivizi statistici; caracteristici tipice sau atipice) i de sopul urmrit prin
procedeul n cauz. Operaia de baz este ns identificarea prealabil a tipului de scal
metric utilizat, urmat de determinarea normalitii sau anormalitii distribuiei fiecreia
dintre variabilele corelate n parte (normalitate univariat), dar i a fiecrei combinaii de cte
dou variabile corelate (normalitatea bivariat). Dar, pentru a-i cita pe Guilford i Fruchter:
ntotdeauna un coeficient de corelaie este relativ la circumstane i foarte rar, cu siguran,
ntr-un sens absolut.6

7.9. Exerciii i aplicaii practice


Pornind de la datele anterioare relative la nlimea i greutatea pentru studenii de la
psihologie:
1. Construii diagrama de corelaie cu marcarea norului de puncte pentru cele dou exemple
date n curs (HRHD, GRGD).
2. ntabelai HR cu GR i HD cu GD, calculnd cu minicalculatorul personal N, X, x, X,
X2,

3.

, XY i r, dup exemplul din curs. Comentai rezultatele.

Plecnd de la corelaiile la testele de inteligen semnalate n finalul cursului, invocai


argumentele pro i contra implicate n disputa ereditatemediu.

Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education. Sixth Edition. New
York: McGraw Hill, p. 88.

102

4. La un test de inteligen i la unul de adaptare social s-au obinut urmtoarele scoruri


brute: Inteligen: 80 75 74 80 50 64 46 70 64 74 59 84 55 69 86 50 68 65
Adaptare social: 146 90 114 77 143 26 88 105 78 44 91 61 44 88 44 182 94 90.

Calculai i evaluai mrimea coeficientului de corelaie i sensul acestuia.


5. Ce corelaii ateptai (pozitive, negative, zero) i la ce nivel ntre:
a. succesul colar i venitul anual n primii zece ani de la absolvire;
b. ntre vrst i abilitatea mintal;
c. ntre mediile colare la fizic i la matematic;
d. ntre memoria cuvintelor i media la matematic;
e. ntre mediile la limba romn i la limbile strine;
f. ntre rata naterii i numrul berzelor din inutul respectiv;
g. ntre venituri i costul vieii;
h. ntre succesul la nvtur i calitatea de lider afectiv sau tehnic;
i. ntre scorurile la domina/supunere pentru soi i pentru soii;
j. ntre numrul copiilor din familie i coeficientul de inteligen al prinilor;
k. ntre poziia n fratrie i realizarea colar exprimat prin media general.
Schiai cteva explicaii posibile pentru fiecare dintre situaiile analizate.
6. Corelaia dintre X i Y se schimb dac adugm o constant la X sau dac l multiplicm
pe Y cu o constant?
7. Ce legtur de asociere credei c exist ntre varian (dispersie) i corelaie?
8. Studiul corelaiei a nceput practic cu analiza relaiei existente ntre nlime i greutate,
aa cum acestea au rezultat din datele culese de ctre Galton n al su Laborator de
antropometrie (1884). Pentru c ei continu s fie cei mai importani indicatori

antropometrici, v propunem un exerciiu de re-analiz a relaiei dintre acetia, dar


difereniat dup criteriul de gen, pe un eantion evident nereprezentativ de studeni i
studente ai Universitii Transilvania. i pentru c ne-am transformat n zna bun,
propunnd studenilor n cauz s indice care ar fi mrimea la care nlimea i greutatea
lor proprii i-ar satisface pe deplin, v propunem s studiai aceste relaii i n planul ideal,
al dorinei, pentru a vedea dac aceasta se supune vreunei regulariti matematice.
Calculai deci intercorelaiile: R-D, GR-GD i apoi R-GR, D-GD, separat pentru biei
i fete, iar apoi pentru total, reunind datele ntr-un singur fiier. Comentai rezultatele
obinute. Rangai R i D la biei i fete i determinai corelaia (metoda lui Spearman)
corectnd obinut dup tabelul din curs.

103

B I E I
Valori absolute
Ranguri
Nr.

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
N
X
x
X
X2
x
xy
xy
r

GR

GD

177
172
174
185
180
166
165
180
182
168
168
176
168
174
178
175
175
193
182
178
189

185
175
180
185
180
175
190
180
182
170
172
185
175
174
180
182
181
180
190
180
191

110
58
60
85
81
58
65
77
74
64
60
58
58
60
73
60
72
76
80
74
76

21

21

21

GR

GD

95
68
70
85
76
65
95
75
80
72
63
75
65
60
80
60
77
78
72
70
85

165
161
160
163
160
170
159
169
169
167
166
160
160
173
162
164
170
167
170
165
169

170
168
180
170
170
170
165
175
175
170
166
170
170
170
170
170
165
167
170
165
175

56
55
47
56
56
58
44
68
62
47
54
46
60
65
55
59
55
47
60
59
50

55
47
60
50
50
55
46
60
58
47
50
45
60
63
53
50
50
52
55
53
50

21

21

21

21

21

42

N
X
x
X
X2
x
xy
xy
r

F E T E
Valori absolute

42

42

Ranguri
D

42

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

104

7.10. Quiz
Rspundei la urmtoarele 10 ntrebri, fiecare scorat cu cte un punct:
1.Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac adugm
urmtoarele dou cupluri de valori: 200 cm - 100 kg; 155 cm - 42 kg?.......................................
.......................................................................................................................................................
.......................................................................................................................................................
2. Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac prima valoare
introdus, 177 cm, ar fi fost tastat 1770 cm? .............................................................................
.......................................................................................................................................................
.......................................................................................................................................................
3. Ce s-ar ntmpla cu aceleai corelaii dac, din greeal, am fi introdus primul set de valori
invers, 177 cm la greutate i 110 kg la nlime? ..............................................................
.......................................................................................................................................................
.......................................................................................................................................................
4. Enumerai cinci dintre cele mai importante utilizri ale coeficientului de corelaie. ...............
.......................................................................................................................................................
.......................................................................................................................................................
5. Ce este norul de puncte i asupra cror caracteristici ne informeaz el? .................................
.......................................................................................................................................................
.......................................................................................................................................................
6. Analizai diferenele dintre mediile la R, D, GR i GD pentru biei i fete. Artai dac
pstrai sau respingei ipoteza de nul i la ce prag de semnificaie. .............................................
.......................................................................................................................................................
.......................................................................................................................................................
7. Unul dintre coeficienii de corelaie are valoarea r = 3,25. Ce putei spune despre el i cum
argumentai? .................................................................................................................................
.......................................................................................................................................................
8. Corelaia IR_ID este de r = .688 iar GR_GD este de r = .811. Cu cte procente este mai
bun a doua corelaie dect prima? Ct din variana criteriului prezis acoper fiecare? .............
.......................................................................................................................................................
.......................................................................................................................................................
9. Luai separat, pe biei i fete, corelaiile IR_ID i GR_GD sunt mai mici dect dac punem
la comun, ntr-un singur fiier toate datele. De ce se ntmpl acest lucru? ................................
.......................................................................................................................................................
.......................................................................................................................................................
10. Corelaia dintre IR_GD pentru cele 21 de fete este de r = .379, nesemnificativ statistic.
Cum ar fi fost ea dac numrul fetelor ar fi fost de 42? Dar de 84? ............................................
.......................................................................................................................................................
.......................................................................................................................................................

105

CAPITOLUL 8

UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE


REGRESIA LINIAR SIMPL I MULTIPL

8.1. Introducere
Termenul de regresie a fost utilizat pentru prima dat de Galton, el neavnd nici o
conotaie negativ. Supuse prelucrrilor statistice, rezultatele obinute din investigarea n
primul laborator de antropometrie din lume (Londra, 1884) a unor caracteristici individuale,
scoteau n eviden tendina valorilor extreme de a regresa spre medie. Cu alte cuvinte, din
prini foarte nali sau foarte scunzi exist tendina natural s se nasc copii mai mici,
respectiv mai mari dect acetia.
Dac n psihanaliz un comportament este numit regresiv atunci cnd persoana se
ntoarce la faze revolute ale copilriei, cznd spre forme de echilibru tipice trecutului,
regresia statistic poart spre viitor, pentru c ea are n vedere n primul rnd anticiparea sau

precizarea unor fenomene, plecnd de la seturi de date actuale. nseamn c regresia


ndeplinete o funcie de baz n tiinele socio-umane, deoarece orice tiin i propune nu
doar s explice faptele care i circumscriu domeniul, ci s le i prezic, anticipeze, prin
postularea de regulariti.
Pentru a fi foarte riguroi, regresia are n vedere ambele dimensiuni ale tiinei,
deoarece ea poate fi utilizat att pentru a explica - regresia n scop explicativ -, ct i pentru a
prezice - regresia n scop predictiv. n prima situaie, dac prin metoda experimental s-a
determinat o relaie cauzal ntre unul sau mai muli factori, numii variabile independente, i
o variabila dependent, atunci ponderea cu care factorii din prima categorie (cauzele) intervin
n cea de a doua categorie (efectele) poate fi modelat matematic printr-o ecuaie de regresie.
De exemplu, se tie c inteligena general, motivaia sau caliti ale voinei intervin cu
ponderi diferite n ceea ce numim reuita academic sau randamentul colar al elevilor. Mai
mult, jocul acestor elemente psihologice se asociaz cu particulariti non-psihologice, cum ar
fi apartenena de gen: n condiii de dotare intelectual egal, fetele obin rezultate colare
semnificativ mai ridicate, ele mobiliznd n reuita colar mult mai mult factorii de
personalitate. Mai mult, ele pot converti ntr-o for pozitiv conformismul social,
dezirabilitatea social i locusul extern al controlului (teoretizat de Rotter) ce vor fi puse mai
106

mult n slujba reuitei colare. Poziia n fratrie, mrimea acesteia, statutul socio-economic al
familiei, studiile prinilor (ale mamei n special), starea de sntate biologic i psihologic,
calitatea proceselor instructiv-educative din coal etc. i nc ali factori pot fi invocai a avea
o legtur cauzal cu reuita colar. Problema care se pune este aceea de a stabili intensitatea
acestor legturi i de a le introduce ntr-un model matematic economic care s dea cea mai
puternic predicie, prin cel mai mic numr de predictori. Deci ntrebarea principal la care
trebuie s rspund regresia utilizat n scop explicativ este aceea dac i n ce msur o
variabil independent (VI) contribuie semnificativ la evoluia variabilei dependente (VD), n
condiiile n care am controlat experimental influena altor factori (variabilele parazite) asupra
acesteia.
Regresia utilizat n scop predictiv folosete i la nivel terminologic alte concepte,
deoarece elementul prezis se numete criteriu, iar elementul/elementele care fac posibil
predicia se numesc chiar predictori. Legtura dintre predictori i criteriu se ncearc a fi
maximizat prin includerea ntr-o ecuaie de regresie a acelor factori dintr-o categorie care au
cea mai mare putere, i aceasta ntr-o anumit ordine, determinat de importana lor. De
exemplu, n comiterea tentativei de suicid anumii factori reprezint un coeficient de risc mai
ridicat

(dispoziia

depresiv,

tendinele

auto-devalorizatoare,

sentimentul

sczutei

autoeficaciti personale, stima de sine diminuat, temperamentul melancolic etc.). Studiindui adecvat, ei pot fi abordai matematic printr-un model predictiv puternic, care s ghideze
aciunile i interveniile suportive ulterioare. Aceeai problem se poate pune n legtur i cu
securitatea rutier, cu anticiparea nivelului reuitei la un curs de formare, cu selecia primar
prin examene psihologice pentru anumite categorii de personal etc. i cea mai important
caracteristic a unui instrument psihodiagnostic, care este validitatea, se sprijin pe acest tip
de demers statistic, n msura n care orice diagnostic psihologic se face n vederea unui
prognostic, n raport cu care un test sau o baterie de teste se spune c se valideaz. ntrebarea
de fond la care trebuie s rspund regresia utilizat n scop predictiv se refer la ci i care
sunt predictorii ce ne ajut s estimm cel mai corect i mai economic criteriul.
A doua distincie major n materie de regresie este diferenierea terminologic ntre

regresia liniar simpl i regresia multiliniar sau multipl. Dac n primul caz este vorba
de o distribuie bivariat, n care exist un singur predictor (variabila independent) i un
singur criteriu (variabila dependent), n a doua situaie avem mai multe surse de variaie,
deoarece ecuaia de regresie include mai muli factori ce intervin cu ponderi diferite n
predicia criteriului.

107

Este evident c modelul multivariat are putere explicativ sau predictiv mai mare
dect cel liniar simplu. Dar i ntr-un caz i n cellalt putem apela la regresia liniar (fie ea
simpl sau multipl) n dou condiii:
-

relaia dintre predictor i criteriu (respectiv variabila independent i variabila


dependent VI - VD) este una liniar, sau este adus spre acest model;

criteriul (variabila dependent) este msurat pe o scal numeric (de interval sau de
raport), pentru alte tipuri de scale existnd forme specifice de regresie (logistic,
logistic multinominal sau ordinal).

8.2. Predicie determinist sau probabilist


Dac am dori s facem estimaia a ceva, aceasta ar putea fi mai grosier sau mai
nuanat, n funcie de elementele pe care le utilizm n predicie. De exemplu, dac am vrea
s ne vindem maina proprietate personal Dacia Logan, am putea s cercetm preul mediu
cu care maini de acest tip se vnd pe pia. Folosind media i abaterea standard, cunoscnd i
un pic de statistic, vom ti c am putea obine n proporie de 68% acest pre, plus i minus o
abatere standard; 96% preul mediu plus i minus dou abateri standard i 99% acesta plus i
minus trei abateri standard n jurul preului mediu.
Practica ne arat ns c problema nu e rezolvabil doar prin cunoaterea preului
mediu i a dispersiei acestuia, deoarece anul de fabricaie, starea mainii, numrul kilometrilor
parcuri sau elemente mai subtile (a fost maina implicat ntr-un accident major?; vnzarea
se face toamna - cnd preurile coboar, sau primvara, cnd preurile urc?; introducerea
unor legi - standardul Euro 4 sau 5, ori chiar unele zvonuri - mainile de un anumit tip nu se
vor mai nmatricula la poliie) intervin de asemenea n structura preului actual. Dac pentru
vnztorul ocazional asemenea lucruri par fastidioase, pentru cel ce triete efectiv din
vnzri/cumprri ele ajung s capete o importan special. Prediciile pe care urmeaz s le
facem sunt tot de tip probabilistic, pentru c ele nu anticipeaz cu o precizie absolut
elementul prezis, n condiiile n care fenomenul este determinat de o multitudine de cauze,
fiind practic imposibil de cunoscut i stpnit toate sursele de variaie ale factorilor respectivi.
Dac am avea un model care s prezic cu exactitate valorile unei variabile, plecnd
de la valorile altor variabile care o afecteaz, el s-ar numi model determinist (ca n fizic) i ar
avea formula:
Y = aX

108

n care Y este variabila prezis, X variabila (variabilele) predictoare i a o constant. Modelul


probabilistic ine cont de intervenia factorilor aleatorii (hazardul) care sunt o surs de eroare,
deci el va avea formula:
Y = aX + eroarea aleatorie
Y = componenta determinist + eroarea aleatorie

8.3. Regresia bivariat


Se numete bivariat deoarece acest tip de regresie pleac de la relaia existent ntre
dou variabile: independent i dependent, predictor i criteriu, ori gradul de asociere care
exprim intensitatea relaiei dintre dou variabile este - aa cum am artat anterior - dat de
coeficientul de corelaie. Expresia vizual a acestei relaii este dat de diagrama de corelaie,
unde norul de puncte tinde mai mult sau mai puin spre o dreapt. n cazul corelaiilor perfecte
(r = 1) norul de puncte ia chiar forma unei drepte, numit linie de regresie, creia i se poate
determina o ecuaie (ca oricrei drepte) i care trece prin toate punctele norului de puncte.
Aceasta nseamn c putem anticipa cu exactitate pe Y plecnd de la X (i reciproc),
neexistnd nici o diferen ntre rezultatele estimate i cele constatate. Din pcate aceasta este
doar o situaie ideal, n realitate regresia cutnd acea dreapt care s reproduc cel mai bine
evoluia norului de puncte, pentru a permite estimri ct mai exacte ale rezultatelor. Pentru ca
aceasta s fie posibil este nevoie ca ntre predictor i criteriu s existe o corelaie ct mai
mare, deoarece creterea corelaiei strnge norul de puncte tot mai aproape n jurul unei
drepte.
Dreapta pe care o ajustm norului de puncte ar trebui s satisfac dou condiii:

s minimizeze suma tuturor erorilor: adunnd abaterile pozitive sau negative ale tuturor
punctelor de la linie, aceast sum ar trebui s fie minim. Numai pe baza acestui criteriu
nu am ti ns cum s trasm efectiv linia, deoarece valorile negative i cele pozitive se
anuleaz reciproc i criteriul nu distinge ntre mulimea de linii care potrivesc punctele;

s minimizeze suma ptratelor tuturor abaterilor de la linie: acesta este un criteriu mai
valid (i singurul!), deoarece se poate demonstra matematic (principiul celor mai mici
ptrate) c exist doar o singur linie care potrivete bine toate punctele, spre deosebire de
situaia precedent. Aadar7, linia de regresie care red cel mai bine norul de puncte este
una singur i ea se construiete dup principiul celor mai mici ptrate (the least squares

Tilda (^) de deasupra variabilei Y, fie ea standard sau brut, arat c valoarea obinut prin ecuaia de regresie
nu este cea real, msurat, ci este valoarea anticipat, expectat prin predicie.

109

n englez) i apeleaz de fapt la proprietile matematice ale ecuaiei unei drepte, care
arat astfel:

Y = B0 + B1 X

(8.1)

unde B0 se cheam interceptul, adic punctul de intersecie al liniei de regresie cu ordonata


(axa OY); B1 indic panta liniei de regresie i - deoarece el este dat de valoarea tangentei
unghiului teta () - acesta indic cu ct crete Y atunci cnd X crete cu o unitate; panta este
ascendent pentru corelaiile pozitive i descendent pentru cele negative.

Figura 8.1. Reprezentarea grafic a modelului regresiei liniare


i a criteriului celor mai mici ptrate.
Surs: Mertler i Vannatta, 2005, p. 168.

n Figura 9.1 de mai sus linia de regresie se poate trasa dnd valoarea zero lui X,
pentru a determina interceptul B0 (care este locul n care linia taie ordonata) i o valoare
oarecare (mai mare) a lui X pentru a obine al doilea punct necesar trasrii dreptei. Pentru
fiecare Xi ecuaia de regresie prezice un Yi, dar cu un grad de eroare, reprezentat mai sus prin
diferena dintre valoarea real observat i valoarea prezis. nsumarea tuturor acestor erori se
exprim prin ceea ce se chiam reziduale, n fond o msur a limitei de precizie a modelului
regresiv. 1 indic panta liniei de regresie, adic cu ct crete Y n condiiile creterii cu o
unitate a lui X.

110

n cazul regresiei bivariate B1 este dat de formula:


B1 = r

y
x

(8.2)

unde r este coeficientul de corelaie iar x i y sunt abaterile standard pentru cele dou
variabile. Coeficientul B0 se calculeaz dup formula:

B0 = Y B1 X

(8,3)

n care Y i X sunt mediile variabilelor Y i X. Pentru a da un exemplu, media unei clase de


elevi este la inteligen de 106,71 cu o abatere standard de x = 13,52, iar media la matematic
este de 7,98 cu o abatere standard y = 0,92, corelaia dintre QI i matematic fiind r = 0,83.
Vom avea:
B1 = 0,83 0,92/13,52 = 0,0565.
B0 = 7,98 - 0,0565 106,71 = 7,98 - 6,03 = 1,95
Y = 1,95 + 0,0565 X
Pentru QI de 116 i 87, valoarea anticipat a mediei la matematic va fi:
Y = 1,95 +0,0565 116 = 8,50
Y

= 1,95 + 0,0565 87 = 6,87

De menionat faptul c ecuaia de regresie estimeaz rezultatele uor diferit fa de


cele real constatate dar, cu toate acestea, parametrii acestei ecuaii asigur soluia cea mai
apropiat de rezultatele observate. Diferena dintre rezultatele estimate i cele observate sunt
cu att mai mari cu ct corelaia dintre cele dou variabile este mai sczut. Att n cazul
regresiei liniare simple, ct i n al celei multiliniare exist o serie se procedee care ne ajut s
decidem n legtur cu eficiena ecuaiei de regresie n estimarea rezultatelor.
Un set de date poate fi exprimat n note brute (aa cum au fost ele culese) sau n note
standard, adic n note z (abaterea de la medie a unei valori, exprimat n uniti sigmatice).
Cea mai simpl predicie bivariat este cea exprimat n scoruri z: cunoscnd nota z a unei
persoane la o variabil, vom prezice nota sa z la cealalt variabil dup formula:
(8.4)

zy = zx

n care (beta) se cheam chiar coeficient de regresie standardizat. Dar, deoarece valoarea
coeficientului de regresie standardizat este exprimat de coeficientul de corelaie dintre
variabile, formula anterioar devine:
zy = r zx

(8.5)

111

r=

zy
zx

(8.6)

Apelm la exemplul anterior, unde corelaia dintre QI i media la matematic era de 0,83:
media lui X = 106,71
x = 13,52
zx1 = (116 - 106,71) / 13,52 = 0,69

zx2 = (87 -106,71) / 13,52 = - 1,46

media lui Y = 7,98


y = 0,92

zy1 = ?

zy2?

zy1 = 0,83 0,69 = 0,57

zy2 = - 1,21

Verificare: (8,50 - 7,98) / 0,92 = 0,57;

(6,87 - 7,98) / 0,92 = - 1,21

Aa cum se vede, rezultatele obinute pe cele dou ci sunt coincidente.

Desenarea liniei de regresie se face prin determinarea coordonatelor a dou puncte


aflate la extermiti diferite ale scalei i unirea lor cu o linie. Pentru mai mult acuratee se pot
determina din start trei puncte: unul care este chiar originea (X = 0), unul aflat la cealalt
extrem i unul intermediar. Dac determinrile s-au fcut corect, cele trei puncte vor fi
coliniare. Linia care va reiei astfel minimizeaz suma deviaiilor abaterilor ptratice ale
valorilor prezise de la cele reale i este una singur. Ecuaia i linia astfel obinute sunt
valabile doar pentru predicia lui Y din X i nu pot fi utilizate i n sens invers. Pentru ca
aceasta s fie posibil i pentru a-l determina pe X plecnd de la Y trebuie o scris o nou
ecuaie de regresie, n care cele dou variabile vor fi introduse n ordine invers.
Faptul de a determina ecuaia i linia de regresie ce se potrivete cel mai bine datelor
nu nseamn ctui de puin c am terminat de rezolvat ntreaga problem a prediciei, cci
prin aceasta tocmai am deschis o nou problem adiacent, care se refer la erorile de

predicie. Erorile asociate cu prediciile reprezint abaterea standard a lui Y (sY) care tim c
este definit astfel:

(Y Y ) 2
sY =
N 1

sY =

(8.7)

(Y Y ) 2
N 1

(8.8)

Se observ c n ambele formule la numrtor se afl suma abaterilor ptratice ale


fiecrui Y real obinut de la cel prezis, adic reprezint suma ptratelor lui Y (SSY). Deorece

112

linia de regresie se bazeaz pe abaterile ptratice ale lui Y obinut de la cel prezis, msura
erorilor aleatorii poate fi scris astfel8:

sY Y =

(Y Y ) 2
N 2

(8.9)

Prelucrri algebrice speciale conduc de la formula de definiie de mai sus la dou


formule de lucru mult mai maniabile:

N 1
sY Y = sY (1 r 2 )

N 2

(8.10)

sY Y sY (1 r 2 )

(8.11)

Ultima formul, dei nu la fel de precis comparativ cu cea anterioar, este una mult
mai practic, lund n calcul abaterea standard a lui Y i corelaia r, ambii indicatori uor de
determinat. Eliminarea de sub radical a raportului (N - 1)/(N - 2) este justificat de faptul c la
distribuiile mai mari (de peste 30) corecia adus de acest raport este practic nensemnat.
ns n acest caz semnul dintre termeni nu mai este egal, ci aproximativ egal.
Eroarea standard a estimaiei se interpreteaz ca o form special de abatere standard,
deoarece sY Y este chiar deviaia standard a erorilor care apar cnd este folosit ecuaia de
regresie. Este evident c predicia este cu att mai bun cu ct factorul eroare este mai mic,
adic pe msur ce corelaia dintre cele dou variabile devine tot mai puternic. Pentru r = 1
erorile de predicie sunt eliminate, dar aceast situaie nu se ntlnete niciodat n realitate.
Aadar, determinarea ecuaiei i a liniei de regresie nu nseamn ctui de puin
rezolvarea complet a problemei prediciei, cci trebuie calculat i cantitatea de eroare pe
care aceast ecuaie o face posibil atunci cnd se opereaz cu ea. Importana major a
prediciei prin regresia bivariat nu este dect n mod secundar acela de a-l determina pe un
anume Y n funcie de un anume X, ci deriv din aceea c ea descrie bine relaia dintre dou
variabile, indicnd dac se poate face sau nu predicie, i ntre ce limite de precizie. Creterea
puterii i acurateei acestei predicii se face apelnd la regresia multipl prin introducerea de
predictori suplimentari, ceea ce nu conduce la eliminarea rezidualelor, adic a erorilor de
predicie. Cu ct modelul regresiv este mai bun i mai complet, cu att mai mult se elimin
din eroarea rezidual. Dei tot mai bun, predicia nu va putea elimina ns nicicnd definitiv

n formulele anterioare aveam la numitor pe N - 1 pentru c se determin doar un parametru, media populaiei.
n formula care urmeaz la numitor avem N - 2 pentru c acum se estimeaz dou lucruri simultan, panta i
interceptul.

113

factorul eroare, adic zona din variana comun rmas neprezis de setul de variabile
predictoare.
Trebuie menionat aici i rolul nefast pe care valorile atipice sau extreme (rezultate
uneori dintr-o simpl tastare incorect la introducerea datelor) l au asupra regresiei. Fiind
legat strns de coeficientul de corelaie, creterea sau descreterea acestuia ca urmare a
prezenei valorilor aberante se repercuteaz direct asupra modelului regresiv care este ecuaia
de regresie, mrind substanial componenta de eroare a prediciei.

8.3.1. Regresie versus corelaie


Avantajul corelaiei este acela c ea este reprezentat sintetic printr-un singur numr
care exprim intensitatea asocierii dintre dou variabile. Astfel, corelaia de .75 dintre
nlime i greutate este una substanial i afirm c 56% din variana comun rezult din
asocierea celor dou variabile. Dar acest r ridicat nu ne spune care trebuie s fie greutatea
dac nlimea crete cu 5 centimetri. n situaia cnd vrem s determinm magnitudinea
schimbrii i arat regresia adevrata utilitate. Regresia multivariat (mai multe variabile
predictoare asociate cu o singur variabil criteriu) arat clar c regresia i corelaia nu se
suprapun ntotdeauna aa de frumos. Astfel, atunci cnd exist o corelaie ridicat ntre doi
predictori i o variabil prezis acest fapt se poate datora unei sau alteia dintre variabile sau
amndurora luate mpreun. Aa se face c n regresia multipl, nainte de a se evalua rolul
comun al predictorilor asupra variabilei prezise, trebuie s fie evaluat rolul separat al
fiecruia, dar i intensitatea asocierii dintre acetia.
Semnificaia statistic a pantei ecuaiei de regresie bivariat (B) se sprijin pe
formulele de mai jos, n care sX, sY sunt deviaiile standard, sY Y este eroarea diferenei iar t se
va interpreta n maniera cunoscut, fcnd apel la tabelele lui Fisher din Anexe.
t=

B
sY Y
sX N 1

B( s X ) N 1

=
sY

N 1
(1 + r )

N 2

(8.12)

8.4. Regresia liniar multipl (multivariat)


n psihologie, sociologie sau pedagogie un efect este dependent de mai multe cauze ce
intervin cu ponderi diferite (multi-cauzalitate), deci i predicia noastr ar putea fi
mbuntit considerabil dac am putea ine cont simultan de mai multe variabile i de relaia
lor cu variabila prezis. Indicatorul sintetic al acestei relaii este R, adic coeficientul de
114

corelaie multipl, care - atunci cnd este ridicat la ptrat (R2) devine coeficient de
determinare multipl, pentru c ne arat care este variaia din variabila dependent Y
(criteriul) explicat de variabilele predictoare (sau variabila independent X).
Dac am reda prin cercuri variaia total a unei variabile am obine diagrame Venn de
tipul celor de mai jos. Zona din variana comun (numit covarian) explicat de r2 sau de R2
a fost de fiecare dat notat cu a, zona b din Y fiind cea care rmne de fiecare dat
neexplicat.

Figura 8.2. Relaia dintre predictori i criteriu n regresia


bivariat simpl (A) i multivariat (B).

Figura 8.3. Relaia dintre predictori i criteriu n regresia multivariat.

Dac n regresia simpl un singur predictor las o mare parte din variana lui Y
neexplicat (zona de eroare b), n exemplul urmtor vedem c fiecare predictor explic cte o
parte din variana lui Y, partea de eroare micorndu-se succesiv. Exemplul C ne atrage
atenia c adugarea de noi predictori nu face s diminue semnificativ zona b dect atunci
cnd acetia sunt independeni, adic necorelai ntre ei. Deoarece X2 i X3 sunt corelai ntre
ei, X3 nu contribuie la diminuarea zonei b n aceeai msur n care o face X2 i de aceea va
trebui hotrt dac vor rmne n ecuaia de regresie amndoi predictorii, iar dac nu, care va
fi cel pstrat.
Dac folosim mai muli predictori (variabile independente), ecuaia de regresie
multipl va avea urmtoarea formul:
^Y = B0 + B1X1 + B2X2 + ... + BnXn

115

(8.13)

n alegerea celui mai potrivit model de regresie exist - pe de o parte - considerentele


teoretice de la care plecm, dar - pe de alt parte - i civa indicatori statistici obiectivi care
ne ghideaz n deciziile noastre. Acetia sunt coeficientul de corelaie multipl R sau ptratul
acesteia (coeficientul de determinare multipl) i testul F, ntlnit i n cazul analizei de
varian ANOVA.
R poate fi judecat ca orice coeficient ce corelaie, dar R2 este mai informativ, pentru c

el ne arat ct din dispersia variabilei-criteriu este explicat de un predictor sau de un grup de


predictori i ct din varian explic n plus fiecare nou predictor introdus n model, atunci
cnd abordarea se face prin metoda ierarhic. Practic, atunci cnd un predictor nu
amelioreaz semnificativ predicia criteriului, R2 crete nesemnificativ i acesta este semnul c
acel predictor nu mai trebuie inclus n model. Dac privim cu atenie Figura 7.2 de mai sus
variabilele X1 i X2 coreleaz strns cu criteriul Y i - necorelnd ntre ele - X2 amelioreaz
semnificativ predicia pe care o realiza numai X1. n schimb, X3 elimin prea puin din b, chiar
dac coreleaz i el cu Y, i aceasta deoarece este el nsui corelat i cu X2. Dintre X2 i X3 va
trebui s pstrm doar un singur predictor, pe cel mai puternic, i aceasta deoarece modelul
final trebuie s dea cea mai bun predicie, cu numrul cel mai mic de predictori, adic trebuie
s fie unul parcimonos (economic).
Pe de alt parte, ANOVA ofer valoarea lui F, acesta fiind un test de semnificaie
comparabil cu testul t Student, diferena fiind c se face comparaia dintre o variabil continu
i una categorial cu mai mult de dou stri (trihotomic, qvadrihotomic etc., adic
polihotomic). Analiznd raportul mediilor ptratice ale varianelor prezise (poriunea a din
diagram) i a celor reziduale (factorii de eroare, adic poriunea b) pentru modelul de
regresie construit n ansamblul su, F ne informeaz despre semnificaia statistic a acestuia
n acelai fel sau manier ca i testul t Student al lui Gosset.
n al treilea rnd, programul de analiz computerizat a datelor SPSS ofer finalmente
outputuri (vezi figurile de mai jos) pentru metoda ierarhic care are pe ultimele coloane
determinarea lui t i a semnificaiei sale statistice p pentru fiecare dintre componentele
modelului, ajutndu-ne s identificm i s pstrm doar combinaia de predictori care sunt
cel mai semnificativ asociate cu criteriul.

8.4.1. Probleme speciale implicate n analiza de regresie


Analog cu r din corelaia Pearson, coeficientul de corelaie multipl R din regresie
vorbete despre ct de mult informaie conine combinaia de variabile independente VI
necesar pentru a putea prezice variabila dependent criteriul (VD). Ca i la ANOVA i n
116

cazul regresiei multiple exist un test F, care d expresie faptului dac relaia dintre setul de
variabile independente i VD este suficient de mare pentru a fi semnificativ. Interpretarea lui
R este de altfel similar cu r al lui Pearson, n sensul c ridicat la ptrat el devine coeficient

de determinare i, nmulit apoi cu 100 (R2100), el va exprima procentajul din variana VD


explicat de combinaia de VI din model.
O a doua problem esenial a regresiei este cea a multicoliniaritii, care poate
aprea atunci cnd ntre variabilele predictoare exist o corelaie medie spre mare sau mare.
Dac dou variabile predictoare sunt mediu sau puternic intercorelate, practic ele conin o
informaie foarte similar i, msurnd cam acelai lucru, una dintre ele nu amelioreaz
semnificativ predicia VD. Dar aceasta este doar o parte a problemei, cci variabila respectiv
nu numai c nu aduce o informaie suplimentar, dar prin faptul c genereaz
multicoliniaritate ea creeaz o problem tehnic ce afecteaz analiza de regresie n sine.
Astfel, ea face s creasc variana coeficienilor de regresie, fapt care are ca efect o ecuaie
mai puin stabil. n plus, multicoliniaritatea genereaz probleme n interpretarea corect a
importanei fiecrei variabile independente n parte n predicia variabilei dependente. Deci
suprapunerea de informaie prin multicoliniaritate produce confuzii ce limiteaz capacitatea
de precizare a efectelor individuale ale fiecrei VI. Acesta este motivul pentru care analiza
multicoliniaritii va fi abordat la nceputul analizei de regresie, i nu la sfritul ei. Pentru
aceasta se d Testul de toleran (Tolerance test) pentru fiecare variabil independent.
Testul de toleran este o msur a coliniaritii pentru fiecare variabil predictoare i poate
lua valori de la 0 la 1. Valoarea spre zero a toleranei este o indicaie clar a multicoliniaritii,
iar pragul de 0,10 devine punct de tietur (cutoff) n luarea deciziei.
A doua metod de identificare a multicoliniaritii const din examinarea Factorului

de inflaie a varianei (Variance Inflation Factor = VIF) pentru fiecare predictor n parte.
Cnd VIF pentru o VI este mare, acest fapt indic o combinaie liniar puternic ntre aceast
variabil i ceilali predictori. Formula sa (VIF = 1/(1 Rje) este furnizat de programele de
prelucrare computerizat a datelor, o valoare mai mare de 10 fiind indicativ pentru existena
multicoliniaritii. Relaia dintre toleran i VIF este urmtoarea: VIF = 1/toleran.
Combaterea multicoliniaritii are n vedere mai multe procedee, dintre care cel mai
radical este eliminarea efectiv din analiz a variabilei respective. Pentru al doilea procedeu
mai dezirabil pornim de la un exemplu. S presupunem c utilizm factorii de atmosfer
familial i competen educaional a prinilor pentru predicia insatisfaciei legat de
aspectul fizic al sinelui adolescentin. Cum cele dou VI sunt puternic intercorelate, cea mai
bun rezolvare a problemei este agregarea lor ntr-un indicator sintetic prin care vom combate
117

i coliniaritatea, dar vom avea i o nou VI mai stabil. A treia metod de combatere a
multicoliniaritii ine cont de necesitatea parcimoniei modelului regresiv, care trebuie s
ofere cea mai bun predicie cu cel mai redus numr de predictori. Aceasta impune selecia
celui mai bun set de predictori, fapt care presupune deinerea n avans a unei informaii
semnificative despre relaiile existente ntre variabile, prin matricea de intercorelaii, combinat
cu caracteristicele i mrimea eantionului pe care se lucreaz. Cum augmentarea eantionului
este mai pretenioas i mai costisitoare, pare mult mai rezonabil s meninem numrul de
predictori la un nivel ct mai sczut.

8.4.2. Validarea modelului regresiv


Aceasta apare ca o etap necesar deoarece predicia VD se face n raport cu un
eantion populaional cu caracteristici specifice. Pentru a putea extinde mai larg utilizarea
modelului obinut la captul analizei acesta trebuie s prezic suficient de bine i pe alte
populaii, n caz contrar el neputnd fi generalizat. Validarea ncruciat a modelului se face
lsnd s treac o perioad de timp, ridicnd un alt eantion din aceeai populaie i testnd pe
aceasta modelul regresiv anterior. Cum acest lucru nu este ntotdeauna fezabil, cel mai
prudent lucru este splitarea din start a populaiei iniale (care n acest caz trebuie s fie
suficient de larg) n dou loturi, unul destinat construirii modelul regresiv cel mai adecvat,
cellalt testrii i verificrii validitii sale pe un alt eantion. Mertler i Vannatta (2005) atrag
atenia asupra rolului extrem de nefast pe care valorile atipice sau extreme (outlierii) l pot
avea asupra modelului regresiv. n msura n care regresia multipl este o metod destinat
maximizrii corelaiei predictori-criteriu i n msura n care tim ct de sensibil este
corelaia la cazurile atipice sau extreme, outlierii trebuie identificai i tratai cu toat atenia.
n acest scop analiza boxploturilor bivariate sau determinarea distanei Mahalanobis
constituie precauii mai mult dect dezirabile.

8.4.3. Glosar de termeni cheie ai regresiei liniare


Valoarea prezis: valoarea estimat pentru variabila Y de la variabila X.
Panta (slope = B1): Schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.
Interceptul: este valoare lui Y cnd X este zero.
Erorile de predicie: diferena dintre Y obinut i cel prezis.
Eroarea standard a estimrii: media deviaiilor ptratice de la linia de regresie.
Variana rezidual (eroarea varianei): rdcin ptrat din eroarea standard a estimrii.
Reziduale: suma diferenelor dintre Y obinut i cel prezis.
118

Linia de regresie prin cele mai mici ptrate: linie de regresie determinat prin minimizarea
diferenelor ptratice dintre Y obinut i cel prezis.

Ecuaia de regresie: este ecuaia care l prezice pe fiecare Y din fiecare X.


Coeficieni de regresie: numele general dat pantei i interceptului; adesea se refer doar la
pant (B1).

Coeficienii de regresie beta (): sunt cei care rezult nu din distribuia originar, ci dup ce
aseasta a fost standardizat. Cnd avem doar o variabil predictoare (regresie simpl sau
bivariat) beta este dat de mrimea corelaiei dintre cele dou variabile ( = r).
Exerciii i aplicaii practice

Ina.

Gre.

Ina.

Gre.

real

real

dorit

dorit

169

58

169

55

170

70

170

62

172

57

172

60

160

52

170

55

170

55

175

55

167

65

167

55

167

55

175

60

156

55

160

55

160

46

160

49

10

172

50

175

50

11

163

54

165

53

12

184

77

180

80

13

193

113

193

104

14

158

54

168

58

15

170

77

170

65

16

158

49

165

50

N
X
X
X
X2

119

Un grup de 16 studeni de ambele genuri au furnizat urmtoarele valori ale nlimii i


greutii lor, actuale i dorite (adic cea la care ei s-ar declara satisfcui). Iat care sunt
cerinele aplicaiei de fa:
a. Efectuai dou diagrame de tip scatter pentru nlimea real i greutatea real, apoi pentru
nlimea real i cea dorit. Aproximai ochiometric corelaiile existente pentru fiecare
diagram n parte i comentai diagramele rezultate.
b. Calculai ecuaia de regresie pentru prezicerea greutii reale din nlimea real.
Interpretai interceptul i panta liniei de regresie.
c. Sunt r i B semnificativ diferii de 0?
d. Utiliznd ecuaia de predicie de mai sus, determinai ce greutate ar trebui s avei n raport
cu nlime dvs. real.
e. Scriei o a doua ecuaie de regresie prin care nlimea real s poat fi prezis plecnd de
la greutatea real i apoi determinai nlimea pe care ar trebui s o avei plecnd de la
greutatea dvs. actual.
f. Trasai corect linia de regresie pe scatterplot-ul corespunztor, lund obligatoriu dou
puncte, unul pentru origine i altul pentru nlimea de 200 de cm, dar i un al treilea punct
intermediar pentru a vedea dac el se afl pe linia de regresie trasat.
g. Determinai eroarea standard a estimrii, att pentru prima, ct i pentru cea de a doua
ecuaie de regresie.
h. Care este diferena dintre coeficienii de regresie B i (beta)? Ce avantaje i dezavantaje
prezint fiecare i cnd l folosim pe unul sau pe cellalt?
i. Ce legtur exist ntre coeficientul de corelaie i ecuaia de regresie simpl?
j. Ce valoare ar trebui s adunm sau s scdem la variabila greutate real pentru ca linia de
regresie s treac prin originea axelor?
k. Determinai coeficientul de corelaie pentru perechile IR-GR, IR-ID, ID-GD i GR-GD.
Comentai corelaiile obinute i argumentai n legtur cu perechea de variabile a crei
ecuaie de regresie va da cele mai mici erori de estimare.
l. Ce s-ar ntmpla cu relaia dintre variabilele nlime i greutate, reale i dorite, dac am
mri mult eantioanele, dup ce vom fi separat datele pentru genul masculin de cel feminin?

120

CAPITOLUL 9

TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT (2)

9.1. Teste neparametrice, distribuii binomiale i multinomiale


Modalitile de testare a ipotezelor statistice prezentate anterior sub forma testelor t i
z, a testelor de corelaie r, R i rho, la care se adaug testele F (rezultat din analiza de varian

ANOVA, neprezentat n aceste volum) se mai numesc i teste parametrice. Ele se cheam
astfel deoarece pleac de la estimarea unor parametri ai populaiei din care a fost extras
eantionul considerat, cum ar fi media () i abaterea standard (). Dei mai precise i mai
ntemeiate matematic dect testele neparametrice, care vor fi prezentate n ultimele dou
capitole ale lucrrii de fa, acest tip de teste se sprijin pe supoziia normalitii distribuiei
pentru variabila msurat la nivelul populaiei, fiind nevoie ca aceasta s fie msurat pe scale
real numerice, adic scale de interval sau de raport.
Testele nonparametrice sunt destinate de asemenea testrii ipotezelor statistice, dar
fr a mai face inferene asupra parametrilor populaiei i fr a testa ipoteze legate de acetia,
de unde i numele lor de tehnici sau teste neparametrice. Deoarece ele nu pleac de la
premisa normalitii distribuiei, acestea sunt teste independente de forma distribuiilor. Dar
i aceasta pare a fi diferena esenial comparativ cu testele parametrice ele sunt aplicabile
doar datelor ce nu sunt realnumerice, de tip categorial i nominal, fiind prin aceasta utile n
zone n care testele parametrice nu mai sunt operaionale.
Distribuiile pe care le presupun testele nonparametrice sunt fie cele dihotomice (cu
doar dou categorii de valori, reciproc exclusive, de tipul admis-respins, masculin-feminin,
da-nu etc.), motiv pentru care se numesc binomiale, fie cele care, dei tot categoriale, pot
prezenta mai mult de dou valori de scor, distribuii care se numesc multinomiale. Aceste
categorii sunt rezultate fie n mod natural (ca grupele sanguine, anotimpurile anului, tipul de
afiliere religioas etc.), fie n urma unui proces de mprire n clase a unei variabile continue,
dup anumite criterii. n statistic, variabilele continue real-numerice sunt preferabile celor
discontinue-categoriale pentru c ele permit tratamente mai puternice sau mai elaborate ale
datelor. Dar cnd distribuia unei variabile continue real numerice este una anormal
(bimodal, adic cu o mare eterogenitate provocat de acumularea valorilor variabilei n jurul
a dou valori de scor, sau este puternic asimetric sau chiar trunchiat), ori cnd exist alte
121

motive ntemeiate, variabila continu poate fi recodificat n una categorial. Acest fapt se
ntmpl n mod curent cu veniturile populaiei, cu numrul de igri fumate zilnic sau cu
vrsta, pentru care este preferabil utilizarea unui numr mai mic de categorii ce permit o
autoraportare mai rapid a populaiei unui studiu. Dei prin cagorizarea variabilei continue
testul statistic pierde din putere (adic din capacitatea de a reliefa diferene atunci cnd ele
exist cu adevrat), unele tehnici statistice nici nu sunt posibile dect dac exist cel puin o
variabil categorial, cazul tipic fiind cel al analizei de varian ANOVA.
Formula distribuiei chi-ptrat este cea de mai jos:
X N P
z2 =
N P Q

(9.1)

n care X este variabila, N volumul eantionului, P probabilitatea de apariie a evenimentului


sau categoriei respective i Q complementul ei (Q = 1 - P). Aceast distribuie va avea
ntotdeauna originea n zero, cci ridicarea la ptrat desfiineaz diferenele negative, i va
genera o familie de distribuii a cror form va evolua de la o asimetrie iniial extrem de
marcat (distribuii trunchiate) spre distribuii care se normalizeaz progresiv, pe msur ce
numrul gradelor de libertate (df) crete, ncepnd de la df egal cu 10.

Figura 9.1. Curbele distribuiilor chi-ptrat pentru 1, 2, 4, 6 i 10 grade de libertate

9.2. Termeni cheie i definiii implicate n testele chi-ptrat


Chi-ptrat: modalitate de testare a ipotezelor utilizat pentru datele categoriale.

Cnd avem o singur variabil categorial, raportat la o distribuie teoretic sau la


frecvene de apariie dinainte tiute, chi-ptrat determin gradul de suprapunere al
distribuiei real observate (fo) peste cea expectat (fe). n acest caz avem de-a face cu

chi-ptrat pentru suprapunere (goodness of fit n englez).


122

n cazul a dou variabile categoriale chi-ptrat determin dac ele sunt independente
una n raport cu cealalt, sau dac sunt relaionate ori asociate, adic neindependente.
Acest tip de test se cheam chi-ptrat pentru asocierea datelor categoriale, n
efectuarea sa fiind necesar introducerea datelor ntr-un tabel de contingen.

Tabel de contingen: este un tabel bidimensional, adic cu dou intrri, n care fiecare
observaie este clasificat simultan pe baza celor dou variabile categoriale. ntr-un
asemenea tabel se trec obligatoriu frecvenele observate (fo) n mrime absolut (i nu
procentual) i, pe o linie separat sau n paranteze, frecvenele expectate (fe),
determinate dup un algoritm specific. Cnd se determin chi-ptrat, tabelul de
contingen are ntotdeauna o ultim linie i coloan pe care se fac totalurile
marginale, necesare determinrii frecvenelor expectate.

Variabil categorial: este o variabil discontinu care prezint dou sau mai multe categorii
distincte ce permit clasificarea fiecrei observaii doar n una dintre categorii. n acest
fel se poate determina frecvena observat pentru fiecare categorie.

Totaluri marginale: rezult din nsumarea totalurile nivelurilor unei variabile categoriale,
nsumarea fiind n funcie de nivelurile celeilalte variabile. Prin nsumare, totalurile pe
linii i totalurile pe coloane dau totalul general, simbolizat prin N, ce reprezint
numrul tuturor evenimentelor sau grupurilor pe care se face analiza. N se raporteaz
cifric odat cu chi-ptrat.

Asociere: cuvntul asociere ne duce automat cu gndul la corelaie. Apare astfel inevitabil
ntrebarea dac chi-ptrat pentru asociere poate fi considerat tot un test de corelaie.
Rspunsul este afirmativ, fr nici un echivoc, cci:

chi-ptrat pentru asocierea variabilelor urmrete dac dou variabile sunt


independente sau asociate;

intensitatea asocierii este evaluat printr-o gril propus de Cohen, similar cu cea
destinat lui r;

pentru acest tip de asociere a datelor categoriale se determin o mrime a efectului


(coeficientul fi) care, ridicat la ptrat i nmulit cu 100, determin variana comun
a celor dou variabile, explicat de asocierea chi-ptrat, exact ca n cazul
coeficientului de determinare asociat lui r, rho sau R.
Exist totui i cteva de diferene ntre elementele comparate. Astfel, r se bucur de o

reprezentare grafic specific, care este scatterul, oferind o perspectiv mult mai nuanat
asupra caracteristicilor asocierii, cci se sprijin nu pe niveluri ale variabilelor, ci pe variabile

123

continue. Faptul c o variabil continu poate deveni una categorial, cu un numr restrns de
condiii sau de categorii, sugereaz ns c testul chi-ptrat pentru asociere poate fi folosit
substitutiv nu numai pentru r, ci i pentru ANOVA, atunci cnd violarea condiiei de
normalitate este una puternic.

9.3. Condiii i restricii pentru efectuarea testului chi-ptrat

Testul chi-ptrat se aplic doar pentru date indicnd frecvene. Aceast condiie nu
creeaz probleme practice deosebite, cci acolo unde categoriile nu exist n mod
natural, ele pot fi create prin operaia de recodificare, utiliznd criterii clare de
categorizare. Atenie ns, cele dou variabile nu trebuie s se intersecteze, ceea ce
nseamn c fiecare observaie intr doar ntr-o singur celul de tabel.

A doua cerin este aceea ca observaiile individuale din componena categoriilor


variabilei s fie independente, fiecare n raport cu toate celelalte. De exemplu, n
loturile apariate datele provenite de la so i de la soie, de la primul nscut i de la al
doilea nscut nu sunt independente.

Dac nregistrm evenimente dihotomice, de tipul celor care apar i care nu apar,
trebuie s avem pentru fiecare frecvenele aferente, astfel ca suma lor s fie mereu
aceeai.

Frecvena ateptat s nu ia valori mai mici de 5 i nu n mai mult de o cincime din


celulele tabelului de contingen.

Nici o celul a tabelului nu trebuie s aib frecvena expectat mai mic de 1, cci
mprirea la zero (fe este numitor) nu are sens.

9.4. Utilizarea practic a testului chi-ptrat


n determinarea semnificaiei asocierii sau a diferenei dintre medii sau cuantumuri
procentuale cel mai adesea se face apel la corelaie, la testul z (cnd numrul cazurilor este
mai mare de 30) sau la testul Student al lui Gosset, pentru a-l determina sau t (cnd numrul
cazurilor este mai mai mic de 30). Un numr mare de tipuri de ipoteze adecvate datelor
categoriale pot fi verificate cu ajutorul distribuiei chi-ptrat (2), care nu este ns la fel de
precis ca procedeele enunate anterior, impunnd de aceea o serie de precauii tehnice.
n mod esenial, distribuiile chi-ptrat msoar gradul de suprapunere dintre
frecvenele observate i frecvenele ateptate, pe baza unor anumite ipoteze, numite de aceea
frecvene teoretice, dar i frecvene expectate. Procedeul (matematic, statistic sau

124

probabilistic) al lui chi-ptrat determin dac abaterile constatate prin calcul de la aceste
distribuii sunt cuprinse n limitele fluctuaiei ntmpltoare (aceasta fiind ipoteza de nul), sau
dac, dimpotriv, le depete (ceea ce d ctig de cauz ipotezei specifice). Pentru a utiliza
corect procedeul chi-ptrat avem nevoie de eantioane suficient de mari (peste 30), ridicate la
ntmplare, dar care se pot clasifica n categorii separate, iar frecvenele nscrise n csuele
tabelului s nu fie prea mici (nu mai mici de 10 i n nici un caz sub 5, situaie n care se pot
comasa anumite clase pentru a depi acest numr critic).
n cazul n care frecvenele observate (fo) se compar cu frecvene dinainte cunoscute
printr-un model teoretic (fe), ce se bazeaz pe curba lui Gauss (stanine, note z, T, Hull, C, note
colare dup norma docimologic etc.), atunci comparaia prin testul chi-ptrat verific

gradul de potrivire (goodness of fit n englez) dintre distribuia teoretic i cea real
nregistrat. Aceast operaie a permis, de exemplu, depistarea unei fraude n cadrul unui
concurs unde divulgarea subiectelor de examen a condus la obinerea unui numr anormal de
ridicat de note mari n raport cu ce se atepta de la distribuia respectiv. De cele mai multe
ori proporiile teoretice nu sunt ns cunoscute i ceea ce rmne de fcut n aceast situaie
este ca acestea s fie estimate plecnd de la datele eantioanelor considerate.
Tehnica chi-ptrat pentru verificarea ipotezelor are o vechime de mai mult de o sut de
ani, fiind pus la punct de cel care a fundamentat corelaia i a fost precursorul analizei
factoriale, englezul Karl Pearson. La modul general metoda presupune doi pai: a. calculul lui
chi-ptrat; b. interpretarea semnificaiei valorii obinute cu ajutorul tabelului de distribuii 2.
Trebuie ns artat c, n cazul lui chi-ptrat pentru asociere, acest algoritm de lucru este unul
mai complex, el putnd fi desfcut n urmtoarea secven de pai:

Formularea lui H0 (ipoteza de nul): disponibilitatea spre voluntariat este independent

de apartenena de gen.

Formularea lui H1 (ipoteza specific): disponibilitatea spre voluntariat este asociat cu

apartenena de gen, fiind mai tipic genului feminin.

Se seteaz pragul pentru care se va rejecta ipoteza de nul. De regul verificm cele

dou praguri, p < .05 i p < .01.

Se apeleaz la regula de rejectare: rejectm pe H0 dac 2calculat 2critic [df = (R-1)(C-

1)], unde R nseamn numrul de rnduri iar C numrul de coloane, dup care se caut
n tabel valorile lui 2critic pentru p < .05 i p < .01.

Se determin chi-ptrat dup formula indicat.

Se ia decizia respingerii sau nonrespingerii lui H0.

125

Se determin mrimea efectului ( sau Cramer).

Se concluzioneaz prin raportarea cifric i/sau narativ a rezultatului.

Exemplu: 2(1,

N=120)

= 6,66, p < .01, = 0,40. Persoanele de gen feminin au o

disponibilitate pentru voluntariat semnificativ mai mare dect cele de gen masculin, mrimea
efectului fiind semnificativ.

9.5. Exemple de aplicare a testului chi-ptrat pentru potrivire i pentru asociere


Exemplul 1
Conform normei docimologice 20% din notele unui profesor ar trebui s fie sub 5;
30% pn la 6,50; 30% pn la 8 i 20% mai mari de 8. La clasele I i a XIIa ale unei coli
cu trei cicluri de nvmnt s-au obinut urmtoarele distribuii ale notelor colare:
Tabel 9.1. Frecvenele brute pentru patru intervale de notare, la nceput i la sfrit de colarizare
Note

Clasa I

Clasa a XIIa

Sub 5

28

68

5 6,50

64

140

6,50 8

80

110

8 10

120

16

292

334

Se cere s se calculeze prin tehnica chi-ptrat dac cele dou distribuii se abat semnificativ de
la norma docimologic.

Tabel 9.2. Frecvenele observate i cele teoretice necesare pentru determinarea lui chi-ptrat
Frecvene

Frecvene

Note

fo

fe

fo - fe

(fo-fe)

<5

28

58

-30

56,50

64

88

6,508

80

8-10

120

Total

292

(fo-fe)2

(fo-fe)2/ fe

0,02

100

40

1600

16

110

100

10

100

16

67

-51

2601

(fo-fe) / fe

fo

fe

900

15,25

68

67

-24

576

6,55

140

88

-8

64

0,73

58

62

3844

66,28

292

=89,08

334

334

fo - fe

38,82
2

=55,84

Tabelul 9.2 de mai sus nfieaz frecvenele observate (fo) i frecvenele teoretice/
expectate (fe), deduse prin transformarea procentajelor normei docimologice n efective de
subieci: regula de trei simpl arat c dac la 100 de cazuri avem 20 de subieci cu note sub
126

5, la 292 vom avea (29220):100 = 58. Coloana a treia face diferena fo - fe, iar coloana a
cincea determin raportul (fo-fe)2/fe. Chi-ptrat este suma acestei ultime coloane, fiind 89,08
pentru primul exemplu i 55,84 pentru cel de al doilea.
Formula de calcul utilizat pentru determinarea lui chi-ptrat este urmtoarea:

2 =

( f o fe )2
fe

(9.2)

Interpretarea valorii lui chi-ptrat se face prin raportare valorii obinute la un tabel
construit de Fisher (Anexa 14), asemntor ca form cu tabelele de calcul pentru z, valorile
fiind exprimate tot n numere zecimale, iar coloana df dnd numrul gradelor de libertate
(degree of freedom). Acestea se determin dup formula df = (R-1)(C-1), n care R este
numrul de rnduri i C numrul de coloane. n cazul n care avem un singur rnd i mai
multe coloane df = C-1, iar cnd avem mai multe rnduri i o singur coloan df = R-1. n
situaia prezentat df sunt (4-1) = 3. Pentru ambele exemple valorile obinute depesc cu
mult pragul de semnificaie cel mai exigent: pentru o probabilitate mai mic de unu la sut (p
< 0,01), la trei grade de libertate valoarea lui chi-ptrat critic este de 11,345, comparativ cu
care 89,08, respectiv 55,84, sunt mult mai mari, ceea ce permite respingerea ferm a ipotezei
de nul. Se poate deci afirma c abaterea n notare de la norma docimologic nu este datorat
hazardului. n primul caz frecvenele observate sunt mult sub cele teoretice pentru notele mici,
n cel de al doilea caz pentru notele mari, ceea ce ne ndreptete s afirmm c notarea i
stilul de evaluare al profesorilor se modific odat cu vrsta elevilor.
Este tiut c mediile colare erau relativ mari la nceputul ciclului primar (media
mediilor generale ale unei clase fiind peste 9), avnd o descretere progresiv lent n primul
i apoi n cel de al doilea ciclu colar, pentru ca la liceu media mediile generale ale unei clase
obinuite s scad adesea sub 7. Se pune problema atunci pentru care vrste, materii sau ani
de studiu mai este operaional norma decimologic, pentru c la vrste sau clase egale, la
aceeai materie profesori diferii au stiluri diferite de notare, unele materii dnd posibilitatea
obinerii ntregului spectru de note, n proporiile expectate, altele nu. Astfel, matematica
avansat a claselor terminale de liceu permite tot mai puin obinerea unei curbe simetrice n
notare, notele de 7, 8, 9 fiind mari, iar 10 extrem de rar obinut.
Ca i pentru tabelele z i t pragurile de semnificaie ce vor reine atenia sunt p de 0,05
(valoare peste care se admite valabilitatea ipotezei nule, sub aceasta ea respingndu-se) i de
0,01 (nivel de la care ipoteza nul este ferm respins, pentru a se admite ipoteza specific a
cercetrii). Zona dintre aceste dou repere (indicat n tabel de valoarea 0,02) este una
127

intermediar ntre cele dou praguri, fiind mai aproape de ipoteza specific dect de ipoteza
nul. Valorile excesiv de mici ale lui chi-ptrat (corespunznd unei probabiliti de eroare mai
mari de 95%) apar tot att de rar n urma variaiilor ntmpltoare ca i cele foarte mari i de
aceea ele pot constitui de asemenea temeiuri consistente pentru respingerea ipotezei de nul.
Dei testul matematic al lui chi-ptrat are foarte multe ntrebuinri speciale, el nu este
la fel de riguros ca cel bazat pe distribuiile standardizate z, mai ales cnd este aplicat
distribuiilor discontinue. Unul dintre punctele slabe al acestei tehnici este acela c, avnd
nevoie de frecvene teoretice mai mari de 5 (sau i mai sigur de 10), nu este operant pentru
eantioanele mici. Al doilea punct slab provine din aceea c procedeul nu poate ine cont de
direcia abaterilor frecvenelor observate de la cele teoretice, cci semnele minus din expresia
fo - fe dispar prin ridicarea la ptrat. n al treilea rnd, determinarea gradelor de libertate nu

este ntotdeauna o chestiune aa de simpl sau de uor rezolvabil cum apare la prima vedere.

Exemplul 2
Decizia obligativitii nceperii colarizrii la 6 ani n urm cu cteva decenii a dus la
nfiinarea unor comisii de amnare cu un an a debutului colarizrii pentru anumite categorii
de copii, considerai a fi nepregtii s nceap coala la aceast vrst. Pe parcursul unui
deceniu de activitate, doi psihologi din comisia judeean de amnare au examinat 4588 de
copii, situaia acestora fiind rezumat n tabelul de mai jos.

Tabel 9.3. Situaia pe un deceniu a amnrilor colare funcie de QI la doi psihologi


Proporii
Frevene observate i estimate

2,2%

6,7%

16%

25%

50%

QI

69

70-79

80-89

90-99

100

Total

69

70-79

80-89

90-99

100

A fo1

358

644

1249

654

280

3185

358

644

1249

654

280

fe1

369

633

1232

696

254

3184

70

213

513

796

1593

B fo2

174

268

526

349

86

1403

174

268

526

349

86

fe2

163

279

543

307

112

1404

31

94

226

351

702

fo1+fo2

532

912

1775

1003

366

4588

206

680

1430

730

275

Se cere s se determine:
1. dac cele dou distribuii sunt semnificativ diferite ntre ele;

128

2. dac cele dou distribuii se abat semnificativ de la distribuia gaussian, care indic
pentru QI sub 69 = 2,2 procente; ntre 70-79 = 6,70 procente; ntre 80-89 = 16 procente;
ntre 90-99 = 25 de procente; QI peste 100 = 50 de procente.
n prima jumtate de tabel avem doar frecvenele observate (fo) totalizate pe rnduri i
pe coloane, frecvenele expectate nefiind deduse din distribuii ideale sau din alte regulariti
prestabilite. Frecvenele expectate apar prin calculul efectuat asupra datelor tabelului nsui.
Astfel, prima csu din stngasus (psihologul A) se prezint astfel: fo = 358
fe = ?

total rnd = 3185

total coloan = 532

total general = 4588

fe =

532 3185
= 369,32 = 369
4588

(fiind vorba de persoane, care sunt indivizibile, se rotunjete). n acelai fel se calculeaz fe
pentru celelalte zone de QI ale rndului. Pentru rndul al doilea (psiholog B), prima csu din
stnga se prezint astfel: fo = 174.
fe = ?

total rnd = 1403

total coloan = 532

total general = 4588

fe =

532 1403
= 162,68 = 163
4588

Pentru control se adun toate frecvenele teoretice de la psihologul A i de la


psihologul B i se observ c totalul se apropie extrem de mult de totalurile frecvenelor
observate, micile diferene fiind rezultate din operaia de rotunjire.
Pentru calculul lui chi-ptrat aplicm aceeai formul 9.2:

2 =

( fo fe )2
fe

Calculele implicate de formula de mai sus se fac pornind din celula din stnga-sus i
de la stnga la dreapta, pe primul, apoi pe cel de al doilea rnd:

2 =

(358 369)2 + (644 633)2 + ... + (86 112)2


369

633

112

= 0,33 + 0,19 + .... + 6,04 = 19,44

Deoarece avem 2 rnduri i 5 coloane df = (2-1)(5-1) = 4.


Cutnd n tabelul 14 la df 4 se gsete o valoare a lui p apropiat de 0,90, ceea ce
permite respingerea ipotezei de nul: variaiile de distribuie ale rezultatelor examinrilor
efectuate de cei doi psihologi nu sunt ntmpltoare. Valoarea obinut pentru chi-ptrat de
19,44 este cu mult mai mare dect pragul critic (13,277), ceea ce permite s conchidem c se
129

poate respinge ipoteza nul i accepta valabilitatea ipotezei specifice la un prag de


semnificaie puternic.
Dac obiectivul propus ar fi fost acela al verificrii gradului de suprapunere a
distribuiilor loturilor de amnai colar peste distribuia teoretic ideal (gaussian), atunci
modul de lucru va fi cel indicat mai jos:

2 =

(358 70)2 + (644 213)2 + ... + (86 706)2


70

213

706

= 1184,9 + 872,12 + ... + 544,48 = 6133,57

n dreptul lui f = 4, pentru o probabilitate p < .01, este necesar un 2critic de 13,277,
deci valoarea gsit n cazul de fa (6133,57) este att de mare nct ipoteza de nul poate fi
respins cu fermitate. Cu o probabilitate apropiat de certitudine se poate afirma c eantionul
de copii amnai colar difereau foarte semnificativ ca dotare intelectual de eantionul
normal, deoarece principalul motiv al amnrii colare a fost chiar deficitul intelectual.

Exemplul 3
A fost investigat un numr de 270 de diabetici juvenil. Comparaia dup criteriul
apartenenei de gen i al echilibrriineechilibrrii medicale a bolii respective a dat
urmtoarea distribuie:
Biei
Fete

Echil.

Neechil

Total

fo1

60

100

160

fe1

fo2

100

10

fe2

160

110

Total

110

Biei
Fete

Echil.

Neechil

Total

fo1

60

100

160

fe1

95

65

fo2

100

10

fe2

65

45

160

110

Total

270

110
270

Ipoteza specific este aceea a asocierii formei echilibrate a bolii cu genul feminin,
fetele avnd un conformism social i o complian terapeutic mai ridicat. Prin regula de trei
simpl se determin doar prima frecven expectat (fe) de stnga sus, celelalte rezultnd
automat prin diferena de pe total linie i coloan. Calculul se poate face clasic astfel:

2 =

(60 95)2 + (100 65)2 + (100 65)2 + (10 45)2


95

65

65

45

= 12,89 + 18,85 + 18,85 + 27,22 = 77,81

valoare care este foarte puternic semnificativ statistic, pentru df = (2-1)(2-1) = 1.


Formula de calcul cea mai uzitat n acest caz este ns urmtoarea:

2 =

(ad bc )2 T
(a + b )(c + d )(a + c )(b + d )
130

(9.3)

n care T este totalul general, iar numitorul este produsul totalurilor marginale, adic 2 =
77,02, valoare aproape identic cu cea obinut anterior, mica diferen rezultnd din faptul c
n primul caz s-a efectuat rotunjirea.

Exemplul 4
Exemplul de mai jos se refer la utilizarea proporiilor i a cuantumurilor procentuale,
pentru a clarifica probleme ce au aprut nc de la exemplul 2. Reamintim c testele chi-ptrat
opereaz numai cu frecvene, unica cale corect de a efectua fiind aceea a transformrii

proporiilor i procentelor n frecvene. Chiar dac am elimina zecimalele i am rotunji


numerele la ntreguri, proporiile procentuale nu sunt date legitime pentru acest tip de analiz.
Iat de ce procentele trebuie convertite obligatoriu n frecvene.
ntr-un grup de 1740 de persoane, din care 1040 sunt femei iar 700 brbai, o proporie
de 62,7% dorete s fac voluntariat, ceilali nu. Repartiia lor dup apartenena de gen i
dorina de a face voluntariat este indicat n tabelul de mai jos. Trebuie determinat dac exist
o asociere semnificativ ntre aprtenena de gen i faptul de a dori s fac voluntariat.
Apartenena de gen
Femei

Brbai

Dispui la voluntariat

78%

40%

Nedispui la voluntariat

22%

60%

Numr

1040

700

Tabelul de mai sus poate fi cu uurin convertit n frecvene, rezultnd un alt tabel, pe
care se poate face testul chi-ptrat.
Femei

Brbai

Total

Dispui la

811

280

1091

voluntariat

(652)

(439)

229

420

voluntariat

(388)

(261)

Total

1040

700

Nedispui la

2 =

(811 652)2 + (280 439)2 + (229 388)2 + (420 261)2


652
= 258,38.

439

388

261

131

649
1740

= 38,77 + 57,59 + 65,16 + 98,86 =

Df este de 1 iar chi-ptrat critic pentru p = 0,05 este de 3,84, ceea ce nseamn c

valoarea obinut permite respingerea ipotezei nule. Pentru acest exemplu determinm i
mrimea efectului dup formula 9.4 ce va fi explicitat ulterior:

258,38
= 0,39.
1740

9.6. Mrimea efectului pentru chi-ptrat al asocierii dintre variabile


Chiar i atunci cnd testul chi-ptrat indic o asociere foarte semnificativ statistic
ntre variabile, mrimea sa nu spune prea mult despre intensitatea relaiei dintre variabile.
Faptul se explic prin aceea c i aceast tehnic este sensibil la N (volumul eantionului),
ajungnd s indice semnificaii tot mai mari pe msur ce N crete. De aceea interpretarea lui
chi-ptrat al asocierii nu este complet fr un demers suplimentar, care const n
determinarea mrimii efectului. n acest scop sunt disponibili doi indicatori, unul pentru
tabelele de contingen n care ambele variabile sunt dihotomice (tabele cu cte dou linii i
dou coloane) i altul pentru asocierea variabilelor cu numr diferit de categorii. Primul
indicator de numete coeficientul fi, al doilea fi al lui Cramer, ei avnd urmtoarele formule:

2
N

(9.4)

Cramer =

2
N ( L 1)
(9.5)

n ambele formule la numrtor apare 2 iar la numitor N indicnd volumul


eantionului, n al doilea caz aprnd suplimentar i L, care este valoarea celui mai mic numr
de linii sau coloane. De exemplu, ntr-un tabel 3x2, L-1 = 2-1 = 1, ceea ce transform formula
9.5 n formula 9.4; ntr-un tabel 4x3, L-1 = 2 i numitorul va cpta valoarea 2N.

Interpretarea coeficienilor este similar pn la un punct cu cea a corelaiilor r,


sau R care, prin ridicare la ptrat i nmulire cu 100, explic proporia comun din variana a
dou variabile prin coeficientul de determinare. Ca pentru toate celelalte determinri ale
mrimii efectului, Cohen a furnizat repere i pentru interpretarea lui sau Cramer: valorile sub
0,10 indic un efect foarte mic, n jur de 0,25 un efect mediu iar n jur de 0,40 un efect mare.

132

Raportarea rezultatelor chi-ptrat va include ntre paranteze numrul gradelor de


libertate i volumul eantionului, dup care urmeaz valoarea testului, pragul de semnificaie
i valoarea mrimii efectului. Aceasta va arta astfel: 2(5, N=137) = 5, p > .05, extrem de mic,
indicnd faptul c frecvenele de apariie a celor ase fee ale zarului nu sunt semnificativ
deprtate de cele ateptate prin ans i deci zarul nu este unul msluit. Aa cum se observ,
partea cifric a raportrii este urmat de un scurt comentariu care rezum n form narativ
datele cifrice obinute.

9.7. Exerciii i aplicaii practice


1. Un arbitru de fotbal a aruncat acelai ban de 100 de ori, ieind de 37 de ori cap i
de 67 de ori pajur. Se pune problema dac aceste rezultate sunt n limitele de variaie ale
normalitii, ori banul este unul falsificat.
n exemplul de mai sus este evident faptul c frecvenele de apariie ale celor dou fee
ar fi trebuit s fie egale, sau foarte apropiate de 50 fiecare, i de aceea n tabelul de mai jos la
frecvene expectate apare numrul 50.
Cap

Pajur

Total

fo

37

63

100

fe

50

50

100

2. La un joc de noroc valorile obinute prin aruncarea unui zar sunt cele sumarizate n
tabelul de mai jos (fo). Dat fiind numrul relativ mare de aruncri se ateapt ca frecvena de
apariie a celor ase fee s fie una foarte apropiat, adic n jur de 1/6 (16,67%). Trebuie s se
determine dac suspiciunea c zarul este unul trucat se poate susine cu argumente statistice.
Faa
1

Total

fo

23

32

19

22

25

17

138

fe

23

23

23

23

23

23

138

3. Un numr de 80 de studeni ai facultii de psihologie au dat examen la cursul de


Statistic. Ipoteza de lucru a fost aceea c cei care provin din secii realiste ale liceelor urmate
vor trece examenul respectiv ntr-o proporie semnificativ mai mare prin comparaie cu cei
care au urmat secii umaniste. Cerine: s se parcurg toi paii prezentai n curs pentru testul
chi-ptrat, de la formularea ipotezelor (de nul i specific), la efectuarea testului chi-ptrat, la
determinare lui fi i la raportarea (cifric i narativ) a rezultatelor.

133

Trecui

Picai

Total

Real

42

50

Uman

19

11

30

Total

61

19

80

4. ntr-o anchet electoral ceteni cu diferite afiliaii religioase au fost chestionai n


legtur cu intenia lor de vot fa de partidele nscrise n competiie, recte Liberal,
Republican i Democrat. Rezultatele obinute au fost sumarizate n tabelul de mai jos. S se
determine dac afilierea religioas se asociaz semnificativ cu intenia de vot a cetenilor
chestionai.
Liberal

Republican

Democrat

Ortodox

240

222

400

Catolic

280

288

150

Protestant

354

200

150

5. Un studiu pe persoane dependente de alcool a avut drept scop s demonstreze


asocierea alcoolismului cu apartenena de gen i cu temperamentul. Rezultatele studiului sunt
condensate n tabelul de mai jos. S se verifice ipoteza asocierii alcoolismului cu genul i apoi
cu cele patru temperamente clasice, innd cont c n populaia respectiv studii anterioare au
indicat proporiile de 19% melancolici, 29% colerici, 25% flegmatici i 27% sangvinici.
M

Temperament

Nonalcoolic

56

41

Alcoolism uor

29

24

Alcoolici

32

41

23

26

Alcoolism mediu

21

18

Populaia

19%

29%

25%

27%

Alcoolism mare

18

12

de baz

Melancolic

Coleric

Flegmatic

Sangvinic

6. ntr-un studiu pentru demonstrarea eficacitii unui nou antipsihotic, pacienii care au fost
tratai cu acest medicament au fost comparai cu cei care au primit doar placebo. Un
numr de 720 din totalul de 1058 al celor care au primit placebo au nregistrat recderi ale
bolii, n timp ce acest fenomen s-a petrecut doar pentru 625 dintre cei 2240 de pacieni
tratai cu medicamentul antipsihotic. S se argumenteze statistic dac acest medicament a
fost unul efectiv n prevenirea recderilor.

134

CAPITOLUL 10

TESTE DE SEMNIFICAIE NEPARAMETRICE

10.1. Teste de semnificaie parametrice i neparametrice


Multe dintre tehnicile statistice prezentate n capitolele precedente au implicat
estimarea parametrilor unei populaii (medii, abateri standard, diferene dintre medii sau
intensitatea asocierii dintre variabile), plecnd de la lotul sau eantionul particular de date pe
care s-a lucrat. Acest tip de teste statistice, ca testul t pentru diferene i r pentru asociere,
presupun ntotdeauna ndeplinirea unor condiii pentru aplicarea lor, legate fie de parametri, fie
de forma distribuiei populaiei. De aceea aceste teste se i numesc teste parametrice.
Prin contrast, testele neparametrice nu fac nici un fel de estimri ale parametrilor
populaiei din care a fost extras eantionul particular de date i de aceea ele se mai numesc i
teste non-distribuionale.9 Cel mai mare avantaj pe care acest tip de teste l au este acela de a nu
se sprijini pe asumpii legate de populaia din care a fost extras eantionul. Dei mai puin
puternice dect testele parametrice, literatura de specialitate le invoc cu o frecven mult prea
mare pentru a putea fi ignorate. Aceste teste sunt mai sensibile la median dect la medie ca
tendin central, fiind cu siguran mai robuste la violarea condiiilor de normalitate a
distribuiilor testate.
Marele dezavantaj al testelor de acest fel este acela c, fiind mai puin puternice
statistic, pentru a atinge o putere echivalentcu testele parametrice ele reclam un numr de
date semnificativ mai mare dect acestea. i totui, n mod paradoxal, ele sunt utilizate
preponderent pentru eantioane de volum mic, atunci cnd distribuiile sunt mai mari de 20-30
de cazuri sau observaii, fiind ntotdeauna preferate testele parametrice.
Pe de alt parte, valorile extreme sau aberante, care la testele parametrice au un impact
att de important prin modificarea inflaionist a variabilitii datelor, i implicit a factorului de
eroare10, au un efect foarte redus, practic neglijabil aupra testelor neparametrice. Aceasta

deoarece testele de acest tip se bazeaz pe ranguri (mult mai stabile), i nu pe valorile brute ale
scorurilor, ca n cazul testelor parametrice: prin rangare forma distribuiei devine mai puin
important.

Distribution-free tests n englez.


Error term n englez.

10

135

10.2. Testul U Mann-Whitney pentru eantioane independente


Aceast tehnic de testare a ipotezelor relative la diferene este o alternativ foarte
puternic la testul t pentru eantioane independente. Utilizarea sa presupune prezena a dou
premise:
1. Nivelul minimal de msurtoare este scala ordinal, unde cel mai indicat lucru este
rangarea datelor.
2. Condiia de normalitatea pentru populaia din care a fost extras eantionul nu poate fi
susinut.
Singurele condiii presupuse de testul U Mann-Whitney sunt acelea ca eantioanele
testate s fie independente i ca nivelul de msurtoare al scalei continue utilizate s fie cel
puin unul ordinal. Testul U este o alternativ valabil i pentru scalele de interval sau de raport
n care condiia de normalitate a distribuiei datelor este violat.
Vom porni de la urmtorul exemplu. La dou secii de spital, una pentru bolnavi
cardiaci i alta pentru renali, s-a aplicat chestionarul de stres al evenimentelor de via (Holmes
i Rahe). Se dorete verificarea ipotezei ce a dus la crearea acestui instrument psihometric,
ipotez potrivit creia bolile cardiace sunt expresia stersului mai mare acumulat de persoane
de-a lungul unei perioade de timp, de ordinul lunilor sau n ultimul an. Datele acumulate sunt
cele sumarizate n tabelul de mai jos.
Cardiaci
Scoruri
la stres

75

21

14

32

18

Renali
25

16

40

12

15

24

Inspecia vizual a celor dou distribuii arat c testul t pentru eantioane independente
nu poate fi aplicat pentru c numrul de cazuri este extrem de redus iar scorurile de 75 i de 40
sunt valori atipice, posibil chiar extreme. De aceea vom aplica testul U, echivalentul lui t
pentru date de acest tip. Primul pas n acest sens este operaia atribuirii de ranguri pentru
fiecare scor, la comun pentru cele dou loturi. n procesul de rangare, descris anterior n
capitolul dedicat determinrii corelaiei prin metoda rangurilor (rho al lui Spearman), se tie c
nu conteaz dac atribuirea rangurilor pornete de la valorile de scor mici sau invers (ascendent
sau descendent).

136

n rangare singura situaie care trebuie rezolavat corect i unitar este aceea n care
exist mai multe valori de scor egale, situaie pentru care sunt posibile mai multe tipuri de
rezolvri.11
Ca i n cazul corelaiei rho, soluia cea mai frecvent adoptat de diveri autori este
aceea de a acorda rangul intermediar pentru valorile respective de scor i de a sri apoi la
rangul urmtor nealocat, astfel ca n final numrul rangurilor alocate s coincid cu numrul
datelor prezente. Aa cum s-a mai artat i la corelaia rangurilor rho, pentru a putea avea n
orice moment o situaie clar a rangurilor care au fost deja acordate i a celor care urmeaz s
fie alocate se poate proceda astfel: se scriu pe orizontal, n ordine cresctoare, rangurile ce vor
fi atribuite, egale ca numr cu numrul datelor de rangat. n cazul de fa vor fi scrise pe
orizontal numerele de la 1 la 18 i, pe msur ce rangurile se vor aloca, ele se vor tia cu o
bar, pentru a ti astfel n orice moment ce rang urmeaz s fie acordat. Pentru cele dou
scoruri de 8 ale stresului, n locul rangurilor 14 i 15 de alocat (care se i taie de pe list), se d
valoarea intermediar 14,5, urmtorul rang disponibil fiind deci 16. Dup ce operaia de
rangare va fi ncheiat, tabelul anterior va arta astfel:
Cardiaci

Renali

Scor

75

21

14

32

18

25

16

40

12

15

24

Rang

10

12,

18

14,

16

11

17

14,

18

12

5
Nr.
rangur

Cardiaci ranguri = 68

5
10

11

12

Renali ranguri = 103

13

14

,5
15

16

17

Total ranguri = 171

Din acest tabel se observ cu uurin c suma rangurilor acordate cardiacilor i al celor
acordate renalilor este dinainte tiut (este 1+2+3+ ... +18 = 171), aadar putem determina doar
una din ele, cealalt putnd rezulta automat.
Secvena complet de urmat n cazul testului U al lui Mann-Whitney este urmtoarea:
1. Se rangheaz scorurilor pentru ambele grupe combinate, n ordine ascendent sau
descendent.
2. Se nsumeaz rangurile primului grup, rezultatul fiind R1, i ale celui de al doilea grup (R2).
3. Dup obinerea lui R1 se aplic formula 10.1 de mai jos:

U = N1 N 2 +
11

N1 ( N1 + 1)
R1
2

A se vedea Popa, 2008, p. 197

137

(10.1)

18

4. Dup determinarea lui U se calculeaz U dup formula 10.2 de mai jos:

U ' = N1 N 2 U

(10.2)

5. Dintre cele dou valori U i U se alege cea mai mic pentru a efectua testul de semnificaie.
6. Ipoteza nul H0 este aceea c ambele eantioane au fost extrase din aceeai populaie.
Ipoteza specific (H1) este aceea c cele dou populaii sunt diferite.
7. Cel mai mic dintre U i U este comparat cu valoarea critic a lui U din tabelul prezentat n
Anexa 17. Specificul acestui tabel este acela c ipoteze nul poate fi respins numai dac
valoarea obinut este mai mic sau egal cu valoarea tabelar.
De fapt, tot algoritmul de mai sus se reduce la dou comparaii: a lui U cu U i, dup
alegerea celui mai mic dintre acetia, comparaia valorii alese cu valoarea tabelar, pentru N1 i
N2 corespunztori situaiei concrete de testare la nivelul de semnificaie ales, de .05 sau de

.01. n tabelul respectiv cifrele boldate sunt pentru primul prag de semnificaie ( =.05).
Exemplificm cu cazul analizat:
10(8 + 1)
U = 10 8 +
68 = 80 + 45 68 = 57
2
U = 10 8 57 = 80 57 = 23.

U = 57.

Pentru celula corespunztoare din tabel la =.05, N1 = 10 i N2 = 8 valoarea U critic


este de 17, n raport cu care 23 este mai mare, ceea ce nu permite respingerea ipotezei de nul.
Se observ uor c pentru =.01 situaia este i mai conservatoare, deoarece valoarea critic
necesar (11) este mult mai mic dect anterior. Aceasta este raiunea pentru care se cerceteaz
nti pragul de semnificaie p = .05, mai liberal, i numai dac exist motive se va merge cu
comparaia i spre al doilea prag de semnificaie, mai conservator.
Cercetnd numrul valorilor critice afiate, tabelul 17 las s se ntrevad c el ar fi
operaional doar pn la N = 20. n realitate, testul U al lui Mann-Whitney poate fi utilizat i
pentru valori numerice mai mari, dar fr a mai face apel la acest tabel, ci la cel al distribuiilor

z. Procesul de interpretarea a lui z este cel cunoscut, dar acest lucru devine posibil numai dup
conversia n note z a celui mai mic dintre U i U, utiliznd urmtoarea formul (Thorne i
Giesen, 203, p. 351):

z=

N1 N 2
2
N1 N 2 ( N1 + N 2 + 1)
12
U

138

(10.3)

S admitem c n cazul prezentat valoarea reinut dup comparaia dintre U i U ar fi fost tot
de 23, dar N1 ar fi fost de 30 i N2 de 25. n acest caz:

z=

30 25
23 375 352
2
=
=
= 5,95.
30 25 (30 + 25 + 1)
750 56 59,16
12
12
23

Interpretarea lui z este urmtoarea: dac valoarea obinut este de cel puin 1,96, H0 se
respinge pentru o probabilitate de p .05, iar dac ea este n jur de 2,58 respingerea este la un
prag mai sever (p .01). Aceasta este valabil n cazul ipotezelor bidirecionale, pentru ipoteze
unidirecionale pragurile fiind mai liberale. Astfel, pentru p .05 este nevoie de o valoare a lui
t de doar 1,64.
Logica alegerii valorii celei mai mici dintre U i U pare neobinuit n condiiile n
care la testele parametrice respingerea ipotezei nule este condiionat de valori mai mari dect
cele ale pragurilor critice din tabel. Pentru testul Mann-Whitney ipoteza de nul se sprijin pe
faptul c, atunci cnd volumul loturilor comparate este unul apropiat, suma rangurilor ar trebui
s fie i ea ct mai apropiat, dac nu identic, pentru a putea susine c cele dou loturi provin
din aceeai populaie. Cu ct una dintre valorile calculate U i U este mai mic, cu att cealalt
este mai mare, cci suma tuturor rangurilor rmne aceeai. Aadar, diferena dintre ele
descrete pe msur ce una dintre valori este mai mic i, n consecin, valoarea U sau U mai
mic dect cea tabelar justific respingerea ipotezei de nul.

10.3. Exerciii i aplicaii practice


Unei clase de elevi i s-a aplicat un test de vocabular ale crui rezultate sunt sumarizate
n tabelul de mai jos.
Biei
Scortest 47

39

29 45

80

Fete
22

68 50 74 19 49 94 126 87

Rang

12 14,5 16 13 4,5 17,5

10

19 11

Nr.

10 11 12

13

14

Biei Ranguri = 130,5;

1.

Fete Ranguri = 59,5;

Total Ranguri = 190;

39

22

14,5 17,5
15

16

N1 = 11;

65

80

4,5 9

17

18

N2 = 8

Formulai ipoteza de nul i ipoteza specific (de cercetare) legat de diferenele de gen
privind performana la testul de vocabular, n dou forme: bidirecional i unidirecional.

139

57
19

2. Argumentai care sunt motivele pentru care n cazul prezentat este preferabil testul U ca
alternativ la testul t pentru eantioane independente.
3. Aplicai testul t pentru eantioane independente de volum mic (dispersii cumulate) i
determinai dac ipoteza de cercetare se confirm, n condiiile formulrii ei bidirecionale
i unidirecionale.
4. Percurgei paii prezentai n curs pentru determinarea lui U i luai decizia potrivit n
legtur cu respingerea ipotezei nule, cercetnd ambele praguri prezentate n tabel ( = .05,
= .01).
5. Raportai cifric i narativ rezultatele obinute.
6. S se determine z pentru situaia n care efectivele comparate ar fi fost mai mari cu 15 i U
ar fi avut aceeai valoare.

10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate


Aa cum testul U este alternativa neparametric pentru testul t aplicat eantioanelor
independente, testul semnului T al lui Wilcoxon este alternativa neparametric a testului t
pentru eantioane corelate. Cerinele pentru aplicarea acestui test sunt urmtoarele:
1. participanii s fi fost selecionai randomizat (aleator);
2. scala utilizat s fie cel puin de nivel ordinal, pentru a putea ranga scorurile.
ntemeierea acestui test se sprijin pe supoziia potrivit creia, dac distribuia
populaiilor din cele dou condiii experimentale este identic, va exista un numr relativ
apropiat, aproximativ egal, al diferenelor negative i pozitive dintre perechi. n felul acesta
suma rangurilor dintre diferenele pozitive i negative nu va varia pe o extindere prea mare.
Dac totui distribuia celor dou eantioane nu este aceeai (adic ele nu reprezint o singur
populaie) se poate atepta s fie mai multe diferene de ranguri pentru un semn dect pentru
cellalt semn. Astfel, cu ct suma rangurilor ce apar mai puin este mai mic, cu att mai mult
populaiile reprezentate de cele dou condiii sunt mai diferite.
n exemplul de mai jos ipoteza specific H1 este aceea c nivelul msurat al anxietii
generale va fi mai mare naintea unui examen important dect dup examen. Aadar, pe prima
coloan a tabelului, dup numrul de ordine al perechilor, sunt scorurile brute la testul de
anxietate de dinaintea examenului iar n coloana urmtoare acelai indicator, dar dup trecerea
examenului.

140

nainte

Dup

||

Rang

Semn

34

21

13

13

14

14

21

17

28

25

16

18

21

17

29

20

54

30

24

24

10

18

14

Ranguri de acordat
Sume ranguri

= 17

+ = 28

Total = 45

n tabel s-au introdus cteva coloane suplimentare, dintre care una d expresie
diferenei dintre cele 10 perechi de valori ale anxietii de dinainte i de dup examen. Atragem
atenia c, atunci cnd pentru o pereche se obine diferen nul (zero), aceasta se elimin din
calcul. n cazul analizat diferena de la perechea a doua este zero i de aceea ea se elimin, ceea
ce nseamn c vor rmne numai 9 ranguri de alocat i nu 10, cum era situaia iniial. Cea de
a patra coloan red diferenele de ranguri n modul i, eliminnd semnele plus i minus, acum
devine mai uor de alocat cele 9 ranguri. Rezultatul acestei operaii este prezentat n coloana a
5-a, ultima coloan fiind cea care separ semnele plus de cele minus pentru a putea face mai
uor suma rangurilor la categoria cea mai mic. n cazul de fa exist 2 de minus i 7 de plus,
deci pentru categoria minus se vor aduna cele dou ranguri: 9 + 8 = 17. n anexa 17 n dreptul
lui 9 (numrul de ranguri efectiv alocate) valoarea critic pentru p .05 este de 6. Valoarea
obinut de noi fiind mai mare, H0 nu poate fi rejectat i deci nu putem susine ntemeiat c
nivelul anxietii generale a diminuat semnificativ dup susinerea examenului.

Asemnrile testului T Wilcoxon cu testul U Mann-Whitney sunt evidente:


1. n ambele este implicat operaia de rangare.
2. n ambele ipoteza specific se susine cu att mai mult cu ct valoarea obinut la test este
mai mic dect valoarea tabelar pentru situaia respectiv.

141

3. Ambele sunt teste de putere mic, care n principiu ar avea nevoie de numere mari pentru a
fi mai concludente, dar n realitate se aplic pentru numere mici, de regul sub 20 de cazuri.
4. Pentru ambele, efectivele mai mari sunt aproximate prin distribuia normal z.
5. Pentru ambele exist programe statistice care uureaz considerabil volumul de munc
implicat, producnd date acurate, pentru care singura problem real rmne cea a
interpretrii i raportrii corecte a rezultatelor.
O parte dintre asemnrile semnalate anterior provin din aceea c ambele metode au
fost imaginate i create de acelai cercettor, Wilcoxon, testul U primind numele de la cei care
au perfecionat procedura (Mann i Whitney), pentru a-l putea distinge mai clar de regula
semnului, integral creditat lui Wilcoxon.
n cazul testului T al semnului pentru eantioane ce depesc ca volum numrul de 20
de cazuri, reprezentarea distribuiei normale z se face dup formula (Howell, 2008, p. 507):
N ( N + 1)
4
N ( N + 1)( 2 N + 1)
24
T

z=

(10.5)

Guilford (1978) apreciaz c punctul forte al acestei metode neparametrice este acela c
ea se poate aplica fr a mai ine cont de forma distribuiei i de egalitatea varianelor celor
dou serii se date. n acest caz diferena nu mai trebuie determinat cu acuratee, cci nu ea este
cea care conteaz, ci direcia n care aceasta se manifest. De aici provine ns i una dintre
slbiciunile metodei, care nu utilizeaz toat informaia disponibil de la cele dou variabile.
Astfel, dac msurtoarea s-a fcut pe o scal de interval (uniti de msur egale pe toat
scala), n care diferenele ar putea fi comparate nu numai ca direcie, ci i ca mrime, testul
semnului va ignora acest fapt. Aa se face c, exceptnd eantioanele mici, acest test are doar
60% din puterea unui test t pentru eantioane corelate, atunci cnd ambele teste se aplic
simultan.
Pentru creterea puterii testului T, astfel nct aceasta s devin comparabil cu a
testului parametric t corespondent, cercetrorul va fi obligat s creasc numrul subiecilor
investigai, dar n acest caz se ajunge s fie preferabil utilizarea distribuiilor z (formula 10.5).
Acest lucru devine aproape obligatoriu datorit faptului c diferena de sensibilitate n
detectarea unor efecte real existente (adic puterea testului statistic) este apreciabil de mult n
favoarea testului parametric pentru eantioane corelate, comparativ cu perechea sa
neparametric. Testul T poate rmne ns n continuare singura alternativ valabil i pentru
eantioanele mai mari, care ns se abat semnificativ de la condiia de normalitate a distribuiei.
142

10.5. Exerciii i aplicaii practice


Un grup de 13 cupluri de soi-soii a fost investigat cu un test destinat surprinderii
precocitii declanrii instinctului matern, comparativ cu cel patern, la scurt timp dup
naterea copilului. Tabelul de mai jos rezum datele acestui studiu ipotetic.
Scor total la devoiune pentru nou nscut
Mame
Tai

23 13 15 17 19
13 10 9 14 21

23
10

25 10
20 10

16
13

N
8
5

7
0

12 41
10 20

X
X
X
X2

13

13

17,62 11,92
9,07
6,01
229
155
5021 2281
XY = 3219
r=?

Rspundei urmtoarelor cerine:


1. Argumentai de ce este preferabil utilizarea testului semnului T n locul testului t pentru
eantioane corelate.
2. Sunt ndeplinite necesare pentru aplicarea sa?
2. Parcurgnd etapele prezentate n curs, determinai valoarea testului T pentru cele 13 perechi
de date.
3. Stabilii semnificaia statistic a acestui test i concluzionai n legtur cu H0 i H1.
4. Efectuai corelaia rangurilor pentru cele dou seturi de date i explicai crui fapt se poate
datora valoarea foarte ridicat a lui rho. Determinai-l i pe r i comparai-l apoi cu rho.
5. Fornd nota, determinai-l pe t pentru eantioane corelate, comparnd apoi rezultatul obinut
cu testul T al lui Wilcoxon.
6. Dac ai fi avut 25 de perechi, care ar fi fost scorul z al acestui test?

10.6. ANOVA pe o cale prin testul H Kruskal-Wallis


Analiza de varian pe o cale prin testul H al rangurilor a fost pus la punct de ctre
Kruskal i Wallis. Aceast tehnic este considerat a fi o generalizare a testului U MannWhitney deoarece a fost conceput pentru compararea mediilor a mai mult de dou grupuri,
atunci cnd ele au fost msurate pe o scal ordinal sau pe scale real numerice (de interval sau
de raport), dar datele nu ntrunesc condiiile pentru efectuarea testului ANOVA pe o cale.
Deoarece trateaz date msurate pe scale ordinale sau distribuii atipice, similitudinea cu testul
U Mann-Whitney este evident, singura diferen major fiind aceea c acum pot fi comparate
143

mediile a mai mult de dou grupuri. n acest caz rezultaltul testului H ne ajut s decidem dac
aceste grupuri provin dintr-o aceeai populaie (ipoteza de nul H0).
Comparaia cu tehnica ANOVA pe o cale evideniaz o asemnare major cu aceasta n
sensul c rezultatul testului H Kruskal-Wallis este unul de tip omnibus, ca i F din analiza de
varian clasic. Ca i n analiza post-hoc din ANOVA, dac H este gsit semnificativ, atunci
pot fi desfurate mai departe analize de comparaie a grupurilor de cte dou prin testul U
Mann-Whitney, pentru a determina ntre care dintre variabilele analizate diferenele sunt
semnificative.
Pornind de la ipoteza de nul distribuiile grupurilor comparate sunt similare i deci ele
provin dintr-o aceeai populaie se poate infera c suma rangurilor este apropiat sau foarte
similar pentru toate grupurile comparate. Sumele rangurilor care sunt semnificativ diferite
ntre ele vor duce la rejectarea ipotezei nule i la admiterea ipotezei specifice (de cercetare).
Pentru a nelege mai bine similitudinile testului H cu testul U Mann-Whitney, dar i
specificul acestei metode, vom porni de la un exemplu concret. La un test de leadership, cei
trei candidai au obinut urmtoarele scoruri brute:
Candidat A

Candidat B

Candidat C

29

16

31

22

14

27

18

12

24

15

11

16

14

13

Se cere s se determine dac cele trei serii de date reprezint o aceeai populaie sau
populaii diferite. Pentru a putea ilustra modul de lucru al testului H furnizm mai jos formula
sa:
H=
n care:

12
R2
i 3( N + 1)
N ( N + 1) N i

(10.6)

N reprezint numrul total de observaii, rezultat prin combinarea celor trei situaii;
Ni reprezint numrul de observaii n fiecare dintre cele trei situaii;
Ri reprezint suma rangurilor n fiecare dintre cele trei situaii.
Din formula de mai sus rezult c operaia de debut a testului este aceea de rangare,
dup regulile cunoscute, a celor trei serii de date reunite. n aceast situaie tabelul de mai sus
va arta astfel:
144

Candidat A

Candidat B

Candidat C

Brut

Rang

Brut

Rang

Brut

Rang

29

14

16

8,5

31

15

22

11

14

5,5

27

13

18

10

12

24

12

15

11

16

8,5

14

5,5

13

ranguriA = 47,5

ranguriB = 20

ranguriC = 52,5

Putem determina acum valoarea testului H cu ajutorul formulei 10.6:


H=

12
12 47,52 202 52,52
R2
3 16 = 0,05 1082,5 48 = 6,125.

i 3( N + 1) =
+
+
15 16 5
5
5
N ( N + 1) N i

Valoarea tabelar se va identifica lund n calcul numrul gradelor de libertate, care


este egal cu numrul de eantioane K, minus 1: df = K 1, adic 3 1 = 2. Pentru acest df
valoarea tabelar din Anexa 14 este de 5,99. Deoarece tabelul de referin este unul de tip chiptrat (2) valoarea testului H trebuie s fie mai mare sau egal cu cea tabelar pentru a fi
semnificativ, ceea ce n cazul nostru se i ntmpl. De aceea putem concluziona c cele trei
serii de valori ale candidailor nu reprezint o aceeai populaie de scoruri, deci ei sunt diferii.
Pentru a determina unde apar diferenele va trebui s aplicm suplimentar testul U pentru
fiecare pereche dar, cum se observ clar, similitudinea dintre scorurile primului i ale celui de
al treilea candidat este foarte mare, ceea ce mai rmne de fcut fiind s-l comparm pe al
doilea candidat (cazul cu cele mai mici scoruri) cu fiecare dintre ceilali doi.
Pentru aceasta vom folosi formulele 10.1 i 10.2:
U = N1 N 2 +

N1 ( N1 + 1)
56
R1 = 5 5 +
47,5 = 7,5 U ' = N1 N 2 U = 25 (7,5) = 32,5
2
2

U = N 2 N3 +

N 2 ( N 2 + 1)
56
R2 = 5 5 +
20 = 20
2
2

U ' = N 2 N 3 U = 25 20 = 5

Valoarea tabelar semnificativ este de 2, n raport cu care ambele valori ale testului de
mai sus sunt mai mari i deci nesemnificative. Aadar, ipoteza de nul nu poate fi respins la
nivelul comparaiilor pe perechi, aceasta i datorit faptului c ele sunt extrem de reduse
numeric.

145

Din exemplul anterior s-ar putea crede c grupurile comparate trebuie s fie unele egale
numeric, fapt care nu este real, grupurile comparate putnd diferi ca ordin de mrime.
Extinderea numeric a grupurilor comparate, dar i a numrului de grupuri implicate n acest
test statistic amplific mult volumul de munc i implicit probabilitatea de eroare, metoda
putnd fi considerabil simplificat prin utilizarea unui program statistic adecvat.
Prezentm mai jos un al doilea exemplu care pleac de la presupunerea c inteligena
emoional este asociat cu ordinea n fratrie. Pentru a verifica aceast ipotez s-a aplicat un
test sociometric unui numr de 21 de studeni, din care 7 au fost primul nscut, 8 al doilea
nscut i 5 de la al treilea nscut n sus. Rezultatele sunt ntabelate alocnd pentru fiecare
categorie o coloan cu scorurile brute obinute la test i una cu rangul alocat acestor scoruri,
dar numai dup cumularea celor trei efective.
Primul nscut

Al doilea nscut

Al treilea nscut

Brut

Rang

Brut

Rang

Brut

Rang

25

18

30

21

14

7,5

24

17

27

20

12

5,5

23

16

26

19

10

20

15

18

12,5

19

14

15

10

1,5

18

12,5

15

10

1,5

15

10

14

7,5

12

5,5

ranguriA = 102,5

ranguriB = 105,5

ranguri_total=231

ranguriC = 23
Ntotal = 21

Ca i n exemplul anterior, valoarea testului H se determin cu formula 10.6.

H=

12 102,52 105,52 232


3(21 + 1) = 0,026 2980,34 66 = 11,49.

+
+
21 22 7
8
6

Valoarea tabelar a lui H la df = 2 este de 5,99 pentru p = .05 i de 9,21 pentru p = .01.
Cum valoarea testului obinut de n cazul de fa este mai mare, rezult c ipoteza de nul
poate fi rejectat, existnd deci o foarte mic probalilitatea (sub un procent) ca aceste diferene
s fi aprut din ntmplare. Rmne de determinat n continuare care sunt grupurile ntre care
aceste diferene ating pragul semnificaiei statistice.

146

10.7. Exerciii i aplicaii practice


Unui grup de 36 de studeni i s-a aplicat un test de atenie distributiv cu o durat de 30
de minute. Ipoteza cercetrii a fost aceea a existenei unor diferene semnificative de
performan a celor 36 de studeni n funcie de tipul temperamental al fiecruia, identificat cu
un chestionar adecvat. Datele brute ale cercetrii sunt sumarizate n tabelul de mai jos.
Sangvinic

Flegmatic

Coleric

Melancolic

32

24

33

28

19

26

28

19

26

22

12

17

28

19

17

23

24

29

24

15

21

23

15

16

17

18

29

10

33

19

31

29

14

27

17
26

S se rspund urmtoarelor solicitri:


1. Formulai ipoteza de nul i ipoteza specific a cercetrii.
2. Efectuai rangarea comun a datelor pentru cele patru temperamente.
3. Determinai valoarea testului H i comparai valoare obinut cu valoarea tabelar
adecvat (df = K - 1) argumentnd n legtur cu rejectarea sau nonrejectarea lui H0.
4. Selectai rezultatele pe perechi, dup criteriul extraversie-introversie i stabilitateinstabilitate emoional, utiliznd tabelul de mai jos. Formulai ipotezele specifice
pentru cele dou situaii i verificai-le parcurgnd toate etapele testului U MannWhitney.
5. Transformai valorile testului U n scoruri z dup formula de calcul corespunztoare.

147

Stabili

Instabili

Extraveri

Introveri

emoional

emoional

32

24

32

33

19

26

19

28

26

22

26

12

28

19

28

17

24

29

24

24

21

23

21

15

17

18

17

29

33

19

33

31

29

28

29

14

27

19

27

17

33

17

24

26

28

23

26

28

12

15

22

19

17

16

19

17

24

10

29

23

15

23

15

29

18

16

31

19

10

14
17
26

10.8. Testul rangurilor Friedman pentru msurtori repetate


Echivalentul testului ANOVA pentru msurtori repetate pentru date parametrice este
testul Friedman, care utilizeaz diferena de ranguri n cazul msurrii acelorai subieci de
mai mult de dou ori. Fiind destinat msurtorilor repetate, acest test este considerat o
generalizare a testului semnului al lui Wilcoxon. Pentru a nelege mai bine modul de lucru
presupus de aceast tehnic statistic plecm de la urmtorul exemplu concret.
Un grup de 8 subieci au participat la un program de coaching, destinat ameliorrii
eficienei personale i a stimei de sine. Programul a durat timp de ase luni, determinarea
iniial a scorurilor la un chestionar de stim i eficien de sine fiind urmat la interval de
dou luni de alte determinri ale aceluiai construct. Se cere s se rspund la ntrebarea dac

148

stima i eficiena de sine se amelioreaz semnificativ prin parcurgerea acestui program de


training. Rezultatele celor patru determinri sunt sumarizate n tabelul de mai jos.
Stima_1

Stima_2

Stima_3

Stima_4

Subiect

Brut

Rang

Brut

Rang

Brut

Rang

Brut

Rang

24

26

25

28

14

13

17

19

21

22

25

24

20

21

22

25

22

20

18

23

19

18

20

24

15

12

16

17

29

30

31

34

ranguri1 = 13

ranguri2 = 14

ranguri3 = 22

ranguri4 = 31

Ceea ce este specific acestei metode este n primul rnd modul de alocare a rangurilor.
Ele nu se mai acord prin punerea la comun a celor patru seturi de scoruri pentru a costrui o
singur colecie de date, numrul de ranguri alocate nemaitrebuind s fie suma celor patru
efective, ca n cazul celorlalte teste neparametrice prezentate anterior. Dimpotriv, se acord
ranguri doar de la 1 la 4 (numrul de ranguri fiind egal cu cte msurtori repetate au fost)
comparnd scorurile obinute de acelai subiect la cele 4 condiii i dnd rangul 1 scorului cel
mai mic, 2 urmtorului .a.m.d. n pasul al doilea, suma acestor ranguri se face pe coloan,
totalurile trecndu-se n rubrica de jos. Deci scorurile se rangheaz pentru fiecare participant
separat i apoi se adun pe coloan pentru a obine totalurile fiecrei coloane n parte. Dup
aceea se evalueaz variabilitatea celor patru sume dup formula:

F2 =

12
Ri2 3 N (k + 1)
Nk (k + 1)

(10.7)

n care:
N reprezint numrul de subieci;
k reprezint numrul de condiii (de msurtori repetate);
Ri reprezint suma rangurilor pentru fiecare din cele trei condiii.
n situaia analizat:

F 2 =

12
12
Ri2 3 N (k + 1) =
132 + 142 + 222 + 312 3 8 5 = 137,75 120 = 17,75
Nk (k + 1)
845

149

Consultnd tabelul de distribuii 2 din Anexa 14 pentru 4 - 1 = 3 grade de libertate, valoarea


critic gsit este de 7,81 pentru p = .05 i de 11,34 pentru p = .01. Valoarea de 17,75 a
testului confirm, la un prag de semnificaie statistic foarte ridicat, eficiena sedinelor se
coaching asupra ameliorrii sentimentului de stim i eficien de sine. Analiza sumei
rangurilor pentru fiecare etap indic faptul c aceast ameliorare a fost nesemnificativ n
etapele premergtoare, dar etapele a treia i a patra au dus la o ameliorare puternic a
variabilei investigate.

10.9. Exerciii i aplicaii practice


Patru profesori au primit spre evaluare independent un numr de 12 lucrri, notele
acordate fiind de la 1 la 10. Situaia celor 4 evaluri este cea prezentat n tabelul de mai jos.
S se rezolve urmtoarele cerine:
1. Determinai prin testul Friedman dac cei patru profesori au avut un sistem de evaluare
comun, sau dac diferenele de notare dintre ei au fost unele semnificative.
2. Folosind corelaia rangurilor rho a lui Spearman determinai n SPSS gradul de asemnare
dintre notrile primului profesor cu urmtorii trei.
Lucrare

Prof_1

Prof_2

Prof_3

Prof_4

7,20

7,50

7,30

7,00

8,75

8,25

8,40

8,80

6,20

6,80

7,00

6,50

10

9,20

9,40

9,80

5,75

6,25

6,15

6,00

8,40

8,25

8,60

8,10

7,80

8,00

8,10

8,25

9,75

9,50

9,40

10

6,60

6,80

6,50

10

7,25

7,00

8,00

7,75

11

9,00

9,25

9,15

9,30

12

7,50

7,25

7,75

7,60

150

Test pentru verificarea de sintez


Aceast autoverificare const dintr-un numr de ntrebri la care trebuie s selectai doar o
variant de rspuns din cele propuse, sau s trecei n spaiul liber valoarea rezultat n urma
unui calcul matematic. ncercai s abordai fiecare problem n parte, dar unde nu tii este
preferabil s nu completai. Fiecare item corect rezolvat se coteaz cu un punct.

I. Intrebri de verificare de ordin general


1. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel de 5 000 de locuitori.
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
2. Definii pe scurt termenii de:
Date..............................................................................................................................................
Variabil.......................................................................................................................................
Eantion........................................................................................................................................
Populaie.......................................................................................................................................
3. Poate o variabil ordinal s fie msurat cu o scal continu?
Poate o variabil continu s fie msurat cu o scal ordinal?

a Da
a Da

b Nu
b Nu

4. Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de


a Da
b Nu
date de la mic la mare sau invers.
5. Inteligena nu are uniti de msur tipice scalelor de interval.

a Da

b Nu

6. Pentru datele culese pe o scal ordinal se poate face media deoarece aceasta are
proprietatea aditivitii.
a Da
b Nu
7. Numii tipul de scal utilizabil n msurarea categoriilor de mai jos, alocnd cifrele 1, 2, 3
i 4 pentru scalele nominal, ordinal, de interval i de raport:
scala Celsius
scala Kelvin numrul camerelor de hotel ordinea sosirii la maraton
scorul final la acest examen
presiunea sanguin
genul
greutatea.
8. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu

II. Statistici descriptive univariate


Privii cu atenie distribuia erorilor nregistrate de un psiholog la o prob de memorie, redat
n diagrama de mai jos, i rspundei la ntrebrile subiacente.

151

10

9
8

Frequency

3
2

2
1

6.0

7.0

8.0

9.0

0
0.0

1.0

2.0

3.0

4.0

5.0

9. Mediana numrului de erori este:


determina

a 2,50

b3

c2

d Nu se poate

10. Media are valoarea de:

a 2,54

b 2,63

c 2,71

d 2,66

11. Modul are valoarea:

a9

b6

c1

d 1,50

12. Eroarea standard a mediei (/N) este:

a 0.42

b 0.40

c 0.39

d 0.50

13. Amplitudinea nprtierii (Range) este de: .


14. Distribuia rezultat este una:

a asimetric negativ
b simetric
c nedefinit
d asimetric pozitiv

15. Trecei n spaiul liber care este valoarea: a. abaterii intercuartilice


.
b. abaterii semiintercuartilice .
16. Diagrama de mai sus este:

Histogram

Diagram cu bare

Poligonul frecvenelor

17. La distribuia de mai sus tendina central este cel mai bine indicat de:
Medie
Median
Mod

III. Statistic bivariat i inferenial


Privii cu atenie cele dou scattere de mai jos i rspundei la ntrebrile formulate.
10

10

6
4

4
2

Viteza

Timp

-2
-2

10

0
-2

Erori

Erori

B
152

10

18. Corelaia din diagrama A este de aprox.:

a -0.60

b 0.70

c -0.80

d 0.90

d 0.95

19. Corelaia din diagrama B este de aprox.:

a -0.60

b 0.70

c -0.80

d 0.90

d 0.95

20. ncercuii n diagrama A cele trei puncte care mresc cel mai mult corelaia.
21. ncercuii n diagrama B cele trei puncte care coboar cel mai mult corelaia.
22. Adugai n spaiul diagramei A un punct astfel nct el s omoare maximal corelaia.
23. Adugai n spaiul diagramei B un punct care s umfle inflaionist maximal corelaia.
24. Desenai cu atenie, ct mai adecvat, linia de regresie pentru ambele diagrame A i B.
25. Studiind corelaiile dintre Erori-Timp i Erori-Vitez, corelaia dintre Timp i Vitez va fi:
a Negativ mic

b Negativ medie

c Spre zero

d Pozitiv medie

e Pozitiv mare

26. Cele mai sigure predicii ale lui Y n raport cu X se pot face din:
a Diagrama A

b Diagrama B

27. Argumentai rspunsul la ntrebarea de mai sus: ...................................................................


.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
......................................................................................................................................................
28. Avei urmtoarele dou serii de valori, reprezentnd note la fizic i la matematic:
Fizic
Matematic

3 8 4 10 2 5 6 10 8 9 6 7 9 5 4 6 8 9
4 7 5 8 3 5 7 9 10 8 6 4 9 6 6 7 7 10

Ranguri de alocat:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
r = .........
= .........

29. Rangai corect cele dou serii de valori, folosind spaiul de deasupra i de dedesubt.
30. Determinai corelaia celor dou serii de valori prin metoda produselor a lui Pearson (r).
31. Determinai corelaia celor dou serii de valori prin metoda rangurilor a lui Spearman ().
32. Testai ipoteza existenei unei diferene semnificative a mediilor, ca i cum ar fi dou
distribuii de eantioane independente.
33. Evaluai, comentai i raportai corespunztor rezultatul obinut. .........................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................

153

Bibliografie
1. American Psychological Association (2001). Publication Manual of the American
Psychological Association. 5th Edition. Washington, DC.
2. Buchner, A., Erdfelder, E., & Faul, F. (2001). How to Use the G*Power,
http://www.psycho.uni-duesseldorf.de, accesat la 01.10.2010.
3. Chatfiled, C. (1985). The initial examination of data. In Journal of the Royal Statistical
Society; Series A (General), 148(3): 214-253.
4. Clark-Carter, D. (2004). Quantitative psychological research. A student's handbook. Hove
and New York: Psycholohy Press.
5. Clinciu, A. I. (2012). Statistici multivariate pentru psihologie. Braov: Editura Universitii
Transilvania.

6. Clinciu, A. I. (2006). Prelucrare computerizat a datelor cu SPSS. Braov: Editura


Universitii Transilvania.
7. Clinciu, A. I. (2012). Bateria memoriei de lucru. Cluj-Napoca: Sinapsis Publishing
Projects.
8. Clocotici, V., Stan, A. (2000). Statistic aplicat n psihologie. Iai: Editura Polirom.
9. Cohen, J. (1988). Explaining Psychological Statistics, 2nd edition. John Wiley & Sons,
Inc. Hoboken.
10. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hove and
London: Lawrence Erlbawm Associates, Publishers.
11. Coolican, H. (2004). Research Methods and Statistics in Psychology, 4th ed.. London:
Hodder & Stoughton.
12. Culic, I. (2004). Metode avansate n cercetarea social. Analiza univariat de
interdependen. Iai: Editura Polirom.
13. Everitt, B., Landau, S., & Leese, M. (2001). Cluster Analysis, 4th. ed., New York: Arnold
Publishers.
14. Eysenck, M. W., & Keane, M. T. (1995). Cognitive Psychology. A Students Handbook.
3rd Edition. UK: Psychology Press.
15. Field, A. (2002). Dicovering Statistics Using SPSS for Windows. Sage Publications.
16. Gorsuch, R. L. (1997). Exploratory Factor Analysis: Its Role in Item Analysis. Journal of
Personality Assessment 68: 532-560.
17. Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of
component pattern. Psychological Bulletin, 103: 267-275.
154

18. Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education,
New York: McGraw Hill Book Company.
19. Havrneanu, C. (2000). Cunoaterea psihologic a persoanei. Posibiliti de utilizare a
computerului n psihologia aplicat. Iai: Editura Polirom.
20. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data
Analysis. Seventh Edition, New York: Pearson Prentice Hall.
21. Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained.
London and New York: Routledge, Taylor & Francis Group.
22. Howell, D. C. (2008). Fundamental Statisctics fot Behaviooral Sciences. Sixth Edition.
Thomson Wadsworth.
23. Howitt, D., & Cramer, D. (2008). Introduction to Reasearch Methods in Psychology.
Edinburgh Gate, Harlow: Pearson Education Limitid.
24. Hoyle, R. H. (1999). Statistical Strategies for Small Sample Research. Thousand Oaks,
London, New Delhi: Sage Publications.
25. Issac, S., Michael, W. B. (1972). Handbook of Research and Evaluation. San Diego,
California, 92107: Robert R. Knapp Publisher.
26. Jaun, A. K., Murtz, M. N., & Flynn, P. J. (1999). Data Clustering: A review. ACM
Computing Surveys 31(3): 364-323.
27. Kinnear, P. R., & Gray, C. D. (2006). SPSS 14 made simple. Hove and New York:
Psychological Press. Taylor & Francis Group.
28. Labr, A. V. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
29. Lungu, O. (2001). Ghid introductiv pentru SPSS 10.0. Seria psihologie experimental i
aplicat. Iai: S.C. Erota Tipo S.R.L.
30. Mertler, C. A., & Vannatta, R. A. (2005). Advanced and Multivariate Statistical Methods.
Practical Applications and Interpretation. Third edition. Glendale: Pyrczak Publishing.
31. Milligan, G. (1980). An Examination of the Effect of Six Types of Error Perturbation of
Fifteen Clustering Algoritms. Psychometrika 45 (September): 325-342.
32. Milligan, G. W., & Cooper, M. C. (1985). An Examination of Procedures for Determining
the Number of Clusters in a Data Set. Psihometrika 50(2), 159-179.
33. Nicol, A. A. M., Pexman, P. M. (1999). Presenting your findings. A practical guide for
creating tables. Washinton DC, USA: American Psychological Association.
34. Pedhazur, E. J., Schmelkin, L. (1991). Mesurement, design and analysis: an integrated
approach. Hillsdale, USA: Lawrence Erlbaum Associates, Inc.

155

35. Popa, M. (2008). Statistic pentru psihologie. Teorie i aplicaii SPSS. Iai: Editura
Polirom.
36. Popa, M. (2010). Statistici multivariate aplicate n psihologie. Iai: Editura Polirom.
37. Quick, D. (2004). Making Tables and Figures. In G. A. Morgan, N. L. Leech, G. W.
Gloeckner, and K. C. Barrett, SPSS for Introductory Statistics. Use and Interpretation.
Second Edition. London: Lawrence Erlbaum Associates, Publishers.
38. Rateau, P. (2004). Metodele i statisticile experimentale n tiinele umane. Iai: Editura
Polirom.
39. Reuchlin, M. (1992). Introduction a la recherche en psychologie. Paris: Hathan Universit
40. Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and correlations in effectsize estimation. Psychological Sciences, 11(6), 446-453.
41. Sava, F. A. (2004). Analiza datelor n cercetarea psihologic. Metode statistice
complementare. Cluj-Napoca: Editura ASCR.
42. Sava, F. A., Mricuoiu, L. P. (2007). PowerStaTim. Manualul utilizatorului. Timioara:
Editura Universitii de Vest.
43. Sava, F. A. (2011). Analiza datelor n cercetarea psihologic. Cluj-Napoca: Editura
ASCR.
44. Sava, F. A. (2013). Psihologia valifat tiinific. Ghid practic de cercetare n psihologie.
Iai: Editura Polirom.
45. Stilis, D. L. (Ed.) (1989). International enciclopedia of the social sciences: Biographical
supplement (vol. 18). New York: Macmillan.
46. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth edition.
Boston, New York, San Francisco etc.: Pearson Education, Inc., Allyn and Bacon.
47. Thorne, B., & Giesen, G. M. (2003). Statistics for the Social Sciences. Boston, Burr Ridge
etc.: Mc Graw Hill.
48. Vod, V. (1977). Gndirea statistic un mod de gndire al viitorului. Bucureti: Editura
Albatros.
49. Vogt, W. P. (1999). Dictionary of Statistics and Methodology. A Nontechnical Guide for
the Social Sciences, Second edition. Thousand Oaks, London, New Delhi: Sage
Publications.
50. Weaver, K. (2000). Basic Statistic Analysis. Sixth Edition. Study Guide. Boston, London
etc.: Allyn and Bacon. NeedhamHeights, Massachusetts.

156

A N E X E CU U T I L I T I S T A T I S T I C E
STATISTICA DESCRIPTIV

CENTRU

Tendina
central
Media
Mediana
Modul

FORM MPRTIERE

Crostabulare

Variabilitatea
AI=Range
Variana
Abaterea
standard

Corelaie

Diferene de medii

Tabele bivariate

Forma curbei
Simetria (Skewness)
Boltirea (Kurtosis)

Scatter-ploturi

Ploturi clasificatorii

Curba normal

Msuri ale gradului de asociere


r, r2, , 2, R, R2, phi, Lambda, C, V,
Gamma, Tau-b, Tau-c, d al lui Somer

Scorurile z
Distribuia normal standard

INFERENA STATISTIC
Eantionarea
distribuiilor

Eroarea
standard
Teorema limit
central

Nivelul de semnificaie
Ipoteza de nul

Testarea ipotezelor

Ipoteze
alternative

Intervale de
ncredere

Eroarea de tip I

Eroarea de tip II

Puterea cercetrii

Mrimea efectului

Diagrama 1. Domeniile statisticii descriptive i infereniale

157

Diferen
eantioane
corelate

Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Test t pentru
eantioane
corelate

Diferen
eantioane
independe
nte

Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Test t pentru
eantioane
independente

Dou
eantioa
ne

Diferen

Un
eantion

FENOMEN
UL DE
INTERES

Relaie

Diferena
pe un
eantion

Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Testul t pentru
un eantion

Relaie
utiliznd
ranguri

(rho) Spearman
(tau) Kendall
Scatter-plot

Se examineaz
valoarea p
pentru sau

Relaie
liniar
utiliz.
scoruri

r al lui Pearson
Scatter-plot

Se examineaz
valoarea p
a lui r

STATISTICI
DESCRIPTIVE

STATISTICI
INFERENIA
LE

Diagrama 2. Arbore decizional pentru selecia procedeelor


descriptive i infereniale adecvate

158

Tip de
categorizare

Calitative
(categoriale)

TIP DE
DATE

Relaii

Ovariabil
categorial

Potrivire
(g.o.f.) 2

Dou
variabile
categoriale

Tabele de
contingen
2

Numr
de
predictori

Grad
relaie
Continu

Interes
primar

Ranguri

Spearman

Unul

Msur

Muli

Regresie
multipl

Dou

Relaii
dintre

MannWhitney

eantioan

Ea Corel

Formarea
relaiei

Corelaie
r Pearson
Regresie

t pt. dou
eantioan
Independ.

Cantitative
(de msur)

Tip de
ntrebare

One-way
ANOVA

Depend.
Wilcoxon

Diferene

Numr de
grupuri
Mai
multe

Independ.

NrVariab.

Depend.

Msurto
ri repetate

Relaii
dintre
eantioan

Friedmzz
zccan

Diagrama 3. Arbore decizional pentru selecia celui mai


potrivit tip de test statistic de semnificaie
Sursa: Howell, D.C. (2008). Fundamental statistics for the behavioral sciences
.Belmont: Thomson Wadsworth, p. 520.

159

Un
KruskalWallis
Multe
ANOVA
factorial

Anexa 1. Tabelul distribuiei valorilor sub curba normal z


Valorile din tabel indic probabilitatea dintre 0 i z.

z
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,00000
0,03983
0,07926
0,11791
0,15542
0,19146
0,22575
0,25804
0,28814
0,31594
0,34134
0,36433
0,38493
0,40320
0,41924
0,43319
0,44520
0,45543
0,46407
0,47128
0,47725
0,48214
0,48610
0,48928
0,49180
0,49379
0,49534
0,49653
0,49744
0,49813
0,49865
0,49903
0,49931
0.49952
0,49966
0,49977
0,49984
0,49989
0,49993
0,49995
0,49997

0,00399
0,04380
0,08317
0,12172
0,15910
0,19497
0,22907
0,26115
0,29103
0,31859
0,34375
0,36650
0,38686
0,40490
0,42073
0,43448
0,44630
0,45637
0,46485
0,47193
0,47778
0,48257
0,48645
0,48956
0,49202
0,493%
0,49547
0,49664
0,49752
0,49819
0,49869
0,49906
0,49934
0,49953
0,49968
0,49978
0,49985
0,49990
0,49993
0,49995
0,49997

0,00798
0,04776
0,08706
0,12552
0,16276
0,19847
0,23237
0,26424
0,29389
0,32121
0,34614
0,36864
0,38877
0,40658
0,42220
0,43574
0,44738
0,45728
0,46562
0,47257
0,47831
0,48300
0,48679
0,48983
0,49224
0,49413
0,49560
0,49674
0,49760
0,49825
0,49874
0,49910
0,49936
0,49955
0,49969
0,49978
0,49985
0,49990
0,49993
0,49996
0,49997

0,01197
0,05172
0,09095
0,12930
0,16640
0,20194
0,23565
0,26730
0,29673
0,32381
0,34849
0,37076
0,39065
0,40824
0,42364
0,43699
0,44845
0,45818
0,46638
0,47320
0,47882
0,48341
0,48713
0,49010
0,49245
0,49430
0,49573
0,49683
0,49767
0,49831
0,49878
0,49913
0,49938
0,49957
0,49970
0,49979
0,49986
0,49990
0,49994
0,49996
0,49997

0,01595
0,05567
0,09483
0,13307
0,17003
0,20540
0,23891
0,27035
0,29955
0,32639
0,35083
0,37286
0,39251
0,40988
0,42507
0,43822
0,44950
0,45907
0,46712
0,47381
0,47932
0,48382
0,48745
0,49036
0,49266
0,49446
0,49585
0,49693
0,49774
0,49836
0,49882
0,49916
0,49940
0,49958
0,49971
0,49980
0,49986
0,49991
0,49994
0,49996
0,49997

0,01994
0,05962
0,09871
0,13683
0,17364
0,20884
0,24215
0,27337
0,30234
0,32894
0,35314
0,37493
0,39435
0,41149
0,42647
0,43943
0,45053
0,45994
0,46784
0,47441
0,47982
0,48422
0,48778
0,49061
0,49286
0,49461
0,49598
0,49702
0,49781
0,49841
0,49886
0,49918
0,49942
0,49960
0,49972
0,49981
0,49987
0,49991
0,49994
0,49996
0,49997

0,02392
0,06356
0,10257
0,14058
0,17724
0,21226
0,24537
0,27637
0,30511
0,33147
0,35543
0,37698
0,39617
0,41309
0,42785
0,44062
0,45154
0,46080
0,46856
0,47500
0,48030
0,48461
0,48809
0,49086
0,49305
0,49477
0,49609
0,49711
0,49788
0,49846
0,49889
0,49921
0,49944
0,49961
0,49973
0,49981
0,49987
0,49992
0,49994
0,49996
0,49998

0,02790
0,06749
0,10642
0,14431
0,18082
0,21566
0,24857
0,27935
0,30785
0,33398
0,35769
0,37900
0,39796
0,41466
0,42922
0,44179
0,45254
0,46164
0,46926
0,47558
0,48077
0,48500
0,48840
0,49111
0,49324
0,49492
0,49621
0,49720
0,49795
0,49851
0,49893
0,49924
0,49946
0,49962
0,49974
0,49982
0,49988
0,49992
0,49995
0,49996
0,49998

0,03188
0,07142
0,11026
0,14803
0,18439
0,21904
0,25175
0,28230
0,31057
0,33646
0,35993
0,38100
0,39973
0,41621
0,43056
0,44295
0,45352
0,46246
0,46995
0,47615
0,48124
0,48537
0,48870
0,49134
0,49343
0,49506
0,49632
0,49728
0,49801
0,49856
0,49896
0,49926
0,49948
0,49964
0,49975
0,49983
0,49988
0,49992
0,49995
0,49997
0,49998

0,03586
0,07535
0,11409
0,15173
0,18793
0,22240
0,25490
0,28524
0,31327
0,33891
0,36214
0,38298
0,40147
0,41774
0,43189
0,44408
0,45449
0,46327
0,47062
0,47670
0,48169
0,48574
0,48899
0,49158
0,49361
0,49520
0,49643
0,49736
0,49807
0,49861
0,49900
0,49929
0,49950
0,49965
0,49976
0,49983
0,49989
0,49992
0,49995
0,49997
0,49998

160

z
4,1
4,2
4,3
4,4
4,5
4,6
4,7
4,8
4,9
5
5,1
52
5,3
5,4
5,5
5,6
5,7
5,8
5,9
6

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

Anexa 2.Valori critice ale lui t


N

.05

.02

.01

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

0
2
4
6
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
89

0
2
3
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77

0
2
3
5
7
10
13
16
20
23
28
32
38
43
44
55
61
68

Surs: Table 1 din F. Wilcoxon, Some Rapid Approximate Statistical Procedures,


American Cyanamid Company, 1949, p. 13.

161

Anexa 3. Tabelul lui Fisher pentru determinarea semnificaiei lui t i z


Tabelul legii normale reduse
t
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
1,96
2,0
2,1
2,2
2,3
2,4
2,5
2,58
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,30
3,4
3,5
3,6
3,8
4,0
4,5
5,0

anse din
100
84
69
55
42
32
23
16
11
7
5.0
4,5
3,6
2,8
2,1
1,6
1,2
1,0
0,9
0,7
0,5
0,4
0,27
0,19
0,14
0.10
0,07
0,046
0,032
0,014
0,006
0,0006
0,00006

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

df

0,10
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,64485
0,10
0,10

1. Probabilitatea (anse din 100) ca o


valoare a lui t s apar ntmpltor

0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
1,95996
0,05
0,05

0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,781
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,32634
0,02
0,02

0,01
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,57582
0,01

2. Tabelul lui Fisher de valori ale lui z

162

Anexa 4. Tabelul valorilor critice pentru distribuia t Student (unilateral)


df

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

= 0,10
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,282

= 0,05
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,760
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645

= 0,025
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,980
1,960

163

= 0,01
31,821
6,950
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,528
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,358
2,326

= 0,005
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,102
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,617
2,576

=0,0005
636,620
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,291

Anexa 5. Valori critice ale testului t


df = N - 1 la testul t pentru un eantion, intervale de ncredere, i la testul t pentru eantioane
dependente (corelate); df = N1 + N2 2 la testul t pentru dou eantioane independente.
Nivel de semnificaie pentru test bidirecional
(Pentru testul unidirecional procentajele se mpart pe jumtate)

df

10%
p = .10

5%
p = .05

2%
p = .02

1%
p = .01

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
110
120

6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6869
1.6839
1.6794
1.6759
1.6706
1.6669
1.6641
1.6620
1.6602
1.6588
1.6577
1.6449

12.7062
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0301
2.0211
2.0141
2.0086
2.0003
1.9944
1.9901
1.9867
1.9840
1.9818
1.9799
1.9600

31.8207
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5177
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4377
2.4233
2.4121
2.4033
2.3901
2.3808
2.3739
2.3685
2.3642
2.3607
2.3598
2.3263

63.6574
9.9248
5.8409
4.6041
4.0322
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7238
2.7045
2.6896
2.6778
2.6603
2.6479
2.6387
2.6316
2.6259
2.6213
2.6174
2.5758

Surs: D.B. Owen, Handbook of Statistical Tables (1962), Reading, MA: Addison-Wesley, pp. 28-30.
Copyright 1962 by Addison-Wesley Publishing Company.

164

Anexa 6. Tabelul parial al distribuiei F pentru = 0,05


df
(within)
intragrup
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

df intergrup (between)
1

10

161,4476
18,5128
10,1280
7,7086
6,6079
5,9874
5,5914
5,3177
5,1174
4,9646
4,8443
4,7472
4,6672
4,6001
4,5431
4,4940
4,4513
4,4139
4,3807
4,3512
4,3248
4,3009
4,2793
4,2597
4,2417

199,5000
19,0000
9,5521
6,9443
5,7861
5,1433
4,7374
4,4590
4,2565
4,1028
3,9823
3,8853
3,8056
3,7389
3,6823
3,6337
3,5915
3,5546
3,5219
3,4928
3,4668
3,4434
3,4221
3,4028
3,3852

215,7073
19,1643
9,2766
6,5914
5,4095
4,7571
4,3468
4,0662
3,8625
3,7083
3,5874
3,4903
3,4105
3,3439
3,2874
3,2389
3,1968
3,1599
3,1274
3,0984
3,0725
3,0491
3,0280
3,0088
2,9912

224,5832
19,2468
9,1172
6,3882
5,1922
4,5337
4,1203
3,8379
3,6331
3,4780
3,3567
3,2592
3,1791
3,1122
3,0556
3,0069
2,9647
2,9277
2,8951
2,8661
2,8401
2,8167
2,7955
2,7763
2,7587

230,1619
19,2964
9,0135
6,2561
5,0503
4,3874
3,9715
3,6875
3,4817
3,3258
3,2039
3,1059
3,0254
2,9582
2,9013
2,8524
2,8100
2,7729
2,7401
2,7109
2,6848
2,6613
2,6400
2,6207
2,6030

233,9860
19,3295
8,9406
6,1631
4,9503
4,2839
3,8660
3,5806
3,3738
3,2172
3,0946
2,9961
2,9153
2,8477
2,7905
2,7413
2,6987
2,6613
2,6283
2,5990
2,5727
2,5491
2,5277
2,5082
2,4904

236,7684
19,3532
8,8867
6,0942
4,8759
4,2067
3,7870
3,5005
3,2927
3,1355
3,0123
2,9134
2,8321
2,7642
2,7066
2,6572
2,6143
2,5767
2,5435
2,5140
2,4876
2,4638
2,4422
2,4226
2,4047

238,8827
19,3710
8,8452
6,0410
4,8183
4,1468
3,7257
3,4381
3,2296
3,0717
2,9480
2,8486
2,7669
2,6987
2,6408
2,5911
2,5480
2,5102
2,4768
2,4471
2,4205
2,3965
2,3748
2,3551
2,3371

240,5433
19,3848
8,8123
5,9988
4,7725
4,0990
3,6767
3,3881
3,1789
3,0204
2,8962
2,7964
2,7144
2,6458
2,5876
2,5377
2,4943
2,4563
2,4227
2,3928
2,3660
2,3419
2,3201
2,3002
2,2821

26
27
28
29
30

4,2252
4,2100
4,1960
4,1830
4,1709

3,3690
3,3541
3,3404
3,3277
3,3158

2,9752
2,9604
2,9467
2,9340
2,9223

2,7426
2,7278
2,7141
2,7014
2,6896

2,5868
2,5719
2,5581
2,5454
2,5336

2,4741
2,4591
2,4453
2,4324
2,4205

2,3883
2,3732
2,3593
2,3463
2,3343

2,3205
2,3053
2,2913
2,2783
2,2662

2,2655
2,2501
2,2360
2,2229
2,2107

241,8817
19,3959
8,7855
5,9644
4,7351
4,0600
3,6365
3,3472
3,1373
2,9782
2,8536
2,7534
2,6710
2,6022
2,5437
2,4935
2,4499
2,4117
2,3779
2,3479
2,3210
2,2967
2,2747
2,2547
2,2365
2,2197
2,2043
2,1900
2,1768
2,1646

Not: Acest tabel este aplicabil pentru maximum 11 grupuri (dfBetween = 10 i dfWithin maxim = 30).

165

Anexa 7. Valori critice ale coeficientului de corelaie r al lui Pearson


Unilateral
p = 0,05

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100

p = 0,10
0,988
0,900
0,805
0,729
0,669
0,622
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,36
0,352
0,344
0,337
0,330
0,323
0,317
0,311
0,306
0,301
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164

p = 0,25
Bilateral
p = 0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,413
0,404
0,396
0,388
0,381
0,374
0,367
0,361
0,355
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195

166

p = 0,01

p = 0,005

p = 0,02
0,9995
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,482
0,472
0,462
0,453
0,445
0,437
0,430
0,423
0,416
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230

p = 0,01
0,9999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,479
0,471
0,463
0,456
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254

Anexa 8. Valori critice ale corelaiei r, df = N 2, unde N este numrul perechilor de scoruri.

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

5%
.997
.950
.878
.811
.754
.707
.666
.632
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.433
.423
.413
.404
.396

df
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
1000

1%
1.000
.990
.959
.917
.874
.834
.798
.765
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
.549
.537
.526
.515
.505

5%
.388
.381
.374
.367
.361
.355
.349
.325
.304
.288
.273
.250
.232
.217
.205
.195
.174
.159
.138
.113
.098
.088
.062

1%
.496
.487
.478
.470
.463
.456
.449
.418
.393
.372
.354
.325
.302
.283
.267
.254
.228
.208
.181
.148
.128
.115
.081

Surs: Table VII din Fisher and Yates: Statistical Tables for Biological, Agricultural and Medical
Research. Longman Group Ltd., London.

167

Anexa 9. Valorile coeficientului | r | pentru patru praguri de semnificaie


N
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50

p=0,10
0,81
0,73
0,67
0,62
0,58
0,55
0,52
0,50
0,48
0,46
0,44
0,43
0,41
0,40
0,39
0,38
0,37
0,36
0,32
0,30
0,27
0,26
0,24
0,23

p=0,05
0,88
0,81
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,42
0,38
0,35
0,32
0,30
0,29
0,27

p=0,025
0,93
0,88
0,83
0,79
0,75
0,72
0,69
0,66
0,63
0,61
0,59
0,57
0,56
0,54
0,53
0,52
0,50
0,49
0,45
0,41
0,38
0,36
0,34
0,32

p=0,01
0,96
0,92
0,87
0,83
0,80
0,76
0,73
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
0,54
0,49
0,45
0,42
0,39
0,37
0,35

Anexa 10. Valori ale corelaiei rangurilor pentru dou praguri de semnificaie
Nr. perechi

5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30

p=0,05
1,000
0,886
0,786
0,738
0,683
0,648
0,591
0,544
0,506
0,475
0,450
0,428
0,409
0,392
0,377
0,364

168

p=0,01
-1,000
0,929
0,881
0,833
0,974
0,777
0,714
0,665
0,625
0,591
0,562
0,537
0,515
0,496
0,478

Anexa 11. Valorile critice pentru testul de corelaie a rangurilor (rho) al lui Spearman
Test unilateral
N
= 0,05
= 0,10
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

= 0,025
= 0,01
Test bilateral
= 0,05
= 0,02

= 0,005
= 0,01

0.900
0,829

0,886

0,943

0,714

0,786

0,893

0,643

0,738

0,833

0,881

0,600

0,683

0,783

0,833

0,564

0,648

0,745

0,794

0,523

0,623

0,736

0,818

0.497

0,591

0,703

0,780

0,475

0,566

0,673

0,745

0,457

0,545

0,646

0,716

0,441

0,525

0,623

0,689

0,425

0,507

0,601

0,666

0,412

0,490

0,582

0,645

0,399

0,476

0,564

0,625

0,388

0,462

0,549

0,608

0,377

0,450

0,534

0,591

0,368

0,438

0,521

0,576

0,359

0,428

0,508

0,562

0,351

0,418

0,496

0,549

0,343

0,409

0,485

0,537

0,336

0,400

0,475

0,526

0,329

0,392

0,465

0,515

0,323

0,385

0,456

0,505

0,317

0,377

0,448

0,496

0,311

0,370

0,440

0,487

0,305

0,364

0,432

0,478

169

Anexa 12. Tabelul lui Fisher de transformare a valorilor corelaiei r n scoruri z


r

0,0000

0,0000

0,2600

0,2667

0,5200

0,5763

0,7800

1,0454

0,0100

0,0100

0,2700

0,2769

0,5300

0,5901

0,7900

1,0714

0,0200

0,0200

0,2800

0,2877

0,5400

0,6042

0,8000

1,0986

0,0300

0,0300

0,2900

0,2986

0,5500

0,6184

0,8100

1,1270

0,0400

0,0400

0,3000

0,3095

0,5600

0,6328

0,8200

1,1568

0,0500

0,0500

0,3100

0,3205

0,5700

0,6475

0,8300

1,1881

0,0600

0,0601

0,3200

0,3316

0,5800

0,6625

0,8400

1,2212

0,0700

0,0701

0,3300

0,3428

0,5900

0,6777

0,8500

1,2562

0,0800

0,0802

0,3400

0,3541

0,6000

0,6931

0,8600

1,2933

0,0900

0,0902

0,3500

0,3654

0,6100

0,7089

0,8700

1,3331

0,1000

0,1003

0,3600

0,3769

0,6200

0,7250

0,8800

1,3758

0,1100

0,1104

0,3700

0,3834

0,6300

0,7414

0,8900

1,4219

0,1200
0,1300

0,1206
0, 1307

0,3800
0,3900

0,4001
0,4118

0,6400
0,6500

0,7582
0,7753

0,9000
0,9100

1,4722
1,5275

0,1400

0, 1409

0,4000

0,4236

0,6600

0,7928

0,9200

1,5890

0,1500

0,1511

0,4100

0,4356

0,6700

0,8307

0,9300

1,6584

0,1600

0,1614

0,4200

0,4477

0,6800

0,8291

0,9400

1,7380

0,1700

0,1717

0,4300

0,4599

0,6900

0,8480

0,9500

1,8318

0,1800

0,1820

0,4400

0,4722

0,7000

0,8673

0,9600

1,9459

0,1900
0,2000

0,1923
0,2027

0,4500
0,4600

0,4847
0,4973

0,7100
0,7200

0,8872
0,9076

0,9700
0,9800

2,0923
2,2976

0,2100

0,2132

0,4700

0,5101

0,7300

0,9287

0,9900

2,6467

0,2200

0,2237

0,4800

0,5230

0,7400

0,9505

0,2300

0,2342

0,4900

0,5361

0,7500

0,9730

0,2400

0,2448

0,5000

0,5493

0,7600

0,9962

0,2500

0,2554

0,5100

0,5627

0,7700

1,0203

170

Anexa 13. Tabelul de transformare al lui r n note z


z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,07

0,08

0,09

0,0
0,1
0,2
0,3
0,4

0,0000
0,0997
0,1974
0,2913
0,3800

0,0100
0,1096
0,2070
0,3004
0,3885

0,0200
0,1191
0,2165
0,3095
0,3969

0,0300
0,1293
0,2260
0,3185
0,4053

0,0400
01391
0,2355
0,3275
0,4136

0,0500
0,1489
0,2449
0,3364
0,4219

0,0599
0,1586
0,2543
0,3452
0,4301

0,0699
0,1684
0,2636
0,3540
0,4382

0,0699
0,1684
0,2636
0,3540
0,4382

0,0699
0,1684
0,2636
0,3540
0,4382

0,0898
0,1877
0,2821
0,3714
0,4542

0,0
0,1
0,2
0,3
0,4

0,5
0,6
0,7
0,8
0,9

0,4621
0,5370
0,6044
0,6640
0,7163

0,4699
0,5441
0,6107
0,6696
0,7211

0,4777
0,5511
0,6169
06751
0,7529

0,4854
0,5580
0,6231
06805
0,7306

0,4930
0,5649
0,6291
0,6858
0,7352

0,5005
0,5717
0,6351
0,6911
0,7398

0,5080
0,5784
0,6411
0,6963
0,7443

0,5154
0,5850
0,6469
0,7014
0,7487

0,5154
0,5850
0,6469
0,7014
0,7487

0,5154
0,5850
0,6469
0,7014
0,7487

0,5299
0,5980
0,6584
0,7114
0,7574

0,5
0,6
0,7
0,8
0,9

1,0
1,1
1,5
1,3
1,4

0,7616
0,8005
0,8337
0,8617
0,8854

0,7658
0,8041
0,8367
0,8643
0,8875

0,7699
0,8076
0,8397
0,8668
0,8896

0,7739
0,8110
0,8426
0,8692
0,8917

0,7779
0,8144
0,8455
0,8717
0,8937

0,7818
0,8178
0,8483
0,8741
0,8957

0,7857
0,8210
08511
0,8764
0,8977

0,7895
0,8243
0,8538
0,8787
0,8996

0,7895
0,8243
0,8538
0,8787
0,8996

0,7895
0,8243
0,8538
0,8787
0,8996

0,7969
0,8306
0,8591
0,8832
0,9033

1,0
1,1
1,5
1,3
1,4

1,5
1,6
1,7
1,8
1,9

0,9051
0,9217
0,9354
0,94681
0,95624

0,9069
0,9232
0,9366
0,94783
0,95709

0,9087
0,9246
0,9379
0,94884
0,95792

0,9104
0,9261
0,9391
0,94983
0,95873

0,9121
0,9275
0,9402
0,95080
0,95953

0,9138
0,9289
0,9414
0,95175
0,96032

0,9154
0,9302
0,9425
0,95268
0,96109

0,9170
0,9316
0,9436
0,95359
0,96185

0,9170
0,9316
0,9436
0,95359
0,96185

0,9170
0,9316
0,9436
0,95359
0,96185

0,9201
0,9341
0,9458
0,95537
0,96331

1,5
1,6
1,7
1,8
1,9

2,0
2,1
2,2
2,3
2,4

0,96403
0,97045
0,97574
0,98010
0,98367

0,96473
0,97103
0,97622
0,98049
0,98399

0,96541
0,97159
0,97668
0,98087
0,98431

0,96009
0,97215
0,97714
0,98124
0,98462

0,96675
0,97269
0,97759
0,98161
0,98492

0,96739
0,97323
0,97803
0,98197
0,98522

0,96803
0,97375
0,97846
0,98233
0,98551

0,96865
0,97426
0,97888
0,98267
0,98579

0,96865
0,97246
0,97888
0,98267
0,98579

0,96865
0,97246
0,97888
0,98267
0,98579

0,96986
0,97526
0,97970
0,98335
0,98635

2,0
2,1
2,2
2,3
2,4

2,5
2,6
2,7
2,8
2,9

0,98661
0,98903
0,99101
0,99263
0,99396

0,98688
0,98924
0,99118
0,99292
0,99408

0,98714
0,98945
0,99136
0,99292
0,99420

0,98739
0,98966
0,99153
0,99306
0,99431

0,98764
0,98987
0,99170
0,99320
0,99443

0,98788
0,99007
0,99186
0,99333
0,99454

0,98812
0,90026
0,99202
0,99346
0,99464

0,98835
0,99045
0,99218
0,99359
0,99475

0,98858
0,99064
0,99233
0,99372
0,99485

0,98858
0,99064
0,99233
0,99372
0,99485

0,98881
0,99083
0,99248
0,99384
0,99495

2,5
2,6
2,7
2,8
2,9

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,07

0,08

0,09

171

Anexa 14. Valorile critice pentru distribuia chi-ptrat (extras).

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100

p
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,11
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,29
95,02
106,63
118,14
129,56

0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27.59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,88
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34

0,01
6,64
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,80
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,42
100,43
124,12
135,81

df = K-1 pentru chi-ptrat destinat s msoare gradul de potrivire, unde K este numrul de categorii.
df = (R-1)(C-1) pentru chi-ptrat de independen. R este numrul de rndurim iar C numrul de
coloane.

172

Anexa 15. Quantilele distribuei 2, avnd probabilitatea 1 - p = de a fi depite (tabel extins)

0,995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0,99

0,975

0,95

0,9

0,0000 0,0002 0,0010 0,0039 0,0158


0,0100 0,0201 0,0506 0,1026 0,2107
0,072 0,115 0,216 0,352 0,584
0,207 0,297 0,484 0,711 1,064
0,412 0,554 0,831 1,145 1,610
0,676 0,872 1,237 1,635 2,204
0,989 1,239 1,690 2,167 2,833
1,344 1,647 2,180 2,733 3,450
1,735 2,088 2,700 3,325 4,168
2,156 2,558 3,247 3,940 4,865
2,603 3,053 3,816 4,575 5,578
3,074 3,571 4,404 5,226 6,304
3,565 4,107 5,009 5,892 7,041
4,075 4,660 5,629 6,571 7,790
4,601 5,229 6,262 7,261 8,547
5,142 5,812 6,908 7,962 9,312
5,697 6,408 7,564 8,672 10,09
6,265 7,015 8,231 9,390 10,86
6,844 7,633 8,907 10,12 11,65
7,434 8,260 9,591 10,85 12,44
8,034 8,897 10,28 11,59 13,24
8,643 9,542 10,98 12,34 14,04
9,260 10,20 11,69 13,09 14,85
9,886 10,86 12,40 13,85 15,66
10,52 11,52 13,12 14,61 16,47
11,16 12,20 13,84 15,38 17,29
11,81 12,88 14,57 16,15 18,11
12,46 13,56 15,31 16,93 18,94
13,12 14,26 16,05 17,71 19,77
13,79 14,95 16,79 18,49 20,60

0,1

0,05

0,025

0,01

0,005

0,001

2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26

3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77

5,024
7,378
9,348
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98

6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
33,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89

7,879
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67

10,83
13,82
16,27
18,47
20,51
22,46
24,32
26,12
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,31
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70

173

Anexa 16. Tabelul valorilor critice pentru testul U Mann-Whitney


NA/NB

10

12

14

16

18

20

0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01

0
1
2
0
3
1
6
2
8
4
11
6
13
7
15
9
18
11
20
13

1
2
0
3
1
5
2
8
4
11
6
14
9
17
11
21
13
24
16
27
18

2
4
1
6
2
8
4
13
7
17
11
22
15
26
18
31
22
36
26
41
30

3
0
5
2
8
4
11
6
17
11
23
16
29
21
36
26
42
31
48
37
55
42

4
1
7
3
11
6
14
9
22
15
29
21
37
27
45
34
53
41
61
47
69
54

5
1
9
4
13
7
17
11
26
18
36
26
45
34
55
42
64
50
74
58
83
67

6
2
11
5
I5
9
21
13
31
22
42
31
53
41
64
50
75
60
86
70
98
79

7
2
12
6
18
11
24
16
36
26
48
37
61
47
74
|58
86
70
99
81
112
92

8
3
14
8
20
13
27
18
41
30
55
42
69
54
83
67
98
79
112
92
127
105

4
5
6
8
10
12
14
16
18
20

174

Anexa 17. Valorile critice pentru testul Wilcoxon

7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Nivel de semnificaie pentru test unilateral


0,025
0,01
0,005
Nivel de seminficaie pentru test bilateral
0,05
0,02
0,01
2
0
4
2
0
6
3
2
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
89

5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77

175

3
5
7
10
13
16
20
23
28
32
38
43
49
55
61
68

Anexa 18. Funcia de repartiie normal standard N (0, l)


z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,6159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997

0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,3975
0,9982
0,9987
O.S991
0,9993
0,9995
0,9997

0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9893
0,9922
0,9941
0,9956
0,9967
0,9976
0,9932
0,9987
0,9991
0,9994
0,9995
0,9997

0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997

0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997

0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0,9992
0,9994
0,9996
0,9997

0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9965
0,9989
0,9992
0,9994
0,9996
0,9997

0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997

0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0,9997

0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0,9993
0,9995
0,9997
0,9998

176

GLOSAR DE SIMBOLURI I FORMULE DE CALCUL

CAPITOLUL 3. DISTRIBUII I FRECVENE

Simboluri i semnificaia lor


X

un scor; n general X este simbolul variabilei

frecvena unui scor

fb

frecvena brut

fr

frecvena relativ (rezult prin transformare procentual a fb)

fc

frecven cumulat

fbc

frecven brut cumulat

frc

frecven relativ cumulat

Xmin

cea mai mic valoare de scor

Xmax

cea mai mare valoare de scor

mrimea unui interval de grupare

Ci

centrul de interval

li

limita inferioar a unui interval

ls

limita superioar a unui interval

valoarea procentual a unei frecvene

AI=Range

amplitudinea mprtierii unei distribuii

CAPITOLUL 4. INDICATORI AI TENDIEI CENTRALE

Simboluri i semnificaia lor


Mo

modul

Md

mediana

media eantionului

media populaiei

sum de ceea ce urmeaz

X X

deviaia unui scor de la medie

177

Formule
Formula mediei pentru date negrupate

X =

Formula mediei pentru date grupate

X=

Formule pentru determinarea medianei

Md =

N +1
2

X
N

kX
N
Md = li + (

N
i
fc )
2
fi

CAPITOLUL 5. MSURI ALE VARIABILITII

Simboluri i semnificaia lor


AI=R

amplitudinea mprtierii unei distribuii

Q1, Q2, Q3

cuartilul unu, doi i trei

IQR

abaterea intercuartilic

AQ

abaterea cuartilic

1,5 IQR

criteriu de detectare a valorilor atipice (outlieri)

AS=SD

abterea standard

abaterea standard a populaiei

abaterea standard a eantionului

dispersia sau variana populaiei

s2

dispersia sau varian eantionului

scoruri standard; scoruri sau note z

Formule
Formula pentru Amplitudinea mprtierii

AI = R (Range) = Xmax Xmin

Formula petru abaterea de la medie pentru date negrupate


Formula pentru abaterea de la medie pentru date grupate
Formula varianei pentru date negrupate

AM =
AM =

s2 =

Formula varianei pentru date grupate


s2 =
178

X X
N
k X X
N
(X ) 2
N
N 1

X 2

(fX ) 2
N
N 1

fX 2

Formula abaterii standard pentru date negrupate

Formula abaterii standard pentru date grupate

( X )
X
N
s=
N 1

(fX )
N
N 1

fX 2

s=

XX

Formul pentru determinarea lui z din date brute

z=

Formul de determinare a scorurilor brute din z

X = z + X .

CURSUL 6. INFERENA STATISTIC

Simboluri i semnificaia lor


p

probabilitatea de eroare

p(A)

probabilitatea de a se produce evenimentul A

p(A sau B)

probabilitatea de a se produce evenimentul A sau B

p(A, B)

probabilitatea de a se produce evenimentul A i B

M 1,96

interval de ncredere pentru p = .05

M 2,58

interval de ncredere pentru p = .01

ES=SX

eroarea standard

Ep=Sp

eroarea standard a unui cuantum procentual

H0

ipoteza de nul

H1

ipoteza de cercetare

df

grade de libertate (degree of freedom)

CI

interval de ncredere (Confidence Interval)

nivelul alfa la care se testeaz H0

valoarea testului t de semnificaie

tX

X2

valoarea testului t de semnificaie a diferenei dintre dou medii

tcal

t calculat

tcrit

t critic din tabel (t tabelar)

eroarea standard a mediei populaiei

sX

eroarea standard a unei medii estimate

sX

X2

eroarea standard a diferenei dintre dou medii estimate.

179

Formule
Eroarea standard a unei medii de selecie

ES = S X =

Testul t pentru dou eantioane independente

tx

1 x2

s
N 1

X1 X 2
sX 1 X

X1 X 2

t=

Testul t pentru dou eantioane independente

s1
s
+ 2
N1 N 2

Testul t pentru dou eantioane independente (dispersii egale, cumulate)

t=

X1 X 2
( N1 1) s12 + ( N 2 1) s2 2 1
1

N1 + N 2 2
N1 N 2

Testul t al lui Fisher pentru dou medii necorelate

t=

X1 X 2
X 1 + X 2 2 N1 + N 2

N + N 2 N N
2
1 2
1

Testul t pentru diferena a dou eantioane corelate

t=

t=

t=

Testul t pentru un singur eantion

t=

Testul t pentru un cuantum procentual

X
s
N

X
s
N

p1 p 2
p1q1 p 2 q 2
+
N1
N2

CAPITOLUL 7. STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE

Simboluri i semnificaia lor


r

corelaia Pearson prin momentul produselor

corelaia Spearman prin metoda rangurilor (rho)

rbis

coeficient de corelaie biserial

rpunctbis

coeficient de corelaie punct-biserial

rtris

coeficient de corelaie triserial


180

coeficient de corelaie multipl

coeficientul de corelaie fi

coeficientul de corelaie Kendall

z x, z y

scorurile z pentru variabilele X i Y

r2, 2

coeficienii de determinare ai lui r, respectiv

diferena dintre perechile de ranguri din formula lui rho

Formule
Formula de definiie a corelaiei r

rXY =

Formula de calcul a corelaiei r

rXY =

Formula pentru corelaia rangurilor rho

=1

( X X )(Y Y )
( X X ) 2 (Y Y ) 2

[NX

N XY X Y
2

][

(X ) 2 NY 2 (Y 2 )

6 d 2
N ( N 2 1)

CAPITOLUL 8. UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE


REGRESIA LINIAR SIMPL I MULTIPL

Simboluri i semnificaia lor


valoarea estimat pentru variabila Y de la variabila X
Y

(Y Y) reziduale (suma diferenelor dintre Y obinut i cel prezis)


B1, Bn panta; schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.
a , B0 interceptul (valoare lui Y cnd X este zero)
B

coeficient de regresie nestandardizat

coeficient de regresie standardizat

Formule
Y = B0 + B1 X
Y = B0 + B1 X 1 + B2 X 2 + Bn X n
zy = r zx
B0 = y B1 x

r=

zy
zx
B1 = r

y
x
181

sY Y =

(Y Y ) 2
N 2

CAPITOLUL 9. TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT (2)

Simboluri i semnificaia lor

valoarea testului chi-ptrat

2calc chi-ptrat calculat


2critic chi-ptrat critic
R

numr de rnduri

numr de coloane

fo

frecvena observat

fe

frecvena expectat

df

grade de libertate

coeficientul fi, folosit ca mrime a efectului

Cramer coeficientul de corelaie fi al lui Cramer

Formule

( X N P)
N P Q

Formula distribuiei chi-ptrat

z2 =

Formula de calcul pentru chi-ptrat

2 =

( fo fe )2
fe

Mrimea efectului fi i fi al lui Cramer

Formul pentru gradele de libertate df

2
N

Cramer =

2
N ( L 1)

df = (R-1)(C-1)

CAPITOLUL 10. TESTE DE SEMNIFICAIE NEPARAMETRICE

Simboluri i semnificaia lor


U

testul Mann-Whitney pentru eantioane independente

valoarea testuluiMann-Whitney pentru cellalt eantion din pereche

N1, N2

numrul de subieci din primul i din al doilea grup

R1, R2

suma rangurilor pentru primul, respectiv cel de al doilea grup


182

diferena dintre perechi la testul Wilcoxon

suma rangurilor la semnul cel mai mic la testul Wilcoxon

analiza de varian neparametric Kruskal-Wallis

Ni

numrul de observaii

Ri

suma rangurilor opentru un eantion

numrul de eantioane

F2

testul Friedman pentru eantioanem corelate

Formule

N1 ( N1 + 1)
R1
2

Formula pentru testul U Mann-Whitney

U = N1 N 2 +

Formula lui U pentru testul Mann-Whitney

U ' = N1 N 2 U

Scorurile z pentru U cu eantioane mari

z=

N1 N 2
2
N1 N 2 ( N1 + N 2 + 1)
12

z=

N ( N 1)
4
N ( N 1)(2 N + 1)
24

Scorurile z pentru T cu eantioane mari

Formula testului Kruskal-Wallis

H=

Formula testului Friedman

12
R2
i 3( N + 1)
N ( N + 1) N i

F2 =

183

12
Ri2 3 N ( k + 1)
Nk ( k + 1)

REZOLVAREA EXERCIIILOR I A APLICAIILOR PRACTICE

CAPITOLUL 1
1.

1.1. Populaia acestui studiu reprezint totalitatea copiilor cuprini n ciclul gimnazial

din Romnia, incluzndu-i aici i pe cei care au abandonat studiile. Eantionul reprezint
grupul particular de copii selectai pentru a desfura studiul actual.
1.2. Variabile de interes pentru studiu pot fi unele de ordin mai general: mediul ruralurban, apartenena de gen, studiile i nivelul de instrucie al prinilor, ocupaia actual a
prinilor, mrimea fratriei i poziia elevului n interiorul acesteia; sau pot fi de ordin
particular: nivelul general de inteligen, de memoriei, intensitatea motivaiei pentru nvare,
tipul temperamental, structura intereselor, formula de personalitate.
1.3. Variabile categoriale sunt genul, mediul, studiile parentale sau poziia n fratrie.
Variabile real numerice sunt dotarea intelectual (memoria i inteligena), interesele,
personalitatea.
2. Este nevoie de o list ct mai complet a populaiei, cum ar fi cea a alegtorilor din ora
(limitat doar la vrstele adulte) sau cea de la serviciul de eviden a populaiei. Ulterior, prin
metoda pasului sau a loteriei, se extrage numrul de participani necesar obinerii unui
eantion randomizat.
3. Cartea de telefon reprezint deja o anumit selecie a populaiei acestui orel i de aceea ea
nu poate fi punctul de plecare pentru o eantionare aleatorie, cci exclude o bun parte din
populaie.
4. Avem nevoie de un numr limitat de cai, sub 10, pentru a determina faptul c numrul de
picioare al unui cal este o constant. Pentru determinarea greutii medii a cailor va fi nevoie
de cel puin cteva zeci, dac nu sute de cai: dac vom include genul, vrsta i rasa ca factori
difereniatori i dac pentru fiecare dintre aceste variabile vom aloca cel puin 20-30 de
cazuri, numrul necesar obinerii unui indicator relevant poate depi 100. n primul caz este
vorba de o constant, n cel de al doilea de o variabil. Aceasta din urm este mult mai
informativ pentru c ea condeseaz informaia din mai multe surse simultane de variaie.
5.

5.1.Variabile implicate: vrst, ras, gen.


5.2. Variabile categoriale: ras i gen; variabile real numerice: vrsta, greutatea.
5.3. Starea economic a proprietarului, faptul de a fi cai de traciune sau de curse.

184

5.4. Cazurile le reprezint caii; variabilele sunt rasa, genul, vrsta; valorile sunt
mrimile numerice exacte ale vrstei, greutii, tipului de utilizare, strii economice a
proprietarului, pentru fiecare caz n parte.
6.

6.1. Diferena de nlime, greutate i medii colare la biei i fete.


6.2. Relaiile dintre nlime i greutate, dintre QI i media colar general.
6.3. Admis-respins, temperamentul, grupele sanguine, anotimpurile, anul de studii.
6.4. Vrsta, nlimea, greutatea.

7.

7.1. Populaia este indefinit ca mrime, fiind caracterizat de nite mrimi stabile

numite parametri. Eantionul este o selecie determinat, redus numeric, din populaia int.
7.2. Statisticile (de fapt indicatorii statistici) definesc valorile unor msurtori precise
ale variabilelor eantionului, pe cnd parametrii sunt valori estimate, aproximate, definite prin
nite intervale de ncredere n care se plaseaz cu o anumit probabilitate la nivelul populaiei.
7.3. Eantionul randomizat este unul reprezentativ pentru o populaie, ansa fiecrui
membru al acelei populaii de a fi selectat n eantion fiind una egal i cunoscut.
Eantionul de convenien este unul nereprezentativ, dar convenabil la un moment dat prin
accesibilitate. Cel mai adesea acesta este un grup constituit natural sau care are n comun o
caracteristic ce urmeaz a fi investigat (anorexici, obezi, cardiaci, ctigtori ai
olimpiadelor colare, stngacii dintr-o coal etc.).
8.

8.1. Variabilitatea ofer posibilitatea surprinderii specificului grupurilor i al

indivizilor care l compun. Prin combinarea variabilelor, cu ct numrul acestora este mai
mare, cu att mai mult diferenierea i diversitatea a tot ceea ce exist devine mai mare.
8.2. Indicatorii nlime, greutate sau QI au o variabilitate mai mare pentru genul
masculin. Biologii argumenteaz c genul masculin reprezint elementul de variabilitate al
speciei iar genul feminin elementul su de stabilitate (matricea speciei). n termeni concrei,
variabilele respective au un spectru de variaie mai extins pentru genul masculin, ceea ce
nseamn c se va regsi mai mult inteligen de excepie, dar i deficien intelectual
printre cei de gen masculin, dect printre reprezentantele genului feminin.
8.3. Variabilitatea este un element care se refer la mprtierea datelor, i nu la
tendina lor central. De aceea este greit s facem inferene de tipul menionat (brbaii sunt
mai nali, mai grei sau mai inteligeni dect femeile).
9. Statistica descriptiv este a unor grupuri particulare numite loturi sau eantioane. Dei
foarte precise, valorile sale nu pot fi generalizate oricum la nivelul populaiei din care ele au
fost extrase, pentru care definitorii sunt parametrii. Acetia reprezint aproximri aflate ntre

185

nite limite de precizie dinainte determinate, numite intervale de ncredere. Exist o


probabilitate determinat ca parametrii estimai s cad nuntrul acestor intervale.
10. Pentru acest studiu populaia int este cea de la 0 la 20 de ani din Romnia, din care se
vor extrage o mulime de eantioane difereniate dup mediul de provenien, vrst, gen,
nivel al studiilor, ocupaie parental etc. Variabilele implicate ar putea fi principalele date
antropometrice, ca nlimea, greutatea, perimetrul cranian i toracic, capacitatea vital
(determinat prin spirometrie), fora motric (determinat prin dinamometrie) etc. Dup o
eantionare iniial multistadial sau/i stratificat se pot obine sub-eantioane randomizate
prin metoda loteriei sau a pasului.
11. Date: ceea ce rezult n urma msurrii variabilelor i obiectul implicit al tratamentelor
statistice. Eantionare: procesul de obinere a unui grup determinat numeric dintr-o populaie
statistic mai mare. Populaie: mulime indefinit i practic infinit de indivizi statistici din
care se extrage eantionul care va fi cercetat. Inferen statistic: proces de extrapolare i
generalizare a rezultatelor obinute la nivel de eantion pentru populaia din care a fost extras.
12.

12.1. Cnd sunt luai n consideraie toi studenii acestei faculti, atunci ei reprezint

populaia din care vor fi extrase sub-eantioane.


12.2. Cnd aceast categorie a fost tras la sori din toat lista de faculti a
universitii ei reprezint doar un eantion.
12.3. Un eantion este randomizat dac a fost extras dintr-un grup mare de indivizi
statistici (populaia). n cazul dat nu poate fi vorba de un eantion randomizat. Dac a fost ales
pentru c a fost unicul grup disponibil de acest fel, atunci el este doar un eantion de
convenien
13.

13.1. Populaia studiat o reprezint toi studenii nscrii la universitatea respectiv n

ultimii 10 ani.
13.2. Variabilele sunt judeul i zona geografic de apartenen, etnia, vrsta, genul,
media de la bacalaureat, media anilor de studiu pentru fiecare student.
13.3. Nu sunt eantioane aleatorii, ci de convenien (adic singurele disponibile la un
moment dat).
13.4. Variabile categoriale: jude, zon geografic, etnie i apartenen de gen.
Variabile real numerice: vrsta, mediile de la bacalaureat i mediile anilor de studiu.
14.

14.1. Toate variabilele sunt tipice pentru statistica descriptiv (sunt ale unui meci de

fotbal, deci nu se fac generalizri i estimri, adic inferene).


14.2. Variabile categoriale sunt doar cartonaele galbene i roii, restul sunt numerice.

186

14.3. Variabilitatea cea mai mare o are distana alergat de juctori. uturile spre
poart au variabilitate mai mare dect uturile pe spaiul porii. Mic i foarte mic
variabilitate au cartonaele, golurile i pasele de gol.
14.4. Posesia mingii are ca variabil continu timpul iar kilometrii alergai de juctori
distana. Celelalte variabile prezint valori discrete (nu au valori n spaiul dintre uniti).
14.5. Deoarece n principiu sunt mai multe uturi spre poart dect uturi pe spaiul
porii i mai multe uturi pe spaiul porii dect goluri, aceasta este ierarhia cerut, n care
pasele de gol nu pot fi incluse, fiind din alt zon a jocului. Variabilitatea cea mai mare se va
regsi la situaiile cu frecvena cea mai ridicat, aadar ierarhia anterior formulat este
valabil i n aceast privin.

CAPITOLUL 2
1.

Exemple de

scale nominale: apartenena de gen, grupele sanguine;


scale ordinale: QI, temperamentele, nivelul studiilor, poziia n fratrie;
scale de interval: vrsta, presiunea arterial, timpul de reacie, scorurile la scale NEO PI-R;
scale de interval: intensitatea stimulilor acustici i vizuali.
2.

2.1. Scalele ordinale (sau categoriale): simbolurile ROGVAIV reprezint nu numai

etichete ale culorilor spectrului, ci i o ordine, ascendent (ROGVAIV) sau descendent


(VAIVGOR). Fiind un numr restrns de categorii, ele sunt mai uor de utilizat n vorbirea
curent sau ntr-o categorizar grosier a culorilor. Lungimea de und este o variabil
continu, cu un numr indefinit de trepte intermediare n interiorul fiecrei categorii. Aadar,
aceasta scal are o mult mai mare precizie i, dei valorile sale sunt mai greu de determinat, ea
este util n cercetarea legat de lumin, n industrie, n optic sau n televiziune.
2.2. Lumina n sine este o variabil continu deoarece lungimea de und a razei
luminoase poate lua o infinitate de valori n interiorul spectrului de variaie.
3.

3.1. X3 = 168

X5 =156

X8 = 180

X10 = 162

3.2. X = 1637
3.3. X = (165 + 160 + 168 + 170 + 156 + 158 + 163 + 180 + 155 + 162)/10
4.

4.1 Y2 = 61

Y4 = 72

Y7 = 66

Y9 = 49

4.2. Y = 620
4.3. X = 1637

X2 = 268487

16372 268487
187

2679769 268487

X 1637
=
= 163,7
10
4.4. N

Y 620
=
= 62
N
10

4.5. Acestea sunt mediile lui X i a lui Y


4.6. (Y)2 Y2
6202 39344 384400 39344
( Y 2 )
620 2
4.7.
Y
39344
N =
10 = 39344 38440 = 904 = 100,44
N 1
9
9
9
4.8. 100,44 = 10,02
5.
X
Y

165
61

160
61

168
70

170
72

156
52

158
55

163
66

180
80

155
49

162
53

X+3
3X

168
495

163
480

171
504

173
510

159
468

161
474

166
489

183
540

158
465

165
486

X+Y
XY

227
10230

221
9760

238
11760

242
12240

208
8112

213
8690

229
10758

260
14400

204
7595

215
8586

X+3 = 1667; 3X = 4911; (X+Y) = 2257; XY = 102131


5.1. (X+Y) = 2257 X + Y = 1637 + 620 = 2257 2257 = 2257
Aadar, (X+Y) = X + Y
5.2. XY = 102131 X Y = 1637 620 = 1014940 102131 1014940
Aadar, XY X Y
5.3. 3X = 4911 3X = 31637 = 4911 3X = 3X
Aadar, CX = CX
5.4. (X)2 = 16372 = 2679769 X2=268487 2679769 268487
Aadar, (X)2 X2
5.5. (X+C)= 1667 X +NC = 1637 +103 = 1667
Aadar, (X+C) = X +NC
6. O variabil ordinal nu poate fi msurat pe o scar continu (de interval sau de raport)
pentru c nu dispune de intervale egale, adic de uniti de msur. Ordinea n pluton nu poate
fi msurat n centimetri, ci doar n ranguri. Invers ca o variabil continu s fie msurat pe
o scal ordinal este ns posibil, pentru c o scal de rang superior ncorporeaz toate
caracteristicile celei de rang inferior. n exemplul dat, dup ce se msoar n centimetri
soldaii din pluton (scal real-numeric, de interval), acetia pot fi ierarhizai prin ordonare
ascendent (de la mic la mare) sau descendent (de la mare la mic). Mai mult, din aceast
ierarhie pot fi uor construite trei grupe aproximativ egale, incluzndu-i pe cei mici, mijlocii
i mari, ceea ce este o scal categorial (adic tot ordinal).

188

7. Notele din catalogul colar sunt tipice scalei ordinale pentru c distana dintre ele nu este
exprimat n uniti de scal egale, care s aib aceeai semnificaie pe toat lungimea scalei.
Aadar, notele colare furnizeaz o relaie de ordine total n clasa de elevi. Mediile rezultate
prin rotunjire sunt tipice tot scalelor ordinale, pentru c ele furnizeaz doar un numr finit de
categorii de scoruri. Fiind media unei combinaii de mai multe categorii de scoruri, media
general reprezint o scal de interval, pentru c n spectrul su de variaie ea poate lua o
multitudine indefinit de valori. Totui, media general nu rspunde unei cerine de baz a
acestei scale, unitatea de msur dintre dou medii neavnd aceeai semnificaie pentru
oricare poriune a scalei. Pentru necesiti practice putem considera totui media general ca
fiind expresie a unei scale de interval.
8. n principiu da, dar n timp ce nota la Purtare este tipic scalei ordinale (ia doar cteva
valori ntregi de scor), media nerotunjit la matematic, fiind expresia numeroaselor notri de
pe parcursul unui semestru colar, tinde spre scala de interval. Vezi i explicaiile de la
punctul anterior.

CAPITOLUL 3
3.3. Asemnri dintre histograme i poligonul frecvenelor:

Ambele sunt reprezentri grafice ale unor distribuii.

Ambele au pe orizontal un numr finit de categorii de scor iar pe vertical frecvenele


sau valorile medii ale fiecrei categorii.

Ambele indic intuitiv forma distribuiei, adic simetria i boltirea acesteia.

La ambele, numrul categoriilor de scor de pe axa OX i mrimea unitii de msur


pentru axa OY pot fi modificate pentru o redare optim sau distorsionat a datelor.

Deosebiri:

n histogram numrul frecvenelor dintr-o clas este egal cu centrul intervalului (Ci),
ceea ce nu este cazul pentru poligonul frecvenelor.

Poligonul frecvenelor poate reda simultan dou sau mai multe distribuii pe acelai
grafic, fapt ce constituie caracteristica sa esenial, ceea ce nu este cazul pentru
histogram. Acest fapt este cu att mai util cu ct disparitatea dintre ordinul de mrime
al distribuiilor redate este mai mare: prin transformare procentual, distribuii diferite
devin direct comparabile, pentru c ele sunt redate ca i cnd ar avea efectivul de 100.

189

Poligonul frecvenelor sugereaz mult mai clar continuitatea variabilei prin faptul c
unete prin linii centrele intervalelor. Atenie ns, acest lucru poate sugera o relaie de
cauzalitate, situaie care trebuie evitat dac n realitate aceasta nu exist.

3.4. Comparaie dintre stima de sine a bieilor i a fetelor:

Comparaia este pe deplin posibil pentru c numrul de categorii de pe abscis i


unitile de msur de pe ordonat sunt identice.

Ambele distribuii sunt asimetrice dreapta, deci sunt negative.

Este posibil ca n ambele distribuii s existe valori atipice sau extreme pe


coada/creoda lung a distribuiei, adic pe valorile de scor mai mici de -70.

Relativ la nlimea distribuiei: aceasta pare mai normal pentru biei (curb
normokurtic) dect pentru fete, unde ea este mai plat (platikurtic).

Pe zona central (intercuartilic), bieii prezint dou valori de scor cu frecven


ridicat, apropiate ca mrime. Astfel, clasa de scor de 20 are 18 frecvene iar clasa
de scor 40, are 21 de frecvene. Nu se poate afirma totui c aceasta este o
distribuie bimodal pentru c distana dintre cele dou vrfuri este foarte mic
(doar de o clas de scor).

CAPITOLUL 5
5.

5.1.a

Frecvena
Scor

XX
1

X
XX
3

XX
2

XX
XX
4

X
XX
XX
XX
5

XX
6

XX
XX
7

X
XX
8

XX
9

X
10

5.1.b -5 -5 -4 -4 -3 -3 -3 -2 -2 -2 -2 -1 -1 -1 -1 -1 -1 -1 0 0 1 1 1 1 2 2 2 3 3 4

z=

XX

X 5,27
2,39

5.2.
Pentru 4,5 z = -0,32; pentru 7,25 z = 0,83; pentru 9 z = 1,56.
X = z + X = z 2,39 + 5,27
z

1,33

2,15

-0,56

1,97

8,45

0,13

3,93

9,98

190

5.3.
Clasa V

Clasa VIII

25

30

10

Pentru clasa a V-a 50% dintre copii au scoruri pn la 25. De la 25 la 30 (care este
media celor de clasa a VIII-a) mai sunt nc 34 de procente, deci sub scorul de 30 vor cdea
50 34 = 84% dintre elevii clasei a V-a. Peste scorul de 30 vor mai rmnea deci 16% elevi
din a V-a mai buni dect elevii medii din clasa a VIII-a. (Pentru o mai bun reprezentare se
recomand construirea unui desen).
5.4.a. Media este de 244/16 = 15,25. Mediana presupune ordonarea cresctoare a
irului de date prezentat i va fi identificat dup formula (N+1)/2 = 8,5. Valoarea de scor
aflat la jumtatea distanei dintre a 8-a i a 9-a valoare este 11,5.
b. Media este de 4947/37 = 133,7. Mediana este a 19-a valoare de scor din irul
ordonat acendent. Deoarece pn la 137 avem deja 17 valori de scor, mediana este scorul
imediat urmtor, adic 138. Modul acestei distribuii este scorul de 131 (cel mai frecvent). Se
observ c cele trei valori ale tendinei centrale nu sunt deloc apropiate sau coincidente, ceea
ce indic o distribuie anormal.
5.5.a. Mediana

b. Mod

c. Mediana

5.6.c. Dreapta
5.7.a. Este o distribuie de volum mare, simetric, normokurtic. Ea prezint dou
valori modale, media este n jur de zero iar mediana tinde s se suprapun peste medie.
b. Este o distribuie de volum mare, bimodal, ce trebuie spart n dou
distribuii separate, pentru c este compous din dou populaii statistice distincte (este o
distribuie extrem de eterogen). Media acestei distribuii cade tot n jur de zero, ca i
mediana, dar aceste valori nu mai sunt reprezentative pentru ntreaga populaie, trebuind
determinate separat pentru fiecare subpopulaie n parte.
c. Distribuie extrem de asimetric dreapta (negativ), aproape trunchiat, n care
doar modul este reprezentativ. Ca indicator al tendinei centrale se va folosi doar mediana,
media ne mai avnd sens. Aceasta nu este o distribuie indicat pentru prelucrri statistice ce
presupun normalitatea distribuiei, situaie care ar putea fi normalizat prin transformare.
d. Distribuia prezentat este similar cu cea precedent, doar c este n oglind n
raport cu aceasta, adic este una pozitiv. Observaiile anterioare rmn valabile i n acest
caz.

191

CAPITOLUL 6

6.

6.1.a. =

s2 =

328
=
= 12,62
N
26

( ) 2
N = 7696 4137,85 = 142,33 s = 142,33 = 11,93
N 1
25
s
11.93 11,93
=
=
= 2,386
5
N 1
25

S =

12.62
=
= 5,29 p < .001
S 2,386

t=

6.1.b t =

12 ,62

=
= 5,39
s
11,93
N
26

6.2.
Sportivi

Populaie

(N=58)

Media

12,50

Abaterea standard

7,25

15,50

X 15,50 12,50
=
= 3,15
s
7,25
N
58

t=

6.3.a. Nivelul mediu de anxietate este semnificativ mai mare la fete comparativ cu
bieii.

t=

X1 X 2

N1

N2

14 10
2

5,25
6,31
+
28
30

4
= 2,63
1,52

p < .01

b. SM+F = 12,07/57 = 1,60


c.

p = .05 X 1,96 S X = 12,071,961,6 = 12,073,16

I = [8,93; 15,21]

p = .01 X 2,58 S X = 12,072,581,6 = 12,073,25

I = [8,82; 15,32]

192

6.4.
StudeniSportivi

Populaie

(N=70)

Media

114

100

Abaterea standard

11

15

t=

X
14
14
=
=
= 10,65
s
11
1,31
N
70

p < .001

6.5.a.c.
Teste

Motricitate

Cogniie

Total

Gen

M+F

M+F

M+F

54

66

120

54

66

120

54

66

120

19,83

20,55

20,23

36,65

38,03

37,41

56,48

58,58

57,63

2,54

3,39

3,05

5,57

5,13

5,35

7,35

7,82

7,65

1071

1356

2427

1979

2510

4489

3050

3866

6916

21583

28607

50190

74171

97167

171338

175132

230429

405561

Variana

6,45

11,49

9,30

31,02

26,32

28,62

54,02

61,15

58,52

SX

0,35

0,42

0,29

0,76

0,64

0,48

0,97

0,70

F-M

0,72

1,38

2,10

t1

1,29

1,40

1,50

t2

1,33

1,40

1,51

6.5.e

t=

t=

X1 X 2
( N1 1) s12 + ( N 2 1) s2 2 1
1

N1 + N 2 2
N1 N 2

X1 X 2

N1

0,72
53 2,54 2 + 65 3,39 2 1
1
+
118
54 66

0,72
= 1,33.
0,12 + 0,17

N2

193

0,72
= 1,29.
0,56

Comentarii: Prin ambele determinri se obin valori foarte apropiate ale lui t (1,29, respectiv
1,33), diferena rezultatelor fiind de ordinul sutimilor, deci aceste formule sunt practic
echivalente. Ambele diferene rezultate nu ating pragul semnificaiei statistice (p > .05).

CAPITOLUL 7
7.4.
Ad.soc.

80

75

74

80

50

64

46

70

64

74

59

84

55

69

86

50

68

65

QI

146

90

114

77

143

26

88

105

78

44

91

64

44

88

44

182

94

90

Adaptare

QI

social
N

18

18

67,39

89,33

11,91

39,60

1213

1608

X
x* y

84153

170308
144290

XY

105849

-0,31

7.5.
a. Corelaie nesemnificativ: deteptul colii i deteptul vieii (cel cu inteligen
social ridicat) nu se suprapun dect n mic msur (Sternberg, Teoria triarhic asupra

inteligenei).
b. Performana brut crete odat cu vrsta, dar numai pentru vrstele de dezvoltare,
dup care rmne relativ constant pn la btrnee, cnd corelaia descrete, mai ales pentru
inteligena fluid (Cattell).
c. Corelaii foarte ridicate (.60 .80) pentru c ambele depind de factorul g, adic de
un fond de aptitudini comun.
d. Corelaie ridicat (.50 .70), memoria de lucru fcnd posibil retenia imediat a
enunurilor unei probleme iar cea de lung durat algoritmii i modalitile de lucru rezultate
din experien.

194

e. O corelaie foarte ridicat (r > .70) cci ambele variabile se sprijin pe acelai factor
aptitudinal care este abilitatea verbal.
f. Nicio corelaie (r < .10).
g. O corelaie pozitiv deoarece creterile salariale se asociaz cu tendina de cretere
a preurilor pentru a se preveni inflaia.
h. Succesul la nvtur ar putea corela negativ cu scorurile indicnd liderul afectiv
(cel mai iubit elev nu este n mod necesar i cel mai bun la nvtur) i pozitiv cu liderul
tehnic, acesta fiind n mod frecvent consultat de colegi. Cutai explicaii alternative.
i. Prin definiie, dar i prin stereotip social, se poate infera mai mult dominan la
genul masculin i mai mult supunere la cel feminin. Probabil c n cuplurile moderne
diferenele tind s se estompeze prin egalizare.
j. Tendina la cretere necontrolat a numrului de copii poate fi expresia unui slab
control al impulsurilor i deci a unui nivel sczut de inteligen i de educaie a prinilor.
j. Corelaie negativ: mai muli copii nseamn mai puin resurs de timp i material
alocate, cu tendina de accentuare pe msur ce familia se mrete. n consecin, se poate
expecta ca rezultatele colare ale ultimilor nscui s fie progresiv mai slabe odat cu mrirea
fratriei.
7.6. Corelaia rmne neschimbat.
7.7. Corelaia este cu att mai mare cu ct variabilitatea/variana fiecrei variabile
implicat este mai mare. Restrngerea variabilitii uneia, alteia sau a ambelor variabile din
pereche se soldeaz cu diminuarea corelaiei prin ceea ce se cheam restrngerea registrului
de variaie.
8. Acesta este un exerciiu de rutin complex pentru determinarea lui r i rho.
Deoarece el presupune formarea deprinderilor bazale necesare determinrii corelaiei
recomandm parcurgerea sa integral, fr a mai furniza rezolvarea.

195

CAPITOLUL 8
Ina.
Real
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158
16
168,06

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N

Ina.
Dorit
169
170
172
170
175
167
175
160
160
175
165
180
193
168
170
165
16
170,88

9,75
16,55
2689
987
453345 64993
0,836

120

120

110

110

100

100

90

90

80

80

70

70

60

60

50

50

40
30
150

160

170

180

190

200

INA_REAL

Gre.
Dorit
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50
16
60,38

8,00
13,81
2734
966
468132 61184
0,845

GRE_DOR

GRE_REAL

X
X
X
r

Gre.
Real
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49
16
61,69

40
30
150

160

170

180

190

200

INA_DOR

8.a. Pattern-urile de relaii evideniate de cele dou diagrame scatter de mai sus sunt
extrem de asemntoare, ceea ce nseamn c n planul dorinei studenii respectivi se
raporteaz foarte similar ca n planul realitii. Am putea afirma deci c, n planul
indicatorilor antropometrici de baz, dorina este filtrat de realitate. n ambele scattere
exist dou cazuri n dreapta-sus care, mrind foarte mult variabilitatea datelor, duc la
creterea artificial a corelaiilor. Exist apoi un grup foarte omogen (probabil fete) grupat

196

stnga-jos, cu nlimea cuprins ntre 160 i 175 cm i cu greutatea cuprins ntre 45 i 65 kg.
Nivelul corelaiilor trebuie s fie asemntor pentru ambele diagrame, depind 0,75.
8.b. n cazul regresiei bivariate B1 este dat de formula:

B1 = r

16,55
Y
= 0,836
= 1,419
X
9,75

Coeficientul B0 se calculeaz dup formula: B0 = Y B1 X = 61,69 1,419 168,06 = 176,79.


Ecuaia de regresie pentru greutate (variabila criteriu sau prezis) pornind de la nlime
(variabila predictoare) este urmtoarea: Y = B0 + B1 X = 176,79 + 1,419 X = 1,419 X 176,79.
n aceast ecuaie interceptul (Bo) are o valoare negativ iar panta (B1) indic faptul c la
fiecare cretere cu o unitate a lui X, Y crete cu 1,419 uniti.
8.d. Pentru o nlime de 175 cm, greutatea ar trebui s fie de 71,54 kg:

Y = B0 + B1 X = 1,419 X 176,79 = 1,419 175 176,79 = 71,54.


8.e. n sarcina de la acest punct ecuaia de regresie anterioar nu mai este de folos, cci
ea este destinat doar prediciei greutii plecnd de la nlime. Pentru situaia invers trebuie
scris o nou ecuaie de regresie, n care:
9,75

B1 = r X = 0,836
= 0,836 0,589 = 0,493.
Y
16,55

B0 = X B1Y = 168,06 0,493 61,69 = 137,65.


X = B0 + B1Y = 137,65 + 0,493 Y = 137,65 + 0,493 85 = 179,555.
Aadar, n cazul acestui lot, pentru o greutate de 85 de kilograme este de ateptat o nlime de
aproape 180 de centimetri.
8.f. Pentru a trasa linia de regresie se vor determina coordonatele a dou puncte, unul
care trece prin origine (150 cm) i altul aflat la extrema cealalt (200 cm). Deoarece dou
puncte determin o dreapt, linia de regresie va fi cea care leag aceste dou puncte. Aadar:
Y = B + B X = 1,419 X 176,79 = 1,419 150 176,79 = 36,06.
0

Y = B0 + B1 X = 1,419 X 176,79 = 1,419 200 176,79 = 107,01.


Dup ce se traseaz linia de regresie se poate verifica dac, de exemplu, la nlimea de 175
cm de pe abscis, ordonata indic valoarea (deja determinat) de 71,54 kilograme.
8g. Pentru a determina eroarea estimrii furnizm mai jos modul de lucru pentru
ambele regresii:

N 1
2 15
sY Y = sY (1 r 2 )
= 16,55 (1 0,836 ) = 16,55 0,568 = 9,40.
14
N 2
N 1
2 15
s X X = s X (1 r 2 )
= 9,75 (1 0,836 ) = 9,75 0,568 = 5,54.
14
N 2
197

8.h. Coeficientul (beta) este uor de determinat: el este chiar corelaia dintre cele
dou variabile, adic raportul dintre valorile standardizate ale lui Y i cele ale lui X. De
asemenea, ecuaia de regresie care l utilizeaz pe beta este uor de scris, ea indicnd cu cte
fraciuni de abatere standard crete fiecare Y atunci cnd X crete cu o abatere standard. i
totui, n practic se folosete mai mult B dect pentru c acesta conserv unitile de
msur originale. De exemplu, n cazul nostru predicia greutii din nlime se va face n
kilograme, i nu n abateri standard, ca n cazul lui beta. n puls, ecuaia de regresie cu B
presupune determinarea interceptului (a lui B0), ceea ce nu este cazul pentru cealalt situaie.
8.i. Ecuaia de regresie folosete coeficientul de corelaie ca fiind echivalentul lui beta.
8.j. Deoarece pentru 150 cm (punctul de origine pentru nlime) greutatea determinat
este de 36,06, scderea acestei valori din variabila greutate va face ca linia de regresie s
treac prin origine.
8.k. Corelaiile solicitate sunt cele din tabelul de mai jos.
Ina_real

Gre_real

Ina_dor

Ina_real

Gre_real

.836

Ina_dor

.910

.772

Gre_dor

.855

.951

.845

Gre_dor

Dup cum se observ, cea mai ridicat corelaie este cea prezent ntre greutatea real
i greutatea dorit (r = 0,951), fapt ce nseamn c n aceast situaie norul de puncte este cel
mai apropiat de linia de regresie, c suma abaterilor valorilor prezise de la cele reale (adic
eroarea estimaiei) este cea mai mic i c predicia este astfel cea mai acurat din toate cele
ase perechi de corelaii. Imediat dup aceasta, nlimea real i cea dorit dau corelaia cea
mai ridicat (r = 0,91), eroarea de estimare fiind de asemenea printre cele mai mici.
8.l. Deoarece din punct de vedere al valorilor antropometrice fundamentale genul
masculin i cel feminin reprezint populaii distincte, pentru obinerea unor predicii acurate
prin regresie separarea acestora este obligatorie. Coeficientul de corelaie este dependent de
mrimea eantionului, fiind cu att mai stabil cu ct N este mai mare. N intervine de asemenea
direct i n formula pentru determinarea erorii estimrii, corecia operat fiind cu att mai
mic cu ct numrul de cazuri este mai mare. n concluzie, mrirea eantionului i separarea
populaiilor distincte vor contribui n mod direct la creterea acurateii i a preciziei
prediciilor fcute pe baza ecuaiei de regresie.

198

CAPITOLUL 9
9.1.

2 =

( f o f e ) 2 (37 50) 2 (63 50) 2 2 169


=
+
=
= 6,76.
50
50
50
fe

Pentru df = 1, la p < .01 chi-ptrat este de 6,64, valoare ce permite rejectarea ipotezei nule la
acest prag de semnificaie.
9.2.

(23 23) 2 (32 23) 2 (19 23) 2 (22 23) 2 ( 25 23) 2 (17 23) 2 138
+
+
+
+
+
=
= 6.
23
23
23
23
23
23
23

Pentru df = 5, la pragul de semnificaie p < .05 chi-ptrat este de 11,06, valoare mai mare
dect cea obinut de noi, fapt ce nu permite rejectarea ipotezei nule.
9.3.

( 42 38) 2 (8 12) 2 (19 23) 2 (17 7) 2


+
+
+
= 0,42 + 1,33 + 0,70 + 2,29 = 4,74.
38
12
23
7

Gradele de libertate sunt df = (2-1)(2-1) = 1. n aceast situaie, chi-ptrat pentru pragul de


semnificaie p < .05 este de 3,84, iar pentru p < .01 este de 6,64. Se poate concluziona c
valoarea chi-ptrat obinut este semnificativ statistic la un prag p < .05.
H0 Nu va exista nicio diferen ntre modul n care trec examenul de statistic studenii care
provin de la real i cei de la uman. Sau: Examenul de la statistic va fi trecut n egal msur
de studenii care provin de la real i cei care provin de la uman.
H1 La examenul de statistic studenii care provin de la real vor trece ntr-o proporie
semnificativ mai mare dect cei care provin de la uman.

2 = 4,74

2
N

valoare care este mai mare dect 3,84 (chi-ptrat critic pentru pragul p < .05).

4,74
= 0,53
80

ceea ce nseamn c mrimea efectului este una medie.

2
2
2
2
2
2
9.4. (240 330) + (222 268) + ( 400 264) + ( 280 275) + (288 223) + (150 220) +
330
268
264
275
223
220

(354 269) 2 (200 219) 2 (150 216) 2


+
+
=
269
219
216

24,55 + 7,90 + 70,06 + 0,09 + 18,95 + 22,27 + 26,86 + 1,65 + 20,17 = 192,50.
Pentru 4 grade de libertate: df = (3-1)(3-1) = 4, i p < .01, chi-ptrat tabelar este de 13,28.
Cum valoarea obinut de noi este mult mai mare (192,50), este posibil rejectarea ferm a
ipotezei nule.
199

2
2
2
2
2
2
2
9.5. (56 55) + ( 41 42) + ( 29 30) + ( 24 23) + ( 21 22) + (18 17) + (18 17) =
55
42
30
23
22
17
17

0,02 + 0,02 + 0,03 + 0,04 + 0,05 + 0,06 + 0,06 + 0,08 = 0,36.


Valoarea chi-ptrat de 0,36 nu permite respingerea ipotezei nule deoarece pentru 3 grade de
2
libertate i p < .05, valoarea tabelar critic a lui este mult mai mare (7,81). Aadar, pentru

p > .05, 2 = 0,36.


9.6.

(720 431) 2 (338 727) 2 (625 914) 2 (1615 1326) 2


+
+
+
= 192,78 + 133,21 + 91,38 + 62,98 =
431
727
914
1326
481,35. Pentru un grad de libertate i probabilitatea de eroare de p = .01, 2 = 6,64 n raport
cu care valoarea obinut de noi este una mult mai mare. Aadar, ipoteza de nul se poate
respinge la un prag de semnificie mult mai sever (p < .001).

CAPITOLUL 10
10.3.1. H0 Bieii i fetele reprezint o aceeai populaie.
H1 Bieii i fetele reprezint populaii distincte (diferite).
10.3.2. Cele dou loturi sunt foarte mici. n plus, suspectm c valorile de 126 - de la fete, i
de 80 - de la biei, reprezint valori extreme, distribuiile nclcnd astfel condiia de
normalitate.
10.3.3.

t=

X1 X 2
X 1 2 + X 2 2 N 1 + N 2

N + N 2 N N
2
1 2
1

71,25 47,45
=
28842 + 48160 19

11 + 8 2
88

23,80
23,80
=
= 0,76.
77002 19 31,27

17 88

Ipoteza specific nu se confirm, t obinut fiind mult sub pragul de 1,96 corespunznd
semnificaiei statistice de p = .05.
10.3.4.

U = N1 N 2 +

N 1 ( N 1 + 1)
11 12
R1 = 11 8 +
130,5 = 88 + 66 130,5 = 23,5.
2
2

U ' = N 1 N 2 U = 11 8 23,5 = 88 23,5 = 64,5.


Valoarea cea mai mic dintre U i U este cea a lui U (23,5) n raport cu care se determin
valorile tabelare critice ale lui alpha de .05 i .01. Cum acestea sunt 19,5, respectiv 13 i

200

valoarea testului U este mult mai mare (23,5), ipoteza de nul nu poate fi respins, ceea ce
nseamn c diferenele de performan dintre biei i fete sunt nesemnificative statistic.
10.3.6. Dac ambele efective ar fi fost mai mari cu 15, atunci N1 ar fi fost 11+15 = 26 iar N2
ar fi fost 8+15 = 23. n acest caz:

N1 N 2
2
=
N 1 N 2 ( N 1 + N 2 + 1)
12
U

z=

26 23
23,5 299 275,5
2
=
=
= 5,52.
49,92
49,92
26 23(26 + 23 + 1)
12
23,5

10.5.1. Este indicat utilizarea testului T al semnului deoarece numrul cazurilor comparate
este unul foarte mic.
10.5.2. Nu tim dac cele 13 perechi de cupluri au fost selecionate aleatoriu, dar scala de
msur este una ordinal.
Mame
Tai

23
13

13
10

15
9

17
14

19
21

23
10

25
20

10
10

16
13

8
5

7
0

12
10

41
20

Delta
Delta
Semn
Rang

10
10
+
3

3
3
+
8,5

6
6
+
5

3
3
+
8,5

-2
2
11,5

13
13
+
2

5
5
+
6

0
0

3
3
+
8,5

3
3
+
8,5

7
7
+
4

2
2
+
11,5

21
21
+
1

10.5.3. Deoarece = 11,5 i + = 66,5 se alege spre comparare cu pragurile critice prima
valoare. Pentru 12 ranguri i p = .05 valoarea critic a testului T al semnului este de 14, n
raport cu care valoarea de 11,5, fiind mai mic, conduce la respingerea ipotezei nule.
10.5.4.
Mame
Tai
Rang M

23
13
3,5

13
10
9

15
9
8

17
14
6

19
21
5

23
10
3,5

25
20
2

10
10
11

16
13
7

8
5
12

7
0
13

12
10
10

41
20
1

Rang T

5,5

11

8,5

2,5

8,5

5,5

12

13

8,5

2,5

(M-T)

-2

-3

-5

-0,5

2,5

1,5

1,5

-1,5

2
4
1
9
4
16
25 0,25 6,25 2,25
2 = 72,25 Abaterea standard a diferenei rangurilor este de 1,47

=1

2,25 2,25

6d 2
6 72,25
433,5
=1
=1
= 0,80.
2
N ( N 1)
13 168
2184

Valoarea extrem de ridicat a corelaiei rho s-ar putea explica prin similitudinea de structur
psihic a celor ce intr n diad prin cstorie (proverbul spune c Cine se-asemn seadun). La aceasta se adaug fenomenul de nivelare i de armonizare reciproc a diferenelor
dintre soi, paralel cu vechimea relaiei de cuplu.

201

10.5.5. t =

1,88
=
= 4,61
1,47
s
13
N

Valoarea obinut este una extrem de semnificativ statistic: pentru t = 4,61, p < .001.
10.7.1. H0 Nu exist diferene ale ateniei distributive pentru cele patru temperamente.
H1 Atenia distributiv difer semnificativ pentru cele patru temperamente.
10.7.2. Rezultatul operaiei de rangare este condensat n tabelul de mai jos. Pentru obinerea
rangurilor de pe coloanele special alocate, datele au fost trecute pe o singur linie orizontal,
apoi s-au alocat ranguri de la 1 la 36, urmnd regula binecunoscut pentru valorile de scor
egale (unde se aloc rangul intermediar i se trece la rangul urmtor, srind peste rangurile
nealocate).
Sangvinic
32
19
26
28
24
21
17
33
29
27

Rang
3
23,5
13
9
16
21
28,5
1,5
6
11

Flegmatic
24
26
22
19
29
23
18
19

ranguri = 132,5

10.7.3. H =

Rang
16
13
20
23,5
6
18,5
26
23,5

Coleric
33
28
12
17
24
15
29
31
14
17
26

ranguri = 146,5

Rang
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13

ranguri = 208

Melancolic
28
19
17
23
15
16
10

Rang
9
23,5
28,5
18,5
32,5
31
36

ranguri = 179

R2
12
12 132,52 146,52 208 2 179 2
3 37 =

i 3( N + 1) =
+
+
+
N ( N + 1) N i
36 37 10
8
11
7

0,009 12948,79 111 = 116,54 111 = 5,54.

Df este 4-1 = 3, pentru care valoarea critic la pragul de semnificaie p = .05 este de 7,81.
Deoarece valoarea obinut prin calcul este mai mic dect valoarea critic (5,54 < 7,81)
ipoteza nul nu poate fi respins.
10.7.4 i 10.7.5. sunt lsate spre rezolvare integral studentului. Pentru a facilita sarcina este
furnizat tabelul de mai jos.

202

Extraveri
32
19
26
28
24
21
17
33
29
27
33
28
12
17
24
15
29
31
14
17
26

Rang
3
23,5
13
9
16
21
28,5
1,5
6
11
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13

Introveri
24
26
22
19
29
23
18
19
28
19
17
23
15
16
10

Stabili
emoional
32
19
26
28
24
21
17
33
29
27
24
26
22
19
29
23
18
19

Rang
16
13
20
23,5
6
18,5
26
23,5
9
23,5
28,5
18,5
32,5
31
36

Rang
3
23,5
13
9
16
21
28,5
1,5
6
11
16
13
20
23,5
6
18,5
26
23,5

Instabili
emoional
33
28
12
17
24
15
29
31
14
17
26
28
19
17
23
15
16
10

Rang
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13
9
23,5
28,5
18,5
32,5
31
36

10.9.1. Pentru rezolvarea acestui punct este nevoie de tabelul de mai jos.
Lucrare

Prof_1

Rang

Prof_2

Rang

Prof_3

Rang

Prof_4

Rang

7,20

7,50

7,30

7,00

8,75

8,25

8,40

8,80

6,20

6,80

7,00

6,50

10

9,20

9,40

9,80

5,75

6,25

6,15

6,00

8,40

8,25

8,60

8,10

7,80

8,00

8,10

8,25

9,75

9,50

9,40

10

6,60

6,80

6,50

10

7,25

7,00

8,00

7,75

11

9,00

9,25

9,15

9,30

12

7,50

7,25

7,75

7,60

= 25

F 2 =

= 27

= 36

= 32

12
12
1
( 252 + 27 2 + 36 2 + 32 2 ) 3 12 5 =
Ri2 3N ( k + 1) =
3674 180.
12 4 5
Nk ( k + 1)
20

F 2 = 370.

203

Pentru df = 3 valorile critice ale lui chi-ptrat sunt de 7,81, la pragul p =.05, i de
11,34, la pragul de p = .01. Ipoteza specific nu se confirm i n consecin se poate afirma
c nu exist diferene semnificative ntre modul de notare al celor patru profesori.
10.9.2. P1_2 rho = .954; P1_3 rho = .982; P1-3 rho= .977. Valorile extrem de ridicate ale acestor
coeficieni de corelaie constituie o dovad suplimentar asupra similitudinii de notare dintre
cei patru profesori.

204

SERIA PSIHOLOGIE

Au aprut:
Elena Cocorad Didactica psihologiei
Aurel Ion Clinciu Statistici multivariate pentru psihologie
Ana-Maria Cazan Strategii de autoreglare a nvrii
Aurel Ion Clinciu Statistic aplicat n psihologie

n pregtire:
Ana-Maria Cazan Statistic psihologic. Noiuni teoretice, exemple i aplicaii

205

Aplicaie practic pentru testarea ipotezelor statistice i corelaie


Studiul corelaiei a nceput practic cu analiza relaiei existente ntre nlime i
greutate, aa cum acestea au rezultat din datele culese de ctre Galton n al su Laborator de

antropometrie (1884). Pentru c acetia continu s fie cei mai importani indicatori
antropometrici, v propunem un exerciiu de re-analiz a relaiei dintre ei, dar difereniat dup
criteriul apartenenei de gen, pe un eantion evident nereprezentativ de studeni i studente
ai Universitii Transilvania. i pentru c ne-am transformat n zna bun, propunnd
studenilor n cauz s indice care ar fi mrimea la care nlimea i greutatea lor proprie i-ar
satisface pe deplin, v propunem s studiai aceste relaii i n planul ideal, al dorinei, pentru
a vedea dac aceasta se supune vreunei regulariti matematice. Cerine:
a. Utiliznd minicalculatorul cu panou statistic, introducei datele i completai spaiile
lips de sub coloanele de valori absolute, att pentru biei, ct i pentru fete.
b. Reunii datele astfel obinute n tabelul sintetic din partea de jos a paginii, fr a le
mai introduce nc o dat cu minicalculatorul.
c. Efectuai testul t pentru eantioane independente pentru a determina dac diferenele
IRbiei i IRfete sunt semnificative; efectuai acelai test pentru IDbiei i IDfete.
d. Aplicai testul t pentru eantioane corelate pentru a determina dac diferenele GR i
GD de la biei, apoi GR i GD de la fete sunt semnificativ diferite.
e. Raportai i interpretai rezultatele obinute la punctul c de mai sus, indicnd dac
ipoteza de nul poate fi respins i la ce prag.
f. Utiliznd primele dou coloane de Ranguri i ultima linie de cifre de pe pagin,
efectuai operaia de rangare a nlimii reale i dorite, att pentru biei, ct i pentru
fete.
g. Utiliznd celelalte dou coloane de la Ranguri, determinai care este suma ptratelor
diferenelor de ranguri, introducei-o n formula lui rho al lui Spearman i
determinai mrimea acestuia, att pentru biei, ct i pentru fete.
h. Utiliznd tabelul din carte, efectuai corecia acestei valori, apoi raportai i
interpretai aceast corelaie n termeni de coeficient de determinare. Ct din variana
comun a celor dou variabile explic aceste corelaii?
i. Utiliznd tabelele adecvate de la Anexe, raportai i interpretai semnificaia statistic
a corelaiilor obinute.
206

S-ar putea să vă placă și