Sunteți pe pagina 1din 184

SERIA PSIHOLOGIE

AUREL ION CLINCIU

S TAT I S T I C
APLI C AT N
PSIHOLOGIE

Editura Universitii Transilvania din Braov


2013

Cuprins
Cuvnt nainte .................................................................................................................

Capitolul 1. Introducere
1.1. Scurt istoric al statisticii ....................................................................................
1.2. Obiectivele statisticii .
1.3. Cteva concepte cheie ale demersului statistic .................................................
1.4. Exerciii i aplicaii practice ..............................................................................

10
12
13
17

Capitolul 2. Msurarea. Organizarea coleciei de date


2.1. Msurarea n tiinele socio-umane ...................................................................
2.2. Proprieti ale scalelor .......................................................................................
2.2.1. Magnitudinea ........................................................................................
2.2.2. Intervale egale .......................................................................................
2.2.3. Zero absolut ...........................................................................................
2.3. Tipuri de scale ...................................................................................................
2.3.1. Scalele nominale ...................................................................................
2.3.2. Scalele ordinale .....................................................................................
2.3.3. Scalele de interval ...............................................................................
2.3.4. Scalele de raport ................................................................................
2.4. Organizarea datelor brute ..................................................................................
2.5. Exerciii i aplicaii practice ..............................................................................
2.6. Quiz ...................................................................................................................

19
20
20
20
21
21
21
22
23
24
25
26
27

Capitolul 3. Distribuii i frecvene


3.1. Ordonarea i gruparea datelor ...........................................................................
3.1.1. Limitele de grupare ...............................................................................
3.1.2. Centrele intervalelor .............................................................................
3.2. Histograma i poligonul frecvenelor ................................................................
3.3. Frecvenele cumulate .........................................................................................
3.4. Histograma i poligonul frecvenelor cumulate ................................................
3.5. Criterii de evaluare vizual a formei distribuiilor ............................................
3.6. Exerciii i aplicaii practice ..............................................................................
Capitolul 4. Indicatori ai tendinei centrale
4.1. Media aritmetic ................................................................................................
4.2. Mediana .............................................................................................................
4.3. Modul ...............................................................................................................
4.4. Comparaie ntre medie, median i mod n funcie de distribuie ....................
4.5. Cteva concluzii relative la indicatorii distribuiei univariate ..........................
4.6. Exerciii i aplicaii practice ..............................................................................
4.7. Quiz ...................................................................................................................
Capitolul 5. Msuri ale variabilitii
5.1. Amplitudinea mprtierii .................................................................................
5.2. Abaterea intercuartilic .....................................................................................
5.3. Abaterea medie absolut ...................................................................................
5.4. Abaterea standard i variana/ dispersia ............................................................

28
31
31
31
34
35
37
39
40
44
47
48
50
51
52

56
57
59
60

5.4.1. Semnificaia abaterii standard ..............................................................


5.5. Coeficientul de variaie .....................................................................................
5.6. Indicatori ai formei distribuiei .........................................................................
5.6.1. Coeficientul de simetrie (skewness) i boltirea (kurtosis) .....................

63
64
65
65

5.7. Exerciii i aplicaii practice ..............................................................................

66

Capitolul 6. Inferena statistic


6.1. Introducere ........................................................................................................
6.2. nelesul conceptului de semnificaie statistic .................................................
6.3. Eroarea standard a unei medii de selecie i semnificaia ei .............................
6.4. Eroarea standard a unui cuantum procentual i semnificaia ei ........................
6.5. Sarcini i probleme de comparaie. Ipoteza de nul ............................................
6.6. Eantioane necorelate de volum mare. Ipoteza de nul ......................................
6.7. Eantioane de volumm mare, corelate ...............................................................
6.8. Semnificaia diferenei dintre dou cuantumuri procentuale ............................
6.9. Teste de semnificaie pentru selecii de volum mic ..........................................
6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate ....
6.11. Semnificaia diferenei mediilor a dou eantioane de volum mic necorelate
6.12. Exerciii i aplicaii practice ............................................................................

68
69
70
71
71
72
75
76
76
77
80
82

Capitolul 7. Studiul asocierii dintre variabile prin corelaie


7.1. Introducere ........................................................................................................
7.2. Calculul coeficientului de corelaie ...................................................................
7.2.1. Interpretarea orientativ a coeficientului de corelaie .........................
7.3. Coeficientul de corelaie a rangurilor ................................................................
7.4. Limitele de ncredere ale unui coeficient de corelaie .......................................
7.5. Interpretarea unui coeficient de corelaie .......................................................
7.6. Interpretarea varianei unui coeficient de corelaie prin coeficientul de

85
88
90
92
94
94
95

determinare ...............................................................................................................
7.7. Ali coeficieni de corelaie ...............................................................................
7.7.1. Coeficienii de corelaie biseriali i triseriali .......................................
7.7.2. Ali coeficieni de corelaie ...................................................................
7.8. Utilizrile coeficientului de corelaie ................................................................
7.9. Exerciii i aplicaii practice ............................................................................
7.10. Quiz .................................................................................................................

97
97
98
100
101
103

Capitolul 8. Utilizarea predictiv a asocierii dintre variabile


Regresia liniar simpl i multipl
8.1. Introducere ........................................................................................................
8.2. Predicia determinist i probabilist ................................................................
8.3. Regresia bivariat ..............................................................................................
8.3.1. Regresie versus corelaie ......................................................................
8.4. Regresia liniar multipl (multivariat) ............................................................
8.4.1. Probleme speciale implicate n regresie ...............................................
8.4.2. Validarea modelului regresiv ...............................................................
8.4.3. Glosar de termeni cheie ai regresiei liniare .........................................
8.5. Exerciii i aplicaii practice ..............................................................................
4

104
106
107
112
112
114
116
116
117

Capitolul 9. Testare ipotezelor prin tehnica chi-ptrat


9.1. Teste nonparametrice, distribuii binomiale i multinomiale ............................
9.2. Termeni cheie i definiii implicate n testul chi-ptrat .....................................
9.3. Condiii i restricii pentru efectuarea lui chi-ptrat ..........................................
9.4. Utiliarea practic a testului chi-ptrat ...............................................................
9.5. Exemple de aplicare practic a testului chi-ptrat de potrivire i de asociere ...
9.6. Mrimea efectului pentru testul chi-ptrat al asocierii dintre variabile .............
9.7. Exerciii i aplicaii practice ..............................................................................

119
120
122
122
124
130
131

Capitolul 10. Metode nonparametrice de testare a ipotezelor statistice.


10.1. Teste de semnificaie parametrice i neparametrice .........................................
10.2. Testul U Mann-Whitney pentru eantioane independente ..............................
10.3. Exerciii i aplicaii practice ............................................................................
10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate ...
10.5. Exerciii i aplicaii practice ............................................................................
10.6. ANOVA pe o cale prin testul Kruskal-Wallis .................................................
10.7. Exerciii i aplicaii practice ............................................................................
10.8. Testul rsngurilor Friedman pentru msurtori repetate ...................................
10.9. Exerciii i aplicaii practice ............................................................................

133
134
137
138
141
142
145
146
147

Test pentru verificarea de sintez .

149

Bibliografie .................................................................................................................

152

Anexe cu utiliti statistice .

155

Glosar de simboluri i formule de calcul .....................................................................

175

Rspunsuri la exerciiile i aplicaiile practice propuse .

182

Cuvnt nainte
Prezena Statisticii ca materie obligatorie la tiinele socio-umane, n spe la
specializarea Psihologie, este justificat printre altele de faptul c eafodarea acesteia ca
tiin a depins n mod esenial de ncorporarea experimentului - i implicit a msurtorii - ca
metod de baz n constituirea corpului su de cunotine i legi. Pe de alt parte, naterea
psihologiei aplicate i extinderea sa pervaziv spre toate domeniile socialului nu ar fi fost
posibil fr apelul la cuantificare, msurtoare i cifr. Deci att psihologul practician, care
colecteaz, stocheaz i prelucreaz n mod constant date cantitative, ct i cel din spaiul
academic, care trebuie s fie la zi cu cercetarea tiinific din domeniul su, ca i din cele
conexe (medicin, biologie, sociologie au tiinele educaiei), trebuie s aib cel puin o
iniiere, dac nu chiar o formare solid n domeniul Statisticii, fr de care nu se poate pstra
contactul cu progresele tiinei.
Apare astfel ca inexplicabil rezistena activ i rezerva aproape ostil a studentului de
la tiinele socio-umane fa de Statistic, care vede adesea n acest obiect de studiu ceva ce ar
contraveni chiar dimensiunii umaniste a tiinei n care el se iniiaz. Exist multe explicaii
plauzibile pentru faptul semnalat. Una dintre cele mai plauzibile ar fi aceea c studenii de la
Psihologie, Pedagogie, Sociologie sau Asisten social au o formaie iniial umanist, cu un
grad de elaborare i consolidare mai sczute a conceptelor i deprinderilor intelectuale de tip
matematic. Acest fapt poate produce din start o rezerv fa de abordrile de tip cantitativ. Pe
de alt parte, progresele incredibile din ultimele decenii n domeniile metodologiei i al
prelucrrii datelor fac ca centrarea pe metodele statistice elementare s nu mai fie deloc
suficient pentru a ine pasul cu evoluiile din domeniu, ceea ce transform n mod obligatoriu
Statistica ntr-un obiect de studiu al nvrii permanente.
n cel de al treilea rnd extinderea progresiv, uneori exploziv, a arsenalului de
metode statistice genereaz tot mai mari dificulti de mai pstra unitatea intern i
perspectiva coerent asupra corpului su de cunotine. n cazul n care se nzuiete spre acest
lucru, alocarea permanent de resurs cognitiv pentru a menine n priz domeniul statistic
devine o condiie intrinsec a progresului i evoluiei n carier. Tendina la entropie a
informaiei ce intr n sistemul cognitiv uman, adic la uniformizare i la tergere a
diferenelor specifice, ca urmare a marii varieti de tehnici i procedee ce apar fr ncetare
n cadrul acestei tiine att de dinamice i evolutive, poate genera sentimentul c Statistica
este unul dintre principalii contributori la imperialismul metodologic din tiin.

Dincolo de cauzele enumerate exist cu siguran i elemente contextuale sau


conjuncturale care pot explica rezistena activ a studentului de la tiinele sociale fa de
Statistic, explicabil i prin stilul sau maniera de predare, prin calitatea cursurilor editate i a
aplicaiilor propuse, prin gradul de utilizare a metodelor i tehnicilor moderne de predarenvare-evaluare, prin numrul de ore de studiu alocate acesteia de programa universitar etc.
Pe de alt parte, exist o mulime de semnale care indic faptul c starea de fapt
analizat anterior poate fi depit cu bine de majoritatea studenilor. Astfel, n Romnia
ultimului deceniu au aprut cel puin cinci lucrri de referin n domeniul Statisticii tiinelor
sociale (pentru a face referin doar la Rotariu i colaboratorii, la Clocotici i Stan, la Sava,
Labr i Popa), la care se adaug multitudinea de lucrri de iniiere n SPSS din literatura
romna i din cea strin. Extinderea progresiv a numrului de aplicaii incluse n pachetele
de programe computerizare pentru tratarea datelor (SPSS, SAS, NCSS etc.) a fcut ca
accesarea i derularea unor foarte complicate i avansate tehnici statistice s depind efectiv
doar de o apsare de buton. Aceast facilitate i accesibilitate extraordinare nu elimin ns n
nici un fel problema crerii infrastructurii conceptuale i a deprinderilor matematice, fr de
care tehnica rmne mut n faa neiniiatului.
Lucrarea de fa este n fapt un curs de iniiere n Statistica psihologic. Prin
elaborarea sa ne-am propus s prezentm conceptele i procedeele de baz ale statisticii
descriptive i infereniale, univariate i bivariate, ntr-o manier prietenoas, inteligibil i cu
bune valene formative. Preocuparea noastr de baz a constat n selectarea informaiei utile,
lsnd n planul secundar prezentarea ntemeierii matematice a tehnicilor statistice prezentate.
De asemenea, legtura cu programele computerizate de prelucrare a datelor, acolo unde s-a
produs o revoluie nevzut la care suntem cu toii martori, este doar vag i inconstant
sugerat. Aceasta deoarece considerm c prelucrarea informatizat a datelor trebuie s se
fac ulterior n mod distinct, dup ce s-a construit eafodajul minimal de concepte i tehnici
necesare utilizrii programelor computerizate.
Cartea de fa nu este una extins ca volum, cele 10 capitole care o compun putnd fi
ntlnite, cu mici variaiuni, n toate lucrrile actuale de iniiere n Statistic. Astfel, dup
primele trei capitole introductive, relative la istoricul, obiectivele i conceptele de baz ale
domeniului statistic, despre msurare, tipuri de scale, distribuii i frecvene, sunt prezentai
indicatorii tendinei centrale, determinarea indicilor de mprtiere a datelor i ai celor relativi
la forma distribuiei. Capitolul al aptelea trateaz inferena statistic i testarea ipotezelor
bazate pe diferene ale mediilor, el continundu-se n mod firesc cu un capitol care prezint
testarea ipotezelor relative la asocierea variabilelor prin corelaie i cu un altul despre regresia
7

bivariat. Acest capitol face doar trimiteri la regresia multivariat, rmnnd cantonat
preponderent n zona regresiei simple, deoarece regresia multipl depete nivelul iniierii
statistice, fiind greu de prezentat fr cunotine avansate i fr apelul la programe puternice
de tratare a datelor. Ultimele dou capitole trimit la testarea ipotezelor statistice prin teste
neparametrice, aplicabile datelor nominale i categoriale, cum sunt testele chi-ptrat, ManWhitney, Wilcoxon, Kruskal-Wallis sau Friedman. Aa cum se poate cu uurin observa,
lucrarea a acordat un spaiu amplu testrii ipotezelor statistice, fiind prezentat aproape toat
gama procedeelor tehnice destinate acestui scop. Nu am inclus aici i tehnicile analizei de
varian ANOVA care, prin multitudine i complexitate, fac obligatoriu apel la un program
automat de prelucrare computerizat a datelor, fiind mai potrivit s fie incluse n volumul
destinat statisticilor multivariate. Menionm de asemenea c am preferat s prezentm toate
metodele de testare a ipotezelor incluse n acest volum fr a face n nici un fel apel la
resursele SPSS cci acest lucru face obiectul unui curs special cu aceast misiune.
Fiind destinat nceptorului, lucrarea de fa a ncercat s in cont maximal de
principiul accesibilitii, prin simplificarea discursului teoretic i prin reliefarea constant mai
ales a informaiei utile. Pe de alt parte, o lege a nvrii leag temeinicia i calitatea acesteia
de calitatea i profunzimea interaciunii cu materialul de nvat. Pentru a facilita centrarea pe
aspectele aplicative toate capitolele, inclusiv cel introductiv, sunt nsoite de exerciii i
aplicaii practice, de teste rapide de verificare a cunotinelor (quiz, pstrnd terminologia
englez) i de un test final de sintez i evaluare de ansamblu, destinat autoverificrii stadiului
atins n nvarea statisticilor introductive. Pentru majoritatea acestor aplicaii practice s-au
oferit soluiile problemelor propuse, nsoite deseori de explicaii adiionale care s contribuie
la mai buna lor nelegere. Astfel, o seciune final a lucrrii ofer soluia rezolvrii corecte a
majoritii problemelor prezentate cu scop de autoevaluare la sfritul fiecrei uniti de curs.
Lucrarea de fa i are continuarea ntr-un al doilea volum, destinat deprinderii i
perfecionrii n utilizarea procedurilor computerizate de prelucrare a datelor cu SPSS, dar i
de un al treilea volum, destinat prezentrii statisticilor avansate (Statistici multivariate pentru
psihologie). Ordinea apariiei lor editoriale nu este cea din secvena prezentat anterior, acest
volum introductiv fiind eleaborat ultimul, complexitatea i mai ales miza lui pedagogic
deosebit genernd cele mai mari probleme de elaborare i editare. n felul acesta se poate
vorbi de o trilogie statistic, ce se constituie ntr-un ghid complex de monitorizare a
formrii i perfecionrii n domeniul abordrilor de tip cantitativ. Feedback-ul primit din
partea principalului sau utilizator, studentul, va contribui la mbuntirea calitii acestui
volum, motiv pentru care sugestiile utilizatorilor sunt ateptate cu real i legitim interes.
8

CAPITOLUL 1
INTRODUCERE

1.1. Scurt istoric al statisticii


Statistica nu s-a nscut n cmpul psihologiei tiinifice, aceasta prelund i
ncorpornd procedeele ei pentru a putea depi posibilitile limitate oferite de cea mai
rspndit dintre metodele sale, observaia, care plaseaz psihologul () n domeniul
relativului empiric, adic n lumea fenomenelor, a caracteristicilor i a proprietilor care sunt
vag conturate i neasamblate n sisteme de cunotine riguros nchegate (Clocotici i Stan,
2000, p. 11).
Destinul nsui al tiinei nou aprute, psihologia, a depins de ruperea acesteia din
cmpul filosofiei i translarea spre tiinele pozitive, care i-au ncorporat experimentul ca
metod predilect de cercetare a relaiei cauz efect. Intrarea ei n laborator, separarea
variabilelor dependente i independente presupunea cu necesitate metode i tehnici statistice
de prelucrare a datelor obinute prin msurtoare.
Impactul acestei apropieri reciproce avea s fie benefic reciproc, o serie de mari
psihologi (Galton, Spearman, Pearson, Guilford sau Cattell) avnd contribuii remarcabile,
care au schimbat faa statisticii. Aceasta deoarece domeniul faptelor psihice este mai complex
dect fizica cuantic, biologia celular sau astronomia, prin aceea c el este marcat de
multicauzalitate, sau de alte aspecte caracteristice specifice ale cauzalitii.
Muli autori leag apariia statisticii de probleme pragmatice, preponderent economice
sau administrative, cum ar fi aa-numitele tabele de mortalitate ale lui Graunt (1661), prin
care ptura negustoreasc din Anglia ncerca s pun bazele unui sistem de asigurri pe via.
Graunt este considerat i printele demografiei, pe care a fundamentat-o prin aa-numita
aritmetic politic, nscut n 1662 (termenul aparine lui Petty). Analiza datelor despre
evenimentele demografice, n spe despre decese, arta o neateptat constan i
regularitate, ceea ce sugereaz posibilitatea gsirii unor legi n domeniul vieii sociale, de
consisten apropiat celor din tiinele naturii (Rotariu, 1999, p. 16).
Curiozitatea tiinific produs de o asemenea descoperire remarcabil va fi
generatoarea unei activiti sistematice de culegere, stocare, prelucrare i interpretare a unor
informaii numerice despre importante domenii ale statului, corespondentul centrelor
9

naionale de statistic din timpurile moderne. De altfel, chiar i etimologic statistic pleac de
la status, care poate fi interpretat att ca stare de fapt, ct i ca stat, deci statistica ar putea fi
considerat o tiin de stat. Aceasta corespunde i etimologiei propuse de cel considerat a fi
introdus termenul de statistic, Achenwall.
Corespondena susinut dintre Pascal i Fermat (1654) a stat la baza fundamentrii
unei teorii matematice asupra verosimilitii, n timp ce cooperarea mai tardiv dintre Gauss i
Laplace (1809-1812) s-a concretizat n conceptul de distribuie normal (clopotul lui Gauss).
Dei problemele demografice i economice au fost primordiale n conturarea
obiectului statisticii, contactul psihologiei cu aceast tiin avea s fie fundamental pentru
destinul ei. Iat cteva aspecte mai semnificative:

Cel care a introdus psihologia n registrele de stare civil, dup inspirata expresie a
lui Pavelcu, n anii 1730 i 1732, Christian Wolff (prin lucrrile Psihologia empirica i
Psihologia rationalis) anticipa chiar de atunci necesitatea existenei unei subramuri
matematice a acesteia, pe care el a numit-o, inspirat, psihometrie. Dei termenul va
cpta o cu totul alt semnificaie la cei care au studiat fenomenele paranormale n
Anglia secolului al XIX-lea (care au i creat o Societate Regal de Psihometrie),
sensul iniial va fi cel care se va impune, prin ncercrile lui Galton i Binet de a
dezvolta domeniile aplicative ale psihologiei, indestructibil legate de un aparat
matematic de tip statistic.

Este meritul unui astronom belgian, Qutelet (1796-1874) de a fi extins aplicarea unor
legi ale statisticii, cum ar fi legea distribuiei normale sau binomial, derivat din
luarea n considerarea distribuiilor probabiliste, spre alte domenii dect cele sociale,
aici incluzndu-se i cele psihologice.

Galton, iniiatorul colii psihometrice engleze (al crei punct forte va fi chiar ideea de
msurtoare i cuantificare a faptului psihic) a creat metode statistice de abordare a
legilor ereditii (metoda gemenilor i a genealogiilor, de exemplu), avndu-i ca
succesori pe Pearson, teoreticianul metodei corelaiei prin metoda produselor (1896),
pe Spearman, creatorul metodei corelaiei prin metoda rangurilor i ntemeietorul
analizei factoriale (1904). Continuatorii acestora (Fisher, Burt i Vernon) vor merge
mai departe pe liniile de for ale colii engleze de statistic, considerat principala
contributoare n conturarea domeniului

acesteia. n domeniul personalitii, H.J.

Eysenck i R.B. Cattell (ultimul a imigrat n America dup perioada de formare n

10

Anglia) vor fi exponeni strlucii ai metodelor statistice i cu precdere ai analizei


factoriale.

Al doilea mare contributor a fost coala german, prin Conring (1606-1682),


Achenwall (1719-1772) i, bineneles, Gauss (1777-1785).

n America muli matematicieni i psihologi au continuat n mod natural coala


englez, prin Thurstone, Hotelling, Guilford, Lord, Novick, Fruchter sau Cronbach.

n psihologie, statistica a evideniat o evoluie de la distribuii spre corelaie, analiza


factorial i de cluster, teoria rspunsurilor la itemi sau a generalizabilitii, pe lng
analiza varianei simple aprnd tehnici de analiz multivariat (ANOVA, MANOVA.
ANCOVA, MANCOVA), n timp ce pentru psihologia social i sociologie, pe lng
problema analizei relaiilor dintre variabile, s-au impus tot mai mult problemele legate
de selecie, eantionare i reprezentativitate (statistica inferenial).
1.2. Obiectivele statisticii
De la o tiin global a statului (vezi Rotariu et al., 1999, pp. 15-22), care i

propunea s ofere conductorilor instrumente de aciune eficace, rezultate din investigarea


principalelor aspecte ce puteau fi nregistrate, pstrate, prelucrate i interpretate, statistica s-a
extins spre planurile psihologic, biologic, fizic, chimic, economic, politic, agricultur,
devenind un mod de gndire al viitorului (Vod). S-au nscut o multitudine de ramuri i de
abordri speciale, bazate pe proceduri ce se adapteaz la specificul domeniului investigat,
desprinse toate din trunchiul aceleeai tiine, statistica general.
Aceast tiin cuprinde un corp sistematic de cunotine i de metode statistice, care
au ca obiect colectarea, prelucrarea i interpretarea rezultatelor ce provin de la populaii i
indivizi statistici. Acetia pot fi oameni, nsuiri, plante, gene, porumbei, maimue, peti,
culturi, chiar i atomi sau electroni, pentru toate acestea legile statisticii opernd ntr-o
manier similar.
Datele statisticii provin fie de la aceleai populaii, care se comport diferit ca urmare
a faptului c asupra lor acioneaz o multitudine de cauze, fie de la acelai individ, entitate,
de-a lungul diferitelor sale manifestri pe scara timpului. Dei nu este o ramur a matematicii
(nu pleac de la axiome, pentru a deriva prin demonstraii sau teoreme enunuri sistematice),
statistica ofer un larg cmp de aplicaii matematicii, n primul rnd datorit faptului c
ambele lucreaz cu numere i reguli de calcul i, de la un anumit nivel, relaiilor dintre
entitile statistice li se substituie raporturi matematice abstracte, tipice entitilor ideale.

11

Aceasta face foarte dificil trasarea unei linii de demarcaie dintre matematic i statistic.
Dei nu are un referenial empiric anume (ea propundu-i s stabileasc regula general
aplicabil, indiferent de domeniul realitii de care se ocup) statistica coboar totui din
planul general abstract (matematica rmnnd cantonat n turnul de filde al propriilor sale
abstracii), avnd un caracter aplicativ mult mai explicit, deoarece i propune s rezolve
probleme concrete.
Mai mult, demersul statistic nu este posibil fr materia prim a datelor colectate
anterior, ntr- o direcie n care prelucrarea i interpretarea datelor este doar o parte a
secvenei, adic cea mai tehnic i mai specializat. S nu uitm totui c momentul creator al
cercetrii tiinifice, scnteia sau impulsul iniial sunt date de conturarea ipotezei specifice.
Apoi, sesizarea semnificaiei datelor prelucrate nu este posibil fr o solid cultur a
domeniului n care sunt aplicate metodele statistice. Psihologul, pedagogul, sociologul sau
economistul sunt cei care valorific rezultatele tehnice pe care le ofer statistica sau
statisticienii.
1.3. Cteva concepte cheie ale demersului statistic
Termenul de populaie statistic, alctuit din indivizi statistici, care pot fi persoane,
fapte, entiti fizice etc. a fost deja definit anterior. El nu este sinonim cu cel de populaie din
limbajul comun.
Cum tot ceea ce exist, n plan fizic sau ideal, are o mulime de determinri i de
atribute ce nu pot fi cuprinse i analizate simultan, separat sau exhaustiv, sunt selectate doar o
parte dintre acestea, limitarea fiind impus i de mijloacele de care dispunem la un moment
dat. Asfel, indivizii umani se pot diferenia n funcie de vrst, sex, mediu de provenien,
nivelul propriu de instrucie sau al prinilor, status cultural, nivel economic, religie, ras,
etnie etc. Fiecare dintre aceste criterii care opereaz diferene se numete variabil, deoarece
n absena lor oamenii ar fi identici.
Unele variabile sunt discontinue (discrete), cum ar fi sexul (masculin, feminin),
mediul (urban, suburban, rural); altele sunt continue (nlimea, greutatea, vrsta). Mulimea
valorilor pe care le poate lua o caracteristic particular constituie distribuia variabilei
respective. Fiecare populaie are propria sa distribuie pentru fiecare variabil. De exemplu
tim c la natere raportul dintre biei i fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta s se inverseze dup primii ani de via din cauza vulnerabilitii, i implicit a
mortalitii mai mari n rndul sexului masculin. La vrsta a treia acest raport se
dezechilibreaz i mai mult, femeile avnd o speran de via cu aproape 10 ani mai mare
12

dect brbaii. Deci aceeai populaie are, n trei momente diferite ale existenei sale, trei
distribuii diferite, n funcie de aceeai caracteristic, apartenena de gen.
Parametrii sunt valorile fixe ce exist la un moment dat pentru o populaie, luat n
ansamblul ei, n raport cu o variabil. Ideea de variabil este strns asociat cu aceea de
cuantificare, msurtoare, ca mijloc de determinare a variabilitii. Orice msurtoare
presupune, la rndul ei, o scal de msurare. Toate aceste elemente: individ, populaie
statistic, variabil, distribuie definesc domeniul statisticii descriptive, alctuit din corpul
de metode prin care pot fi caracterizate faptele i fenomenele studiate.
Dar statistica a tins de la nceputuri spre numerele mari, spre populaiile extinse, a
cror cuprindere i descriere detaliate sunt adesea imposibile, din cauza costurilor pe care lear antrena. Chiar i atunci cnd acest lucru ar fi tehnic posibil, investigaiile i prelucrrile ar
presupune perioade mari de timp, care este el nsui o mare surs de variabilitate, antrennd
modificri nsemnate ale multor variabile. Soluia gsit este statistica inferenial, un
ansamblu de tehnici i de metode (de eantionare, de selecie etc.), prin care estimrile fcute
asupra unui numr mai mic de entiti ce compun populaia de ansamblu sunt extrapolate
asupra acestei populaii, n limite de ncredere rezonabile. Acest domeniu al statisticii este
extrem de utilizat de sociologie (metoda anchetei pe baz de chestionar sau a sondajelor de
opinie fiind doar dou exemple). Dac vom lua n considerare faptul c instrumentul de baz
al psihodiagnozei, testul psihologic, este etalonat pe populaii reprezentative zonal sau
naional, vom vedea c statistica inferenial are importante utilizri i n psihologie.
Statistica inferenial presupune alte cteva concepte care o circumscriu. Eantionul
este o parte, redus ca numr, din populaia statistic de baz care, atunci cnd este extras
corect, permite estimaia parametrilor acestei populaii, adic o aproximare a valorii reale a
acestora n limite de ncredere ce pot fi determinate. O ndelung practic social a dus la
dezvoltarea cu precdere a statisticii infereniale, i aceasta din mai multe motive:

Costurile incomparabil mai mici (s comparm costurile unui referendum naional cu


ale unui sondaj de opinie desfurat pe un eantion reprezentativ naional).

Utilizarea ei extensiv, pentru un numr tot mai mare de beneficiari: ageni economici,
organizaii, partide, guverne etc., n scopuri diagnostice, dar i prognostice, care
fundamenteaz decizii de o mare importan social.

Rafinarea progresiv a tehnicilor, ceea ce a fcut ca marja de eroare s fie tot mai
mic, astfel nct predicia pe eantioane mici s poat fi extrapolat la populaii
statistice foarte mari.

13

Statistica din tiinele socio-umane are ca i concept primar pe acela de variabilitate a


datelor, care poate fi interindividual (cel mai adesea), dar i intraindividual. Acesta
angajeaz alte concepte, cum ar fi cel de surs de variaie (previzibil sau imprevizibil,
sistematic sau aleatoare, determinabil sau nedeterminabil), sau cel de msurare. Dac
sursele previzibile sunt dinainte tiute i circumscrise din start de investigaia n cauz (a se
vedea controlul variabilelor de la metoda experimental, variabilele test, subiect i
examinator, la metoda testului), exist i o multitudine de surse fortuite de variaie (variabilele
externe necontrolate, n primul exemplu, i variabila situaional, n cel de al doilea). Analiza
statistic ncearc s deceleze ponderea fiecrei surse de variaie. Deoarece datele numerice
de natur statistic reprezint rezultatul amalgamrii unui mare numr de cauze, este posibil
ca statistica s fie continuarea fireasc a experimentului, pe care tinde s l nlocuiasc (Yule
i Kendall, 1969, p. 16), ntruct ea va determina care sunt cauzele cele mai importante i
care sunt rezultatele observrii ce pot fi atribuite fiecrei categorii de cauze.
Msurarea este o operaie prin care se atribuie numere unor aspecte ale obiectelor
sau evenimentelor, potrivit unei reguli (Smith, S.S., 1974). Dup cum arta i Piaget,
problema metriei este una fundamental n psihologie, deoarece puine din domeniile sau
fenomenele sale se preteaz, n sens strict, la cuantificare. Aceasta poate fi chiar una dintre
cauzele (dac nu cumva i cea mai important) pentru care psihologia are un trecut lung, dar o
istorie, c tiin, scurt (Ebbinghaus). Msurarea aduce cu sine problema scalei de msur,
care trebuie s fie corect, constant (produce date identice pentru fenomene identice, n
condiii de msurare identice), exhaustiv (ea poate msura toate entitile crora le este
destinat) i reciproc exclusiv (n urma msurtorii, fiecare entitate capt o valoare i numai
una). Principalele tipuri de scale cunoscute (nominal, ordinal, de interval i de raport)
evideniaz proprieti care dau conotaii i aplicaii specifice msurtorilor ce rezult din
fiecare tip, astfel nct cele mai complexe nglobeaz caracteristicile celor mai simple, dar
aducnd elemente noi, difereniatoare.
Caracteristicile variabilei pot fi calitative i cantitative, continue i discontinue.
Distribuiile obinute aduc n discuie problema frecvenelor (absolute i relative, simple sau
cumulate), dar i a modalitilor de a le reprezenta grafic: poligonul frecvenelor, histograme,
curbe, grafice, scatter etc.
O bun parte a statisticii descriptive urmrete definirea celor mai importante tendine
centrale, adic media, mediana i modul, dar i a tendinelor extreme, cum ar fi amplitudinea
mprtierii, abaterea medie, abaterea semiinterquartil, abaterea standard sau dispersia,
14

variana. Distribuia n sine poate fi judecat din punctul de vedere al formei (simetrie sau
boltire, adic skewness i kurtosis, n englez). Toate aceste noiuni, unele dintre ele derivate
din teoria probabilitilor, prin care sunt fundamentate matematic valorile tipice ale
variabileleor, dar i repartiiile de diverse tipuri, contureaz mai exact domeniul statisticii
descriptive.
Statistica inferenial, pe lng conceptele deja amintite (populaie, eantion
eantionare, estimare), include i testarea ipotezelor statistice. n capitole distincte, statistica
trateaz corelaia, asocierea datelor calitative i cantitative, analiza dispersional, unifactorial
sau bifactorial, analiza factorial i analiza de cluster. Cursul de fa este unul de iniiere, n
consecin el va acoperi doar o parte dintre problemele enunate, adic elementele care
fundamenteaz cunoaterea statistic n scopul aplicaiilor ei la situaii uzuale, comune.
Pentru atingerea acestui obiectiv avem n vedere dou aspecte importante:
comprimarea la minimum a prii de ntemeiere matematic a subiectelor tratate, problem
care rmne n grija teoreticienilor statisticii, adic a celor ce contureaz dimensiunea
savant, tiinific a domeniului; permanenta preocupare de a oferi situaii sau aplicaii
concrete, pentru a evidenia puterea real a procedeelor de lucru prezentate. n fond, acest curs
se adreseaz n principal studenilor de la psihologie i pedagogie, cel mai adesea avnd o
dominant umanist a formaiei i pregtirii lor. Intenia noastr a fost aceea de a nu-i inhiba
cu demonstraii abstracte, de factur matematic, ci de a-i familiariza cu cele mai des ntlnite
aplicaii statistice, prin care s fie capabili s-i valorifice cercetrile proprii. Cursul are de
asemenea n vedere practicianul din aceste domenii, cel care, dup ce acumuleaz o cantitate
de date brute prin teste sau chestionare, tinde s le valorifice sau s le gestioneze mai bine.
Aplicaiile speciale sau savante ale statisticii presupun, pe lng aceast iniiere,
stagii de pregtire mai avansate, susinute de programe computerizate (SPSS, SAS sau
NCSS). Extraordinara lor putere de lucru, precizia, elegana, multitudinea opiunilor i alte
faciliti de acerst gen par a transforma o ntreag evoluie a domeniului (i procedee de lucru
altdat extensiv utilizate) n istorie. Susinem ns opinia potrivit creia sensul acestor
aplicaii computerizate nu poate fi dedus fr o cultur a domeniului, fr un stagiu prealabil
de iniiere dup procedeele i cu mijloacele clasice (creion, caiet de matematic, rigl,
minicalculator cu panou de lucru statistic), prin care vom deslui cele mai importante aplicaii
statistice n situaiile curente. Saltul spre puternicele programe computerizate va fi astfel mult
facilitat, deoarece vom ti ce s cerem computerului, la ce tip de prelucrri s facem apel i ce
relevan vor avea datele pe care acesta ni le ofer cu generozitate.

15

16

1.4. Exerciii i aplicaii practice


1. V intereseaz problema abandonului colar la ciclul gimnazial din Romnia de azi.
1.1. Precizai care este populaia studiului i care eantionul.
1.2. Identificai cteva dintre variabilele de interes pentru studiul desfurat.
1.3. Evideniai cteva dintre variabilele categoriale i real numerice implicate n acest
studiu.
2. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel (5 000 de locuitori).
3. Dac ai folosi cartea de telefon ai putea obine un eantion randomizat pentru acest ora?
4. De ci cai ai avea nevoie pentru a determina cu exactitate cte picioare are un cal? Dar
de ci cai ai avea nevoie pentru a determina precis care este greutatea medie a unui cal?
Unde avem de-a face cu o variabil i unde cu o constant i care dintre cele dou
categorii este mai informativ?
5. Cineva ar putea obiecta c a doua ntrebare de mai sus conine o capcan: caii de vrste
foarte mici (sub un an, adic mnjii) aparin i ei speciei cabaline, dar dac i-am include n
eantion ei ar putea contribui la scderea semnificativ a mediei greutii cailor ca specie.
Apoi, greutatea medie poate diferi de la ras la ras i de aceea determinarea greutii
medii a speciei cabaline s-ar putea s nu aib sens. Mai mult, ca i la oameni, caii au
oasele mai grele dect iepele i n consecin un indicator sintetic al greutii comune
ntregii specii cabaline ar fi irelevant.
5.1. Identificai n exemplul de mai sus variabilele implicate.
5.2. Identificai care sunt datele categoriale i cele real numerice (de msurtoare).
5.3. Precizai i alte variabile de interes pentru greutatea medie a cailor, indicnd tipul
acestora.
5.4. Identificai care sunt cazul, variabilele i valorile implicate n exemplul analizat.
6. Dai cte trei exemple n care interesul nostru este:
6.1. De a determina diferena dintre dou sau mai multe grupuri.
6.2. De a determina realaiile sau gradul de asociere dintre aceste variabile.
6.3. De a exemplifica cu cteva date categoriale.
6.4. De a exemplifica cu cteva date de msurtoare.
7. Precizai care este diferena dintre:
7.1. Eantion i populaie.
7.2. Statistici i parametri.
7.3. Eantioane randomizate i eantioane de convenien.
8. Explicai urmtoarele:
8.1. De ce variabilitatea este conceptul de baz al statisticii?
8.2. Ce nelegei prin faptul c genul masculin prezint mai mult variabilitate dect
cel feminin n ceea ce privete nlimea, greutatea sau inteligena?
8.3. Din ntrebarea de mai sus rezult c brbaii ca grup sunt neaprat mai nali, mai
grei sau mai inteligeni dect femeile? Pe ce v bazai afirmaia?

17

9. Explicai diferenele existente ntre statistica descriptiv i cea inferenial.


10. Facei parte din echipa care studiaz pattern-urile de dezvoltare fizic a populaiei
infantile i tinere (0 - 20 de ani) a Romniei de azi. n planificarea studiului dvs. utilizai ct
mai multe concepte, termeni (populaie, eantion, variabile etc.) i metode (eantionare)
prezentate n capitolul de fa.
11. Definii pe scurt termenii de: date, variabil, eantionare, populaie i inferen statistic.
12. Vom lua n considerare toi studenii de anul nti de la specializarea Psihologie a
Facultii de Psihologie i tiinele Educaiei. Dai cteva exemple din care s rezulte c:
12.1. Acetia reprezint populaia.
12.2. Acetia reprezint un eantion dintr-o populaie.
12.3. Cnd l considerm eantion, acesta este unul randomizat sau nealeator?
(Explicai opiunea fcut).
13. Rectorul universitii noastre este interesat de repartiia pe judee, pe sexe, pe grupuri
etnice i pe categorii de vrst a studenilor admii la aceast universitate, ca i de evoluia lor
ca rezultate academice n ultimii 10 ani.
13.1. Care este populaia studiat?
13.2. Care sunt variabilele implicate n acest studiu?
13.3. Avem de-a face cu eantioane aleatorii sau cu unele de convenien?
13.4. Identificai variabilele categoriale i pe cele real numerice prezente n studiul
invocat.
14. La un meci de fotbal sunt prezentate la final de partid urmtoarele statistici:
- uturi pe poart;
- uturi pe spaiul porii;
- goluri marcate;
- pase de gol;
- cartonae galbene i roii primite de fiecare echip;
- posesia mingii exprimat n procente pentru fiecare echip;
- numrul mediu de metri alergat de fiecare juctor pe parcursul perioadei jucate.
14.1. Care dintre aceste date sunt tipice statisticii descriptive i care celei infereniale?
14.2. Care dintre datele de mai sus sunt real numerice i care categoriale?
14.3. Argumentai care dintre datele de mai sus prezint cea mai mare variabilitate.
14.4. Care dintre aceste date provin de la variabile continue i care de la variabile
discontinue?
14.5. Ierarhizai i explicai care dintre primele patru variabile prezint mai mult
variabilitate.

18

CAPITOLUL 2
MSURAREA
ORGANIZAREA COLECIEI DE DATE

2.1. Msurarea n tiinele socioumane


Cele mai multe aspecte pe care vrem s le msurm n tiinele socioumane
(psihologie, pedagogie, sociologie) se prezint adesea sub form numeric, sau sunt aduse
ntr-o asemenea form printr-o operaie de codare. Psihologul msoar adesea date fizice
(stimuli vizuali, auditivi, tactili, kinestezici etc.), prin manifestrile lor caracteristice
(intensitate, durat, frecven, greutate), culese de aparate special elaborate, ce dispun de
propriile uniti metrice. El msoar n egal msur efectul stimulilor asupra fiinei vii i
atunci determin timpul de reacie, numrul rspunsurilor corecte, erorile. Msura poate
ajunge la niveluri de rafinare i complexitate foarte ridicate: msurm inteligena prin
componentele acesteia determinate prin intermediul unei teorii; msurm memoria prin
parametri de volum, fidelitate, numr de repetiii necesare ntipririi; msurm factorii de
personalitate de ordin primar sau secundar, dedui din complexe construcii teoretice;
msurm atitudini sau reacii interpersonale (simpatie-antipatie, atracie-respingere).
Unele caracteristici sunt foarte uor de degajat (msurtorile fizice), altele sunt
deductibile prin construcii sau montaje experimentale ingenioase, iar altele se fundamenteaz
pe soluii reieite din teorii tiinifice. De multe ori datele calitative culese prin observaie sau
experiment sunt transformate n date cantitative printr-o gril de observaie, care ofer cadrul
de referin n clasificarea datelor. Acest instrument n care faptele sunt clasificate pentru a
putea fi urmrite sub raportul intensitii i al frecvenei se cheam protocol i este alctuit
dintr-un tabel ce descrie faptele observate pe linii i frecvena de apariie a acestora pe
coloane.
Msurarea n psihologie trebuie luat n sensul ei cel mai larg, acela de atribuire de
numere datelor continue sau discontinue (discrete), pentru c psihologia nu i-a conturat
uniti metrice la fel de tari matematic ca cele din tiinele fizice. i totui, ea aspir s fac
prin operaiile de msurare mai mult dect o operaie de codare, cum este de exemplu aceea
de atribuire a notelor colare (operaie care nu poate exclude subiectivitatea).

19

Din punct de vedere matematic msurarea este o operaie prin care fiecrui element
din mulimea de obiecte (domeniul de definiie al variabilei) i se ataeaz un numr i numai
unul din mulimea n care aceasta ia valori (domeniul variabilei). Se stabilete astfel o relaie
de izomorfism ntre mulimea obiectelor i mulimea msurilor obiectelor, fiecare obiect fiind
definit de o singur msur.
Sistemul de reguli impus de teoria i practica din domeniu definete mai multe tipuri
de msurare n funcie de tipul de scal utilizat: nominal, ordinal, de interval i de raport.
Alegerea celui mai potrivit tip de scal este impus de numrul i mai ales de tipul de relaii
existente ntre elementele investigate, dar toate caracteristicile unei scale de rang inferior se
regsesc la cele de ordin superior. n plus, fiecare scal permite doar anumite operaii i
procedee matematice. Cu ct este mai sus n aceast ierarhie, cu att ea este mai precis,
permind prelucrri statistice mai complexe i implicit concluzii mai fundamentate
matematic.
2.2. Proprietile scalelor
Exist trei proprieti care fac ca scalele de msurare s difere ntre ele: magnitudinea
intervalele egale i zero absolut.
2.2.1. Magnitudinea
O scal are aceast proprietate cnd putem spune c o caracteristic a atributului
msurat reprezint mai mult, mai puin sau la fel (tot att, adic egal) o cantitate sau nsuire,
comparativ cu o alt stare a aceluiai atribut. n ceea ce privete talia, de exemplu, putem
afirma c George este mai nalt, mai scund sau la fel de nalt ca Horia, deci scala nlimii are
proprietatea magnitudinii. Numerele de pe tricourile fotbalitilor nu au n schimb aceast
nsuire, deoarece ele sunt atribuite ca nite etichete, doar pentru identificarea juctorilor.
2.2.2. Intervalele egale
O scal are intervale egale dac diferena dintre dou puncte aflate pe oricare zon a
scalei are aceeai semnificaie, valoare, ca diferena dintre alte dou puncte care difer prin
acelai numr de uniti. De exemplu, diferena dintre anii 1200 i 1400 este egal cu
diferena dintre anii 1800 i 2000, n timp ce diferena dintre coeficienii de inteligen 50 i
100 nu are aceeai semnificaie ca diferena dintre coeficienii 100 i 150, dup cum nu putem
spune c cel cu QI de 100 este de dou ori mai inteligent dect cel cu QI de 50.
Psihometricienii au ncercat s ocoleasc aceste dificulti i, folosind tehnici matematice
20

sofisticate, au creat instrumente care se apropie de cerina unei scale de interval (adic cu
intervale de scal egale).
2.2.3. Zero absolut
Acest proprietate este posibil de evideniat cnd variabila msurat are un nivel la
care ea nu mai exist deloc: zero ca distan nseamn absena oricrei distane, zero ca ritm
cardiac nseamn moartea, dar zero ca agresivitate, emoie, curaj, inteligen (caracteristici
umane) este extrem de greu, dac nu imposibil, de evideniat sau de definit.
Tabelul 2.1. Scalele de msurare i proprietile lor (dup Kaplan si Saccuzzo, 1993, p. 32).
Proprieti
Tip de scal

Magnitudine

Intervale egale

Zero absolut

Nominal

Nu

Nu

Nu

Ordinal

Da

Nu

Nu

De interval

Da

Da

Nu

De raport

Da

Da

Da

2.3. Tipuri de scale


2.3.1. Scalele nominale
n sens strict, scala nominal nu este o scal, pentru c ea nu are nici una dintre cele
trei caracteristici enumerate anterior. Scopul ei este s numeasc obiectele, aa cum se
ntmpl cu numerele de pe tricourile fotbalitilor. Cu toate acestea este comod s atribuim
numerele 1, 2, 3 i 4 pentru a codifica etnia romn, maghiar, german i altele, 0 i 1 pentru
sexul masculin i feminin sau 1, 2 i 3 pentru mediul urban, suburban i rural, ntr-un studiu n
care apar astfel de variabile. Singura restricie este aceea ca numerele s fie atribuite tuturor
obiectelor care au aceleai caracteristici, i numai lor.
Fiind n fond vorba de o operaie de clasificare, singurul procedeu matematic
admisibil aici este determinarea frecvenelor de apariie, care se pot calcula fie n valori brute,
fie n valori relative, adic n procente. n acest din urm caz, dei ar fi normal ca eantionul
s depeasc 100 de cazuri (prin definiie pro-cent indic ideea de sut), se accept totui
exprimarea procentual i a numerelor de la 30 n sus, dar nu mai mici. Aceasta deoarece, prin
transformarea n procente, numerele mai mici de 100 se amplific, procedeu care, n ciuda
rigorii aparente, trdeaz superficialitatea metodologic (Chelcea, 1982, p. 158).

21

n sintez, reinem cteva aspecte mai importante pentru acest tip de scal:

Scala nominal este mai degrab una calitativ, ea fiind de fapt o premsurare.

Ea se preteaz foarte bine pentru datele culese prin observaie, anchet, chestionar,
care vor fi repartizate n categorii distincte, astfel nct un element s se afle numai
ntr-o categorie (clas) i numai una.

Literele sau cifrele folosite ca etichet nu vor face obiectul calculelor statistice, ci
vor servi doar la reperarea claselor, la determinarea frecvenelor brute i a celor
relative. Fiecare element al unei clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeai clas.

Singurul procedeu matematic de verificare este aa-numitul test chi ptrat (2).
2.3.2. Scalele ordinale
Reprezint, dup Favrge, nivelul cel mai rspndit de msurare din psihologie i

pedagogie, deoarece valorile din aceste domenii n majoritatea lor sunt continue i simplu
ordonate. Aceasta permite ca elementele s fie aranjate fie cresctor, fie descresctor, existnd
i posibilitatea ca mai multe elemente s ocupe acelai loc. Se stabilete astfel o relaie de
ordine total ntre elemente, dat de formula P xxy, care va fi interpretat ca x este superior,
preferat sau naintea lui y (Radu, 1993, p. 49). Deoarece relaiile formulate (A B C D)
permit stabilirea unei ierarhii, nseamn c importante caracteristici umane, fizice (nlime,
greutate, perimetre), dar i psihice (capaciti, aptitudini, preferine, interese, atitudini, valori)
pot beneficia de acest tip de scal.
Numerele asociate obiectelor i fenomenelor n msurarea de tip ordinal au doar
semnificaia unui rang, adic nu indic mrimi absolute. Pentru a atribui numerele n serie
cresctoare sau descresctoare, trebuie ca i caracteristica respectiv s aib valori care cresc
sau descresc. n scalele de tip Likert, de exemplu, se pot atribui numere de la 1 la 7, 4
exprimnd neutralitatea, numerele mici (3, 2 i 1) dezacordul sau insatisfacia tot mai
accentuate, n timp ce numerele mari (5, 6 i 7) acordul sau satisfacia tot mai intense.
Creterea regulat a numerelor nu trebuie s sugereze ns c i caracteristicile
respective cresc n aceeai proporie. Exemplul clasic este cel al militarilor dintr-un pluton,
aezai ntr-o ordine ierarhic, de la mic la mare: al aselea din ir nu este de dou ori mai
mare dect al treilea, i aceasta deoarece scalele ordinale nu au o unitate de msur care s
indice i cantitatea diferenei dintre ranguri. Scala metric a inteligenei, publicat de Binet n
1905, permitea un clasament ierarhic al unor inteligene diferite care, pentru nevoile practice,

22

echivala cu un clasament. n psihodiagnoz, exemplul tipic pentru acest tip de msurare este
procedeul centilrii (ordonarea ierarhic pe o scar cu 100 de trepte), iar n pedagogie nota
colar, ca procedeu de evaluare care n acelai timp i ierarhizeaz elevii.
n concluzie pot fi reinute urmtoarele aspecte:

Deoarece scala ordinal nu are o unitate de msur constant, ea nu permite adunarea


i scderea (nu are proprietatea aditivitii).

Este legitim ns calcularea frecvenelor brute i a celor relative (a procentelor) i


aplicarea procedurilor statistice nonparametrice (adic exprimate calitativ, nu prin
numere): coeficientul de corelaie al rangurilor al lui Spearman, coeficientul de
corelaie Kendall, testele de semnificaie Mann-Whitney, Wilcoxon, KolmogorovSmirnov etc.

Centilarea, decilarea - n psihodiagnoz, i nota colar - n pedagogie, sunt ilustrrile


cele mai frecvente ale utilizrii acestui tip de scal n domeniile amintite.

Cel mai important indicator al tendinei centrale este mediana.


2.3.3. Scalele de interval
Scalele de interval nu reprezint nivelul curent de msurare n tiinele socioumane,

dei se tinde spre aceasta, deorece, pe lng ordinea i ierarhia nivelurilor anterioare, trebuie
s existe specificarea mrimii exacte a intervalelor sau a distanelor care separ elementele
aflate pe toate treptele succesive ale scalei. Aceasta presupune cu necesitate prezena unitii
constante i comune de msur. Exemplul cel mai concludent l dau calendarele, unde
existena unei uniti de msur precizat i constant, anul, face posibil echivalena a 200 de
ani de la nceputul mileniului cu 200 de ani de la sfritul lui. Mai mult, dac operm cu
calendare diferite (iulian, gregorian, evreiesc sau mahomedan), deoarece unitile de msur
nu sunt diferite, transpunerea dintr-un calendar n altul nu pune nici un fel de problem
(Richelle, 1995, p. 222).
Rezumm cteva dintre nsuirile de baz ale scalei de interval:

Specificul scalei de interval este proprietatea aditivitiii (intervalele - i nu valorile! pot fi adunate i sczute).

Neexistnd un punct zero (care s exprime absena caracteristicii msurate),


intervalele pot fi deplasate, extinse sau comprimate, dac prin aceasta ele devin mai
maniabile sau mai bine adaptate realitii msurate.

23

La acest nivel se pot aplica procedee statistice mai elaborate, cum ar fi corelaia prin
produsul momentelor a lui Pearson, testele de semnificaie t i z ale lui Fisher, ca i
analiza de regresie.

Aceasta deoarece la acest nivel se pot determina media aritmetic, abaterea standard i
variana.
2.3.4. Scalele de raport
Acestea au toate proprietile unei scale de msur: magnitudine, intervale egale i

zero absolut. Ele sunt caracteristice mrimilor fizice (nlime sau lungime, greutate, for),
ceea ce nu se ntmpl cu fenomenele sau faptele din psihologie, sociologie sau pedagogie,
deoarece neputnd fiina fr un minimum de inteligen, coeziune, atracie etc. acestor
fenomene nu li se poate stabili starea zero. Cu temperatura lucrurile stau altfel: deoarece
scalele Celsius i Fahrenheit au un zero convenional, n timp ce sistemele Kelvin sau Rankine
au un punct zero neconvenional (absena oricrei temperaturi), doar acestea din urm sunt
scri de raport.
Elementele eseniale ale scalelor de raport sunt deci urmtoarele:

Scalele de raport se cheam aa pentru c, pe lng toate caracteristicile scalelor de


sub ele, permit relaia de proporionalitate de tipul b/a = c/b = d/c.

Ele permit toate tipurile de statistici, parametrice i neparametrice, toate procedeele de


verificare i toi coeficienii de corelaie cunoscui.

Aceasta deoarece se permite calculul mediei geometrice i a coeficientului de variaie.

n afara unor situaii de excepie (mrimi fizice de intrare, puse n legtur cu timpul
de reacie, de exemplu), psihologii, pedagogii i sociologii nu sunt ndreptii s
foloseasc un asemenea tip de scal.
Corespunztor tipurilor de scal amintite, vom avea tipuri de variabile (nominale,

ordinale sau numerice), care sunt definite de domeniul de variaie, adic de registrul de valori
pe care acestea le pot lua. Cnd lum n considerare numrul indivizilor sau al cazurilor
susceptibile de a prezenta aceast modalitate, vorbim de domeniul de definiie. De exemplu, la
o prob de motricitate, tapping, numrul de puncte btute cu mn dreapt, adunat cu numrul
punctelor btute cu mna stng ia valori diferite n funcie de vrst, sex i de lateralizare
(dreptaci sau stngaci). De pild, la 6 ani acest numr poate s ia valori de la 10 la 60, acesta
fiind domeniul de variaie, n timp ce numrul subiecilor ce nregistreaz aceste valori, pentru
fiecare punctaj, d domeniul de definiie.

24

O atitudine, considerat ca o variabil codificat pe o scar Likert, are mai multe


modaliti de manifestare, dar i o populaie care prezint toate aceste modaliti. Deci
fiecrui individ din domeniul de definiie putem face s i corespund o modalitate i numai
una n domeniul de variaie. Noiunea de variabil este ns mai general pentru c ea se poate
referi fie la o mulime de date, fie la efective observate, fie la date prezumate, ipotetice,
virtuale. Scalele descrise anterior se refer la date efectiv observate.
Ion Radu (1993, p. 51) apreciaz c n prelucrarea datelor, n funcie de cerinele
studiului i pentru a ne nscrie ntr-o schem statistic, noi introducem astfel o metric, adic
tratm datele ca i cum s-ar situa la nivelul scalei de interval (). Se comite astfel o eroare,
care practic este neglijabil. Deoarece prediciile fcute n felul acesta sunt valide,
transformarea respectiv este considerat ca fiind acceptabil.
2.4. Organizarea datelor brute
Pentru a fi posibile procedurile detaliate de tratare i de analiz statistic a datelor,
acestea trebuie culese i ordonate n tabele sau grafice. Datele brute efectiv rezultate din
anchet, testare sau evaluare nu au nici o semnificaie prin ele nsele, ci prin raportarea la un
sistem de referin. Cel mai adesea acesta rezult din comparaia scorurilor individuale cu
datele obinute de un eantion mai larg din populaia investigat, prin care se pune n eviden
poziia unui subiect n cadrul grupului mai larg. n calitatea lui de sistem de referin, grupul
ofer posibilitatea construciei unei tipologii ori a unui tabel de norme (barem sau etalon).
Acestea alctuiesc aa-numitele cote standard, ceea ce arat c investigaia individului i a
grupului sunt corelative i complementare. Extragerea informaiilor coninute de datele brute
i organizarea lor ntr-o colecie/ baz de date, presupune intrarea n funcie a unor proceduri
statistice elaborate (determinarea medianei, a mediei, a abaterii standard i a varianei,
aprecierea msurii n care cele descoperite pot fi generalizate i la ce nivel de ncredere).
Dac prin organizarea primar a datelor (ordonare i grupare) putem face o prim
inspecie vizual a acestora, cci ele se prezint ca histograme, poligoane ale frecvenelor,
scattere etc., prin calculul tendinelor aflate pe centrul distribuiei (media, mediana i modul),
ca i a celor aflate spre extreme (amplitudinea mprtierii, abaterea standard i dispersia)
putem face inferene statistice valide, pentru ca prin corelaie, analiz factorial i de cluster
s avem o nelegere mai de adncime a relaiilor i a structurilor subiacente. Analiza de
varian, regresia simpl i multipl permit, dincolo de sesizarea structurii de adncime a
datelor studiate, predicia unor legiti, aa cum reies din analiza i modelarea lor matematic.

25

2.5. Exerciii i aplicaii practice


1. Dai cte unu-dou exemple de variabile ntlnite n psihologie care apeleaz la scale de
msur nominale, ordinale, de interval i de raport.
2. Avei mai jos spectrul culorilor vizibile de ochiul uman, reprezentat pe dou tipuri de scal.
Simbol
Nume
Lungime de
und

R
Rou
800-620

O
Oranj
619-590

G
Galben
589-575

V
Verde
574-510

A
Albastru
509-480

I
Indigo
479-450

V
Violet
449-430

2.1. Precizai numele fiecrui tip de scal, indicnd avantajele i locul lor de utilizare.
2.2. Lumina este o variabil continu sau discontinu? (Argumentai).
3. Msurnd nlimea a 10 studente de la Psihologie s-au obinut urmtoarele valori:
165

160

168

170

156

158

163

180

155

162

Utiliznd pe X ca simbol al acestei variabile (nlimea):


3.1. Precizai care sunt X3, X5, X8 i X10.
3.2. Calculai X.
3.3. Scriei formula de nsumare de la punctul anterior ntr-o form mai complet.
4. Concomitent s-a determinat i greutatea pentru cele 10 studente, obinndu-se valorile de
mai jos (n kilograme).
62

61

70

72

52

55

66

80

49

53

Utiliznd pe Y ca simbol al acestei noi variabile (greutatea):


4.1. Precizai care sunt Y2, Y4, Y7 i Y9.
4.2. Calculai X din exemplul anterior.
4.3. Calculai (X)2 i X2. Folosind semnele = i indicai care este relaia dintre cele
dou valori obinute.
4.4. Determinai X/N i Y/N, unde N (10) reprezint numrul de scoruri observate.
4.5. Cum numii valorile pe care tocmai le-ai calculat la punctul anterior?
4.6. n mod similar calculai pe (Y)2 i Y2.
4.7. Utiliznd valorile numerice deja obinute determinai valoarea formulei de mai jos
Y

N 1

4.8. Extragei rdcin ptratic din valoarea numeric a expresiei de mai sus.
5. Utilizai datele de mai sus pentru a arta c:
5.1. (X+Y) = X + Y
5.2. XY XY
5.3. CX = CX, n care C este o constant.
5.4. X2 (X)2
5.5. (X+C) = X + NC, n care N este numrul de cazuri iar C are valoarea 3.
6. Poate o variabil ordinal s fie msurat cu o scal continu (de interval sau de raport)?
Poate o variabil continu s fie msurat cu o scal ordinal? Argumentai folosind cte un
exemplu adecvat.
7. Notele colare trecute n catalog sunt msurtori tipice unei scale ordinale sau uneia de
interval? Dar mediile colare pentru fiecare obiect n parte (rotunjite)? Dar media general
(nerotunjit)?
8. Media (nerotunjit) de la Matematic i cea de la Purtare sunt msurate pe acelai tip de
scal? (Argumentai rspunsul).

26

2.6. Quiz: Da Nu
1.
(Exemplu) Pentru scalele de interval suntem ndreptii s utilizm frecvenele absolute
(count) i pe cele relative (procente). Rspuns: Adevrat, pentru c, dei tipice scalelor ordinale,
procedeele respective sunt prezente i la scalele de interval i de raport, tiut fiind c scalele de rang
superior ncorporeaz proprietile celor de rang inferior.
2.
Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers.
3.
Deoarece distana (n cunotine sau deprinderi) dintre nota 8 i nota 9 este egal cu distana
dintre nota 3 i nota 4, nseamn c sistemul de notare colar are proprietile scalei de interval.
4.
Atunci cnd codificm genul masculin cu 1 i pe cel feminin cu 2 efectum o operaie de
msurare.
5.

Inteligena nu are uniti de msur tipice scalelor de interval.

6.
raport.

Scala care msoar era noastr are un zero natural naterea lui Isus fiind deci o scal de

7.
IQ-ul se msoar pe o scal ordinal deoarece distana de 10 puncte dintre IQ 50 i 60 are
aceeai semnificaie psihologic ca i diatana dintre IQ 120 i 130.
8.
Pentru datele de observaie, de anchet i de chestionar sunt utilizate scalele nominale, care
fac de fapt o premsurare.
9.

La un chestionar s-a utilizat o scal Likert n 5 trepte cu urmtoarea semnificaie:


1=Foarte rar 2=Uneori 3=Aa i aa 4=Deseori 5=Foarte des.
Se poate determina o valoare numeric medie a rspunsurilor pentru ntregul chestionar. Argumentai.
10.
Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
11.
n tiinele socio-umane nivelul de msurtoare maximal este al scalelor de interval iar cel
uzual al scalelor ordinale.
12.
Scala de interval permite deplasarea punctului zero (adic a originii) spre stnga sau spre
dreapta scalei i, de asemenea, permite comprimarea sau dilatarea acesteia.
13.
Scalele de msurare a timpului (calendarele iulian, gregorian, iudaic, mahomedan, maya
etc.) pot fi transpuse unul n altul i obinute valori echivalente deoarece au uniti de scal egale.
14.

Scalele nominale i ordinale sunt categoriale,cele de interval i raport sunt real numerice.

15.
n sistemul romnesc de notare colar domeniul de definiiei al variabilei l reprezint
elevii iar domeniul ei de variaie intervalul de notare 1-10.
16.
Notele colare i centilarea/decilarea nu fac dect s stabileasc ierarhii, adic s rangheze
subiecii cresctor sau descresctor.
17.
n principiu notele colare nu pot fi adunate pentru a se determina media pe materii
deoarece scala de notare nu are proprietatea matematic a intervalelor egale.
18.
Nu pot fi inventate uniti de msur valabile, tipice scalelor de interval, pentru iubire,
fric, simpatie sau depresie.
19.
Funciile cognitive senzaiile, gndirea, memoria se bucur de scale de msur mai
tari dect funciile afective.
20. Numii tipul de scal de msurare reprezentat de categoriile de mai jos, alocnd cifrele 1, 2, 3 i 4
pentru scalele nominal, ordinal, de interval i de raport: scala Celsius, scala Kelvin,
numrul de pe uile camerelor unui hotel, ordinea de sosire la maraton, scorul la acest test QUIZ,
presiunea sanguin, genul i greutatea. (Se acord punctul pentru minimum 5 rspunsuri
corecte din cele 8 posibile.)

27

CAPITOLUL 3
DISTRIBUII I FRECVENE

Pentru determinarea celor mai importani indicatori statistici avem nevoie de


frecvene. n domeniul variabilei, fiecare mrime are un numr de reprezentani, numit
efectiv. n statistic efectivul se numete frecven sau frecven absolut. Cnd frecvena
este transformat n procente, ea se numete frecven relativ i este foarte util pentru
compararea, de exemplu, a dou colective diferite ca mrime, i aceasta pentru c
transformarea n procente pstreaz echivalena i proporia n ce privete distribuia i
caracteristicile ei.
3.1.

Ordonarea i gruparea datelor

Cea mai mare parte a operaiilor i procedeelor de lucru care urmeaz a fi prezentate
mai jos sunt extrem de mult facilitate de programele de prelucrare automat a datelor pe
calculator, de tip SPSS sau SAS. Ele fac parte din abc-ul statisticii, fiind primele ordonri i
prelucrri ale datelor brute, la sfritul crora distribuiile respective i dezvluie o parte din
caracteristicile de suprafa, adic cele vizuale.
Le vom prezenta detaliat, pentru c ele reprezint moduri de lucru practice, uor de
executat ntr-o diversitate de situaii concrete, ca un preambul al unor prelucrri ulterioare mai
sofisticate. Parcurgnd aceti pai vom putea sesiza fora pe care instrumentul statistic l poate
da muncii noastre, deoarece el ordoneaz, triaz, clasific datele, forndu-le s i dezvluie
semnificaiile. De aceea operaiile iniiale de ordonare i de grupare a datelor ar trebui s
devin operaii de rutin pentru oricine este interesat s dea muncii sale rigoare tiinific. Iat
scorurile brute la un test de vocabular (Recombinare Verbal) culese la biei i fete de 14 ani
din eantionul care a fost utilizat pentru etalonarea acestui test:
Biei

Fete

57 56 48 36 24 23 28 23 33 26 16

57 56 45 35 36 43 26 34 46 24 25

53 34 22 34 34 42 34 25 24 29 18

53 55 55 48 43 48 35 36 27 27 26

60 33 51 40 47 36 36 29 26 22 14

60 62 44 57 70 36 38 35 28 31 19

52 34 60 61 56 34 22 28 30 23 34

52 53 56 49 46 37 48 33 27 19 29

51 64 37 33 36 28 35 19 18 15

51 58 44 51 38 48 26 36 22 25 15
28

Avem nevoie de o foaie de hrtie cu liniatur matematic, format A4, de o rigl i un


creion, la care vom putea aduga ulterior un minicalculator cu panou statistic, ca instrumente
i materiale uzuale de lucru. Foaia de hrtie va fi mprit prin 3 linii orizontale, trasate pe
lungul ei, n 3 panouri (registre) de lucru, pentru biei, fete i total. Observm c cea mai
mic valoare de scor (Xmin) este la biei 14 i la fete 15, iar cea mai mare (Xmax) 64 la biei i
70 la fete. Prin urmare fiecare ptric de pe linia de baz va fi numerotat de la 11 la 70,
avnd grij ca aceast numerotaie s fie identic pe toate cele trei registrele, pentru a le putea
nsuma ulterior pe vertical. Dup aceea descrcm primul tabel pe primul registru al foii,
sub care vom scrie Biei, al doilea tabel n al doilea registru, sub care vom scrie Fete, fcnd
un x s-au un punct n ptrica corespunznd scorurilor care se descarc, la valoarea
corespunztoare de pe linia de baz.
La sfritul operaiei vom numra frecvenele corespunztoare fiecrui scor de la 11 la
70 i numrul va fi trecut sub ptrica corespunztoare fiecrui scor, att la biei, ct i la
fete i total (care rezult din nsumarea pe vertical a frecvenelor pentru fiecare scor).
Inspecia vizual evideniaz urmtoarele aspecte:
- amplitudinea scorurilor (Xmax - Xmin) uor diferit pentru cele dou categorii: 64 - 14 = 50, la
biei i 70 - 15 = 55, la fete;
- aglomerarea datelor mai accentuat n prima jumtate (spre stnga), cu o mai mare densitate
pe zona central (34, 36 i 37), la biei; o repartiie spre dreapta a datelor fetelor;
- bieii au o singur frecven maxim (la 34 sunt 7 cazuri), n timp ce fetele au dou (la 36 i
48, cte 4 cazuri). Prima ntrebare care se pune este dac pentru anumite tratamente statistice
(alctuirea unui etalon) datele trebuie tratate separat sau mpreun, iar rspunsul l putem afla
condensnd informaia pentru a fi vizualizat, dup ce vom grupa datele.
Pentru a determima mrimea intervalului de grupare reinem cteva reguli de lucru:

Vom prefera nu mai puin de 5 - 7 intervale i nu mai mult de 20. Pentru gruparea
datelor, uzual se folosesc ntre 9 i 15 clase.

Pentru determinarea mrimii intervalului, amplitudinea mprtierii se mparte la


cteva din mrimile dorite ale intervalului, pentru a vedea cte clase rezult i se alege
aceea care se apropie cel mai mult de numrul de clase considerat convenabil.

Ca mrime a intervalului este preferabil s folosim numere impare (3, 5 sau 7), pentru
a avea ca valori centrale de interval numere ntregi.

29

Primul interval este bine s nceap cu un multiplu al mrimii lui. De exemplu


intervalele de lungime 3 pot ncepe cu 3, 6 sau 9, cele de lungimea 5 pot ncepe cu 5,
10 sau 15 etc.
n cazul nostru, dac am dori s avem intervale din 3, atunci rezult 55/3 = 15

intervale, iar dac am dori intervale de 5, atunci ar rezulta 55/5 = 11 intervale. Pentru c avem
o distribuie relativ mic, optm pentru a doua variant. Delimitm prin linii verticale clasele
astfel obinute (10-14, 15-19, 20-24,, 70-74) i n dreptul fiecreia vom trece n mijlocul
clasei i n partea ei de sus frecvenele clasei respective, rezultate prin nsumarea valorilor
individuale din interiorul fiecrui interval (1, 5, 8, 8, ..., 0, pentru biei; 0, 3, 2, 10, , 1,
pentru fete).
Trebuie inut cont c percepia noastr opereaz din ce n ce mai greu cu intervale care
depesc 20, chiar dac mrimea populaiei i lungimea spectrului de variaie ar impune-o. De
aici recomandarea de a nu avea nici prea puine intervale (prin gruparea datelor se pierde o
parte din informaia primar, pentru c nu se mai cunoate exact valoarea msurat a fiecrei
observaii), i nici prea multe (sunt mai greu de manevrat i de sesizat perceptiv), de unde
regula deja enunat a celor 9 -15 clase de grupare a datelor.
Sturges (citat de Rotariu et al.,1999, p. 33) propune o formul de lucru pentru aceast
operaie prin care se determin numrul intervalelor de grupare, lund n calcul amplitudinea
variaiei i numrul de cazuri:

X max X min
1 3,222 log N

(3.1)

Utiliznd formula lui Sturges, se obine urmtorul tabel orientativ pentru stabilirea numrului
de interval (clase) de grupare:
Tabel 3.1. Numrul de interval de grupare dup formula lui Sturges.
Nr. de observaii
Nr. de clase

15-24
5

25-44
6

45-89
7

90-179
8

180-359
9

360-719
10

720-1500
11

Aplicat n cazul nostru, pentru biei, i = (64-14)/(1+3,322 log54) = 50/6,755 = 7,40; pentru
fete vom avea i = (70-15)/(1+3,322 log55) = 55/7,77 = 7,21. Pentru numrul de cazuri ale
distribuiei noastre am avea teoretic nevoie de 8 intervale. S reinem i regula practic a celor
9 - 15 intervale, care realizeaz un bun echilibru ntre nevoia de condensare a datelor i aceea
de a avea pierderi de informaie ct mai mici.
3.1.1. Limitele de grupare
30

n cazul variabilelor continue, cel mai adesea raportm clasele la nite numere ntregi,
care constituie limitele de raportare a acestora. n cazul variabilei continue care este
nlimea, de exemplu, putem avea clasele 125-129, 130-134, 135-139 etc. Ce se ntmpl
ns cu nlimile de 129,54 sau 134,82, care par a cdea n golurile dintre clase? Deoarece
limitele de raportare nu acoper n ntregime domeniul variabilelor continue, trebuie s se
defineasc nite limite exacte, asfel nct, respectnd regula de rotunjire, valorile interclase s
fie uor de alocat la una dintre clase. Aceste limite au deci dou funcii: a) reconstituie
continuitatea variabilei, nemailsnd goluri i b) servesc drept baz de calcul pentru
determinarea unor puncte speciale de pe linia valorilor variabilei, numite quantile, cum ar fi
mediana, centilele, decilele sau oricare alt punct percentil.
n acest sens trebuie precizat c fiecare interval are o limit superioar (ls) i o limit
inferioar (li). De exemplu, intervalul 125-129 se exprim matematic astfel, n funcie de cele
dou limite: [125,5; 129,5], sau 125,5-129,5.
3.1.2 Centrele intervalelor
Centrul unui interval, notat cu Ci, este valoarea situat n mijlocul intervalului
respectiv i se determin astfel Ci = (li + ls)/2. Aplicnd aceast formul la exemplul nostru,
intervalul 124,5-129,5 are drept centru valoarea 127, ceea ce justific preferina pentru
intervalele de numr impar, care dau o valoare ntreag pentru centrele lor. Celelalte centre de
interval se pot determina extrem de uor ulterior, pentru c ele sunt multipli ai lungimii
intervalului, deci n cazul nostru vor fi: 127, 132, 137 etc. Aproximarea prin centrele
intervalului creeaz posibilitatea ca toate valorile care aparin unui interval s fie tratate n
calcule ca egale cu centrul acestuia, de unde posibilitatea erorii pe care gruparea datelor o
introduce, lucru de care am vorbit anterior.
Se poate dovedi matematic c aceast grupare satisface criteriul matematic al celei mai
mici erori. Important de menionat este i faptul c, cu ct intervalul este mai mare, cu att
mrimea acestei erori va crete.
3.2.

Histograma i poligonul frecvenelor

Dup ce am vzut modul practic de lucru pentru cele dou reprezentri grafice ale
frecvenelor, s avertizm asupra faptului c exist precauii speciale privind mrimea
diagramei rezultate n raport cu spaiul de lucru al foii (problem rezolvat corect cu ajutorul
computerului), ca i localizarea punctului de mijloc sau trasarea figurilor.

31

O problem care merit atenie o reprezint raportul dintre nlimea i limea


diagramei, care de regul este de 60%. Vom recunoate n aceasta o problem real, deoarece
ea face posibil minciuna statistic, dup expresia lui Smith: manevrnd (intenionat sau nu)
acest raport, se poate accentua sau aplatiza o pant de cretere a unui indicator pentru a sugera
ceva ce realitatea nu confirm.
Histograma d o imagine n scar a distribuiei, fiind cea mai potrivit reprezentare
a datelor ordinale, discontinue, caz n care ntre bare trebuie s existe mici spaii pentru a
sugera discontinuitatea. Ea este la fel de mult utilizat i pentru datele continue, de interval,
caz n care barele verticale apar unite ntre ele. Ca i poligonul frecvenelor, histograma este
informativ n legtur cu forma distribuiei, cu simetria ei, dar este mai puin adecvat s
exprime boltirea (aplatizarea acesteia), deoarece am vzut c raportul dintre unitile de
msur de pe abscis i de pe ordonat poate fi modificat n funcie de opiunea cercettoului.
Cea mai bun redare a datelor de interval o constituie poligonul frecvenelor, fie ele
brute, fie cumulate. Diferena este nu numai de form (scalar - la histogram, linii drepte
care unesc ntre ele puncte - la poligon), ci este dat de chiar asumpia lor de baz, aceea c la
histogram toate valorile dintr-un interval sunt egale ntre ele ca frecven, i egale cu
valoarea centrului de interval, n timp ce la poligonul frecvenelor datele tind s se grupeze de
o parte i de alta a acestei valori centrale.
Histograma ofer o imagine mai clar a numrului de cazuri din fiecare interval, dar
d o imagine cu totul confuz cnd pe aceeai linie de baz se redau, pentru comparaie, dou
sau mai multe distribuii. n acest caz este evident c poligonul frecvenelor apare ca mult mai
indicat, comparaia putndu-se face fie n valori absolute (cnd nu exist diferene prea mari
numeric ntre cele dou distribuii), fie n frecvene relative (procentuale), caz n care
comparaia devine posibil, deoarece distribuiile sunt redate proporional.
De asemenea poligonul frecvenelor poate s se refere la frecvenele brute simple sau
cumulate, dar i la cazul frecvenelor relative simple sau cumulate, cnd se obine aa-numita
ogiv a lui Galton.

32

20

160
140
120
100
80

10

Frequency

60
40
Std. Dev = 21.99

20

Std. Dev = 13.20

Mean = 132.2

Mean = 35.1

N = 1408.00

N = 54.00

0
5.
17
0
5.
16
0
5.
15
0
5.
14
0
5.
13
0
5.
12
0
5.
11
0
5.
10
.0
95
.0
85
.0
75
.0
65
.0
55
.0
45

15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0

RVBAIETI

MF_Metoda+Fisa

Figura 3.1. Dou histograme ale frecveelor brute pentru o distribuie foarte mare i una mic.

Cnd numrul indivizilor din cele dou grupuri difer foarte mult apare o problem de
comparaie grafic: deorece disparitatea este foarte mare, se pune problema unei scale care s
le cuprind pe amndou, asfel nct s fie pe deplin perceptibil distribuia mai mic, n
condiiile n care cea mai mare nu depete nite limite rezonabile. n acest caz este foarte
util conversia frecvenelor brute n frecvene relative, situaie n care apare ca i cnd am
avea dou distribuii cu un numr egal de cazuri, i anume 100, ariile celor dou poligoane,
forma curbei i dispersia devenind pe deplin comparabile. Transformarea procentual este
extrem de simpl. Iat un exemplu preluat din Guilford (1978, p. 34).
Tabelul 3.2. Frecvenele brute i relative pentru dou grupuri.
Scoruri
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
Suma

f1

1
0
3
5
6
14
7
11
4
N1 = 51

f2
8
32
48
29
18
14
5
5
0
1
N2 = 160

33

p1

2,0
0,0
5,9
9,8
11,8
27,5
13,7
21,6
7,8
= 100,1

p2
5,0
20,0
30,0
18,10
11,20
8,8
3,1
3,1
0,0
0,6
= 99,9

Pe coloana f1 sunt 51 de cazuri. Prin regula de trei-simpl tim c dac un 1 caz din 51
reprezint x din 100, atunci x are valoarea 1100/51 = 1,96. Acest numr (1,96) devine
factorul de multiplicare pentru toat coloana respectiv (f1), ceea ce va da coloana p1 (p de la
procente). La fel se va proceda pentru coloana f2 (unde factorul de multiplicare este 1100/160
= 0,625) din care se va obine coloana p2.
Datele din tabel se convertesc ntr-o imagine grafic prin care cele dou poligoane ale
frecvenelor devin direct comparabile. Aa cum rezult din diagram, este evident c al doilea
grup are valori medii mult mai mari dect primul, suprapunerea dintre ele find foarte mic;
forma amndurora este asimetric, primul fiind deplasat spre stnga, al doilea spre dreapta;
grupul al doilea este mai omogen dect primul (are un singur punct care concentreaz
frecvena maxim, numit mod, n jurul cruia se repartizeaz celelalte valori, n timp ce
primul grup are dou cocoae, adic dou zone de acumulare a cazurilor); frecvena
maxim este apropiat procentual la ambele grupuri. Comparaia evideniaz elocvent faptul
c acestea sunt dou grupuri foarte diferite, care trebuie tratate statistic separat.
3.3.

Frecvenele cumulate

Dup ce am stabilit intervalele i le-am ntabelat astfel nct valorile inferioare s fie
amplasate jos i cele superioare sus, dup ce am stabilit limitele inferioare i superioare pentru
fiecare interval i centrul fiecrui interval (atunci cnd avem nevoie s lucrm cu aceste
coloane), urmtoarea coloan (fb) va fi alocat frecvenelor brute. Ele se pot obine fie printr-o
coloan special de bife, n care se descarc datele brute, fie prin procedeul de lucru cu care
am deschis acest capitol: trasarea liniei de baz, cu toate valorile i frecvenele
corespunztoare, apoi stabilirea claselor i a frecvenelor din fiecare clas.
Pe urmtoarea coloan se trec frecvenele brute cumulate (fbc), apoi frecvenele relative
(fr) i frecvenele relative cumulate (frc), dup procedeul exemplificat anterior. Modul cum
apar datele ntabelate pentru bieii din eantionul de etalonare la testul de Recombinare
Verbal, dup modelul descris anterior, poate fi analizat n Tabelul 3.3 de mai jos.
Determinarea frecvenelor cumulate, fie ele brute sau relative, se obine extrem de simplu
printr-o adunare succesiv, ce pleac de jos n susul coloanei respective. Raiunea acestei
operaii este aceea de a ti numrul exact de cazuri care cad sub un anumit punct, adic
punctul care este limita de sus a intervalului (sau procentul, n cazul frecvenelor relative).

Tabelul 3.3. Valorile frecvenelor brute i relative, simple i cumulate, pentru biei la RV.
Frecvene

34

Frecvene

Scoruri
clase

Limite
exacte

65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14

64,5-69,5
59,5-64,5
54,5-59,5
49,5-54,5
44,5-49,5
39,5-44,5
34,5-39,5
29,5-34,5
24,5-29,5
19,5-24,5
14,5-19,5
9,5-14,5

Punctul
central
X

67
62
57
52
47
42
37
32
27
22
17
12

Frecvene
brute

brute
cumulate

Frecvene
relative

relative
cumulate

fb
0
4
3
4
2
2
6
11
8
8
5
1
N=54

fbc
54
54
50
47
43
41
39
33
22
14
6
1

fr
0
7,4
5,6
7,4
3,7
3,7
11,1
20,4
14,8
14,8
9,3
1,8
=100

frc
100
100
92,6
87
79,6
75,9
72,2
61,1
40,7
25,9
11,1
1,8

Numr
interval

fb X
0
248
171
208
94
84
222
352
216
176
85
12
=1868

12
11
10
9
8
7
6
5
4
3
2
1

Se ncepe cu prima clas de pe coloana fb, ce are n cazul nostru frecvena 1, care va fi
trecut ca atare pe coloana fc; la a doua clas 1+5 = 6 (frecvena anterioar cumulat cu cea a
clasei respective), valoare care se i trece n rubrica corespunztoare. Valorile urmtoare, de
jos n sus, vor fi 6+8 = 14, apoi 14+8 = 22 i aa mai departe, pn la clasa din vrf unde,
dac operaia a fost executat corect, vom regsi numrul total al eantionului nostru (N=54),
ceea ce constituie chiar procedeul de control al acurateei calculelor.
Pentru coloana frecvenelor cumulate procedeul este similar, cu meniunea c pot
aprea i valori zecimale (care se pot rotunji la o zecimal), iar valoarea din vrf trebuie s fie
100, sau ct mai aproape de aceast valoare, acesta fiind i procedeul practic de verificare a
corectitudinii n lucru.
3.4.

Histograma i poligonul frecvenelor cumulate

Histograma cumulativ arat ce adaug fiecare nou frecven celei precedente, de sub
ea. Ca i n cazul histogramei obinuite construcia ei se face tot cu bare sau dreptunghiuri,
fiecare adugat colului din dreapta sus al celui precedent, ca n imaginea de mai jos. Unind
diagonalele stnga jos - dreapta sus din fiecare dreptunghi, se obine poligonul frecvenelor
cumulate, care n cazul de fa evideniaz urmtoarele aspecte:

Curba este progresiv cresctoare i nu nregistreaz inversiuni sau ntoarceri, deoarece


frecvenele cumulative sunt valori pozitive progresiv cresctoare, exceptnd situaia
frecvenelor zero.

Linia de sus nu este dreapt, dei tinde spre orizontal.

Cnd distribuia noncumulativ (obinuit) este simetric, cea cumulativ are o form
foarte apropiat de litera S.
35

Figura 3.2. Poligonul frecvenelor cumulate i ogiva lui Galton.


Sursa: Guilford i Fruchter, 1978, pp. 37 i 39.

Ogiva lui Galton este de fapt o curb construit plecnd de la frecvenele relative
cumulate. n mijlocul fiecrei clase se trece un punct, corespunznd frecvenei relative
cumulate a clasei respective, iar n final se traseaz o curb care nu trece exact prin fiecare
punct, ci este ajustat astfel nct s ia forma cea mai regulat n raport cu punctele
respective (fig. 2). De aceea forma ei de S este mai bine reliefat ca n cazul precedent, iar
cnd distribuia noncumulativ este simetric, acest lucru este cu att mai evident.
n cazul nostru se remarc o bun regularitate pentru prima jumtate a ogivei i un
deficit sau lips n partea ei superioar, dat de asimetria distribuiei noncumulate. O raiune
pentru care se ajusteaz ogiva, cnd acest lucru se poate face n mod rezonabil, este aceea de a
nivela anumite iregulariti ale distribuiei ce ar rezulta dintr-un numr prea mic al cazurilor
din eantion cu scopul de a ti cum ar arta de fapt distribuia probabil a populaiei mai largi.
Deoarece pentru fiecare punct al curbei se poate determina numrul cazurilor care cad
sub el, ogiva lui Galton poate servi la construirea etaloanelor prin procedeul centilelor sau al
decilelor.
3.5.

Criterii de evaluare vizual a formei distribuiilor

Pentru evaluarea de ansamblu a caracteristicilor unei distribuii exist o multitudine de


posibiliti, dintre care unele mai elementare, bazate pe inspecia ei vizual, iar altele mai
elaborate, care condenseaz sub form numeric precis aceste caracteristici. Acestea din
urm vor fi abordate ulterior, cnd vor fi prezentai indicatorii formei unei distribuii care sunt
simetria i boltirea.

36

O distribuie poate fi simetric, atunci cnd cele dou cozi ale sale se repartizeaz
simetric n raport cu tendina central care este media. Dar ea poate fi asimetric spre stnga,
situaie n care cel mai mare volum de date se aglomereaz spre latura stng, astfel c creoda
(coada) stng a distribuiei este mai scurt dect cea dreapt. O asemenea distribuie se
cheam pozitiv. Situaia invers este cea a datelor aglomerate spre dreapta, unde creoda
stng este clar mai lung dect cea dreapt. O asemenea distribuie se cheam negativ.
Exist i situaii n care anormalitatea distribuiei este mai mult dect evident, atunci
cnd ea este una trunchiat, n form de i sau de j, situaii n care modul este repartizat n
extrema stng, respectiv n cea dreapt a distribuiei, ca n exemplulal doilea de mai jos.
F2 Anorexie

CEDA total
100

50
48

45

35

90
43
40
38
37

60

30
25 26

30
27

40

2020
17

15

12

10

Std. Dev = 9.63

10 10

Mean = 12.8
4

66
57

22

20

Frequency

80

Frequency

40

N = 424.00

47
40
28

20

22
15

Std. Dev = 3.73


14

9 10 7 6

Mean = 3.6
N = 424.00

.5
21.5
20.5
19.5
18.5
17.5
16.5
15.5
14.5
13.5
12.5
11.5
10
5
9.
5
8.
5
7.
5
6.
5
5.
5
4.
5
3.
5
2.
5
1.
.5

.0
57.0
55.0
53.0
51.0
49.0
47.0
45.0
43.0
41.0
39.0
37.0
35.0
33.0
31.0
29.0
27.0
25.0
23.0
21.0
19.0
17.0
15.0
13.0
110
9.0
7.0
5.0
3.0
1.

F2 Anorexie

CEDA total

Figura 3.3. Dou distribuii asimetrice stnga dintre care cea de a doua este trunchiat (n i ).

n afar de simetrie, inspecia vizual a unei histograme ne ajut s vedem dac


boltirea (excesul) distribuiei este una normal, adic dac distribuia este suficient de nalt
(normocurtic) sau dimpotriv prea joas (prbuit, cu deficit), situaie n care ea se numete
platikurtic. Dac distribuia este prea ascuit, adic prea nalt, adic acumuleaz un exces
de frecvene pe zona central, ea se numete leptokurtic. n figurile de mai jos, ambele
distribuii sunt asimetrice, una negativ, alta pozitiv, i ambele sunt leptokurtice (cu exces), la
cea care red nlimea excesul fiind mai accentuat dect la cea care red greutatea.

37

Inaltime

Greutate

350

350

352

331
300

300

250

227

200

150

264

250

255

232

223

200

154

188

177

150
133
100

50
0

Std. Dev = 9.02

56 54
18

Frequency

Frequency

100

Mean = 117.5

31

20

N = 1559.00

107

93

70

50

Std. Dev = 4.33


Mean = 22.3
29

0
12.0

16.0

0
2.
14 . 0
8
13 . 0
4
13 . 0
0
13 . 0
6
12 . 0
2
12 . 0
8
11 . 0
4
11 . 0
0
11 . 0
6
10 . 0
2
10
.0
98
.0
94
.0
90
.0
86
.0
82
.0
78

14.0

20.0
18.0

24.0
22.0

28.0
26.0

32.0
30.0

N = 1539.00

17
36.0
34.0

Figura 3.4. Dou distribuii cu asimetrii n sensuri opuse, dar ambele leptokurtice.

n unele situaii, inspecia unei reprezentri grafice a distribuiei evideniaz n mod


clar dou aglomerri de date, adic faptul c ea este bimodal (are dou moduri, modul fiind
indicatorul statistic ce indic valoarea de scor cu ceea mai mare frecven). O asemenea
situaie este prezentat n exemplul de mai jos, care este o histogram ce red grafic
distribuia pentru variabila nlime pentru un lor de biei i de fete. Prezena a dou moduri,
i implicit a dou cocoae, sugereaz eterogenitatea populaiei eantionului pentru variabila
respectiv i deci necesitatea de a identifica i trata statistic separat cele dou grupuri.
PSC Inaltimea
25

25

25

20
19
15

15

11

Frequency

10

16
14 14
12

10

8
6

5
3 3

5
3

Std. Dev = 8.54


Mean = 171.7
2 N = 205.00

0
4.
192.0
19 .0
0
198.0
186.0
18 .0
4
182.0
180.0
18 .0
8
176.0
174.0
17 .0
2
170.0
178.0
16 .0
6
164.0
162.0
16 .0
0
168.0
156.0
15 .0
4
152.0
15

Figura 3.5. O distribuie bimodal (cu dou cocoae) pentru variabila nlime.

Atragem atenia asupra faptului c distribuiile cu dou sau mai multe moduri sunt cu
att mai probabile cu ct ele sunt mai reduse numeric. Bi- sau multimodalitatea nu indic
ntotdeauna necesitatea de a trata separat grupurile eterogene dintr-o distribuie, ci i nevoia
de a lrgi suficient de mult eantionul. Dac i n cazul unui eantion extins se pstreaz cele

38

dou aglomerri de date, atunci separarea grupurilor este cu att mai necesar cu ct distana
dintre moduri (i implicit eterogenitatea) este mai mare.
3.6. Exerciii i aplicaii practice
1. Trasai poligoanele frecvenelor pentru biei, fete i total, efectivele de la testul de
Recombinare Verbal din curs, lund pe linia de baz clase de interval 10, mrimea un
centimetru, de la 10 la 70, iar pe vertical din unu n unu pentru fiecare ptric de caiet de
matematic, pentru biei i fete, i din 2 n 2 pentru total.
2. Iat urmtoarele scoruri nregistrate la o prob:
25

33

35

37

55

27

40

33

39

28

34

29

44

36

22

51

29

21

28

29

33

42

15

36

41

20

25

38

47

32

15

27

27

33

46

10

16

34

18

14

46

21

19

26

19

17

24

21

27

16

Pentru prelucrarea primar a acestor date parcurgei toate etapele descrise n curs:
desenai linia de baz a scorurilor, determinai frecvenele pentru fiecare valoare individual a
variabilei, stabilii intervalele de grupare a datelor (din 5 n 5), ntabelai rezultatele cu toate
rubricile de la exemplul anterior din curs i apoi trasai poligonul frecvenelor brute (simpl i
cumulat) i poligonul frecvenelor relative (simple i cumulate). Comentai rezultatele.
3. Artai pe scurt care sunt asemnrile i deosebirile dintre histogram i poligonul
frecvenelor ca mijloace de reprezentare i vizualizare a datelor.
4. Comentai asemnrile i deosebirile dintre cele dou distribuii ale stimei de sine
pentru biei i fete aa cum rezult ele din histogramele de mai jos.
Stima de sine total

Stima de sine total

Baieti

Fete

22

22

20

18

18

16

16

14

14

12

12

10

10

5 5

4
2 2
-60.0 -40.0 -20.0

Std. Dev = 30.03


Mean = 28.9
N = 102.00

-70.0 -50.0 -30.0 -10.0

10.0

0.0

30.0

20.0

50.0

40.0

16
14

70.0

60.0

Std. Dev = 30.58


Mean = 22.8

2
-50.0

N = 104.00

-30.0 -10.0
-20.0

Stima de sine total

39

-60.0 -40.0

Stima de sine total

-70.0

80.0

6
2
0

13
11

4
2
0

10

Frequency

Frequency

20

21

18

10.0

0.0

30.0

20.0

50.0

40.0

70.0

60.0

80.0

CAPITOLUL 4
INDICATORI AI TENDINEI CENTRALE

Statistica i-a conturat un numr de indicatori, adic de valori ataate variabilelor


continue, care s exprime sintetic informaia coninut de distribuia respectiv. Unii dintre
acetia se refer la ceea ce se ntmpl pe centrul distribuiei - indicatori ai tendinei centrale,
sau de poziie -, alii la mprtiere, adic la ceea ce se ntmpl spre extremele seriei de
variaie. Exist i o a treia categorie de indicatori, mai puin importani, care se refer la
forma distribuiei.
4.1.

Media aritmetic

Exist mai multe tipuri de medie (aritmetic, geometric i armonic; medie simpl i
medie ponderat), dar cea mai cunoscut i utilizat n statistic este media aritmetic.
Acesteia i se mai spune i media, sau valoarea medie i se noteaz cu un x barat ( x), pentru a
o distinge de notaia cu x a variabilei. Media este acea valoare care se obine mprind suma
tuturor indivizilor care compun populaia statistic la numrul acestora dup una din cele dou
formule echivalente de mai jos:
N

X
i 1

(4.1)

adic:
X

X 1 X 2 X 3 ... X n
N

(4.2)

(4.3)

n care X este media, simbolul grecesc nseamn sum de (unele notaii prefer utilizarea
lui S de la Sum), X este fiecare dintre scorurile msurate, iar N este numrul acestora. Prima
formul este complet explicit matematic, deorce Xi desemneaz o singur msur observat,
fiecare din seria de msurtori X 1, X2, X3, , Xn, adic prima, a doua, a treia i respectiv a n-a
msurtoare. Acest lucru este indicat de semnele de sub i de deasupra simbolului pentru a
arta c valorile nsumate (desemnate de Xi) merg de la primul la ultimul element din irul N
de valori. Dar, deoarece formula a doua este mai uor de neles i de citit fr simboluri
adiionale, optm pe tot parcursul lucrrii de fa pentru acest al doilea tip de scriere, mai
sintetic, dar mai puin complet matematic. Formulele de mai sus i gsesc echivalentul
urmtor pentru datele ordonate:
X

kX
N

40

(4.4)

formul care spune c este mai simplu s nmulim frecvenele k ale unei valori cu ea nsi de
k ori, dect s o adunm cu ea nsi de k ori. Aceasta este o formul aplicabil deci datelor
ordonate, n care variabila ia valori individuale precizate, toi indivizii statistici ai populaiei
respective contribuind la generarea mediei prin valorile lor determinate prin msurtoare. De
aceea formulele (1) i (3) dau valori exacte ale mediei, fr pierdere de informaie.
Cnd datele sunt ordonate, dar i grupate n k clase (intervale), utilizm pentru
determinarea mediei urmtoarea formul:
X

f1c1 f 2 c2 ... f n cn
f c f c ... f n cn
11 2 2
f1 f 2 ... f n
N

(4.5)

unde cu k se noteaz numrul de interval, cu f frecvena fiecrui interval, cu c centrele de


interval, iar cu N numrul de observaii, care de fapt este suma frecvenelor din fiecare
interval de clas. Deoarece n media final nu se mai regsesc exact valorile individuale, ele
fiind aproximate prin centrele de interval, pentru fiecare clas n parte, aceasta se mai numete
i media ponderat a centrelor intervalelor, fiind mai puin precis, deoarece n acest caz
exist o pierdere de informaie. De exemplu, factorul b din testul de personalitatea HSPQ
Cattell d urmtoarele valori pe lotul de eantionare:
9 6 9 9 10 8 9 9 8 8 7 7 8 10 10 9 7 7 6 8 5 6 8 6 9 7 5 8 8 6 8 7 6 3 8 7 7 8 8 6 6 3 8 5 5 6
4 7 2 5 7, la biei i:
8 10 8 9 7 8 8 7 8 10 8 7 9 8 8 10 7 10 4 8 7 5 7 6 8 9 6 7 5 8 7 6 9 7 3 4 4 7 7 5 7, la fete.
Pentru biei, N = 52, X = 363, deci media este 363/52 = 6,98. Pentru fete, N = 41,
X = 294 i media este 294/41 = 7,17. Dac vom reuni cele dou populaii, lucru posibil
deoarece diferena mediilor lor nu este statistic semnificativ (testarea semnificaiei diferenei
fiind una dintre importantele aplicaii ale mediei aritmetice, cum vom vedea ulterior), vom
obine un numr total N = 52 + 41 = 93, X = 363 + 294 = 657 i media X = 657/93 = 7,06,
adic o valoare care se afl ntre cele dou medii.

xx
xx
_____________________x xx x xx
variabile X
0 1 2 3 4 5
frecvene f
0 0 1 2 1 6
produsul fX
0 0 2 6 4 30
media X pentru eantionul de biei:

x
xx
xx
xx
xx
6
9
54

xx
xx
xx
xx
xx
7
10
70

41

x
xx
xx
xx
xx
xx
xx
8
13
104

x
xx
xx x
xx xx________________________
9 10
7
3
N = 52
63 30
fX = 363
363/52 = 6,98

S remarcm faptul c distribuia noastr este uor asimetric, deplasat spre dreapta
(adic negativ, cum se va vedea ulterior), valoarea central numit mod fiind 8, cu frecvena
de 13, iar media este foarte aproape de 7 (6,98). n calculul mediei este evident utilitatea
formulei 3, pentru datele ordonate. Mediana, adic valoarea de scor care mparte distribuia n
dou jumti a cte 21 de cazuri, va cdea undeva ntre 6 i 7, pentru care frecvenele
cumulate sunt 19, respectiv 29.
Not: modalitile de lucru pentru determinarea medianei i a modului, ca i indicatorii
formei distribuiei sunt tratai n partea a doua a acestui capitol.

___________________________ xx
variabile X
0 1 2 3 4
frecvene f
0 0 0 0 2
produsul fX
0 0 0 0 8
media X pentru eantionul de fete:

x
xx x
xx xx
5 6
5 3
25 18

xx
xx
xx
xx
xx
xx
7
12
84

x
xx
xx
xx
xx xx xx
xx xx xx________________________
8 9 10
11 4 4
N = 41
88 36 40 fX = 294
294 / 4 = 7,17

Remarcm c valorile mediei (7,17), medianei (aflat ntre 6 i 7) i modului (7) sunt
foarte apropiate pentru cele dou eantioane, singura valoare care este uor diferit fiind
amplitudinea mprtierii R (de la englezescul Range), ceva mai mare la biei dect la fete
(8, comparativ cu 6). Acestea sunt argumente suficient de puternice pentru a reuni cele dou
eantioane n unul singur i a le trata statistic n comun, determinnd principalele valori ale
tendinei centrale, ceea ce poate constitui o sarcin pentru portofoliul de evaluare.
Media aritmetic are cteva proprieti remarcabile:

Ea este o mrime la care particip toate valorile variabilei respective.

Media se exprim n aceleai uniti de msur n care sunt exprimate i valorile


variabilei respective.

Suma abaterilor valorilor de la medie este ntotdeauna nul, adic (X X) = 0, ceea


ce constituie de fapt o a doua definiie a mediei aritmetice. Aceasta conduce la cea mai
remarcabil nsuire a ei, aceea de a fi centrul de greutate al ntregii serii de valori al
unei distribuii, de unde i marea sa importan ca indicator care concentreaz cel mai
bine datele. Din punct de vedere fizic putem compara irul de frecvene al unei
distribuii cu o bar gradat de lungime R (egal cu amplitudinea mprtierii) de care
42

sunt atrnate greuti la fiecare gradaie Xi, egale ca mrime cu frecvena f. Media va fi
pivotul, punctul de sprijin care realizeaz echilibrul perfect, fiind singura valoare
relativ la o distribuie pentru care suma abaterilor de la ea este zero. De aceea
expresia (X X)/N, numit momentul de gradul nti (prin analogie cu momentul
forei din fizic), va interveni, prin ridicare la puterea a doua, a treia i a patra, n
calculul dispersiei, simetriei i a boltirii curbei.

Aceasta datorit faptului c suma deviaiilor ptratice de la medie este cea mai mic
prin comparaie cu deviaia de la oricare alt indicator ca mediana, de exemplu
(Guilford i Fruchter, 1978, p. 54).

Din acest motiv media este considerat indicatorul cel mai strns legat de eantion ca
ntreg, ea respectnd principiul matematic al celor mai mici ptrate. Aceasta este
raiunea pentru care calculul abaterii standard i al dispersiei se sprijin pe medie i nu
pe median.

Media aritmetic rmne neschimbat dac valorile frecvenelor se nmulesc sau se


mpart cu acelai numr.

Media poate fi calculat chiar dac nu cunoatem distribuia caracteristicii respective,


ci numai suma valorilor ei.

Media poate fi o valoare pe care nu o ia nici un individ statistic, ba - mai mult - poate
s nu fie reprezentativ sau s nu aib sens la nivelul indivizilor concrei (Rotariu et
al., 1999). Este de ajuns s exemplificm cu costurile medii de producie, care se pot
exprima n lei i fraciuni ai acestuia (cndva retrai din circulaie), cu dimensiunea
medie a unei familii, care poate da fraciuni dintr-o persoan, sau chiar cu nlimea
medie a unui grup, neregsibil ca atare la niciunul dintre membrii acelui grup.

Aceasta duce la concluzia c, chiar dac media este o valoare care cade ntotdeauna n
interiorul seriei de variaie, adic ntre valoarea minim i cea maxim, ea nu este
neaprat i valoarea cea mai tipic sau mijlocie a seriei respective. Uneori ea poate
mpri acest serie n dou pri foarte inegale. Astfel, dac vom considera 5
coeficieni de inteligen: 68, 84, 90, 100 i 160, media lor este 100,40 sub care cad 4
valori i doar una deasupra.

Aceasta nseamn c media aritmetic aduce doar o parte din informaia necesar
interpretrii unei distribuii, deci c este nevoie i de ali indicatori ai tendinei centrale
i ai mprtierii pentru a avea o idee mai complet despre aceasta. Pentru a-i cita pe
Rotariu (1999) media, ca orice indicator, nu poate reflecta dect o parte din

43

informaia surprins n caracteristic i este evident c, cu ct populaia este mai


omogen, cu att media va reproduce mai mult din aceast informaie (op. cit., p. 46).
Determinarea mediei este foarte util n cercetarea psihopedagogic n cteva situaii:

Pentru a localiza o valoare dintr-o distribuie. Nota 7 la matematic este una slab n
clasele primare, dar una bun la o clas realist de liceu, nivelul mediu al performanei
fiind foarte diferit pentru cele dou colectiviti.

n comparaia unor grupuri independente (necorelate este termenul consacrat n


statistic) sau al unor grupuri corelate. Lotul martor i lotul de control, faza de pre-test
i de post-test al unui aceluiai eantion presupun obligatoriu determinarea mediei i a
abaterii standard pentru ca, prin comparaiile statistice, loturile iniiale s fie egalizate
pentru a se putea surprinde impactul variabilei independente asupra celei dependente.

Cnd un eantion a fost supus mai multor surse de variaie sistematic, se calculeaz
media asociat cu fiecare dintre strile sursei respective, pentru a se putea
descompune variaiile nregistrate n mai multe efecte, ce urmeaz a fi analizate
fiecare sub raportul ponderei n efectul final (regresia simpl i multipl).

n analiza itemilor unui test, pentru a vedea dac acetia se supun unor exigene de
construcie (vezi Clocotici i Stan, 2000, pp. 56-57).
4.2. Mediana
Pentru a evita confuziile legate de acest indicator, uor de definit, dar care ridic

destule probleme cu determinarea sa n variate situaii concrete, vom spune c mediana nu


este nici un scor, nici o frecven sau vreo alt msur particular, ci este un punct aflat pe
scara msurtorilor, sub i peste care se afl exact jumtate din numrul cazurilor.
Determinarea medianei (Me, Med sau Mdn) presupune deci ca o condiie prealabil
ordonarea cresctoare sau descresctoare a datelor furnizate de indivizii ce compun populaia
statistic respectiv. Locul pe care l ocup mediana n acest ir ordonat de date este dat de
urmtoarea formul de lucru:
Md

N 1
2

(4.6)

Iat, de exemplu, urmtorul ir ordonat al unor msurtori: 2, 4, 7, 8, 9, 10, 14. Deoarece


numrul lor este impar (N+1)/2 este (7+1)/2 = 4, deci mediana este a patra valoare din ir,
adic 8, deoarece ea mparte irul n dou jumti egale. Iat i un alt exemplu de msurtori:
7, 9, 10, 11, 13, 15, 17, 21. Deoarece numrul total este par (8), vom avea Md = (8+1)/2 = 4,5;

44

deci mediana se afl la jumtatea distanei dintre a 4-a i a 5-a valoare, adic ntre 11 i 13 i
aceasta nu poate fi dect 12.
Procedeul pare a fi foarte simplu, dar intervin o mulime de situaii particulare mai
greu de rezolvat. Iat un alt exemplu al unui ir ordonat de valori: 11, 11, 11, 11, 13, 13, 13,
15, 17, 17. Sunt 10 valori, deci mediana va trebui s fie situat la distana de (10+1)/2 = 5,5
fa de unul din capete, ori acesta se afl ntre 13 i 13! Este evident c vom avea nevoie de
un alt raionament, care va introduce n calcul limitele de interval, conform crora 11 se afl
amplasat n intervalul situat ntre 10,5 i 11,5; 12 n intervalul 11,5 i 12,5; 13 n intervalul
12,5 i 13,5 etc. Deoarece avem deja primele patru valori, care sunt 4 de 11, mai avem nevoie
doar de una pentru a putea determina punctul median. n intervalul 12,5 13,5 avem 3 valori
de 13; o singur valoare nseamn o treime din acest interval, adic 1/3 = 0,33, valoare care se
adaug la limita lui inferioar. Deci punctul median va fi 12,50+0,33 = 12,83 = Md.
Determinarea medianei din datele grupate presupune un procedeu de lucru care se va
regsi i la determinarea cuartilelor, centilelor sau a decilelor, adic la ceea ce n statistic se
cheam cuantile. Iat o parte din datele cuprinse n capitolul precedent:
Tabelul 4.1. Procedeul practic pentru determinarea medianei (N = 54).
Limite
exacte

Frecvene
brute

Frec. brute
cumulate

Frec. brute

65 - 69

64,5 - 69,5

54

11

60 - 64

59,5 - 64,5

54

10

55 - 59

54,5 - 59,5

50

50 - 54

49,5 - 54,5

47

11

45 - 49

44,5 - 49,5

43

13

40 - 44

39,5 - 44,5

41

15

35 - 39

34,5 - 39,5

39

21

30 - 34

29,5 - 34,5

11

33

32

25 - 29

24,5 - 29,5

22

40

20 - 24

19,5 - 24,5

14

48

15 - 19

14,5 - 19,5

53

10 - 14

9,5 - 14,5

54

Nr.

Scoruri clase

12

cumulate

Md = 29,5 + (54/2-22)5/11 = 29,5 + 55/11 = 29,5 + 25/11 = 31,77


Md = 34,5 (54/2-21)5/11 = 34,5 - 65/11 = 34,5 - 30/11 = 31,77

45

n acest caz, formulele de lucru pentru determinarea medianei plecnd de jos n sus,
respectiv de sus n jos, sunt urmtoarele:
Md li (

n care:

N
i
fc )
2
fi

(4.7)

Md ls (

N
i
fc )
2
fi

(4.8)

li i ls reprezint limitele inferioar, respectiv superioar, ale intervalului median


reperat;

fc este totalul frevenelor cumulate situate sub el (prima formul) sau deasupra lui (a
doua formul);

fi este frecvena corespunztoare intervalului localizat n care se afl mediana;

N este numrul de cazuri;

i este mrimea unui interval.


n cazul nostru N/2 = 54/2 = 27, valoare care cade n intervalul 29,5-34,5. Deoarece

valoarea frecvenelor cumulate este de 33 i aceasta o depete cu 6 pe cea cutat de noi


(27), aceasta nseamn c va trebui s plecm de la frecvena cumulat a intervalului imediat
inferior (22), la care s adugm prin interpolare o anumit valoare, corespunztoare celor 2722 = 5 cazuri care ne mai lipsesc. Iat raionamentul, prin regula de trei-simpl: dac pentru
totalul de 11 cazuri, care este frecvena intervalului localizat pentru median (fi) avem o
lungime a acestuia de i = 5, pentru cele 5 cazuri care ne mai trebuie avem nevoie proporional
de 55/11 = 2,27 uniti care se vor aduga limitei inferioare a intervalului median: 29,5+2,27
= 31,77, corespunznd punctului median cutat.
Iat deci n rezumat paii necesari interpolrii punctului median, care se vor regsi ca
procedeu de lucru n determinarea oricrei cuantile, unde n loc de N/2 vom pune quota
cutat:
1. Se gsete N/2, adic jumtate din numrul cazurilor care corespund distribuiei date.
2. Se stabilete de jos n sus, prin cumularea frecvenelor, locaia intervalului n care se
afl mediana.
3. Se determin prin scdere de cte cazuri mai avem nevoie pentru a atinge N/2 cazuri.
4. Se mparte acest numr la numrul cazurilor din intervalul superior (median).
5. Se multiplic rezultatul cu mrimea intervalului de clas n care s-a fcut gruparea.
6. Se adaug acest rezultat la limita de jos a intervalului unde a fost localizat mediana.
7. Se verific de sus n jos, prin procedeul descris de la paii 2 la 5 inclusiv, cu meniunea
c:

46

8. Valoarea gsit se scade din limita de sus a intervalului ce conine mediana. Dac toate
calculele au fost fcute corect, atunci rezultatele vor fi, evident, identice.
Iat paii 7 i 8 pentru exemplul nostru: N/2 = 27 i clasa care este cel mai apropiat ca
valoare este, de sus n jos, cea care are, prin cumulare, 21 de cazuri; deci ne mai trebuie 27-21
= 6 cazuri; 65/11 = 2,73 i 34,5-2,73 = 31,77, adic obinem aceeai valoare a punctului
median.
n determinarea medianei pot fi posibile i situaii speciale:

Situaia (norocoas) cnd nu mai este nevoie de nici o interpolare, deoarece jumtate
din totalul cazurilor cutate se regsesc, pe coloana frecvenelor cumulate, n
ntregime ntr-o anumit clas, a crei limit superioar (cnd venim de jos n sus) este
chiar mediana. De exemplu, dac n clasa 24,5-29,5 am fi avut frecvena cumulat
54/2 = 27, atunci mediana ar fi fost 29,5.

Situaia n care mediana cade ntr-un interval care are zero cazuri, mediana se ia
arbitrar ca mijloc al acestui interval, dei aceast estimare este brut i susceptibil
de o anumit eroare, care este cu att mai mare cu ct intervalul de grupare este mai
mare, dar este bun pentru intervale mici de 2, 3 sau chiar 4 uniti.

Situaia cnd mai multe intervale din zona medianei au frecvena zero, nu se poate
face nici o estimare corect a acesteia, dei s-ar putea lua ca median punctul mijlociu
al acestor intervale cumulate de frecven zero.
Toate aceste precauii sau artificii devin inutile prin prelucrarea automat a datelor pe

calculator, care are algoritmi de lucru pentru a rezolva o mare diversitate de situaii. Singura
precauie care totui mai rmne este aceea de ti s operm corect cu semnificaia
termenului, n circumstane adecvate.
4.3.

Modul

Modul (Mo) este valoarea care are cea mai mare frecven, deci cea care
caracterizeaz individul tipic al populaiei statistice respective. Ea este foarte uor de reperat
pe un poligon al frecvenelor, unde modul corespunde punctului de maxim al acestei linii. n
cazul distribuiilor discontinue, nominale sau ordinale, modul este categoria cu cea mai mare
frecven, dar n cazul distribuiilor continue, acestea evideniaz deseori distribuii zigzagate, cu mai multe vrfuri care au nlimi egale sau apropiate. De aceea este necesar s
grupm datele, care vor evidenia acum cu mai mult pregnan un interval modal (intervalul
cu frecvena maxim).

47

Exist distribuii unimodale (cu o singur valoare sau interval ce ating o frecven
maxim), bimodale i multimodale (curbe cu mai multe vrfuri sau cocoae egale sau foarte
apropiate ca mrime), la prima categorie omogenitatea fiind mai mare dect la celelalte. n
cazul distribuiilor bimodale, cu ct distana dintre cocoae este mai mare, cu att distribuia
respectiv este mai puin omogen i deci mai atipic, punndu-se problema identificrii celor
dou grupuri eterogene pentru a fi tratate statistic separat.
4.4.

Comparaie dintre medie, median i mod n funcie de distribuie

Aa cum am mai spus, media este pivotul sau centrul de greutate al ntregii distribuii.
Deoarece mediana face abstracie de distana fiecrui caz fa de tendina central, ea nu poate
avea calitatea de centru de greutate al distribuiei. S menionm c relaia dintre cei trei
indicatori de poziie, media, mediana i modul, iese cel mai bine n eviden pentru
distribuiile asimetrice, deoarece n cele normale ele tind s se suprapun, dnd diferene
neglijabile. De altfel, aceast tendin la suprapunere a celor trei indicatori ai tendinei
centrale este un important aspect ce ajut la identificarea normalitii unei distribuii.
i n distribuia de mai jos, asimetric negativ (deplasat spre dreapta), dar i n una
asimetric pozitiv (deplasat spre stnga), exist o distan nsemnat ntre medie i mod,
mediana fiind n ambele situaii mai aproape de medie dect de mod, i anume la o treime din
distana existent ntre acestea. Media se afl ntotdeauna pe creoda (coada) mai lung a
distribuiei, n timp ce modul este cel mai uor de reperat, fiind valoarea de scor cu cea mai
mare frecven, adic vrful distribuiei (sau vrfurile ei, atunci cnd sunt prezente mai multe
moduri).

Figura 4.1. Relaiile dintre medie, median i mod nrtr-o distribuie asimetric dreapta.

48

Figura 4.2. Relaiile dintre medie, median i mod n distribuii cu asimetrii inverse.

De aceea cele trei valori ale poziiei vor interveni n calculul unor indicatori ai formei
distribuiei, n spe simetria sau oblicitatea (skewness). Pentru distribuiile asimetrice, modul
este raportat cel mai adesea cnd exist un interes pentru cea mai probabil valoare sau
interval, n rest media i mediana sunt considerate a fi cei mai relevani indicatori, deoarece
fiecare aduce o informaie specific, iar din mrimea diferenei dintre cei doi indicatoriei i a
sensului acestei diferene se pot trage concluzii n legtur cu mrimea i sensul asimetriei.
Distribuiile trunchiate sunt unele foarte atipice, care au un vrf ascuit al frecvenelor
la una dintre margini i se mai numesc i distribuii n i sau n j, n funcie de sensul i de
orientarea cozii (creodei) curbelor. Ele sunt relativ frecvent ntlnite n pedagogie, unde un
test de cunotine poate fi trecut sau czut de aproape toi elevii sau studenii, n funcie de
dificultatea lui sau de timpul alocat rezolvrii (de unde i teoria nvrii depline).
n ambele tipuri de distribuii trunchiate, media nu mai este o valoare reprezentativ
pentru tendina central, deoarece o bun parte din valorile unei extreme lipsesc i atunci este
preferabil s folosim ca indicatori doar mediana i eventual modul, care i el i pierde
semnificaia de indicator al tendinei centrale, deoarece este situat foarte excentric.
500

350

472

335
300

308

400
388

250

251

300

200

292

194
174

150

200
153

88
Std. Dev = 3.71

50
44

51

Frequency

Frequency

100

Mean = 18.5
N = 1464.00

0
4.0

8.0
6.0

12.0
10.0

16.0
14.0

20.0
18.0

24.0

100
Mean = 8.5
N = 1464.00

0
1.0

22.0

Std. Dev = 1.50

89
50
2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0 10.0

1.Motricitate grosiera

5.Limbaj

Figura 4.3. Comparaie dintre o distribuie asimetric negativ i o distribuie trunchiat n J.

49

4.5. Cteva concluzii relative la indicatorii distribuiei univariate

Separat sau mpreun, media i mediana sunt cei mai utilizai indicatori ai tendinei
centrale ai unei distribuii.

n distribuiile perfecte cei doi indicatori se suprapun i sunt foarte apropiai n cele
simetrice.

n cazul distribuiilor asimetrice, media tinde s se situeze ctre valorile extreme, spre
dreapta sau spre stnga, n sensul cozii asimetriei. n aceeai situaie mediana ofer o
imagine mai bun a centrului distribuiei, rmnnd mai apropiat de ramura mai
scurt a asimetriei.

n unele situaii un bun remediu ar fi eliminarea valorilor extreme sau aberante ale
distribuiei (vezi criteriul 1,5 IQR, descris de Clocotici i Stan, 2000, pp. 66-67). Este
considerat ca fiind extrem orice valoare care se situeaz la o deprtare mai mare de
1,5 abateri intercuartilice n raport cu prima, respectiv a treia cuartil i aberant atunci
cnd distana este de mai mult de trei cutii.

Folosirea mediei este preferat n cazul distribuiilor simetrice sau relativ simetrice, cu
utilizrile deja menionate anterior.

Distribuiile asimetrice, sau cele ce au frecvent valori atipice (valori extreme i


aberante, adic outlieri sau parazii statistici) impun folosirea prioritar i uneori
exclusiv doar a medianei, n cadrul unor statistici ordinale, deoarece valorile atipice
pot afecta profund media.

n funcie de cei doi indicatori fundamentali exist procedee distincte de construire a


baremelor psihologice. Pentru datele ordinale sau pentru distribuiile asimetrice se va
prefera mediana, etalonarea fiind n uniti de arie (cuartile, decile sau centile); pentru
cele simetrice i pentru scalele de interval sau de raport se pot construi etaloane de mai
mare finee i precizie, n uniti standardizate z, lund ca i repere fundamentale
media i abaterea standard.

Concluzionm c media este implicat n procedee statistice mai elaborate, tipice


scalelor de interval sau de raport, cum ar fi regresiile sau transformrile liniare.
Aceasta deoarece ea este riguros definit, uor de calculat i repede de adus spre
tratamentul algebric. Ea propune cea mai bun estimare a parametrului central al
populaiei respective, att fa de median, ct i fa de mod.

50

Modul rmne cea mai tipic valoare individual i de clas pentru variabilele
nominale i ordinale, cu o utilitate incomparabil mai restrns fa de ceilali doi
indicatori de poziie, media i mediana.
4.6. Exerciii i aplicaii practice
La un extemporal aplicat la dou clase paralele s-au nregistrat urmtoarele note:
X
10
9
8
7
6
5
4
3
2
1

f
5
7
8
6
8
5
3
2
1
1

fc

X
10
9
8
7
6
5
4
3
2
1

N
Mod
Median
Medie

f
5
7
8
6
8
5
3
2
1
1
46
6
7
6,80

N
Mod
Median
Medie

fc
46
41
34
26
20
12
7
4
2
1

1. Completai coloana frecvenelor cumulate.


2. Trasai poligonul i histograma frecvenelor brute.
3. Determinai valorile pentru indicatorii de poziie (indicatorii tendinei centrale).
4. Reprezentai grafic pe diagrama de la punctul 2 media, mediana i modul.
5. Comentai rezultatele facnd referin la forma distribuiei.
6. Cum ai utiliza histograma din figura b de mai jos pentru a determina mediana?
10

10

9
8

Frequency

Count

0
1

10

Note

2
1

2
1

1.0

2.0

Std. Dev = 2.25


Mean = 6.8
N = 46.00

0
3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Note

Rezolvare pentru punctul 3: sunt dou valori modale, scorurile 6 i 8 avnd efectivele
maxime, de cte 8 cazuri.

51

Media este egal cu: (105 + 97 + 88 + 76 + 69 + 55 + 43 + 32 + 21 + 11 )/46 =


313/46 = 6,80.

Mediana se afl ntre valoarea a 23-a i a 24-a de rang. De jos n sus, pe linia
frecvenelor cumulate, cea mai apropiat valoare de a 23-a (fr a o depi) este a 20a, corespunznd scorului de 6. Rangurilor 21, 22, 23, 24 i 25 le corespunde scorul de
7 i deci mediana este 7.
Comentarii pentru punctele 5 i 7: distribuia obinut este una negativ (asimetric

spre dreapta, cum indic i curba supra-imprimat de pe histogram). Ea are dou valori
modale, 6 i 8, cu efective de cte 8 cazuri, dar cele dou moduri sunt la mic distan unul
de altul, semn c distribuia este una relativ omogen. Pentru aceasta pledeaz i faptul c
media i mediana au valori foarte apropiate (6,80, respectiv 7), ele fiind chiar la jumtatea
distanei dintre cele dou moduri.
Fiind marcate, barele permit uor identificarea celei mai apropiate valori de scor pn
la care frecvenele cumulate se apropie cel mai mult de a 23-a valoare, fr a o depi. Ea
este scorul 6, deci valoarea imediat urmtoare (7) este mediana. Rangurile pentru scorul 8
sunt de la 27 la al 34, ele depind punctul median.
4.7. Quiz
1. Ce msur a tendinei centrale este mai potrivit atunci cnd:
a. Distribuia are scoruri extreme sau scoruri lips?
................................
b. Avei nevoie de o estimare rapid a tendinei centrale a distribuiei? ................................
c. Avei nevoie s utilizai valoarea cea mai stabil de la un eantion la altul ...........................
2. O distribuie unimodal cu modul 20 i media 25 este un exemplu de (putei avea dou
opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
3. O distribuie cu mediana 27 i cu media 29 este probabil o distribuie (pot fi dou opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
4. Folosind regulile de rotunjire, raportai cu precizie de dou zecimale urmtoarele 5 numere:
a. 23,85492
b. 3,8751
c. 3,33333
d. 75,66666
e. 101,4999
---------------------------------------------------------52

5. ntr-o cercetare ce avea ca indicator mrimea fratriei s-au obinut urmtoarele rezultate:
X
f
fc
7
1
6
0
5
2
4
3
3
7
2
10
1
25
0
74
Determinai indicatorii tendinei centrale i comentai pe scurt rezultatele obinute.
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
6. ntr-o distribuie care este asimetric spre stnga:
a. Media este mai mare dect mediana.
b. Media este mai mic dect mediana.
c. Media este egal cu mediana.
d. Media, mediana i modul se suprapun.
7. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea mai multe
opiuni):
a. Distribuia este asimetric (stnga sau dreapta).
b. Cnd distribuia este ordonat cresctor sau descresctor.
c. Cnd distribuia are numeroase goluri (valori de scor lips).
d. Cnd distribuia are valori atipice sau extreme.
e. n toate situaiile anterioare (a, b, c, d).
8. ntr-o distribuie asimetric negativ, modul ca indicator al tendinei centrale:
a. Subevalueaz media i mediana.
b. Este aproximativ egal cu media i mediana.
c. Supraevalueaz media i mediana.
d. Subevalueaz doar media, dar nu i mediana.
9. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea dou
opiuni):
a. Distribuia reprezint o variabil nominal.
b. Distribuia reprezint o variabil categorial.
c. Distribuia reprezint o variabil ordinal.
d. Distribuia reprezint o variabil real numeric asimetric sau cu valori extreme.
10. Media nu va fi un indicator concludent al tendinei centrale atunci cnd (putei avea mai
multe opiuni):
a. Variabila este una discontinu (discret).
b. Variabila este una categorial.
c. Variabila are valori atipice sau extreme.
d. Variabila are un numr mic de scoruri (sub 20).
e. Variabila este tipic unei scale de raport.
53

11. Putem face inferene (extrapolri de la eantion la populaie) pentru:


a. Medie.
b. Median
c. Mod.
d. Pentru medie, median i mod.
12. Modul este un indicator de poziie util pentru c d o aproximare rapid a tendinei
centrale.
a. Adevrat
b. Fals.
13. Mediana reprezint percentilul 50.
a. Adevrat
b. Fals.
14. Alegei varianta cea mai corect pentru enunul care urmeaz mai jos.
n esen mediana reprezint:
a. Un scor.
b. O frecven.
c. Un punct de pe linia scorurilor care mparte frecvenele variabilei n dou pri egale.
d. Locul n care amplitudinea scorurilor se taie n dou jumti egale.
15. Centrul de greutate al unei distribuii este dat de:
a. Median
b. Medie
c. Mod

d. Medie i median n egal msur.

16. Selectai din coloana din dreapta toate literele corespunztoare elementelor pe care le
considerai caracteristice celor trei indicatori ai tendinei centrale, trecndu-i n spaiul punctat
de sub fiecare.
Indicator
Mod
a
............................. b
............................
c
Median
d
............................ e
............................ f
Medie
g
............................ h
............................ i

Caracteristic
Este cea mai tipic valoare a unei distribuii.
Este cea mai indicativ valoare pentru raportul omogenitate/
eterogenitate.
Este cea mai vulnerabil la outlieri.
Este cea mai util n distribuiile asimetrice.
Este mai aproape de coada distribuiei n distribuiile asimetrice.
Este util pentru distribuiile care au la extreme valori de tietur
convenionale.
Nu este influenat de valorile atipice sau extreme.
Este o estimaie nedistorsionat a parametrului omonim al populaiei.
Este cea mai rapid i facil determinare a tendinei centrale.

17. n distribuiile mici (putei avea dou opiuni):


a. Modul este un indicator instabil deoarece sunt posibile mai multe valori modale.
b. Media i pierde reprezentativitatea pentru populaia din care a fost extras.
c. Mediana este profund distorsionat i de aceea va fi preferat media.
d. Media, mediana i modul tind s se suprapun.
18. n privina stabilitii, ordinea pentru indicatorii de poziie este (de la cel mai puin stabil la
cel mai stabil):
a. Medie, median, mod
b. Median, medie, mod
c. Mod, medie, median
d. Mod, median, medie.

54

CAPITOLUL 5
MSURI ALE VARIABILITII

Cunoaterea tendinei centrale ne spune foarte mult despre un set de date, dar nu poate
s ne dea o imagine de ansamblu asupra grupului investigat. Dac am avea de exemplu dou
grupuri cu coeficienii medii de inteligen de 103, am putea concluziona asupra faptului c
un grup, luat ca ntreg, este tot att de inteligent ca i cellalt grup, n sensul n care QI-ul o
indic, sau vom atepta ca ele s aibe aceeai performan medie colar sau s se comporte
similar oriunde factorul inteligen este implicat ntr-un mod important. Dar iat c primul
grup nregistreaz valori de la 93 la 113, iar al doilea de la 75 la 125, deci primul este cu mult
mai omogen dect al doilea. Este de aceea de presupus c primul grup va fi mult mai uor de
instruit, n sensul de a putea transmite cunotinele i achiziiona noile idei n acelai ritm,
ceea ce nu se poate spune i despre eterogenul grup de comparaie.
Este foarte pertinent observaia lui Clocotici i Stan (op. cit., p. 63) cnd afirm c
valoarea informaional a unui indicator statistic trebuie apreciat dintr-o tripl perspectiv:
istoric ce s-a ntmplat la un moment dat sau ntr-o situaie dat; comparativ pentru a
putea raporta situaiile similare unele la altele; predictiv ce putem presupune despre
evoluia viitoare a unui fenomen, plecnd de la cunoaterea evoluiei lui de pn la un moment
dat.
Toate aceste argumente sunt importante pentru a arta c, aa cum la tendina central
am cutat cel mai potrivit numr care s o exprime ct mai bine, avem nevoie s lum n
calcul n aceeai form sintetic i ceea ce se petrece spre extremele distribuiei, adic relativ
la mprtiere, pentru a obine indicatori adecvai studiului algebric. n principiu, acetia ar
trebui s condenseze mult informaie, s fie uor de calculat i s se bazeze pe ct mai multe
(dac nu pe toate) dintre observaiile efectuate.
Ataai indicatorilor de poziie, cei de dispersie msoar gradul de mprtiere al
indivizilor ce compun o populaie statistic, n cadrul seriei de valori pe care le iau. Ei vor fi
indicativi pentru raportul omogenitate/eterogenitate n legtur cu caracteristica dat. Uneori,
cnd variabila reflect scri valorice sau ierarhii acceptate social, ca inteligena, venitul etc.
aceti indicatori reflect gradul de inegalitate dintre indivizi. i ntr-o situaie i n cealalt ei

55

reduc gradul de indeterminare (variabilitate) al unui fenomen, fcnd posibile att comparaia,
ct i predicia.
5.1.

Amplitudinea mprtierii

Cea mai simpl msur a mprtierii, dar i cea mai srac, este cu siguran
amplitudinea mprtierii, care se definete ca diferen dintre cea mai mare i cea mai mic
valoare, dup formula:
AI = R (Range) = Xmax Xmin

(5.1)

Amplitudinea mprtierii se mai noteaz i cu AI sau V, dar noi am preferat s utilizm


simbolul R (de la englezescul Range), pentru c l ntlnim ca atare n softul de specialitate.
Deficiena fundamental a acestui indicator este aceea c el ia n calcul doar dou
valori din seria de variaie, i anume cele extreme, ntre care celelate valori pot nregistra
distribuii extrem de diferite. Mai mult, aceste valori extreme pot fi foarte atipice, aberante, n
raport cu restul seriei de variaie i de aceea ele nu vor putea fi indicative n raport cu
populaia respectiv n ansamblul ei. Iat de exemplu dou iruri de note: 6, 6, 7, 7, 8, 8, 8, 9,
9, 10 i 1, 6, 7, 7, 8, 8, 87, 9, 9, 10. n primul caz amplitudinea este de 10-6 = 4, n al doilea de
10-1 = 9, dei diferena o face doar un singur elev (care s presupunem c a fost prins copiind,
fapt pentru care a luat nota 1), n rest grupurile fiind identice.
Atragem atenia c amplitudinea mprtierii nu ine cont de forma distribuiei (una
simetric i alta asimetric, dou distribuii pot avea aceeai amplitudine). Ca o tendin de
ordin foarte general vom remarca i faptul c, cu ct numrul de observaii sau de indivizi
statistici crete, cu att crete i probabilitatea ca spectrul de variaie s fie mai larg. Asfel, un
coeficient de inteligen are probabilitatea de 25% s fie cuprins ntre 100-109, de 16,7% s
fie cuprins ntre 110-119, de 6,3% s fie ntre 120-129 i de doar 2,2% s depeasc 130,
deci trebuie ca ntr-un eantion s fie de cel puin 50 de cazuri pentru a putea spera s ntlnim
pe cineva cu o inteligen de supradotat, adic de peste 130.
Valoarile aberante, cele care modific att de mult acest indicator, relativizndu-l, sunt
considerate astfel nu pentru c variabila nu le-ar putea nregistra, cci cele mai multe dintre
variabile sunt deschise spre ambele extremiti, ci pentru c n raport cu mrimea
eantionului, probabilitatea lor de apariie este una extrem de mic i de aceea ele devin
atipice. nlimea de 200 cm, att de des ntlnit printre bastchetbaliti, este extrem de rar
regsibil n populaia general, cu o probabilitate ce poate fi dedus din tabele. Deoarece
paraziii statistici afecteaz nu numai amplitudinea mprtierii, ci i valorile de poziie, n
special media (pe care o fac inoperant), exist (cum am menionat deja) procedee de
56

detectare i eliminare a unor asemenea valori. Exist i alte procedee de a lsa pe dinafar
valorile aflate spre extreme pentru a surprinde mai bine forma unei distribuii, cum ar fi
utilizarea abaterii intercuartilice sau a celei interdecilice. Menionm faptul c, n ciuda
tuturor inconvenientelor artate, determinarea amplitudinii este primul pas pentru stabilirea
mrimii intervalelor, n operaia de grupare n clase a datelor.
5.2.

Abaterea intercuartilic

Exist o multitudine de procedee prin care o distribuie este mprit n mai multe
pri egale, numite cuantile, acestea putnd fi cuartilele (4 pri), decilele (10 pri) sau
centilele (100 de pri). Vom descrie n capitolul urmtor aceast operaie de gradare pe
curb, foarte important n construirea etaloanelor i a baremelor.
Uzual, dup ce se ordoneaz valorile de la cea mai mic la cea mai mare, se determin
trei puncte de pe linia de baz, notate cu Q1 ,Q2 i Q3, numite cuartilul unu, doi i trei, care au
proprietatea de a mpri ntreaga distribuie n patru pri egale ntre ele. Evident, cuartila a
doua, cea care mparte populaia n jumti, este binecunoscuta median.

Figura 5.1. Poziia cuartilelor Q1, Q2 i Q3, abaterea intercuartilic i cele


patru sferturi rezultate pe o distribuie uor asimetric stnga (pozitiv).
Sursa: Guilford i Fruchter, 1978, p. 64.

IQR = Q3 Q1 = 2Q

(5.2)

AQ = (Q3 Q1)/2 = Q

(5.3)

Vom distinge astfel cuartilul inferior - aflat ntre Xmin i Q1, curtilul mediu-inferior - aflat ntre
Q1 i Q2, cuartilul mediu-superior - ntre Q2 i Q3 i cuartilul superior - ntre Q3 i Xmax.

57

Abaterea intercuartilic (sau amplitudinea intercuartilic) este diferena dintre


cuartila a treia Q3 i cuartila nti Q1 iar abaterea semiintercuartilic Q este jumtatea acestui
interval. n intervalul intercuartilic Q3 Q1 se afl 50% din cazuri, dar ele nu sunt centrate
pe median (Q2) dect dac distribuia este una simetric. Acest lucru poate fi uor sesizat prin
reprezentarea grafic de tip boxplot (adic cutie, vezi Figura 5.2).
Pentru o distribuie normal ntreg spectrul de variaie, desemnat de amplitudinea
mprtierii, are 7,5 abateri cuartile Q i 6 abateri standard (de care vom vorbi ulterior):
R = Xmax Xmin = 7,5Q = 6.
Raportul dintre ele este deci = 7,5Q/6 = 1,25Q. n funcie de tipul de scal de msur
utilizat, n operaia de gradare pe curb, adic de convertire a unor valori ale variabilei n
grade sau n zone egale ntre ele, se pot utiliza fie mediana i abaterea cuartil, fie media i
abaterea standard.
Abaterea intercuartilic ofer i un criteriu de identificare a valorilor aberante criteriul 1,5IQR -, de care am vorbit deja. Prin programul de prelucrare computerizat a
datelor SPSS se obine reprezentarea grafic numit boxplot, n care ntreaga distribuie este
definit prin 5 valori, ca n figura de mai jos: Xmin, Q1, mediana Q2, Q3 i Xmax. Limea cutiei
reprezint 50% din cazuri, n interiorul ei linia median putnd cdea pe centru (ca n
distribuiile simetrice) sau mai excentric, mai aproape de Q1 sau de Q3 (distribuii cu asimetrie
spre stnga sau spre dreapta). Liniile inferioar i superioar (sau mustile diagramei)
reprezint cea mai mic sau cea mai mare valoare care nu este un outlier, adic nu este o
valoare atipic, aflat la o distan mai mare de o cutie i jumtate (1,5 abateri intercuartile)
sau aberant (la o distan mai mare de 3 cutii) de marginile de sus, respectiv de jos ale cutiei.
160
21

140

120

100

BG

80

60
N=

24

33

1.00

2.00

SEX

Figura 5.2. Reprezentarea boxplot a testului Bender-Gestalt (B-G)


pentru genul masculin (1) i feminin (2)

58

n exemplul de mai sus este evident faptul c fetele au o distribuie cu o amplitudine


mai larg i cu o median centrat pe medie, deci cu o bun simetrie pe poriunea
intercuartilic, dar uor alungit pentru ramura superioar a distribuiei, n zona de QI 100135. Asimetria distribuiei este mai evident la biei, unde mediana cade mai aproape de
ramura scurt a distribuiei.
ncercnd s reduc o parte din neajunsurile pe care amplitudinea le introduce n
problema mprtierii, abaterea intercuartilic aduce altele, cci ea las pe dinafar jumtate
din cazuri. Chiar dac ar fi s judecm o distribuie dup ce eliminm valorile extreme i
aberante, sau pe cele aflate sub primul i peste ultimul decil (i cu att mai mult pe cele aflate
sub primul i peste ultimul cuartil), rmne de rezolvat aceeai problem, i anume gsirea
unei valori a dispersiei care, ca i n cazul tendinei centrale, s ia n calcul toate valorile
distribuiei, cu frecvenele corespunztoare. Statisticienii au i propus un astfel de indicator
(indicele lui Gini) prin care se determin o medie a abaterilor fiecrei valori de scor n raport
cu fiecare valoare, costituite ca perechi i luate n valori absolute. Aceasta presupune ns un
volum mare de munc, pe care computerul l poate rezolva rapid, dar rezultatele sunt
discutabile i neconcludente. De aceea s-au imaginat determinri ale mprtierii datelor prin
raportare la o valoare fix, care este cel mai adesea media aritmetic, tocmai pentru c ea este
uor de determinat algebric i ia n calcul toate valorile variabilei. Atunci cnd distribuia nu
este una real numeric (de interval sau de raport) sau este prea mic sau atipic, indicatorul
tendinei centrale ce va fi luat n consideraie va fi mediana.

5.3.

Abaterea medie absolut

Se mai numete i abaterea medie (AM) i se definete ca fiind media aritmetic a


abaterilor absolute de la medie.
AM

X X
N

(5.4)

Pentru datele grupate formula ei este:


AM

k X X
N

(5.5)

n care k sunt frecvenele fiecrei clase. Pentru c n cadrul ei intr fiecare valoare a variabilei
din distribuie, abaterea medie absolut este un indicador al distribuiei mult mai precis dect
amplitudinea mprtierii. Faptul c n ambele formule de mai sus diferena de la medie se ia
59

n modul nseamn c se vor lua n calcul doar valorile absolute, fr a se ine seama de
semnul minus al valorilor negative. Exist i o valoare medie a abaterilor de la median, mai
puin utilizat, dei Yule i Kendall (1969, p. 157) au demonstrat c cea mai mic abatere
medie este atunci cnd folosim mediana, i nu media aritmetic.
n cazul distribuiilor simetrice, n intervalul X 1AM se gsesc aproximativ 57% din
cazuri, comparativ cu 68% care se afl n intervalul X 1. Deci o abatere standard este cu
aproximaie egal cu 1,25 abateri medii.
5.4. Abaterea standard i variana/ dispersia
Abaterea standard sau media ptratic a abaterilor de la medie (s sau ) i dispersia
sau variana (s2 sau 2) sunt msurile cele mai reprezentative ale variabilitii, cu o foarte
larg utilizare. Variabilitatea este de altfel una dintre nsuirile remarcabile ale ntregii materii,
cci universul nsui a evoluat de la primul big-bang (explozia originar) prin difereniere i
integrare progresiv. tefan Lupaco formula chiar un principiu al excluziunii, potrivit cruia
nu pot exista doi atomi identici pe aceeai orbit, deci diferenierea ar ncepe chiar de la nivel
subatomic.
Cu att mai mult lucrurile i fenomenele complexe integreaz elemente care, fiind
diferite, contribuie la diversificarea a tot ceea ce exist, adic la variabilitate. Ideea
diferenelor interindividuale, att de important n psihologie, este prezent nc de la Platon
(Republica) i a gsit o larg recunoatere n opera lui Darwin, la care evoluia speciilor (un
principiu universal al lumii vii) se bazeaz pe selecia, dintr-un vast patrimoniu de caractere
ce compune variabilitatea speciilor (unele ereditare, altele dobndite), doar a acelor elemente
care au o valoare adaptativ.
Dincolo de speculaiile filosofice, variabilitatea interuman ca fapt atestat tiinific
(nici chiar gemenii unizigoi nu sunt identici) este important pentru c permite exprimarea
diferenelor dintre oameni ntr-o manier cantitativ. Variabilitatea uman nu se refer doar la
lucruri simple (timp de reacie, sensibilitate a analizatorilor, discriminri de finee), ci are n
vedere toate nivelurile de analiz, de la cel perceptiv la cel cognitiv superior (unii au o
memorie bun, alii o inteligen superioar etc.), de la structurile cunoaterii la cele ale
afectivitii, voinei sau personalitii, de la individ la grup, de la o vrst la alta, fcnd
posibil exprimarea cantitativ, deci formalizarea matematic i descoperirea de legi.
Din punct de vedere statistic variana sau dispersia este egal cu media aritmetic a
ptratelor abaterilor de la media unei distribuiii ea reprezint msura geometric a suprafeei
de sub curba lui Gauss. Radical din aceasta este Abaterea Standard (AS), care este o nitate de
60

lungime standardizada a liniei ce definite lungimea unei distribuii, adic amplitudinea


mprtierii sale. Ea este notat cu s sau (sigma), AS (Abaterea Standard) sau SD (Sigma
Deviation, n englez) sau chiar cu ET (carte Type, n francez). Cel mai frecvent se
folosete simbolul grecesc , dei n crile de statistic se face diferena dintre populaia n
ansamblul ei i un eantion extras din aceasta (numit de selecie), n raport cu care aplic
simboluri distincte pentru abaterea standard (, respectiv s). Astfel, pentru populaia de baz,
teoretic infinit, se folosete simbolul grec , n timp ce s se refer la o selecie ntmpltoare
din aceast populaie.
Pentru a simplifica lucrurile noi vom folosi doar unul dintre simboluri i anume pe
primul. Furnizm alturat formulele de definiie pentru vriana unei populaii (formula 13) i
pentru o frecven de distribuii a unei populaii statistice (formula 14).
( X ) 2

N
2

(5.6)

f ( X ) 2
N

(5.7)

Cum n realitate statisticianul opereaz pe selecii (eantioane) extrase din aceast


populaie, formulele de definiie pentru varian sunt cele de mai jos.
s2

( X X ) 2
N 1

s2

(5.8)

f ( X X ) 2
N 1

(5.9)

Formula de calcul are la cel de mult ntemeiere matematic ca i cea de definiie,


prezentnd n plus avantajul practic al operrii cu date uor accesibile, ce se pot obine i cu
ajutorul unui minicalculator cu panou statistic.

s2

( X ) 2
N
N 1

X 2

(5.10)

s2

(fX ) 2
N
N 1

fX 2

(5.11)

De aici rezult c cea mai uoar cale de a determina abaterea standard manual
pentru date negrupate este aceea de a obine suma valorilor individuale i suma ptratelor
valorilor individuale i de a le introduce n formula 19, care este rdcin ptrat din formula
17. Acest lucru este valabil i pentru obinerea abaterii standard dintr-o distribuie de
frecvene, formula 20, care este rdcina ptrat din formula 18).
( X )
X
N
s
N 1

(fX )
fX
N
N 1

(5.12)

(5.13)

Dintre toi indicatorii dispersiei cel mai utilizat este cu siguran abaterea standard,
pentru c acesta este cel mai exact, avnd marele avantaj c se exprim, ca i media, prin
61

aceleai uniti de msur ca i datele iniiale pe care le prelucrm. De exemplu, dac datele
noastre se bazeaz pe metri, abaterea standard se va exprima tot n metri iar dispersia n metri
ptrai.
Prin faptul c nu cuprinde radicalul expresiei, dispersia pare mai maniabil i mai
avantajoas. De fapt, abaterea standard ofer cele mai mari avantaje legate de discutarea
distribuiilor normale, facilitnd punerea n legtur a distribuiei obinute cu proprietile
matematice ale celei ideale, exprimat prin curba lui Gauss. Prin faptul c deviaia standard
ridic la ptrat diferenele individuale de la medie, inconvenientele semnelor minus ale
abaterii medii (AM) dispar, pstrndu-se doar proprietile matematice, de unde rigurozitatea
crescut a abaterii standard n raport cu abaterea medie. Ea poate fi folosit n operaii
algebrice n sensul n care o scal de interval sau de raport o permite.
Pe un minicalculator cu panou statistic sunt afiate urmtoarele valori:
N

= numrul de valori (cazuri) introduse;

X = media aritmetic a acestora;

= abaterea standard i 2 = dispersia;

X = suma valorilor individuale;


X2 = suma ptratelor valorilor individuale.
Minicalculatorul indic automat valoarea abaterii standard pentru coloana de date
introduse, dar ofer i posibilitatea deducerii acestei msuri cnd reunim dou eantioane, fr
a introduce de dou ori datele. Aceasta ar presupune o operaie foarte laborioas ce trebuie
fcut cu mare atenie i verificat, deoarece orice eroare de introducere altereaz cele dou
valori fundamentale ale tendinei centrale, media i abaterea standard.
Fie exemplul de la cursul 2:
Biei

Fete

Total

NX

52

NY

41

NX+NY=NZ

93

X
X
X
X2

6,98
1,81
363
2701

Y
Y
Y
Y2

7,29
1,58
299
2281

Z
Z
X+Y=Z
X2+Y2=Z2

7,12
1,71
662
4982

Din date combinate rezult c media total este de 6,98 iar abaterea standard de 1,71.
n concluzie, la determinarea abaterii standard pentru eantioanele reunite este nevoie de suma
ptratelor valorilor individuale i de suma valorilor individuale.

62

5.4.1. Semnificaia abaterii standard


Am fcut deja distincia ntre abaterea standard a unei populaii i cea obinut pe o
colecie de date corespunznd unui eantion dintr-o populaie. Distingem de asemenea
variabilitatea inter-individual (dintre indivizi sau between), cel mai adesea luat n calcul, i
cea intra-individual (within, pentru acelai individ de-a lungul timpului, la examinri repetate
ale aceluiai parametru sau msurtori ale unor parametri diferii).
Marele avantaj al abaterii standard este c n cazul distribuiilor gaussiene simetrice,
ea poate fi luat ca unitate de msur pe abscisa curbei (poligonului sau histogramei)
frecvenelor.

Deoarece X = 25 i = 5, distana dintre 25 i 30 este de o abatere standard (1 = 5


uniti brute), dintre 20 i 30 este de 2 = 10 uniti brute; dintre 15 i 35 este de 4 = 20
uniti brute; dintre 10 i 40 este de 6 = 30 uniti brute.
Deci ntr-o distribuie simetric tipic, obinut pe o populaie extins, exist 3 sub
medie i 3 peste medie, ceea ce se poate scrie R = X 3, n care R este amplitudinea
mprtierii. nseamn c amplitudinea R (range) este egal cu 6 abateri sigmatice i c 1 =
R/6, deci abaterea standard devine unitate de msur pentru ntreaga ntinderea variaiei.
Relaia amintit se verific pe msur ce N crete:
R/ = 4,50

cnd N > 50

R/ = 5

cnd N > 90

R/ = 6

cnd N > 200.

63

De asemenea msoar distana la care se afl o valoare oarecare (brut) n raport cu media.
O distan sau interval dat n cote brute poate fi exprimat n uniti sigmatice, mprind
distana respectiv (X - X) la abaterea standard. Vom avea un punct de referin 0,
corespunznd mediei, i cotele transformate, adic scorurile z, pentru care formula de calcul
n funcie de statisticele eantionului este:

Formula datelor brute ale variabilei exprimat n note z este:

X X

X z X

(5.14)
(5.15)

ntr-o distribuie tipic normal, unde exist 3 abateri sub i peste medie, notele z vor
varia ntre 3 i +3, trecnd prin 0. Cu ajutorul notelor z putem face comparaii directe, ele
reunind cei mai importani indicatori de distribuie (media i abaterea standard), variaiile
diferite fiind aduse la acelai numitor comun.
5.5. Coeficientul de variaie
Dei abaterea standard d o informaie relevant despre gradul de mprtiere al
variabilei n jurul mediei, din care s-ar putea concluziona n legtur cu omogenitatea/
eterogenitatea populaiei respective de date, sau chiar n legtur cu diversitatea i inegalitatea
dintre indivizii statistici care o compun, acest indicator nu poate servi prin el nsui la
comparaii.
Unul dintre avantajele abaterii standard, acela de a se exprima n aceleai uniti de
msur ca ale variabilei respective, este i cel care mpiedic comparaia mai multor abateri
standard ntre ele, cci fiecare se exprim n alte uniti de msur. De exemplu, ar fi greu s
comparm dispersia salariilor exprimate n monede diferite (lire slabe italiene i lire tari
englezeti), sau chiar n aceeai moned la momente de timp diferite (leul slab de la
sfritul a 15 ani de inflaie i leul tare de dup denominaie). O soluie ar fi raportarea la o
moned extern, stabil n timp, dar inflaia lent o poate atinge i pe aceasta.
Pentru a fi posibil comparaia asupra raportului omogenitateeterogenitate ar fi deci
de preferat s avem o valoare amodal (care elimin problema unitii de msur), lucru intuit
de Pearson, care a propus pentru aceasta un indicator numit coeficient de variaie, notat cu V:
V

(5.16)

El reprezint raportul abatere standard/medie i arat de fapt ce fraciune din medie i


corespunde unei abateri standard. Prin faptul c unitile de msur apar i la numrtor i la
numitor, prin simplificare se obine un indicator amodal. Elegana lui este ns subminat de
64

capcanele pe care acesta le presupune: el este aplicabil doar variabilelor msuratede pe scara
de raport (dar i acolo cu pruden), deoarece prin translaia valorilor, originea poate fi astfel
plasat nct media s devin zero, fcnd ca raportul s nu mai aib sens.
5.6. Indicatori ai formei distribuiei
Problema formei distribuiei se pune cu precdere pentru variabilele continue, care
-prin grupare - evideniaz foarte clar distribuiile frecvenelor. Se pune de asemenea pentru
numerele mari, a cror distribuie tinde spre o regularitate din ce n ce mai accentuat odat cu
creterea numeric. ntruct statistica clasic i distribuiile empirice i gsesc un puternic
suport n curba lui Gauss ca model ideal de distribuie, se impune o dubl comparaie:

a jumtii stngi cu cea dreapt a unei curbe, pentru a determina simetria/ asimetria
acesteia, creia i se mai spune i oblicitate (skewness, n englez);

a distribuiei reale cu cea ideal, pentru a determina gradul de suprapunere sau


excesul/ deficitul n sensul supranlrii sau al subnlrii prin indicatorul boltirii
(kurtosis nseamn n englez cocoa).
5.6.1. Coeficientul de asimetrie (skewness) i boltirea (kurtosis)
Pentru a lmuri problema boltirii i a simetriei este nevoie s clarificm noiunea de

moment centrat de un anumit ordin. Aici se evideniaz nc o dat importana mediei ca


indicator al tendinei centrale, deoarece n orice moment, de indiferent ce ordin, intervine
media aritmetic. Astfel:

Momentul centrat de ordinul nti consfinete natura mediei ca centru de greutate al


unei distribuii, deoarece:

(5.17)

Momentul centrat de ordinul al doilea este chiar variana (dispersia):


2

(X X ) 0

(X X )
N

(5.18)

Momentul centrat de ordinul al treilea este indicatorul pentru asimetrie:

(X X )

N 3

asimetrie / skewness

(5.19)

ntr-un fel, raportul X/, ca indicator al coeficientului de variaie, i gsete justifiacarea


n faptul c i pentru asimetrie se introduce la numitor abaterea standard (ridicat la cub
65

pentru a fi n consens cu numrtorul), obinndu-se astfel o mrime amodal i


standardizat. Valorile apropiate de zero indic simetria, n timp ce valorile negative
indic curbele asimetrice prin deplasarea spre dreapta iar cele pozitive spre stnga.

Pentru boltire avem nevoie de momentul centrat de ordinul al patrulea:

(X X )

N 4

3 2 3 kurtosis

(5.20)

n care 2 nlocuiete toat prima parte a expresiei de mai sus (vezi Pitariu, 1994, p. 208).
ntr-o distribuie normal, indicele de boltire 2 este egal cu 3. Atunci cnd kurtosisul ia
valoarea zero, repartiia este numit mezokurtic, dac este mai mare ca zero ea este
leptokurtic (curb nalt, ascuit), iar cnd este sub zero, adic negativ, ea se numete
platikurtic (curb plat, joas sau prbuit). Kurtosisul poate fi determinat i n funcie
(C C25 ) 2 Q 2
de punctele cent
Ku 75

0,2632 (pentru curba mezokurtic).


C90 C10
D
Curba leptokurtic i platikurtic dau valori mai mici, respectiv mai mari dect 0,2632
(vezi Pitariu, op. cit., p. 208). Exemple pentru cele trei tipuri de distribuii sunt prezente n
figura de mai jos.

5.7. Exerciii i aplicaii practice


1. Presupunnd c datele de mai jos reprezint note extrase dintr-o populaie
universitar larg cu media = 6 i abaterea standard = 1,50:
a. Reprezentai grafic distribuia acestor date.
b. Convertii distribuia dat n una X .
c. La pasul urmtor convertii aceast distribuie ntr-o distribuie z.
X= 1 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 5 6 6 7 7 7 7 8 8 8 9 9 10
2. Utiliznd distribuia de la exerciiul precedent determinai notele z atunci cnd X =
4,5, 7,25 i 9.
66

3. Rezultatele unui test de citire pentru clasa a cincea a dat media de 25 i abaterea
standard de 5, n timp ce un alt grup de copii de clasa a opta a obinut la acelai test media de
30 i abaterea standard de 10. Cerine:
a. Reprezentai grafic cele dou distribuii, pe aceeai figur.
b. Ce procentaj din cei de clasa a cincea scoreaz mai bine dect cei de clasa a opta?
4. Calculai media i mediana pentru urmtoarele date:
a. 2 12 27 33 9 21 10 9 6 11 23 25 27 14 10 5
X
152
148
146
138
131
118
105
102

f
3
5
7
5
8
4
3
2

5. Care indicatori ai tendinei centrale sunt mai indicai atunci cnd:


a. avei multe scoruri lips sau destule valori extremen baza de date
b.

dorii o determinare rapid

c. dorii valoarea care este cea mai stabil de la un eantion la altul.


6. O distribuie unimodal cu modul de 44 i media de 35 este un exemplu de
distribuie:

a. asimetric stnga

b. simetric

c. asimetric dreapta.

7. Examinai cu atenie cele patru distribuii de mai jos dup care facei o descriere
detaliat a fiecreia, fcnd referire la mrimea/ volumul distribuiei, la ce se poate spune
dup o inspecie vizual atent n legtur cu indicatorii tendinei centrale, mprtierii i
formei distribuiei.

67

CURSUL 6
INFERENA STATISTIC

6.1. Introducere
Cel mai adesea atunci cnd facem anchete, sondaje, experimente sau teste, avem n
vedere o populaie int mai larg pe care ar trebui s o investigm integral. Practic, de cele
mai multe ori, acest lucru este imposibil din cauza volumului de munc enorm, a costurilor
ridicate, a timpului lung de investigare, a degradrii materialelor i instrumentelor etc. i de
aceea cutm un compromis rezonabil ntre toate acestea i precizia tiinific, alegnd aaanumitul eantion convenabil.
n asemenea cazuri din populaia avut n vedere se extrag eantioane 1, care n
statistic se numesc selecii, termen impropriu dup Smith (1971, p. 29), pentru c el
sugereaz alegerea intenionat selectiv, dup anumite criterii. Ori condiia fundamental n
teoria seleciei este, ca extragerea acestora s se produc la ntmplare, aleator, cci
eantioanele pe baz de ntmplare sunt de nalt improbabilitate (op. cit., p. 3). n final,
concluziile trase de pe asemenea eantioane populaionale sunt extrapolate asupra ntregii
colectiviti vizate prin cercetare, problema care se pune fiind ct ncredere (fundamentat
matematic) putem avea n concluziile noastre.
Orice grup natural intact, luat n compoziia sa dat, poate fi considerat un eantion
extras la ntmplare (dac nu am introdus chiar noi factorii de selecie, aflai sub control
experimental). Aplicnd la mai multe clase de elevi (selecii aleatoare) acelai test, constatm
fluctuaii de la o clas la alta, numite fluctuaii de eantionaj, la nivelul unor procente, medii,
abateri standard etc. n ce msur datele astfel obinute sunt relevante pentru ntreaga
populaie din care lotul de lucru a fost extras este principala problem a inferenei statistice.
Lund ca baz valorile eantionului ales i extrapolndu-le la ntreaga populaie din care el a
fost extras se comite o anumit eroare, a crei valoare evident va trebui s fie ct mai mic.
n psihologie, pedagogie, sociologie multe dintre datele rezultate din msurtoare teste, anchete, chestionare - dac sunt determinate din analiza unor selecii de volum mare i
nedistorsionate (experimental sau natural), tind s se distribuie conform curbei probabilitii
1

Atragem atenia asupra termenului de eantion care, n sens foarte strict, presupune utilizarea unei metode sau a
unui procedeu de eantionare. De aceea este de preferat s folosim termenul de eantion doar n acest caz, n rest
putnd utiliza termenii de lot, grup etc.

68

normale. De aceea noiunile statistice de semnificaie i de ncredere pot fi exprimate n


termeni de probabilitate, prin referire la caracteristicile curbei lui Gauss.

Figura 6.1. Probabilitile producerii evenimentelor statistice asociate suprafeelor curbei gaussiene

Cum se observ, n poriunea haurat


afara acestei zone; n poriunea

1,96 cad 95% din cazuri, 5% fiind n

2,58 cad 99% din cazuri, doar 1% din cazuri fiind n

exteriorul acestui interval (5% i 1% fiind distribuite simetric, n dou jumti egale la
capetele curbei). Prin aducerea oricrei distribuii normale reduse la o distribuie etalon, n
note z (cu o medie zero i o abatere standard de 1) s-a generat un tabel al legii normale
reduse, care ne permite s vorbim de semnificaie i ncredere n termeni de ans i de
probabilitate. Conform acestui tabel exist probabilitatea de 95 la sut ca o valoare s cad n
intervalul

1,96 i de 5 la sut n afara acestui interval; probabilitatea de 99 la sut de a

cdea n intervalul

2,58 i doar de 1 sut n afara acestui interval; de 999 la mie de a

cdea n intervalul

3,3 i numai o ans dintr-o mie de a fi n afara lui.

6.2. nelesul conceptului de semnificaie statistic


O msur obinut ar fi adevrat dac am investiga fie un numr mare de cazuri
(teoretic infinit), fie toate cazurile care o compun. Cum aceasta nu este practic posibil, pentru
c noi operm cu eantioane mai mici, extrase din populaia de baz, media, abaterea standard
sau ali indicatori sintetici obinui sunt de fapt estimri ale msurii adevrate, aceast
estimaie fiind cu att mai bun cu ct este mai stabil, deci cu ct variabilitatea, mprtierea
msurrilor pe diferite eantioane din aceeai populaie este mai mic. A doua condiie este ca
volumul eantionului s fie mare, cci cu ct volumul crete, precizia valorilor msurate crete

69

i ea (dac eantionul este aleator i nedistorsionat). De aceea conceptul de semnificaie


implic att variabilitatea (adic pe ) ct i numrul (N).
6.3. Eroarea standard a unei medii de selecie i semnificaia ei
Este locul s facem distincie ntre variabil i parametru: variabila (termen statistic
consacrat) este cuprins ntre nite limite ale registrului de variaie, care constituie domeniul
ei de definiie, pe care nregistreaz anumite frecvene (domeniul variabilei); foarte adesea ea
este una continu. Prin opoziie, parametrul este o caracteristic constant a unei populaii.
Media nlimii sau a greutii unei populaii sunt parametri, dei din perspectiva genetic
nlimea i greutatea sunt variabile, deoarece ele cresc odat cu vrsta. Dar chiar mediile
acestora variabile pot fi tratate ele nsele ca variabile: atunci cnd vrem s aflm nlimea
unei populaii de 12 ani, putem extrage un numr foarte mare de eantioane din acea populaie
i, reunind mediile (parametrii) diverselor eantioane, vedem c ele se comport ca nite
variabile, pentru c se plaseaz mai strns sau mai larg n jurul unei medii a mediilor,
respectnd legile distribuiei normale (gaussiene). De aceea este posibil s se considere
mediile de selecie (ale eantioanelor) ca variabile aleatorii/ ntmpltoare, s se trateze
mprtierea lor n termeni probabilistici i s se extrapoleze concluziile asupra populaiei de
baz. Abaterea standard a unei asemenea colecii de medii de selecie este denumit eroare
standard a mediei i se estimeaz dintr-un singur eantion extras aleator dup formula:
ES S X

Cnd N este mai mare de 100:

s
N 1

SX

s
N

(6.1)
(6.2)

n care s este abaterea standard de selecie, iar N este numrul cazurilor (volumul seleciei).
Formula Ea este ntrebuinat pentru a estima ct de mult se apropie media de selecie

de

media populaiei totale ().


Exemplu: la testul Domino 48 (D 48) 226 de copii de 15 ani au obinut valoarea medie
a scorului de 41,20 cu o abatere standard de 18.
ES S X

18
18

1,20
225 15

Se poate afirma c pentru un grad de ncredere limitat (pentru 68% din cazuri) media
real se afl ntre 41,201,20, adic ntre 40 i 42,40; c pentru un nivel mai ridicat de
ncredere (pentru 95% din cazuri) media real se afl ntre 41,201,961,20, deci ntre
41,202,35, adic n intervalul 38,85 i 43,55; i n sfrit pentru un nivel de ncredere foarte

70

ridicat (pentru 99% din cazuri) aceast interval este 41,202,581,20, deci 41,203,10, adic
media cade cu o probabilitate de 99% n intervalul 38,10 i 44,40. n primul caz riscul de
eroare este de 100-68,32 = 31,68% (eroare foarte mare), n al doilea caz de 5% (acceptabil)
iar n ultimul caz de 1% (foarte mic, deci foarte acceptabil).
Se obinuiete s se noteze riscul de a grei pe care ni-l asumm fcnd o aseriune sau
alta i pentru aceasta sa-a introdus conceptul de prag sau nivel de semnificaie. Astfel,
intervalul

1,96Sx se numete interval de ncredere la pragul de 0,05 (exist riscul de

eroare de 5% ca adevrata medie s cad n afara acestui interval); intervalul de

2,58Sx se

numete interval de ncredere la pragul de 0,01 (exist risc de eroare doar de 1% din cazuri).
6.4. Eroarea standard a unui cuantum procentual i semnificaia ei
ntr-un studiu am detectat la 6 ani 10 stngaci din 64 de biei investigai i 6 stngace
din 56 de fete. Procentul p al bieilor este de 15,63% iar al fetelor este de 11,11%.
Eroarea frecvenei are urmtoarele valori pentru biei i fete:
Ep S p

15,63 84,37

64

20,60 4,54

la baieti; Ep S p

11,11 88,89
17,64 4,20
56

n care p a fost deja determinat (15,63), iar q este procentajul complementar (q = 100-p, n
cazul nostru q reprezintnd dreptacii); pentru biei q este 84,37 iar pentru fete q este 88,89.
Putem concluziona c pentru biei proporiile reale se afl - la un prag de ncredere de
5% - ntre limitele p1,96Sp n intervalul 15,631,964,54 = 15,638,9, adic ntre 6,73-24,53;
la un prag de ncredere de 1%, ntre limitele p2,58Sp, n intervalul 15,632,584,54 =
15,6311,71, adic ntre 3,92 - 27,34. La fete localizrile proporiilor reale vor fi determinate
n mod analog: 11,111,964,20 = 11,118,23, n intervalul de 2,88 - 19,34, pentru un prag de
ncredere de 5% i 11,112,584,20 = 11,1110,84, n intervalul 0,27 - 21,95, pentru un prag
de ncredere de 1%.
6.5. Sarcini sau probleme de comparaie. Ipoteza de nul
ntr-un exerciiu anterior (aplicaie la cursul 4) pe unul din factorii testului de
personalitate HSPQ 52 de biei aveau

= 9,75 i = 3,15, iar 41 de fete aveau

= 10,56

i = 3,40. Diferena mediilor celor dou grupuri (9,75-10,56 = -0,81), era ea suficient de
mare pentru a afirma c nu sunt datorate hazardului i a construi tabele de norme separat
pentru cele dou sexe? Aceast problem o rezolv testul semnificaiei diferenei celor dou
medii, hotrtor n luarea deciziei. Diferena poate fi semnificativ statistic la un anumit prag
de semnificaie (i atunci tratm separat cele dou grupuri) sau nesemnificativ, adic datorat
71

la fete

ntmplrii. n aceast situaie mrirea numeric a eantioanelor sau alegerea altor eantioane
ar putea nivela, eventual chiar inversa sensul diferenei.
Facem urmtoarele precizri: cu ct numrul de cazuri este mai mare, cu att mai mult
aceeai diferen dintre medii crete n semnificaie; cu ct variabilele sunt mai centrate pe
medie (abaterea standard mai mic), cu att diferenele tind s fie mai semnificative.
a

n cazul a i n cazul b de mai sus, valoarea diferenei mediilor nu este aceeai, dar n
primul caz ea este semnificativ (dispersie mic, ce au n comun cele dou eantioane este
mult mai puin dect ceea ce au ele diferit), pe cnd n cazul b poriunea comun este att de
mare (din cauza dispersiei mari) nct ele pot fi considerate ca fcnd parte din aceeai
populaie i tratate n comun. Calculul semnificaiei diferenei dintre dou medii se face n
funcie de mrimea eantioanelor (mari sau mici) i a faptulului dac sunt corelate ntre ele n
vreun fel sau sunt independente.
6.6. Eantioane necorelate de volum mare. Ipoteza de nul
Limita dintre eantioanele de volum mic i cele de volum mare este mai curnd una
arbitrar, tabelele tratnd difereniat problema pentru o valoare critic a lui N de 30 de cazuri.
Pentru unele tipuri de analize, ca analiza factorial de exemplu, numerele mari nseamn ns
sute, uneori mii de participani.
n legtur cu faptul dac eantioanele sunt independente sau corelate trebuie fcute
cteva precizri importante. n principiu distincia are n vedere faptul c participanii la un
experiment sunt msurai o singur dat sau de mai multe ori pe parcursul aceluiai
experiment. Atunci cnd pentru fiecare condiie experimental este alocat un alt grup de
subieci, acelai subiect neparticipnd la mai multe tratamente experimentale, eantioanele se
numesc independente. n acest caz n rezultatul final al interveniei vor interveni cu ponderi

72

diferite dou surse majore ale variabilitii datelor, una care se refer la tratamentul
experimental n sine i alta datorat diferenelor individuale dintre membrii alocai diferitelor
condiii/ grupuri experimentale, care niciodat nu vor fi perfect echivaleni. Acest tip de
eantion n care participanii sunt msurai o singur dat se cheam deci eantioane
independente. Testarea diferenelor mediilor pentru variabila dependent are n vedere testul t
pentru eantioane independente (necorelate).
Din aceast perspectiv pare a fi mult mai avantajos ca acelai grup experimental s
treac prin toate fazele, etapele sau condiiile experimentale, situaie n care variabilitatea
interindividual (fiind aceeai) nu mai intervine n determinarea efectului final, practic ea
nemaicontnd. Acest tip de design experimental are o mult mai mare capacitate de a pune n
eviden efectul curat al unui tratament experimental, dac acesta exist cu adevrat.
Puterea cercetrii (adic posibilitatea rejectrii ipotezei nule) este mai mare n acest al doilea
caz, i atunci apare firesc ntrebarea de ce nu sunt folosite exclusiv acest tip de eantioane,
care prezint i alte avantaje suplimentare. Astfel, eantioanele corelate permit un mult mai
bun control al variabilelor externe ce pot distorsiona rezultatele cercetrii. Exist i un mare
avantaj financiar legat de acest tip de eantioane, deoarece ele sunt mai economice, n msura
n care acelai efect este pus n eviden cu un numr mult mai mic de participani.
Dezavantajele acestui tip de eantionare sunt i ele de luat n calcul n proiectarea
cercetrii. n principal efectele de ordine i efectele de nvate sunt cele care trebuie avute n
vedere cci, participnd la toate condiiile experimentale, apare efectul de ordine n
performan generat de chiar succesiunea n care tratamentele au fost administrate. Acest fapt
ar putea fi rezolvat prin contrabalansare (ordini aleatoare ale tratamentelor), dar expunerea la
msurtorile i tratamentele iniiale genereaz reactivitate, i deci o anumit sensibilizare la
tratamentele ulterioare. Efectul de nvare acioneaz nesistematic, adic n mod inegal
asupra participanilor, de unde i implicaiile negative asupra validitii interne a cercetrii.
Atunci cnd eantioanele sunt de volum mare (peste 30) i independente (necorelate),
procedeul de calcul al semnificaiei diferenei mediilor se face n ase trepte (pai):
a. Se calculeaz cele dou medii.
b. Se calculeaz cele dou abateri standard (de selecie) ale distribuiilor.
c. Se calculeaz erorile standard ale celor dou medii.

d. Se calculeaz eroarea standard a diferenei dintre cele dou medii dup formula:

73

S X Y S X SY

sX

NX 1

sY
NY 1

sX
s
(6.3)
Y
N X 1 NY 1

e. Se calculeaz semnificaia statistic a diferenei mediilor dup formula:


t

X Y

S X Y

X Y
2

(6.4)

sX
s
Y
N X 1 NY 1

f. se evalueaz t n tabela corespunztoare. n cazul nostru:


Biei
52
9,75
3,15

N
X

10,56 9,75

9,92 11,56

51
41

Fete
42
10,56
3,40

0,81

0,195 0,28 2

0,81
0,81

1,17.
0,477 0,69

n tabelul legii normale de distribuie t, cea mai apropiat valoare de 1,17 este 1,20, la
care ansele de eroare sunt de 23%, mult mai mari dect 5% (primul prag de semnificaie) sau
dect 1% (al doilea prag de semnificaie), deci se poate considera c diferena dintre cele dou
medii este ntmpltoare, datorat hazardului.
n statistic ne micm ntre dou ipoteze contradictorii: ipoteza specific Hs, care este
de fapt ipoteza de cercetare (ce afirm c diferena dintre medii este una real, care nu se
datoreaz ntmplrii) i ipoteza de nul Ho, care presupune c diferenele aprute sunt datorate
hazardului, erorilor de eantionare etc. Dac plasm pe o ax orizontal probabilitatea de
eroare obinem reprezentarea de mai jos:
p=5%

p < 5%

p=1%

p < 1%

Probabilitatea 1----------------------------- 0,05 ----------------------- 0,01 -------------------------- 0


Ho nu se consider infirmat
Ho se consider infirmat
se suspend decizia
i se accept Hs
t sau z calculai
1,96
2,58
Cele dou limite ale semnificaiei

a. dac t calculat (sau z, pentru eantioanele cu volum de peste 30 de participani) este mai mare
de 1,96 nsemn c diferena este nesemnificativ statistic, ipoteza de nul neputnd fi
rejectat;

74

b. dac t are valoare mai mare de 2,58 se admite n mod ferm ipoteza specific, la un nivel de
ncredere de 1%;
c. dac t este cuprins ntre 1,96 i 2,58 nseamn c semnificaia diferenei mediilor este una
nesigur, rezultatul rmnnd n dubiu (nivel de ncredere de 5%).
Tradiia a acreditat ca praguri de semnificaie p 0,05 ( sau p .05) pentru situaii n
care riscul lurii unei decizii nu are implicaii practice sau teoretice mari i pragul de p 0,01
(sau p . 01) pentru deciziile majore sau care implic un risc crescut.
6.7. Eantioane de volum mare, corelate
Cnd acelai grup este comparat cu el nsui, nainte i dup introducerea unui factor
experimental sau atunci cnd dou grupuri au fost prealabil comparate, egalizate i puse ntr-o
situaie prin care se influeneaz reciproc, vorbim de eantioane (selecii) corelate. Exist de
asemenea eantioane perechi construite astfel nct fiecrui element dintr-un eantion s-i
corespund un altul din cellalt, cu care formeaz pereche (eantioane apariate). n felul
acesta se pot compara dou procese didactice sau de instruire, la originile sale cele dou
eantioane fiind egalizate dup unul sau mai multe criterii (QI, nivel de cunotine, vrst,
apartenen de gen etc.), cu ct criteriile sunt mai numeroase comparaia fiind mai ntemeiat,
dar cu dificulti i costuri aferente tot mai ridicate. Aa a procedat Gily atunci cnd a
comparat 28 de elevi buni cu 28 de elevi slabi apariai pentru a determina cauzele diferenei
de performan colar, pentru niveluri egale ori direct comparabile de inteligen, vrst, gen
sau profesiunea prinilor. Formula de calcul a erorii diferenei mediilor este n acest caz
urmtoarea:
S X Y S X SY 2rXY S X SY

(6.5)

Apare aici un simbol nou rxy care este coeficientul de corelaie. Se observ c S X Y
(eroarea diferenei celor dou medii ale eantioanelor corelate) este tot mai mic pe msur ce
corelaia crete. Deci corelaii mai mari dau valori tot mai mari ale lui t, cci n rest formula

este aceeai:

X Y
S X Y

(6.6)

6.8. Semnificaia diferenei dintre dou cuantumuri procentuale


n exemplul anterior relativ la lateralizare, procentajul stngacilor i al stngacelor este
diferit (15,63 - 11,11 = 4,52), dar este aceast diferen semnificativ statistic sau este doar

75

una datorat ntmplrii? Pentru a rspunde la ntrebarea de mai sus trebuie s calculm
eroarea standard a diferenei dintre cele dou cuatumuri procentuale (procentaje de selecie),
dup formula:

S ( p1 p 2 ) S p21 S p22

S( p1 p 2 )

Cum diferena t

(6.7)

p1 q1 p2 q2

N1
N2

(6.8)

p1 p2
, formula lui t va fi:
S( p1 p 2 )

p1 p2
p1q1 p2q2

N1
N2

(6.9)

n cazul nostru diferena nu este semnificativ statistic pentru c nu atinge un t critic de 1,96
(p = 5%) sau 2,58 (p = 1%), dei n realitate stngacii sunt de aproximativ patru ori mai
frecveni dect stngacele. n cazul nostru:
t

15,63 11,11

15,63 84,37 11,11 88,89

64
56

4,52
4,52

0,73.
20,60 17,64 6,18

6.9. Tabelele t i z pentru teste de semnificaie


Cu toate c este de dorit s se lucreze cu selecii sau eantioane de volum mare, n
psihologie adeseori putem fi pui n situaia de a lucra cu selecii de volum mic. Chiar
mrimea obinuit a claselor noastre (ntre 20 i 30 de elevi) ne oblig la aceasta. n plus,
multe dintre prelucrrile statistice presupun ruperea eantioanelor de volum mare n
subeantioane mai mici, dup diverse criterii: al apartenenei de gen, al vrstei, al primilor i
ultimilor la nvtur, al subrealizailor, realizailor sau suprarealizailor colar, dup prezena
sau absena unui atribut sau nsuiri. Multe date senzoriale, fiziologice au o relativ stabilitate
i se preteaz la acest tratament statistic.
Cnd eantioanele de cercetare sunt de volum mic, nu se mai poate presupune o
distribuie normal i de aceea tabelele z (ce exprim curba distribuiei normale reduse) au
fost nlocuite cu tabelele Student pentru valori t, de ctre W. S. Gosset, modificate, extinse
i perfecionate ulterior de ctre R. A. Fisher.
Tabelele z i t dau n principiu aceeai informaie, adic ne indic probabilitatea ca o
valoare exprimnd diferena dintre medii i procente s apar din cauza unor variaii

76

ntmpltoare, rezultate din selecia eantionului. Diferenele dintre cele dou tabele sunt
urmtoarele:
1. Tabelele t dau valori pentru o singur valoare a lui N, care este cuprins ntre 30 i
infinit; tabelele Fisher (z) iau n considerare toate valorile lui N sub 30.
2. Tabelele z opereaz cu probabilitate exprimat n procente din 100 anse, tabela
Fisher opereaz cu fracii zecimale. Astfel p = 0,01 corespunde lui 1% sau o ans din o sut,
iar p = 0,50 cu 50 de anse la o sut (o ans din dou).
3. n tabela z aceasta are un numr de valori care variaz din aproape n aproape (la
una sau dou zecimi), n timp ce t este calculat pentru un numr relativ mic de valori alese
sistematic, cele mai importante fiind cele critice (p = 5%; p = 1%).
4. n tabelele Fisher nu apare n prima coloan din stnga N, ci f, care simbolizeaz
numrul de grade de libertate (degree of freedom). Cnd se lucreaz cu un singur grup sau cu
grupuri corelate f = N-1; cnd se lucreaz cu grupuri independente f = NX + NY - 2; cnd grupul
depete 30, tabelele z i t se egalizeaz.
6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate
Dei n esen metoda de calcul a diferenelor mediilor eantioanelor de volum mic
este aceeai ca i pentru eantioanele de volum mare (calculul lui t, urmat de raportarea la un
tabel i determinarea faptului dac probabilitatea de eroare este sub sau peste un prag critic),
la eantioanele de volun mic apare o mare simplificare: n loc de a calcula dou medii, dou
abateri standard i apoi eroarea standard a diferenelor dintre mediile celor dou eantioane,
aici se lucreaz cu o singur medie, adic media diferenelor de performan a subiecilor n
situaia X i n situaia Y, sau la grupul 1 i grupul 2 cu care a fost egalizat i pus n situaia de
competiie (grupul martor i grupul de control). Ipoteza de nul este n acest caz presupunerea
c diferena mediilor dintre grupuri este zero, iar ipoteza specific este aceea c diferena
mediilor este semnificativ (la un prag specific diferit de zero).
De exemplu, se tie c diabetul juvenil poate ncetini dezvoltarea creterii dac boala
s-a declanat nainte de pubertate. Pentru a verifica acest lucru s-au msurat nlimea i
greutatea pentru dou loturi care au fost egalizate dup criteriul vrstei i al genului.

Pretest
Nr
.
1

nlime
Posttest

Diferena

Pretest

Greutate
Posttest

Diferena

= Y-X

= Y-X

162

164

57

58

77

2
3
4
5
6
7
8
9
10
11
12
13
14
N

154
153
167
133
138
154
162
160
148
142
140
149
131

159
148
163
142
140
156
166
159
163
145
139
170
140

149,50

153,86

5
-5
-4
9
2
2
4
-1
15
3
-1
21
9

61

25
25
16
81
4
4
16
1
225
9
1
441
81
2
993

43
48
60
38
39
47
58
56
50
48
44
49
39

54
50
55
50
39
43
60
60
52
47
45
51
42

48,29

50,43

A. Pentru nlime:

1.
2. s 2

( ) 2

N
N 1

3.
4.

11
2
-5
12
0
-4
2
4
2
-1
1
2
3

30

121
4
25
144
0
16
4
16
4
1
1
4
9
2
350

61

4,36
N 14

993 265,79
55,94 s 55,94 7,48
13
s
7,48
S

2,07
N 1
13
4,36
t

2,11
S 2,07

5. Din tabela lui Fisher selectm pe p. Cea mai apropiat valoare este pe linia f = N-1
(13), n dreptul coloanei a 6-a la 2,16 (comparativ cu 2,11 obinut de noi). Aceasta nseamn
c exist mai mult de 5% anse de eroare n respingerea ipotezei de nul i deci aceasta nu va fi
rejectat. Fr a atinge pragul semnificaiei statistice (p < .05) diferena tinde totui s fie
semnificativ. Mrirea eantionului ar putea duce probabil la atingerea acestui prag minim
necesar respingerii ipotezei nule.
B. Pentru greutate:

1.
2. s 2
3.
4.

30

2,14
N 14

2
350 64,29
2
21,98 s 21,98 4,69
N
13
s
4,69
S

1,30
N 1
13
2,14
t

1,65
S 1,30

78

5. Din tabelul lui Fisher, p la f = 13 este 2,16 pentru 5% anse de eroare iar valoarea
obinut de noi fiind mult sub aceasta, ipoteza de nul nu poate fi respins.
Paii exemplificai prin cele dou exerciii anterioare sunt cei prezentai mai jos:
Etapa 1. Se ntabeleaz valorile obinute de subiecii celor dou grupe mperecheate
(corelate), diferena i ptratul acesteia. Se calculeaz media diferenelor (

= X-Y, care

de regul nu se calculeaz, dar este un bun mijloc de control al corectitudinii n calcul).

Etapa 2. Se calculeaz nti dispersia (


s2

s2

() 2
N ), dup care abaterea standard (s =
N 1

Etapa 3. Se calculeaz eroarea standard a mediei diferenelor: S

s
N 1

Etapa 4. l calculm pe t care este ctul dintre media diferenelor i eroarea standard a mediei

diferenelor: t S , dar cum Y X se observ c t devine echivalent ca formul de calcul

YX

cu z S
, care este totui mai greu maniabil, cci presupune dou medii, dou abateri
Y X
standard i dou erori standard ale diferenelor.
Etapa 5. l evalum pe t alegnd de pe coloana f din tabelul lui Fisher numrul gradelor de
libertate echivalent cu N-1 (n cazul nostru 13). n funcie de valoarea gsit vedem dac, n
cazul respingerii ipotezei nule, probabilitatea de eroare este mai aproape de unul dintre
pragurile critice cutate (p = 0,05 sau p = 0,01).
Toate determinrile laborioase evideniate prin exemplele de mai sus pot fi extrem de
mult simplificate dac apelm la o alt modlitate de calcul, dat de formula 6.15 de mai jos.
Aceasta presupune ca datele s fie introduse pe un minicalculator cu panou statistic i
ntabelate ca n exemplul urmtor.

nlime

Greutate

diferena
14
4,36

diferena
14
2,14

79

x
x2

7,16
61
993

4,69
30
350

4,36 4,36

2,27
s
7,16 1,91
, pentru diferena de nlime.
N
14

2,14 2,14

1,70
s
4,69 1,25
, pentru diferena de greutate.
14
N

Cele dou valori rezultate din exemplele de mai sus, dei foarte apropiate de cele
obinute prin metoda precedent, nu sunt totui identice cu acestea. Pentru elegana i
rapiditatea n calcul presupuse de acesta recomandm cel de al doilea procedeu de lucru.
6.11. Semnificaia diferenei mediilor a dou eantioane
Cnd se compar dou eantioane independente de volum mic exist posibilitatea de a
folosi metoda lui Fisher n calculul semnificaiei diferenei. n acest caz erorile standard ale
mediilor de selecie nu se mai calculeaz separat pentru a se combina n vederea obinerii
erorii standard a diferenei, ci ambele selecii sunt considerate mpreun, deoarece ipoteza de
nul presupune c ele reprezint o aceeai populaie. La modul cel mai general, formulele de
lucru pentru testele t destinate eantioanelor de volum mic necorelate sunt 6.10 i 6,11 de

mai jos.

X1 X 2
X 12 X 2 2

N N 2
2
1

N1 N 2

N1 N 2

(6.10)

n care X 1 , X 2 sunt mediile de selecie; N1, N2 numrul de cazuri pentru X1 i X2; X12 i
X22 reprezint suma ptratelor abaterilor individuale de la medie. Singura precauie
important este aceea de a-l cuta pe t n coloana lui Fisher la df = N1 + N2 - 2 grade de
libertate. Cea mai des utilizat modalitate de calcul a testului t pentru eantioanele
independente ale cror dispersii nu difer semnificativ 2, este ns formula 6.11 de mai jos,
unde toate notaiile sunt deja cunoscute. n aceast formul din dispersiile separate ale celor
dou grupuri comparate se obine una singur, cumulat, care este de fapt o estimare a
dispersiei populaiei:
2

Pentru a rspunde la ntrebarea dac cele dou dispersii sunt similare sau diferite n SPSS exist testul Levene
pentru egalitatea varianelor.

80

X1 X 2
( N1 1) s12 ( N 2 1) s2 2

N1 N 2 2

1
1

N
N
2
1

(6.11)

Cnd eantioanele comparate sunt independente, dar de volum mare, formulele de


determinare a lui t sunt cele de mai jos, n care diferena se mparte la eroarea diferenei:
X X2
t 1
sX X
1

(6.12)

X1 X 2
2

1 2

N1 N 2

(6.13)

n fine, testul t pentru un singur eantion este posibil prin apelul la formula 6.14 de mai jos:
t

X
s
N

(6.14)

s
N

(6.15)

n care la numrtor se afl diferena dintre media eantionului de selecie i cea a populaiei,
s este abaterea standard a eantionului iar N volumul acestuia. Pentru grupe corelate/ apariate,
atunci cnd se fololete ca variabil diferena perechilor (delta), formula 6.14 devine 6.15.
Presupunem c n exemplul de mai jos X i Y sunt dou eantioane independente.
nlime
N
X

X
X

X1
14
149,50
11,36
2093
314581

Greutate

X2
14
153,86
11,07
2154
333002

X1
14
48,29
7,32
676
33338

X2
14
50,43
6,65
706
36178

Determinm semnificaia diferenei celor dou nlimi dup formula 6.11:


t

153,86 149,50

314581 333002 14 14

14 14 2
14 14

4,36

647583 28

26
196

4,36
4,36

0,07
3558,15 59,65

n acelai fel se procedeaz i pentru greutate:


t

50,43 48,29

33338 36178 14 14

14 14 2
14 14

2,14

69516 28

26 196

2,14
2,14

0,11
381,96 19,54

Cutnd n tabelul lui Fisher la f = 14 + 14 - 2 = 26, gsim c ambele valori sunt foarte
departe de pragurile de semnificaie critice p = 0,05 sau p = 0,01, ceea ce ne ndreptete s
acceptm ipoteza de nul. n concluzie, cele dou grupe fac parte din aceeai populaie.
81

6.12. Exerciii i aplicaii practice


1. Un grup de adolescente anorexice au urmat timp de ase luni un tratamet terapeutic
care trebuia s dea ca rezultat ameliorarea greutii nregistrate la faza de posttest.
Greutate
nainte
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
N
X

Greutate
dup

Diferena

38
38
39
38
39
36
35
43
33
37
37
37
35
38
41
39
40
35
39
38
34
43
34
37
35
43

43
43
42
42
46
35
35
46
39
34
35
43
41
42
43
42
45
35
42
40
35
46
35
38
36
47

5
5
3
4
6
-1
0
3
5
-2
-2
6
6
4
2
3
5
-1
3
3
0
3
1
1
1
4

26
37,75
2,74

26
40,33
4,18

26
2,58
2,51

Tabelul de mai sus indic greutatea msurat naintea i dup tratamentul efectuat, ca
i diferenele de greutate constatate dup tratament. S se rezolve urmtoarele cerine:
a. Parcurgnd paii din curs determinai dac exist un ctig semnificativ de greutate n
urma aplicrii programului psihoterapeutic.
b. Facei aceeai determinare utiliznd pe N, media i abaterea standard prezente pe
ultimele trei rnduri din tabel, dup algoritmul din curs.
c. Formulai ipoteza specific i raportai rezultatele obinute.

82

2. Un grup de 58 de copii din coala general au fost chestionai cu inventarul MASC


pentru a li se determina nivelul de anxietate. Ipoteza specific a fost aceea c nivelul anxietii
acestui grup este semnificativ mai mic dect al copiilor care nu practic sportul. Grupul de
sportivi a obinut o medie a scorurilor de 12,50 i o abatere standard de 7,25. n populaia de
covrstnici nivelul mediu al anxietii a fost de 15,50. Rspundei la ntrebarea dac ipoteza
cercetrii se confirm sau nu, raportnd rezultatele obinute.
3. n grupul de mai sus exist 30 de fete i 28 de biei, ale cror valori statistice
descriptive la testul de anxietate sunt sintetizate n tabelul de mai jos:
N
X

X
X
X
SX

Biei
28
10
5,25
280
3544
1,01

Fete
30
14
6,31
420
7035
1,17

Total

a. Formulai o nou ipotez de cercetare legat de diferenele de grup ale mediilor


anxietii i precizai dac aceasta se confirm, raportnd rezultatele obinute.
b. Completai coloana Total, dup regulile furnizate n curs.
c. Determinai eroarea standard a mediei pentru coloana Total.
d. Determinai intervalele de ncredere ale mediei pentru CI (Interval de ncredere) de
5% i de 1%.
4. Testai ipoteza potrivit creia cei 70 de studeni de anul I de la Facultatea de Psihologie, cu
un QI de 114 i o abatere standard de 11, au un nivel de inteligen semnificativ mai mare
comparativ cu populaia de baz (QImediu = 100).
5. Pentru un grup de 120 de copii din grupa pregtitoare a grdiniei s-a aplicat un test
destinat determinrii aptitudinii pentru colaritate, cuprinznd o component motric, una
cognitiv i combinaia acestora ntr-un scor total. Acest test a furnizat urmtoarele
rezultate pentru biei (M) i fete (F):
Teste
Gen

N
X

M
54
19,83
2,54

Motricitate
F
M+F
66
20,55
3,39

Cogniie
F
66
38,03
5,13

M
54
36,65
5,57

83

M+F

M
54
56,48
7,35

Total
F
66
58,58
7,82

M+F

X
X
Variana
SX
F-M
t1
t2

1071
21583

1356
28607

1979
74171

2510
97167

3050
175132

3866
230429

Cerine:
a. Testai ipoteza diferenei semnificative a mediilor dintre fete i biei pentru cele trei
perechi de variabile ale testului aplicat.
b. Raportai rezultatele obinute.
c. Agregai datele pentru biei i fete, completnd corect i integral coloana M+F.
d. Determinai variana i eroarea standard a mediei (SX) pentru toate coloanele
tabelului.
e. Determinai pe t1 cu formula 6.11, pe t2 cu formula 6.12 i comentai rezultatele
obinute.

84

CAPITOLUL 7
STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE

7.1. Introducere
Nicio alt procedur statistic nu a deschis att de multe ci de descoperire tiinific
n psihologie, tiinele comportamentului i educaie ca metoda corelaiei. Dac pn acum
ne-am ocupat de distribuii cu o singur variabil (univariate), prin corelaie avem n vedere
distribuiile bivariate, n legtur cu care ne punem problema gradului de asociere.
Un coeficient de corelaie este un numr unic care indic mrimea relaiei dintre dou
fenomene, procese psihice, lucruri, adic n ce grad variaz unul n paralel cu variaia
celuilalt. Fr corelaie nu ar fi posibil predicia i chiar atunci cnd sunt implicate relaii
ntmpltoare, fr cunoaterea covariaiei (variaiei comune a dou variabile) nu am fi
capabili s controlm o variabil prin manipularea celeilalte.
Iat cteva exemple: exist vreo legtur ntre scorurile la testele de inteligen i
performana colar? dar ntre nlime i greutate; ntre ploaia czut i recolte; ntre statutul
economic, social i cultural al prinilor i prezena elevilor n colile ajuttoare; ntre studiile
prinilor i performana colar a copiilor; ntre inteligena prinilor i inteligena copiilor;
ntre inteligena gemenilor uni- i bivitalieni; dar a frailor ntre ei?
Gradul de paralelism, msura n care dou colecii de msurtori co-variaz se explic
cel mai adesea prin coeficientul de corelaie. n studierea relaiei dintre anumite nsuiri se
pleac de la variaia simultan a datelor, numit covarian, cutnd s desprindem prin
analiza legturii dintre ele, modul lor de asociaie.
Trebuie spus c, spre deosebire de experiment, corelaia nu dezvluie o relaie de tip
cauzefect, nu este deci o msur a cauzalitii, ci doar a gradului de paralelism, a modului
de asociere, natura relaiei urmnd a fi interpretat. O corelaie perfect ntre X i Y (r =1)
arat c cele dou variabile covariaz perfect, la unison, variaia lui X putnd fi cauza
variaiei lui Y, a lui Y cauza lui X sau a amndorura s fie cauzat de o a treia variabil Z.
Dac n experiment relaia este unidirecional (X determin pe Y), ntr-un studiu corelaional
variabilele sunt date i nu manipulate, relaia dintre ele nefiind una vectorizat.

85

Determinarea corelaiei se face lund n consideraie ntotdeauna cte dou variabile;


astefel, n cazul variabilelor X, Y, Z, vom calcula succesiv corelaiile rXY, rXZ, rYZ, datele de
plecare putnd fi msuri cantitative (note), poziii ntr-o ierarhie sau note comparate cu
categorii. Pentru a avea o imagine concret despre cum se corelaioneaz dou variabile
construim aa-numita diagram de corelaie pe un grafic unde fiecrei valori X de pe abscis
i corespunde valoarea Y pe ordonat.
Fie 10 indivizi msurai cu dou forme paralele ale aceluiai test:
Cazuri
Test X
Test Y

A
2
4

B
4
6

C
5
7

D
6
8

E
7
9

F
8
10

G
9
11

H
10
12

I
12
14

J
13
15

Se poate observa faptul c fiecare X este egal cu Y-2 fr nici excepie, deci corelaia
va fi r = 1 (sau Y = X+2). Iat un alt exemplu:
Cazuri
Test P
Test Q

A
1
2

B
3
6

C
4
8

D
5
10

E
7
14

F
8
16

G
9
18

H
11
22

I
12
24

J
15
30

i n acest caz corelaia este perfect r =1, pentru c Q = 2P fr nici o excepie.


Cazuri
Test A
Test B

A
1
20

B
3
16

C
5
14

D
7
12

E
9
11

F
11
9

G
12
7

H
14
5

I
16
3

J
20
1

n cazul de mai sus corelaia dintre A i B este aproape perfect, dar negativ (r =
-.99).

Z Greutate

Z Inaltime

-10

-20
-5

-4

-3

-2

Z Punctaj total r = .10

-1

12

10

-2

Motricitate grosiera

10

-4

-6
-5

-4

-3

-2

Z Punctaj total r = .20

a.

-1

0
0

10

20

Motricitate r = .54

b.

86

c.

30

20

60

50

50

40

40

30

30

20

20

10

Cognitie

Motricitate

10

60

QI geaman 2

30

0
10

20

30

40

50

Punctaj total r = .87

60

70

80

0
10

20

30

40

50

60

70

80

Punctaj total r = .97

d.

10

0
-80

-70

-60

-50

-40

-30

-20

-10

QI geaman 1 r= -.97

e.

f.

n diagramele de corelaie de mai sus, numite scattere, avem cteva situaii distincte:
a. o corelaie extrem de sczut i nesemnificativ (r = 0,10, sau r = .10), aproape de a
indica absena oricrei relaii dintre cele dou variabile. n timp ce variabila X are o cretere
clar, variabila Y are un comportament ambiguu;
b. o corelaie foarte slab (.20), n care norul de puncte tinde s se aeze totui pe o
diagonal stnga jos dreapta sus (corelaie pozitiv);
c. aceast relaie devine i mai evident pentru cele dou variabile (.54);
d. corelaia este una extrem de puternic (.87), tendina de norului de puncte de a se
ordona pe o diagonal stnga jos dreapta sus este foarte evident, ceea ce d de acum
posibilitatea de a a prezice cu o oarecare aproximaie pe fiecare X din fiecare Y i invers;
e. relaia este de acelai tip pozitiv dar este una extrem de puternic (.97), norul
de puncte avnd o grosime relativ egal pe toat suprafaa diagramei de corelaie
(homoscedasticitate);
f. ordonarea norului de puncte din aceast diagram este n oglind fa de precedenta:
relaia este una extrem de puternic, dar negativ, deoarece creterea variabilei X se asociaz
cu descreterea variabilei Y i reciproc.
Cu ct norul de puncte tinde s se aeze mai aproape de o dreapt corelaia este mai
mare, atunci putnd vorbi de o relaie liniar ntre X i Y, fapt ce permite deducerea unuia din
cellalt. n psihologie, bivariaia liniar este postulat cel mai adesea de coeficientul de
corelaie, acesta putnd avea valori cuprinse ntre 1 i +1, care nseamn corelaiile maxime
posibile, diferena fiind doar n orientarea norului de puncte, trecnd prin 0, care nseamn
absena oricrei legturi sau interdependena dintre ele. n acest caz norul de puncte tinde s
se distribuie haotic pe toat suprafaa diagramei de corelaie.

87

Este evident c diagrama de corelaie permite o inspecie vizual global a norului de


puncte fapt ce ne poate spune urmtoarele:
-

dac distribuia tinde spre o dreapt, deci ct de intens este relaia dintre variabile;

care este orientarea ei, deci care este sensul relaiei, pozitiv sau negativ;

despre forma relaiei: rectilinie (situaie de dorit), curbilinie, neliniar.

Cei mai muli coeficinei de corelaie folosesc modelul relaiei liniare i se cunosc
corelaii parametrice (ntre variabile numerice continue) i neparametrice (n care una dintre
variabile (sau chiar ambele) este categorial, discontinu (dihotomic sau trihotomic).
7.2. Calculul coeficientului de corelaie
Formula de definiie a coeficientului de corelaie este cea furnizat de Pearson:
rXY

( X X )(Y Y )

(7.1)

( X X ) 2 (Y Y ) 2

n care X i Y sunt rezultatele obinute la cele dou nregistrri, iar X i Y reprezint mediile
celor dou distribuii. Cantitatea de la numrtor se numete suma produselor, iar la numitor
avem radical din suma ptratelor produselor.
ntr-o distribuie normal a dou variabile vom avea cinci parametri: dou medii i
dou abateri standard i, al cincilea, coeficientul de corelaie. Orice program statistic poate
determina aceti parametri, problema este cum s i calculm cu un minicalculator i mai ales
cum s i interpretm. Minicalculatorul personal ofer date care vor fi trecute astfel:
N

este acelai la cele dou variabile i este numrul de cazuri;

X
X

mediile distribuiilor;

abaterile standard pentru cele dou serii de date;

Y 2

sumele valorilor individuale;

sumele ptratelor valorilor individuale;

Y
2

x
xy

N X 2 ( X ) 2

N Y 2 ( Y ) 2

XY reprezint suma produselor dintre fiecare X cu fiecare Y, fiind valoarea pentru


obinerea creia este necesar foarte mare atenie, deoarece o singur eroare de introducere
poate distorsiona semnificativ valoarea corelaiei obinute. n acest fel se ajunge la formula de
lucru a coeficientului de corelaie:
rXY

N X

N XY X Y
2

( X ) 2 N Y 2 ( Y 2 )

88

(7.2)

Mate
X
7
9
10
6
9
8
5
3
7
8
6
7
6
5
X=96

Subiect
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N=14
N
X

n 1

X
X 2
XY

14
6,86
1,88
96
704
640

Fizic
Y
7
8
9
7
10
7
6
4
6
7
7
7
6
6
Y=97

14
6,93
1,44
97
699
377

rXY

X2
49
81
100
36
81
64
25
9
49
64
36
49
36
25
X2=704

Y2
49
64
81
49
100
49
36
16
36
49
49
49
36
36
Y2=699

XY
49
72
90
42
90
56
30
12
42
56
42
49
36
30
XY=696

X Y
N
2

(X )
( Y ) 2
2
2

N
N

XY

(7.3)
O alt formul de lucru pentru corelaia prin metoda produselor este cea de mai sus.
n exemplul dat, coeficientul de corelaie de 0,88 (sau .88 pentru literatura de
specialitate anglo-saxon) este unul extrem de ridicat, ceea ce ne face s presupunem c
legtura dintre fizic i matematic este puternic, performana la ambele fiind determinat de
un factor comun (raionamentul abstract sau factorul general g al inteligenei). Iat nlimile
reale i cele dorite a 14 studente i 2 studeni de la facultatea de psihologie (N = 14+2 = 16).
Subieci
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

IR
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158

ID
169
170
172
170
175
167
175
160
160
175
165
180
193
168
170
165

89

GR
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49

GD
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50

N
X

x
X
X2
x

IR_ID
rIR_ID

16
168,06
9,75
2689
453345
22799
460547
.91

16
170,88
8,00
2734
468132
15356

16
61,69
16,55
987
64993
6549

GR_GD
rGR_GD

16
60,38
13,81
966
61184
45788

62310
.79

Comentarii

Corelaia nlimii actuale cu cea dorit este extrem de ridicat (r = .91), ceea ce
nseamn o proiectare la nivelul sinelui corporal a nlimii dorite n concordan cu
real.

Greutatea real i cea dorit produc o corelaie mai joas, dei tot foarte ridicat (r = .
79), ceea ce nseamn c n imaginea de sine corporal elementul fundamental este
nlimea (mai statornic), i mai puin greutatea (indicator mai variabil i mai
fluctuant).

Lotul nostru (foarte mic), alctuit preponderent din femei (88%), i-ar dori civa
centimentri n plus (2,82 cm) i ceva kilograme n minus (-1,31 kg), dar la praguri
nesemnificative statistic (N este mult prea mic).

Dac vom compara ptratul corelaiilor nlimii cu ptratul corelaiilor greutii (0,91 2
= 0,82 i 0,792 = 0,62) vedem c primul acoper mai mult cu o cincime din variana
comun, fapt care susine ideea c nlimea pare a fi fundamental n raport cu
greutatea.
Aplicaie practic
Calculai i comentai corelaiile dintre nlimea i greutatea real, apoi dintre

nlimea i greutatea dorit. Ce constatri ai putut face? Comentarii posibile: ntre valorile
reale ale nlimii i greutii exist aceeai corelaie ca i ntre cele dorite pentru cele dou
variabile. n raportarea noastr la planul corporal ideal se pare c pstrm aceeai atitudine pe
care o avem asupra eului nostru fizic i n plan real. Rezult deci c n plan antropometric
dorina se conformeaz realitii mai mult dect am fi dispui s credem.
7.2.1. Interpretarea orientativ a coeficientului de corelaie
Cum am artat deja, valorile corelaiei Pearson pot fi pozitive sau negative. Cnd r
este pozitiv, creterea variabilei X se asociaz cu creterea variabilei Y, caz n care se spune c

90

exist o asociere direct ntre cele dou variabile. Cnd r este negativ, n timp ce una dintre
variabile ia valori cresctoare cealalt descrete. Corelaia (pozitiv sau negativ) aflat n
jurul lui zero indic distribuii necorelate (sau independente). n cazul cnd exist legturi de
asociere ntre variabilele X i Y (corelaie), atunci putem stabili ntre nite limite de precizie i
de ncredere pe Y din X, i reciproc, prin aa-numita ecuaie de regresie.
Semnificaia coeficientului de corelaie va fi analizat mai detaliat n cursul urmtor.
n funcie de scopul urmrit i de nivel de exigen interpretarea lui r are multe faete.
Orientativ, se apreciaz c corelaiile de r < .20 sunt extrem de slabe; de la .20 la .40 acestea
sunt slabe; ntre .41 i .60 sunt medii; ntre .61 i .80 sunt puternice, iar cnd r > .81 ele sunt
extrem de puternice. Pentru variabile corelate invers (negativ), interpretarea lui r este similar.
ns, deoarece semnificaia corelaiei depinde de mrimea eantionului (N), ca i cea a lui t ,
determinarea semnificaiei corelaiei presupune raportarea lui acesteia la tabele speciale. Pe de
alt parte r indic i ct din variana comun se explic prin corelaie, ceea ce trimite la
coeficientul de determinare (r2).
Iat cteva corelaii descoperite a exista ntre rude:
ntre persoane diferite
Copii crescui separat
Prini vitregi - copil
Copii crescui mpreun
Rude colaterale
Veri secundari
Veri primari
Unchi nepot
Rude n linie direct
Bunic nepot
Printe (adult) copil
Printe (copil) copil
Alte rude colaterale
Frai crescui aparte
Frai crescui mpreun
Gemeni dizigoi, de sex diferit
Gemeni dizigoi, de aceli sex
Gemeni dizigoi crescui separat
Gemeni monozigoi, crescui mpreun

-0,01
0,20
0,24
0,16
0,26
0,34
0,47
0,50
0,56
0,47
0,55
0,49
0,56
0,75
0,87

7.3. Coeficientul de corelaie a rangurilor rho


Cnd numrul subiecilor este mai mic de 30, cnd distribuia se abate semnificativ de
la normalitate sau cnd datele despre subieci sunt redate sub forma unei clasificri ierarhice,
prin ranguri, este preferabil s utilizm coeficientul de corelaie a rangurilor (rho) al lui
Spearman. Multe dintre datele obinute de subieci n coal permit asemenea clasificri
91

ierarhice, fie c este vorba de rezultatele la examene (de exemplu capacitatea, admiterea),
rezultatele la probe sportive, la teste de cunotine, unde diferenele dintre candidai nu sunt
suficient de fine pentru a da gradaiile pe care alte variabile continue (nlimea, greutatea) le
dau. Dac este s citm opinia lui Radu i Szamoskzy 3 rangul este mai stabil ca nota. La
evaluarea succesiv a elevilor de ctre profesor, alternativ prin note sau ranguri, acestea din
urm au o tendin mai accentuat spre stabilitate, notele fiind mult mai variabile.
Atribuirea de ranguri (rangarea) nu este o operaie dificil: subiecii sunt ierarhizai n
ordinea performanei sau scorurilor obinute obinute, de la mare la mic sau invers. n mod
practic, pe o foaie de hrtie se scriu tot attea numere cte ranguri trebuie alocate (egale cu
numrul subiecilor) i se taie rangurile pe msur ce ele se aloc, ceea ce ajut la corecta
gestiune a acestora. Singura precauie important este aceea de a rezolva corect situaia n care
dou, trei sau mai multe cazuri au aceeai valoare de scor a variabilei. De exemplu, dac am
ajuns cu rangarea la al aptelea subiect i urmtorii trei au aceeai performan, din rangurile
8, 9, 10 se selecteaz rangul din mijloc - 9 - care se atribuie tuturor celor trei, urmtorul rang
ce va fi atribuit fiind 11. Dac ar fi fost doi subieci cu acelai scor, atunci pentru rangurile 8,
9 se acord rangul intermediar 8,5, urmtorul rang atribuibil fiind 10. Pentru ca operaia de
calcul s nu produc o distorsiune prea mare a lui rho cazurile de acest fel trebuie s fie ct
mai puine. Dac operaia de rangare a fost corect executat, la sfritul ei toi subiecii vor
avea ranguri i toate rangurile vor fi epuizate, n caz contrar trebuind identificat i corectat
eroarea de rangare.
Un subiect poate fi clasat dup mai multe criterii, avnd deci mai multe ranguri, caz n
care corelaia se va face fiecare rang cu fiecare, dup formula:
1

6d 2
N ( N 2 1)

(7.4)

unde d este diferena rangurilor i N numrul subiecilor. Prin ridicarea lui d la ptrat, semnul
diferenei rangurilor devine ntotdeauna pozitiv.
Exemplu
ntr-o cercetare pe grupuri colare vocaionale 10 elevi de la coala de art au fost
ierarhizai dup crieteriul inteligenei (QI), al reuitei la nvtur aa cum o apreciaz
copiii i profesorii i al talentului pentru activitatea specific (evaluat de profesorul de
specialitate).
3

Radu, I. (coord.), Miclea, M., Albu, M., Moldovan, O., Neme, S., Szamoskzy, S. (1993). Metodologie
psihologic i analiza datelor. Cluj-Napoca: Editura Sincron, p. 122.

92

1
Elev

QI

copii medie talent 1-2

1.
3
2.
10
3.
4
4.
8
5.
2
6.
5
7.
6,5
8.
6,5
9.
9
10.
1
N=10

1
8
7
9
3
5
6
4
10
2

2
9
3
8
4
5
6
7
10
1

4
9
8
10
2
7
5
1
6
3

1 2 1

d2

d2

d2

d2

d2

d2

1-3

1-4

2-3

2-4

3-4

1-2

1-3

1-4

2-3

2-4

3-4

d2

4
4
9
1
1
0
0,25
6,25
1
1
27,50
0,83

1
1
1
0
4
0
0,25
0,25
1
0
8,50
0,95

d
2
2
-3
-1
-1
0
0,5
2,5
-1
-1

1
1
1
0
-2
0
0,5
-0,5
-1
0

6 27,50
0,83
10100 1

1 3 1

6 8,50
0,95
10100 1

Din exemplul ipotetic de mai sus se poate remarca concordana ridicat dintre
ierarhia inteligenei msurate (QI) i ierarhia rezultatelor colare propus de elevi, corelaie
care nu este totui la fel de mare ca i cea dintre ierarhia inteligenei msurate i performana
la nvtur, exprimat prin mediile colare ( = 0,83 versus = 0,95). Pentru o mai bun
nelegere a modului de lucru recomandm calculul tuturor celorlalte coloane, urmat de
determinarea de fiecare dat a lui rho, ncheiat de interpretarea rezultatelor.
Ca i r, are valori cuprinse ntre 1 i +1, trecnd prin zero, situaie care indic
absena corelaiei (deci a concordanei dintre cele dou ierarhii exprimate prin ranguri).
Reluarea determinrilor prin mrirea eantionului poate duce la apariia unor corelaii
semnificative, chiar dac iniial ele nu atingeau iniial pragul semnificaiei statistice.
Deoarece supraevalueaz uor corelaia (de la 5 miimi spre zonele extreme la 18
miimi pe zona central) dm mai jos tabelul de echivalare ale lui cu r.

.00
.000

.10
.105

.20
.209

.30
.313.

.40
.416

.50
.518

.60
.618

.70
.717

.80
.813

.90
.908

.95
.954

1.00
1.00

7.4. Limitele de ncredere ale unui coeficient de corelaie


Pentru coeficientul de corelaie Pearson putem stabili dac el se plaseaz ntre nite
limite de ncredere (p < .05, p < .01) dup o transformare propus de Fischer. Valorile r sunt
nlocuite cu valori z, a cror distribuie tinde s fie normal pe msur ce N crete, drept
pentru care s-a ntocmit un tabel de conversie. Specificitatea acestui tabel rezult din aceea c
z nu se determin direct, ci primele dou valori (uniti i zeci) se iau dup orizontal din

93

coloana de pe extrema stnga, corespunznd celui mai apropiat coeficient de corelaie de cel
cutat, iar restul (sutimile) de pe prima linie vertical corespunznd aceluiai coeficient. De
exemplu, coeficientul r = 0,93 este cel mai aproape de .9302 din tabel, care are n stnga 1,6,
iar pe vertical 0,06, ceea ce prin combinare duce la z = 1,66.
1
1
i deci 2
.
N 3
N 3

Dispersia valorilor z din acest tabel este


Dac am avea 39 de cazuri, atunci:

1
1
0,167
36 6

n legtur cu pragul de semnificaie ales (p = 0,05 sau p = 0,01), stabilim limitele de


ncredere ale lui z, care sunt z = 1,96 pentru p < 0,05, i z = 2,58 pentru p < 0,01. n
cazul nostru alegem pragul de semnificaie de 0,05. Deci vom avea: 1,66 1,961/6 = 1,66
0,33, coeficientul nostru trebuind s cad n intervalul din tabel corespunznd lui 1,99 i 1,33,
adic ntre coeficienii de 0,96 i 0,87. Pentru p < 0,01 avem: 1,66 2,581/6, intervalul este
2,09 1,23, corespunznd n tabel coeficienilor de corelaie 0,97 0,84.
7.5. Interpretarea unui coeficient de corelaie
Ca multe alte determinri r, sau ali coeficieni de corelaie pleac de la eantioane
extrase dintr-o populaie general mult mai extins numeric i de aceea se pune problema
relaiei dintre acetia i coeficienii reali de corelaie, adic cei care ar fi reieit din
determinarea lor pe colectivitatea general. Lund ca ipotez de nul corelaia zero, va trebui
s stabilim un interval de siguran stabilind aa-numitul coeficient de corelaie critic
(valoarea minim pe care ar trebui s o ia coeficientul de corelaie pentru a fi acceptat ca
semnificativ). n tabelul de mai jos se dau asemenea valori pentru r, lund n calcul numrul
subiecilor i dou praguri de semnificaie, p = 0,05 i p = 0,01. n tabelul de mai jos n = N-2.
Deoarece coeficienii de corelaie pot fi i negativi, r se d n modul4.
n
p .05
p .01

9
.60
.73

10
.58
.71

11
.55
.68

12
.53
.66

13
.51
.64

14
.50
.62

15
.48
.61

16
.47
.59

17
.46
.58

18
.44
.56

Exemplificare: r = 0,35; N = 19 (N = 38)


r = 0,50; N = 50

Pentru detalii suplimentare vezi Radu i colab., op. cit., p. 391.

94

19
.43
.55

20
.42
.54

25
.38
.49

30
.35
.45

35
.32
.42

40
.30
.39

45
.29
.37

50
.27
.35

n primul exemplu la N-2 avem 19-2 = 17, valoarea coeficientului critic la pragul de p < 0,05
este cu mult mai mare (0,46), dect valoarea obinut de noi (0,35) i deci corelaia gsit nu
este una semnificativ. Dac am regsi aceast corealie i dup ce am dubla eantionul (n =
N2-2 = 36), am vedea c la acest numr de cazuri el ar deveni semnificativ la p = 0,05. n al
doilea caz vedem c r critic este 0,27, coeficientul nostru fiind mult mai mare; pentru un prag
de semnificaie de 1 din 100, r este 0,35, deci cel gsit de noi (0,50) este puternic semnificativ
statistic (p < 0,01).
n programele statistice computerizate coeficienii de corelaie care ating pragurile de
semnificaie de p = 0,05 i p = 0,01 sunt notate cu o stelu (*), respectiv cu dou (**).
7.6. Interpretarea varianei unui coeficient de corelaie
prin coeficientul de determinare
Un coeficient de corelaie nu este o proporie i trebuie tratat mai curnd ca o msur
tipic unei scale ordinale, care nu poate fi de exemplu adunat cu ali coeficieni de corelaie
pentru a li se determina o medie. Eventual, dac trebuie determinat o valoare reprezentativ
pentru o ntreag clas de coeficieni de corelaie, se poate alege valoarea coeficientului
median, care nu poate fi totui utilizat pentru calcule aritmetice. Un r = 0,60 nu este de dou
ori mai bun dect r = 0,30, iar distana dintre corelaiile 0,40 0,50 nu este deloc echivalent
cu distana dintre 0,80 0,90. O cale de a nelege i interpreta mai bine sensul coeficientului
de corelaie i de a-l aduce la o form accesibil tratamentului algebric este aceea de a vorbi
despre el n termeni de varian, calculnd coeficientul de determinare, care este ptratul
unui coeficient de corelaie.
Variana unei variabile Y (sy) este acea parte din variana lui Y care poate fi prezis sau
atribuit varianei lui X, fiind o msur a informaiei pe care o avem pentru Y de la X (i
reciproc). Dac r = 0,80, r2 = 0,64, deci se poate spune c variana lui X n raport cu Y (numit
covarian) este de 64%, adic avem aproape dou treimi din variana lui X care ne-ar permite
s facem o predicie perfect a lui Y. Deci r2 poate fi interpretat ca o proporie iar r2100 ca un
procentaj. n ncercarea de a conceptualiza gradul de relaie adus de coeficientul de corelaie
este mai util s operm cu ptratele corelaiilor dect cu corelaiile n sine. n micul tabel de
mai jos dm cteva valori reprezentative ale coeficientului de determinare transformat n
procente de covarian, dei calcularea sa nu pune nici un fel de probleme.
r
r2100

.05
0,25

.10
1

.20
4

.30
9

.40
16

.50
25

95

.60
36

.70
49

.80
64

.90
81

.95
90

1.00
100

Putem rspunde acum unor probleme foarte concrete:

Diferena dintre coeficientul de corelaie 0,50 i 0,40 este aceea c ultimul aduce 0,50 2
- 0,402 = 25 16 = 9 procente de covarian n plus, necesar n predicia unei
variabile plecnd de la cunoaterea celeilalte; 0,60 i 0,50 dau o diferen de 36 25 =
11 procente, deci ofer cu dou procente mai mult fa de exemplul anterior, dei
diferena brut a fost aceeai (o zecime).

Coeficientul de corelaie de 0,30 nseamn 9 procente de covarian explicat, pe cnd


0,60 nseamn 36 de procente, de unde rezult c al doilea coeficient este de 4 ori mai
util prediciei relaiei dintre X i Y, i nu de dou ori, cum ar rezulta la prima vedere.
Enumerm cteva din cauzele care pot afecta precizia unui coeficient de corelaie:

Presupunerea (de multe ori nentemeiat) c ntre X i Y exist coliniaritate, adic


faptul c norului de puncte ce materializeaz corelaia i-ar putea fi ajustat o linie
dreapt numit linia de regresie a lui Y n raport cu X. Unele distribuii evideniaz
foarte greu o asemenea liniaritate, ele putnd fi curbilinii, rectilinii pn la un punct i
apoi haotice etc. Pentru unele dintre aceste cazuri (distribuiile curbilinii) exist
procedee de normalizare a distribuiei (ridicarea la putere, logaritmarea etc.).

Distribuiile atipice care, prezentnd valori atipice la extremele seriei de variaie


(valori atipice sau outlieri extremi), accentueaz mult variabilitatea datelor, fapt ce
conduce la creterea artificial (inflaionist) a coeficientului de corelaie.

Erorile de introducere a datelor: dac valorile de 168 pentru nlime i 75 pentru


greutate vor fi introduse din neatenie invers (75 pentru nlime i 168 pentru
greutate), corelaia va descrete dramatic.

Erorile de eantionare: cu ct omogenitatea grupului este mai mare, cu att corelaia


descrete, i invers.

Erorile de msurtoare sau de tastare: un simplu 0 tastat din greeal transform


nlimea de 175 n 1750, ceea ce va distorsiona grav corelaiile prin creterea
artificial a variabilitii datelor.
Concluzia care se poate extrage este aceea de a verifica atent acurateea i

corectitudinea datelor introduse nainte de a trece la determinarea corelaiilor. De asemenea,


diagramele de corelaie (scattere) pot folosi ele nsele drept metod de verificare a prezenei
unor date atipice sau eronate.
7.7. Ali coeficieni de corelaie

96

7.7.1. Coeficienii de corelaie biseriali i triseriali


Cnd o variabil continu X este pus n paralel cu o variabil discontinu Y
dihotomic (cum ar fi bun/slab, admis/respins, talentat/netalentat, masculin/feminin) calculm
aa-numitul coeficient se corelaie biserial, notat rbis, dup formula:
, nm
care:' m" pq
r

bis
- m
media valorilor x pentru elementele clasei superioare (Y > Y );

Y
0

m media valorilor X pentru elementele clasei inferioare (Y < Y0);

Y0 este punctul de tietur al variabilei (cutoff, n raport cu care se separ


grupul);

- este abaterea standard a rezultatelor variabilei continue;

raportul pq/Y se citete dintr-un tabel special 5 p fiind proporia admiilor, bunilor,
talentailor etc., iar q proporia complementar (1-p);

Y este ordonata corespunztoare punctului de separaie.

Exemplu
Cota la test
Admii
Respini
Total

0
0
1
1

1
1
2
3

2
0
4
4

3
3
7
10

4
5
13
18

5
10
12
22

6
16
9
25

7
14
4
18

8
6
2
8

9
3
0
3

10
1
0
1

Total
59
54
113

naintea unui curs de instruire profesional, candidaii au parcurs un test psihologic ale
crui rezultate au fost raportate pe o scal C (cu 11 trepte, media 5, abaterea standard 2).
Variabila X este reprezintat tocmai de aceste rezultate. Dup testul psihologic s-a dat i un
examen de admitere, ale crui rezultate finale au fost dihotomice (admis/ respins), aceasta
fiind variabila-criteriu Y. De notat c reuita-eecul nu permit o nuanare mai fin dect
aceasta. Proporia celor admii este p = 59/113 = 0,52, iar cea a respinilor q = 54/113 = 0,48,
adic q = 1-p (q este deci complementul lui p).
Media celor admii este notat cu m, iar a celor respini cu m i se determin astfel:
m = (00 + 11 + 20 + 33 + 45 + 510 + 616 + 714 + 86 + 93 + 101)/59
(0 + 1 + 0 + 9 + 20 + 50 + 96 + 98 + 48 + 10)/59 = 359/59 = 6,08
m = 4,46.
Date suplimentare (mediile i abaterile standard pentru cele dou categorii) sunt date
n tabelul de mai jos.

N
X

Admii
59
6,08

Respini
54
4,96

Radu i colab., op.cit., pp.392-393.

97

Total
113
5,30


x
x2

1,67
359
2347

1,75
241
1237

1,90
600
3584

pq/y = 0,6264 pentru p = 0,48.


Putem acum determina coeficientul de corelaie biserial:

rbis

m' m" pq
6,08 4,46
1,62

0,6264
0,6264

y
1
,
90
1
,
90
pq
Eroarea tip:

r2

, n care

pq
Y

se citete tot din anexe i este de 1,254.

1,254 0,532
0,973

0,09.
10,63
113

Deci:

7.7.2. Ali coefcieni de corelaie


Atunci cnd variabila continu X este pus n legtur corelaional cu o variabil
trihotomic (bun, mijlociu, slab) coeficientul de corelaie rezultat se cheam triserial i se
noteaz rtris. Atunci cnd avem de-a face cu dou variabile discontinue trihotomice (bun,
mijlociu, slab; introvert, ambivert, extravert), coeficientul de corelaie care se calculeaz se
numete eneahoric. Cnd dou distribuii sunt dihotomice prin natura variabilei, pentru
determinarea coeficientului de corelaie (Fi) este nevoie de o aezare caracteristic a
datelor.
Coeficientul de concordan W al lui Kendall permite comparaia direct i simultan
a mai multor clasificri fcute de mai muli evaluatori (arbitri) asupra aceluiai lot de subieci,
de produse, de activiti etc. Calculnd corelaia dintre aceste clasamente se determin
fidelitatea msurtorii, adic gradul de acord ntre evaluatori, i nu conformitatea acesteia cu
realitatea. Acest tip de corelaie poate fi deci foarte util pentru construirea unei echipe
performante de evaluatori prin eliminarea celor care contribuie la diminuarea corelaiei
interscoreri. n SPSS opiunea pentru coeficientul W al lui Kendall este prezent alturi de r al
lui Pearson i de rho al lui Spearman.
O atenie special trebuie acordat coeficientului de corelaie multipl R, care st la
baza modelrii relaiilor dintre variabilele predictoare cu variabila criteriu prin regresia
multipl. Corelaia multipl poate fi utilizat de exemplu n clasarea unei ri ntr-o ierarhie
dup mai muli indicatori care intervin cu ponderi diferite sau n predicia reuitei colare,
acolo unde aspectele biologice (starea de sntate i constituia fizic), cognitive (atenie,
inteligen, memorie, creativitate), emoional-afective, temperamental-caracteriale, calitile
voluntare, nivelul de aspiraie, ali factori de personalitate, calitatea educaiei printeti i a
98

instruciei colare, calitatea colectivului de elevi i de profesori, a materialelor didactice


utilizate etc. pot interveni cu ponderi difereniate n efectul final (media general).
n general, la un efect X concur X1, X2, ... Xn factori a cror importan trebuie
cunoscut pentru a le da ponderea corespunztoare n efectul final sau n bateria de teste care
anticipeaz acest efect. Pentru a fi unul economicos, acest sistem de predictori sau aceast
baterie de teste trebuie s rein un numr nu prea mare de criterii (respectiv teste) care
coreleaz puin ntre ele, dar coreleaz strns cu criteriul prezis. Ca i strategii de determinare
a acestor ponderi, care se numesc coeficienii B (nestandardizai) sau (Beta, standardizai),
se pot folosi algoritmul condensrii pivotante a lui Aitken sau metoda Doolitle, care presupun
procedee de calcul laborioase, programele computerizate oferind soluii mult mai rapide.
Programul SPSS ofer mai multe metode de modelare a regresiei, la sfritul crora se
obine coeficientul de corelaie multipl R, care arat intensitatea relaiei dintre criteriul prezis
i variabilele predictoare, moderate de factorii B sau Beta. Ca i pentru r2, ridicarea la ptrat a
lui R d un coeficient de determinare prin care se apreciaz sub forma unei proporii
procentuale ct la sut din variana criteriului este prezis de combinaia de predictori reinui
n ecuaia de regresie multipl.
7.8. Utilizrile coeficientului de corelaie
Dintre utilizrile coeficientului de corelaie cele mai frecvente sunt urmtoarele:

Analiza principalelor caliti psihometrice (fidelitatea i validitatea) ale testelor


psihologice.

Construirea unor scale sau subscale ale testelor cognitive, educaionale sau de
personalitate n care meninerea sau ndeprtarea unor itemi depinde de corelaia
acestora cu scala.

n selectarea dintr-o multitudine de variabile a itemilor pentru a genera, prin analiza


factorial, scale omogene, care msoar un acelai construct (scale unifactoriale, cu
puritate factorial ridicat). Relevana unui item pentru constructul n cauz este dat
de saturaia acestuia n factorul identificat, care se exprim tot printr-o corelaie.

Alctuirea unor baterii de teste care prezic cu o mai mare acuratee criteriul, graie
modelrii corelaiilor dintre criteriu i predictori prin ecuaia de regresie simpl sau
multipl.

99

Analiza de clustere, similar n multe privine analizei factoriale, dar indicnd ntr-o
form uor de vizualizat nu numai ierarhia factorilor care compun clusterele, dar i
ordinea sau nivelul la care intr n combinaie fiecare variabil cu cele anterioare.
Alegerea celui mai potrivit demers pentru calcularea coeficientului de corelaie

depinde de tipul de variabil (numeric sau categorial; continu sau discontinu; numr mic,
mediu sau mare de indivizi statistici; caracteristici tipice sau atipice) i de sopul urmrit cu
procedeul n cauz. Operaia de baz este ns identificarea prealabil a tipului de scal
metric utilizat, urmat de determinarea normalitii sau anormalitii distribuiei fiecreia
dintre variabilele corelate n parte (normalitate univariat), dar i a fiecrei combinaii de cte
dou variabile corelate (normalitatea bivariat). Dar, pentru a-i cita pe Guilford i Fruchter:
ntotdeauna un coeficient de corelaie este relativ la circumstane i foarte rar, cu siguran,
ntr-un sens absolut.6

Guilford, J.P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education. Sixth Edition. New
Work: McGraw Hill, p. 88.

100

7.9. Exerciii i aplicaii practice


Pornind de la datele anterioare relative la nlimea i greutatea pentru studenii de la
psihologie:
1. Construii diagrama de corelaie cu marcarea norului de puncte pentru cele dou exemple
date n curs (HRHD, GRGD).
2. ntabelai HR cu GR i HD cu GD, calculnd cu minicalculatorul personal N, x, x, X,
X2,
3.

, XY i r, dup exemplul din curs. Comentai rezultatele.

Plecnd de la corelaiile la testele de inteligen semnalate n finalul cursului, invocai


argumentele pro i contra implicate n disputa ereditatemediu,

4. La un test de inteligen i la unul de adaptare social s-au obinut urmtoarele scoruri


brute: Inteligen: 80 75 74 80 50 64 46 70 64 74 59 84 55 69 86 50 68 65
Adaptare social: 146 90 114 77 143 26 88 105 78 44 91 61 44 88 44 182 94 90.
Calculai i evaluai mrimea coeficientului de corelaie i sensul acestuia.
5. Ce corelaii ateptai (pozitive, negative, zero) i la ce nivel ntre:
a. succesul colar i venitul anual n primii zece ani de la absolvire;
b. ntre vrst i abilitatea mintal;
c. ntre mediile colare la fizic i la matematic;
d. ntre memoria cuvintelor i media la matematic;
e. ntre mediile la limba romn i la limbile strine;
f. ntre rata naterii i numrul berzelor din inutul respectiv;
g. ntre venituri i costul vieii;
h. ntre succesul la nvtur i calitatea de lider afectiv sau tehnic;
i. ntre scorurile la domina/supunere pentru soi i pentru soii;
j. ntre numrul copiilor din familie i coeficientul de inteligen al prinilor;
k. ntre poziia n fratrie i realizarea colar exprimat prin media general.
Schiai cteva explicaii posibile pentru fiecare dintre situaiile analizate.
6. Corelaia dintre X i Y se schimb dac adugm o constant la X sau dac l multiplicm
pe Y cu o constant?
7. Ce legtur de asociere credei c exist ntre varian (dispersie) i corelaie?
8. Studiul corelaiei a nceput practic cu analiza relaiei existente ntre nlime i greutate,
aa cum acestea au rezultat din datele culese de ctre Galton n al su Laborator de
antropometrie (1884). Pentru c ei continu s fie cei mai importani indicatori
antropometrici, v propunem un exerciiu de re-analiz a relaiei dintre acetia, dar

101

difereniat dup criteriul de gen, pe un eantion evident nereprezentativ de studeni i


studente ai Universitii Transilvania. i pentru c ne-am transformat n zna bun,
propunnd studenilor n cauz s indice care ar fi mrimea la care nlimea i greutatea
lor proprii i-ar satisface pe deplin, v propunem s studiai aceste relaii i n planul ideal,
al dorinei, pentru a vedea dac aceasta se supune vreunei regulariti matematice.
Calculai deci intercorelaiile: R-D, GR-GD i apoi R-GR, D-GD, separat pentru biei
i fete, iar apoi pentru total, reunind datele ntr-un singur fiier. Comentai rezultatele
obinute. Rangai R i D la biei i fete i determinai corelaia (metoda lui Spearman)
corectnd obinut dup tabelul din curs.
B I E I
Valori absolute
Ranguri
N

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
N

GR

GD

177
172
174
185
180
166
165
180
182
168
168
176
168
174
178
175
175
193
182
178
189

185
175
180
185
180
175
190
180
182
170
172
185
175
174
180
182
181
180
190
180
191

110
58
60
85
81
58
65
77
74
64
60
58
58
60
73
60
72
76
80
74
76

21

21

21

F E T E
Valori absolute
2

GR

GD

95
68
70
85
76
65
95
75
80
72
63
75
65
60
80
60
77
78
72
70
85

165
161
160
163
160
170
159
169
169
167
166
160
160
173
162
164
170
167
170
165
169

170
168
180
170
170
170
165
175
175
170
166
170
170
170
170
170
165
167
170
165
175

56
55
47
56
56
58
44
68
62
47
54
46
60
65
55
59
55
47
60
59
50

55
47
60
50
50
55
46
60
58
47
50
45
60
63
53
50
50
52
55
53
50

21

21

21

21

21

X
X
X2
x
xy
xy
r

102

Ranguri
D

42

42

42

42

X
X
X2
x
xy
xy
r
7.10. Quiz
Rspundei la urmtoarele 10 ntrebri, fiecare scorat cu cte un punct:
1.
Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac adugm
urmtoarele dou cupluri de valori: 200 cm - 100 kg; 155 cm - 42 kg?.......................................
.......................................................................................................................................................
.......................................................................................................................................................
2.
Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac prima
valoare
introdus,
177
cm,
ar
fi
fost
tastat
1770
cm? ............................................................................. .................................................................
.......................................................................................................................................................
......................................................................................
3.
Ce s-ar ntmpla cu aceleai corelaii dac, din greeal, am fi introdus primul set de
valori
invers,
177
cm
la
greutate
i
110
kg
la
nlime? .............................................................. ........................................................................
.......................................................................................................................................................
...............................................................................
4.
Enumerai cinci dintre cele mai importante utilizri ale coeficientului de
corelaie. ...............
.......................................................................................................................................................
.......................................................................................................................................................
5.
Ce este norul de puncte i asupra cror caracteristici ne informeaz
el? .................................
.......................................................................................................................................................
.......................................................................................................................................................
6.
Analizai diferenele dintre mediile la R, D, GR i GD pentru biei i fete. Artai
dac
pstrai
sau
respingei
ipoteza
de
nul
i
la
ce
prag
de
semnificaie. .............................................
.......................................................................................................................................................
.......................................................................................................................................................
7.
Unul dintre coeficienii de corelaie are valoarea r = 3,25. Ce putei spune despre el
i
cum
argumentai? .................................................................................................................................
.......................................................................................................................................................
8.
Corelaia IR_ID este de r = .688 iar GR_GD este de r = .811. Cu cte procente este
mai bun a doua corelaie dect prima? Ct din variana criteriului prezis acoper
fiecare? .............
.......................................................................................................................................................
.......................................................................................................................................................

103

9.
Luai separat, pe biei i fete, corelaiile IR_ID i GR_GD sunt mai mici dect dac
punem la comun, ntr-un singur fiier toate datele. De ce se ntmpl acest
lucru? ................................
.......................................................................................................................................................
.......................................................................................................................................................
10. Corelaia dintre IR_GD pentru cele 21 de fete este de r = .379, nesemnificativ statistic.
Cum ar fi fost ea dac numrul fetelor ar fi fost de 42? Dar de 84? ............................................
.......................................................................................................................................................
.......................................................................................................................................................

104

CAPITOLUL 8
UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE
REGRESIA LINIAR SIMPL I MULTIPL

8.1. Introducere
Termenul de regresie a fost utilizat pentru prima dat de Galton, el neavnd nici o
conotaie negativ. Supuse prelucrrilor statistice, rezultatele obinute din investigarea n
primul laborator de antropometrie din lume (Londra, 1884) a unor caracteristici individuale,
scoteau n eviden tendina valorilor extreme de a regresa spre medie. Cu alte cuvinte, din
prini foarte nali sau foarte scunzi exist tendina natural s se nasc copii mai mici,
respectiv mai mari dect acetia.
Dac n psihanaliz un comportament este numit regresiv atunci cnd persoana se
ntoarce la faze revolute ale copilriei, cznd spre forme de echilibru tipice trecutului,
regresia statistic poart spre viitor, pentru c ea are n vedere n primul rnd anticiparea sau
precizarea unor fenomene, plecnd de la seturi de date actuale. nseamn c regresia
ndeplinete o funcie de baz n tiinele socio-umane, deoarece orice tiin i propune nu
doar s explice faptele care i circumscriu domeniul, ci s le i prezic, anticipeze, prin
postularea de regulariti.
Pentru a fi foarte riguroi, regresia are n vedere ambele dimensiuni ale tiinei,
deoarece ea poate fi utilizat att pentru a explica - regresia n scop explicativ -, ct i pentru a
prezice - regresia n scop predictiv. n prima situaie, dac prin metoda experimental s-a
determinat o relaie cauzal ntre unul sau mai muli factori, numii variabile independente, i
o variabila dependent, atunci ponderea cu care factorii din prima categorie (cauzele) intervin
n cea de a doua categorie (efectele) poate fi modelat matematic printr-o ecuaie de regresie.
De exemplu, se tie c inteligena general, motivaia sau caliti ale voinei intervin cu
ponderi diferite n ceea ce numim reuita academic sau randamentul colar al elevilor. Mai
mult, jocul acestor elemente psihologice se asociaz cu particulariti non-psihologice, cum ar
fi apartenena de gen: n condiii de dotare intelectual egal, fetele obin rezultate colare
semnificativ mai ridicate, ele mobiliznd n reuita colar mult mai mult factorii de
personalitate. Mai mult, ele pot converti ntr-o for pozitiv conformismul social,
105

dezirabilitatea social i locusul extern al controlului (teoretizat de Rotter) ce vor fi puse mai
mult n slujba reuitei colare. Poziia n fratrie, mrimea acesteia, statutul socio-economic al
familiei, studiile prinilor (ale mamei n special), starea de sntate biologic i psihologic,
calitatea proceselor instructiv-educative din coal etc. i nc ali factori pot fi invocai a avea
o legtur cauzal cu reuita colar. Problema care se pune este aceea de a stabili intensitatea
acestor legturi i de a le introduce ntr-un model matematic economic care s dea cea mai
puternic predicie, prin cel mai mic numr de predictori. Deci ntrebarea principal la care
trebuie s rspund regresia utilizat n scop explicativ este aceea dac i n ce msur o
variabil independent (VI) contribuie semnificativ la evoluia variabilei dependente (VD), n
condiiile n care am controlat experimental influena altor factori (variabilele parazite) asupra
acesteia.
Regresia utilizat n scop predictiv folosete i la nivel terminologic alte concepte,
deoarece elementul prezis se numete criteriu, iar elementul/elementele care fac posibil
predicia se numesc chiar predictori. Legtura dintre predictori i criteriu se ncearc a fi
maximizat prin includerea ntr-o ecuaie de regresie a acelor factori dintr-o categorie care au
cea mai mare putere, i aceasta ntr-o anumit ordine, determinat de importana lor. De
exemplu, n comiterea tentativei de suicid anumii factori reprezint un coeficient de risc mai
ridicat

(dispoziia

depresiv,

tendinele

auto-devalorizatoare,

sentimentul

sczutei

autoeficaciti personale, stima de sine diminuat, temperamentul melancolic etc.). Studiindui adecvat, ei pot fi abordai matematic printr-un model predictiv puternic, care s ghideze
aciunile i interveniile suportive ulterioare. Aceeai problem se poate pune n legtur i cu
securitatea rutier, cu anticiparea nivelului reuitei la un curs de formare, cu selecia primar
prin examene psihologice pentru anumite categorii de personal etc. i cea mai important
caracteristic a unui instrument psihodiagnostic, care este validitatea, se sprijin pe acest tip
de demers statistic, n msura n care orice diagnostic psihologic se face n vederea unui
prognostic, n raport cu care un test sau o baterie de teste se spune c se valideaz. ntrebarea
de fond la care trebuie s rspund regresia utilizat n scop predictiv se refer la ci i care
sunt predictorii ce ne ajut s estimm cel mai corect i mai economic criteriul.
A doua distincie major n materie de regresie este diferenierea terminologic ntre
regresia liniar simpl i regresia multiliniar sau multipl. Dac n primul caz este vorba
de o distribuie bivariat, n care exist un singur predictor (variabila independent) i un
singur criteriu (variabila dependent), n a doua situaie avem mai multe surse de variaie,
deoarece ecuaia de regresie include mai muli factori ce intervin cu ponderi diferite n
predicia criteriului.
106

Este evident c modelul multivariat are putere explicativ sau predictiv mai mare
dect cel liniar simplu. Dar i ntr-un caz i n cellalt putem apela la regresia liniar (fie ea
simpl sau multipl) n dou condiii:
-

relaia dintre predictor i criteriu (respectiv variabila independent i variabila


dependent VI - VD) este una liniar, sau este adus spre acest model;

criteriul (variabila dependent) este msurat pe o scal numeric (de interval sau de
raport), pentru alte tipuri de scale existnd forme specifice de regresie (logistic,
logistic multinominal sau ordinal).

8.2. Predicie determinist sau probabilist


Dac am dori s facem estimaia a ceva, aceasta ar putea fi mai grosier sau mai
nuanat, n funcie de elementele pe care le utilizm n predicie. De exemplu, dac am vrea
s ne vindem maina proprietate personal Dacia Logan, am putea s cercetm preul mediu
cu care maini de acest tip se vnd pe pia. Folosind media i abaterea standard, cunoscnd i
un pic de statistic, vom ti c am putea obine n proporie de 68% acest pre, plus i minus o
abatere standard; 96% preul mediu plus i minus dou abateri standard i 99% acesta plus i
minus trei abateri standard n jurul preului mediu.
Practica ne arat ns c problema nu e rezolvabil doar prin cunoaterea preului
mediu i a dispersiei acestuia, deoarece anul de fabricaie, starea mainii, numrul kilometrilor
parcuri sau elemente mai subtile (a fost maina implicat ntr-un accident major?; vnzarea
se face toamna - cnd preurile coboar, sau primvara, cnd preurile urc?; introducerea
unor legi - standardul Euro 4 sau 5, ori chiar unele zvonuri - mainile de un anumit tip nu se
vor mai nmatricula la poliie) intervin de asemenea n structura preului actual. Dac pentru
vnztorul ocazional asemenea lucruri par fastidioase, pentru cel ce triete efectiv din
vnzri/cumprri ele ajung s capete o importan special. Prediciile pe care urmeaz s le
facem sunt tot de tip probabilistic, pentru c ele nu anticipeaz cu o precizie absolut
elementul prezis, n condiiile n care fenomenul este determinat de o multitudine de cauze,
fiind practic imposibil de cunoscut i stpnit toate sursele de variaie ale factorilor respectivi.
Dac am avea un model care s prezic cu exactitate valorile unei variabile, plecnd
de la valorile altor variabile care o afecteaz, el s-ar numi model determinist (ca n fizic) i ar
avea formula:
Y = aX

107

n care Y este variabila prezis, X variabila (variabilele) predictoare i a o constant. Modelul


probabilistic ine cont de intervenia factorilor aleatorii (hazardul) care sunt o surs de eroare,
deci el va avea formula:
Y = aX + eroarea aleatorie
Y = componenta determinist + eroarea aleatorie
8.3. Regresia bivariat
Se numete bivariat deoarece acest tip de regresie pleac de la relaia existent ntre
dou variabile: independent i dependent, predictor i criteriu, ori gradul de asociere care
exprim intensitatea relaiei dintre dou variabile este - aa cum am artat anterior - dat de
coeficientul de corelaie. Expresia vizual a acestei relaii este dat de diagrama de corelaie,
unde norul de puncte tinde mai mult sau mai puin spre o dreapt. n cazul corelaiilor perfecte
(r = 1) norul de puncte ia chiar forma unei drepte, numit linie de regresie, creia i se poate
determina o ecuaie (ca oricrei drepte) i care trece prin toate punctele norului de puncte.
Aceasta nseamn c putem anticipa cu exactitate pe Y plecnd de la X (i reciproc),
neexistnd nici o diferen ntre rezultatele estimate i cele constatate. Din pcate aceasta este
doar o situaie ideal, n realitate regresia cutnd acea dreapt care s reproduc cel mai bine
evoluia norului de puncte, pentru a permite estimri ct mai exacte ale rezultatelor. Pentru ca
aceasta s fie posibil este nevoie ca ntre predictor i criteriu s existe o corelaie ct mai
mare, deoarece creterea corelaiei strnge norul de puncte tot mai aproape n jurul unei
drepte.
Dreapta pe care o ajustm norului de puncte ar trebui s satisfac dou condiii:

s minimizeze suma tuturor erorilor: adunnd abaterile pozitive sau negative ale tuturor
punctelor de la linie, aceast sum ar trebui s fie minim. Numai pe baza acestui criteriu
nu am ti ns cum s trasm efectiv linia, deoarece valorile negative i cele pozitive se
anuleaz reciproc i criteriul nu distinge ntre mulimea de linii care potrivesc punctele;

s minimizeze suma ptratelor tuturor abaterilor de la linie: acesta este un criteriu mai
valid (i singurul!), deoarece se poate demonstra matematic (principiul celor mai mici
ptrate) c exist doar o singur linie care potrivete bine toate punctele, spre deosebire de
situaia precedent. Aadar7, linia de regresie care red cel mai bine norul de puncte este
una singur i ea se construiete dup principiul celor mai mici ptrate (the least squares

Tilda (^) de deasupra variabilei Y, fie ea standard sau brut, arat c valoarea obinut prin ecuaia de regresie
nu este cea real, msurat, ci este valoarea anticipat, expectat prin predicie.

108

n englez) i apeleaz de fapt la proprietile matematice ale ecuaiei unei drepte, care
arat astfel:
^Y = B0 + B1X

(8.1)

unde B0 se cheam interceptul, adic punctul de intersecie al liniei de regresie cu ordonata


(axa OY); B1 indic panta liniei de regresie i - deoarece el este dat de valoarea tangentei
unghiului teta () - acesta indic cu ct crete Y atunci cnd X crete cu o unitate; panta este
ascendent pentru corelaiile pozitive i descendent pentru cele negative.

Figura 8.1. Reprezentarea grafic a modelului regresiei liniare


i a criteriului celor mai mici ptrate.
Surs: Mertler i Vannatta, 2005, p. 168.

n Figura 9.1 de mai sus linia de regresie se poate trasa dnd valoarea zero lui X,
pentru a determina interceptul B0 (care este locul n care linia taie ordonata) i o valoare
oarecare (mai mare) a lui X pentru a obine al doilea punct necesar trasrii dreptei. Pentru
fiecare Xi ecuaia de regresie prezice un Yi, dar cu un grad de eroare, reprezentat mai sus prin
diferena dintre valoarea real observat i valoarea prezis. nsumarea tuturor acestor erori se
exprim prin ceea ce se chiam reziduale, n fond o msur a limitei de precizie a modelului
regresiv. 1 indic panta liniei de regresie, adic cu ct crete Y n condiiile creterii cu o
unitate a lui X.

109

n cazul regresiei bivariate B1 este dat de formula:

B1 r y
x

(8.2)

unde r este coeficientul de corelaie iar x i y sunt abaterile standard pentru cele dou
variabile. Coeficientul B0 se calculeaz dup formula:
B0 y B1 x

(8,3)

n care y i x sunt mediile variabilelor Y i X. Pentru a da un exemplu, media unei clase de


elevi este la inteligen de 106,71 cu o abatere standard de x = 13,52, iar media la matematic
este de 7,98 cu o abatere standard y = 0,92, corelaia dintre QI i matematic fiind r = 0,83.
Vom avea:
B1 = 0,83 0,92/13,52 = 0,0565.
B0 = 7,98 - 0,0565 106,71 = 7,98 - 6,03 = 1,95
^Y = 1,95 + 0,0565 X
Pentru QI de 116 i 87, valoarea anticipat a mediei la matematic va fi:
^Y = 1,95 +0,0565 116 = 8,50
^Y = 1,95 + 0,0565 87 = 6,87
De menionat faptul c ecuaia de regresie estimeaz rezultatele uor diferit fa de
cele real constatate dar, cu toate acestea, parametrii acestei ecuaii asigur soluia cea mai
apropiat de rezultatele observate. Diferena dintre rezultatele estimate i cele observate sunt
cu att mai mari cu ct corelaia dintre cele dou variabile este mai sczut. Att n cazul
regresiei liniare simple, ct i n al celei multiliniare exist o serie se procedee care ne ajut s
decidem n legtur cu eficiena ecuaiei de regresie n estimarea rezultatelor.
Un set de date poate fi exprimat n note brute (aa cum au fost ele culese) sau n note
standard, adic n note z (abaterea de la medie a unei valori, exprimat n uniti sigmatice).
Cea mai simpl predicie bivariat este cea exprimat n scoruri z: cunoscnd nota z a unei
persoane la o variabil, vom prezice nota sa z la cealalt variabil dup formula:
zy = Bzx

(8.4)

n care B se cheam chiar coeficient de regresie. Dar, deoarece valoarea coeficientului


standardizat de regresie este exprimat de coeficientul de corelaie dintre variabile, formula
anterioar devine:
zy = r zx

110

(8.5)

Apelm la exemplul anterior, unde corelaia dintre QI i media la matematic era de 0,83:
media lui X = 106,71
x = 13,52
zx1 = (116 - 106,71) / 13,52 = 0,69

zx2 = (87 -106,71) / 13,52 = - 1,46

media lui Y = 7,98


y = 0,92
zy1 = ?

zy2?

zy1 = 0,83 0,69 = 0,57

zy2 = - 1,21

Verificare: (8,50 - 7,98) / 0,92 = 0,57;

(6,87 - 7,98) / 0,92 = - 1,21

Aa cum se vede, rezultatele obinute pe cele dou ci sunt coincidente.


Desenarea liniei de regresie se face prin determinarea coordonatelor a dou puncte
aflate la extermiti diferite ale scalei i unindu-le cu o linie. Pentru mai mult acuratee se pot
determina din start trei puncte: unul care este chiar originea (X = 0), unul aflat la cealalt
extrem i unul intermediar. Dac determinrile s-au fcut corect, cele trei puncte vor fi
coliniare. Linia care va reiei astfel minimizeaz suma deviaiilor abaterilor ptratice ale
valorilor prezise de la cele reale i este una singur. Ecuaia i linia astfel obinute sunt
valabile doar pentru predicia lui Y din X i nu pot fi utilizate i n sens invers. Pentru ca
aceasta s fie posibil i pentru a-l determina pe X plecnd de la Y trebuie o scris o nou
ecuaie de regresie, n care cele dou variabile vor fi introduse n ordine invers.
Faptul de a determina ecuaia i linia de regresie ce se potrivete cel mai bine datelor
nu nseamn ctui de puin c am terminat de rezolvat ntreaga problem a prediciei, cci
prin aceasta tocmai am deschis o nou problem adiacent, care se refer la erorile de
predicie. Erorile asociate cu prediciile reprezint abaterea standard a lui Y (sY) care tim c
este definit astfel:
sY

(Y Y ) 2
N 1

sY

(8.6)

(Y Y ) 2
N 1

(8.7)

Se observ c n ambele formule la numrtor se afl suma abaterilor ptratice ale


fiecrui Y real obinut de la cel prezis, adic reprezint suma ptratelor lui Y (SSY). Deorece
linia de regresie se bazeaz pe abaterile ptratice ale lui Y obinut de la cel prezis, msura
erorilor aleatorii poate fi scris astfel8:
8

n formulele anterioare aveam la numitor pe N - 1 pentru c se determin doar un parametru, media populaiei.
n formula care urmeaz la numitor avem N - 2 pentru c acum se estimeaz dou lucruri simultan, panta i
interceptul.

111

sY Y

(Y Y ) 2
N 2

(8.8)

Prelucrri algebrice speciale conduc de la formula de definiie de mai sus la dou


formule de lucru mult mai maniabile:
N 1
sY Y sY (1 r 2 )

N 2

(8.9)

sY Y sY

(1 r 2 )

(8.10)

Ultima formul, dei nu la fel de precis comparativ cu cea anterioar, este una mult
mai practic, lund n calcul abaterea standard a lui Y i corelaia r, ambii indicatori uor de
determinat. Eliminarea de sub radical a raportului (N - 1)/(N - 2) este justificat de faptul c la
distribuiile mai mari (de peste 30) corecia adus de acest raport este practic nensemnat.
ns n acest caz semnul dintre termeni nu mai este egal, ci aproximativ egal.
Eroarea standard a estimaiei se interpreteaz ca o form special de abatere standard,
deoarece sY Y este chiar deviaia standard a erorilor care apar cnd este folosit ecuaia de
regresie. Este evident c predicia este cu att mai bun cu ct factorul eroare este mai mic,
adic pe msur ce corelaia dintre cele dou variabile devine tot mai puternic. Pentru r = 1
erorile de predicie sunt eliminate, dar aceast situaie nu se ntlnete niciodat n realitate.
Aadar, determinarea ecuaiei i a liniei de regresie nu nseamn ctui de puin
rezolvarea complet a problemei prediciei, cci trebuie calculat i cantitatea de eroare pe
care aceast ecuaie o face posibil atunci cnd se opereaz cu ea. Importana major a
prediciei prin regresia bivariat nu este dect n mod secundar acela de a-l determina pe un
anume Y n funcie de un anume X, ci deriv din aceea c ea descrie bine relaia dintre dou
variabile, indicnd dac se poate face sau nu predicie, i ntre ce limite de precizie. Creterea
puterii i acurateei acestei predicii se face apelnd la regresia multipl prin introducerea de
predictori suplimentari, ceea ce nu conduce la eliminarea rezidualelor, adic a erorilor de
predicie. Cu ct modelul regresiv este mai bun i mai complet, cu att mai mult se elimin
din eroarea rezidual. Dei tot mai bun, predicia nu va putea elimina ns nicicnd definitiv
factorul eroare, adic zona din variana comun rmas neprezis de setul de variabile
predictoare.
Trebuie menionat aici i rolul nefast pe care valorile atipice sau extreme (rezultate
uneori dintr-o simpl tastare incorect la introducerea datelor) l au asupra regresiei. Fiind
legat strns de coeficientul de corelaie, creterea sau descreterea acestuia ca urmare a

112

prezenei valorilor aberante se repercuteaz direct asupra modelului regresiv care este ecuaia
de regresie, mrind substanial componenta de eroare a prediciei.
8.3.1. Regresie versus corelaie
Avantajul corelaiei este acela c ea este reprezentat sintetic printr-un singur numr
care exprim intensitatea asocierii dintre dou variabile. Astfel, corelaia de .75 dintre nlime
i greutate este una substanial i afirm c 56% din variana comun rezult din asocierea
celor dou variabile. Dar acest r ridicat nu ne spune care trebuie s fie greutatea dac
nlimea crete cu 5 centimetri. n situaia cnd vrem s determinmm magnitudinea
schimbrii i arat regresia adevrata utilitate. Regresia multivariat (mai multe variabile
predictoare asociate cu o singur variabil criteriu) arat clar c regresia i corelaia nu se
suparpun ntotdeauna aa de frumos. Astfel, atunci cnd exist o corelaie ridicat ntre doi
predictori i o variabil prezis acest fapt se poate datora unei sau alteia dintre variabile sau
amndurora luate mpreun. Aa se face c n regresia multipl, nainte de a evalua rolul
comun al predictorilor asupra variabilei prezise, trebuie evaluat rolul separat al fiecruia, dar
i intensitatea asocierii dintre acetia.
Semnificaia statistic a pantei ecuaiei de regresie bivariat se sprijin pe formulele de
mai jos, n care t se va interpreta n maniera cunoscut, fcnd apel la tabelele lui Fisher din
Anexe.

b
sY Y
sX N 1

b( s x ) N 1

N 1

N 2

sY (1 r 2 )

(8.11)

8.4. Regresia liniar multipl (multivariat)


n psihologie, sociologie sau pedagogie un efect este dependent de mai multe cauze ce
intervin cu ponderi diferite (multi-cauzalitate), deci i predicia noastr ar putea fi
mbuntit considerabil dac am putea ine cont simultan de mai multe variabile i de relaia
lor cu variabila prezis. Indicatorul sintetic al acestei relaii este R, adic coeficientul de
corelaie multipl, care - atunci cnd este ridicat la ptrat (R2) devine coeficient de
determinare multipl, pentru c ne arat care este variaia din variabila dependent Y
(criteriul) explicat de variabilele predictoare (sau variabila independent X).
Dac am reda prin cercuri variaia total a unei variabile am obine diagrame Venn de
tipul celor de mai jos. Zona din variana comun (numit covarian) explicat de r2 sau de R2

113

a fost de fiecare dat notat cu a, zona b din Y fiind cea care rmne de fiecare dat
neexplicat.

Figura 8.2. Relaia dintre predictori i criteriu n regresia


bivariat simpl (A) i multivariat (B).

Figura 8.3. Relaia dintre predictori i criteriu n regresia multivariat.

Dac n regresia simpl un singur predictor las o mare parte din variana lui Y
neexplicat (zona b), n exemplul urmtor vedem c fiecare predictor explic cte o parte din
variana lui Y, partea b micorndu-se. Exemplul C ne atrage atenia c adugarea de noi
predictori nu face s diminue semnificativ zona b dect atunci cnd ei sunt independeni,
adic necorelai ntre ei. Deoarece X2 i X3 sunt corelai ntre ei, X3 nu contribuie la diminuarea
zonei b n aceeai msur n care o face X2 i de aceea va trebui hotrt dac rmn n ecuaia
de regresie amndoi predictorii, iar dac nu, care va fi cel pstrat.
Dac folosim mai muli predictori (variabile independente), ecuaia de regresie
multipl va avea urmtoarea formul:
^Y = B0 + B1X1 + B2X2 + ... + BnXn

(8.6)

n alegerea celui mai potrivit model de regresie exist - pe de o parte - considerentele


teoretice de la care plecm, dar - pe de alt parte - i civa indicatori statistici obiectivi care
ne ghideaz n deciziile noastre. Acetia sunt coeficientul de corelaie multipl R sau ptratul
acesteia (coeficientul de determinare multipl) i testul F, ntlnit i n cazul analizei de
varian ANOVA.

114

R poate fi judecat ca orice coeficient ce corelaie, dar R2 este mai informativ, pentru c
el ne arat ct din dispersia variabilei-criteriu este explicat de un predictor sau de un grup de
predictori i ct din varian explic n plus fiecare nou predictor introdus n model, atunci
cnd abordarea se face prin metoda ierarhic. Practic, atunci cnd un predictor nu
amelioreaz semnificativ predicia criteriului, R2 crete nesemnificativ i acesta este semnul c
acel predictor nu mai trebuie inclus n model. Dac privim cu atenie Figura 7.2 de mai sus X1
i X2 coreleaz strns cu criteriul Y i - necorelnd ntre ele - X2 amelioreaz semnificativ
predicia pe care o realiza numai X1. n schimb, X3 elimin prea puin din b, chiar dac
coreleaz i el cu Y, i aceasta deoarece este el nsui corelat i cu X2. Dintre X2 i X3 va trebui
s pstrm doar un singur predictor, pe cel mai puternic, i aceasta deoarece modelul final
trebuie s dea cea mai bun predicie, cu numrul cel mai mic de predictori, adic trebuie s
fie unul economic.
Pe de alt parte, ANOVA ofer o valoare a lui F, acesta fiind un test de semnificaie
comparabil cu testul t Student, diferena fiind c face comparaia dintre o variabil continu i
una cu mai mult de dou stri (trihotomic, qvadrihotomic etc., adic polihotomic).
Analiznd raportul mediilor ptratice ale varianelor prezise (poriunea a din diagram) i a
celor reziduale (factorii de eroare, adic poriunea b) pentru modelul de regresie construit n
ansamblul sau, F ne informeaz despre semnificaia statistic a acestuia n acelai fel sau
manier ca i testul t Student al lui Gosset.
n al treilea rnd, programul de analiz computerizat a datelor SPSS ofer finalmente
outputuri (vezi figurile de mai jos) pentru metoda ierarhic care are pe ultimele coloane
determinarea lui t i a semnificaiei sale statistice p pentru fiecare dintre componentele
modelului, ajutndu-ne s identificm i s pstrm doar combinaia de predictori care sunt
cel mai semnificativ asociate cu criteriul.
8.4.1. Probleme speciale implicate n analiza de regresie
Analog cu r din corelaia Pearson, coeficientul de corelaie multipl R din regresie
ne vorbete despre ct de mult informaie conine combinaia de variabile independente VI
necesar pentru a putea prezice criteriul (VD). Ca i la ANOVA i n cazul regresiei multiple
exist un test F, care d expresie faptului dac relaia dintre setul de VI i VD este suficient de
mare pentru a fi semnificativ. Interpretarea lui R este de altfel similar cu r al lui Pearson, n
sensul c ridicat la ptrat el devine coeficient de determinare i, nmulit apoi cu 100
(R2100), el va exprima procentajul din variana VD explicat de combinaia de VI din model.
115

O a doua problem esenial a regresiei este cea a multicoliniaritii, care poate


aprea atunci cnd ntre variabilele predictoare exist o corelaie medie spre mare sau mare.
Dac dou variabile predictoare sunt mediu sau puternic intercorelate, practic ele conin o
informaie foarte similar i, msurnd cam acelai lucru, una dintre ele nu amelioreaz
semnificativ predicia VD. Dar aceasta este doar o parte a problemei, cci variabila respectiv
nu numai c nu aduce o informaie suplimentar, dar prin faptul c genereaz
multicoliniaritate ea creeaz o problem tehnic ce afecteaz analiza de regresie n sine.
Astfel, ea face s creasc variana coeficienilor de regresie, fapt care are ca efect o ecuaie
mai puin stabil. n plus, multicoliniaritatea genereaz probleme n interpretarea corect a
importanei fiecrei variabile independente n parte n predicia variabilei dependente. Deci
suprapunerea de informaie prin multicoliniaritate produce confuzii ce limiteaz capacitatea
de precizare a efectelor individuale ale fiecrei VI. Acesta este motivul pentru care analiza
multicoliniaritii va fi abordat la nceputul analizei de regresie, i nu la sfritul ei. Pentru
aceasta se d Testul de toleran (Tolerance test) pentru fiecare variabil independent.
Testul de toleran este o msur a coliniaritii pentru fiecare variabil predictoare i poate
lua valori de la 0 la 1. Valoarea spre zero a toleranei este o indicaie clar a multicoliniaritii,
iar pragul de 0,10 devine punct de tietur (cutoff) n luarea deciziei.
A doua metod de identificare a multicoliniaritii const din examinarea Factorului
de inflaie a varianei (Variance Inflation Factor = VIF) pentru fiecare predictor n parte.
Cnd VIF pentru o VI este mare, acest fapt indic o combinaie liniar puternic ntre aceast
variabil i ceilali predictori. Formula sa (VIF = 1/(1 Rje) este furnizat de programele de
prelucrare computerizat a datelor, o valoare mai mare de 10 fiind indicativ pentru existena
multicoliniaritii. Relaia dintre toleran i VIF este urmtoarea: VIF = 1/toleran.
Combaterea multicoliniaritii are n vedere mai multe procedee, dintre care cel mai
radical este eliminarea efectiv din analiz a variabilei respective. Pentru al doilea procedeu
mai dezirabil pornim de la un exemplu: s presupunem c utilizm factorii de atmosfer
familial i competen educaional a prinilor pentru predicia insatisfaciei legat de
aspectul fizic al sinelui adolescentin. Cum cele dou VI sunt puternic intercorelate, cea mai
bun rezolvare a problemei este agregarea lor ntr-un indicator sintetic prin care vom combate
i coliniaritatea, dar vom avea i o nou VI mai stabil. A treia metod de combatere a
multicoliniaritii ine cont de necesitatea parcimoniei modelului regresiv, care trebuie s
ofere cea mai bun predicie cu cel mai redus numr de predictori. Aceasta impune selecia
celui mai bun set de predictori, fapt care presupune deinerea n avans a unei informaii
semnificative despre relaiile existente ntre variabile, prin matricea de intercorelaii, combinat
116

cu caracteristicele i mrimea eantionului pe care se lucreaz. Cum augmentarea eantionului


este mai pretenioas i mai costisitoare, pare mult mai rezonabil s meninem numrul de
predictori la un nivel ct mai sczut.
8.4.2. Validarea modelului regresiv
Aceasta apare ca o etap necesar deoarece predicia VD se face n raport cu un
eantion populaional cu caracteristici specifice. Pentru a putea extinde mai larg utilizarea
modelului obinut la captul analizei, acesta trebuie s prezic suficient de bine i pe alte
populaii, n caz contrar el neputnd fi generalizat. Validarea ncruciat a modelului se face
lsnd s treac o perioad de timp, ridicnd un alt eantion din aceeai populaie i testnd pe
aceasta modelul regresiv anterior. Cum acest lucru nu este ntotdeauna fezabil, cel mai
prudent lucru este splitarea din start a populaiei iniale (care n acest caz trebuie s fie
suficient de larg) n dou loturi, unul destinat construirii modelul regresiv cel mai adecvat,
cellalt testrii i verificrii validitii sale pe un alt eantion. Mertler i Vannatta (2005) atrag
atenia asupra rolului extrem de nefast pe care valorile atipice sau extreme (outlierii) l pot
avea asupra modelului regresiv. n msura n care regresia multipl este o metod destinat
maximizrii corelaiei predictori-criteriu i n msura n care tim ct de sensibil este
corelaia la cazurile atipice sau extreme, outlierii trebuie identificai i tratai cu toat atenia.
n acest scop analiza boxploturilor bivariate sau determinarea distanei Mahalanobis
constituie precauii mai mult dect dezirabile.
8.4.3. Glosar de termeni cheie ai regresiei liniare
Valoarea prezis: valoarea estimat pentru variabila Y de la variabila X.
Panta (slope = b): Schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.
Interceptul: este valoare lui Y cnd X este zero.
Erorile de predicie: diferena dintre Y obinut i cel prezis.
Eroarea standard a estimrii: media deviaiilor ptratice de la linia de regresie.
Variana rezidual (eroarea varianei): rdcin ptrat din eroarea standard a estimrii.
Reziduale: suma diferenelor dintre Y obinut i cel prezis.
Linia de regresie prin cele mai mici ptrate: linie de regresie determinat prin minimizarea
diferenelor ptratice dintre Y obinut i cel prezis.
Ecuaia de regresie: este ecuaia care l prezice pe fiecre Y din fiecare X.

117

Coeficieni de regresie: numele general dat pantei i interceptului; adesea se refer doar la
pant (B).
Coeficienii de regresie beta (): sunt cei care rezult nu din distribuia originar, ci dup ce
aseasta a fost standardizat. Cnd avem doar o variabil predictoare (regresie simpl sau
bivariat) beta este dat de mrimea corelaiei dintre cele dou variabile ( = r).
8.5. Exerciii i aplicaii practice

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N
X
X
X
X2

Ina
real
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158

Gre
real
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49

Ina
dorit
169
170
172
170
175
167
175
160
60
175
165
180
193
168
170
165

Gre
dorit
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50

Un grup de 16 studeni de ambele genuri au furnizat urmtoarele valori ale nlimii i


greutii lor, actuale i dorite (cea la care ei s-ar declara satisfcui). Iat care sunt cerinele
aplicaiei de fa:
a. Efectuai patru diagramele tip scatter pentru nlimea real i greutatea real, apoi ntre
nlimea real i cea dorit. Aproximai ochiometric corelaiile existente pentru fiecare
diagramn parte i comentai rezultatele.
b.

Calculai ecuaia de regresie pentru prezicerea greutii reale din nlimea real.

Interpretai interceptul i panta liniei de regresie.


c. Sunt r i B semnificativ diferii de 0?

118

d.

Utiliznd ecuaia de predicie de mai sus, determinai ce greutate ar trebui s avei n

raport cu nlime dvs. real.


e. Scriei o a doua ecuaie de regresie prin care nlimea real s poat fi prezis plecnd de
la greutatea real i apoi determinai nlimea pe care ar trebui s o avei plecnd de la
greutatea dvs. actual.
f. Trasai corect linia de regresie pe scatterplotul corespunztor, lund obligatoriu dou
puncte, unul pentru origine i altul pentru nlimea de 200 de cm, dar i un al treilea punct
intermediar pentru a vedea dac el se afl pe linia de regresie trasat.
g.

Determinai eroarea standard a estimrii, att pentru prima, ct i pentru cea de a doua

ecuaie de regresie.
h.

Care este diferena dintre coeficienii de regresie B i (beta)? Ce avantaje i

dezavantaje prezint fiecare i cnd l folosim pe unul sau pe celllt?


i. Ce legtur exist ntre coeficientul de corelaie i ecuaia de regresie simpl?
j. Ce valoare ar trebui s adunm sau scdem la variabila greutate real pentru ca linia de
regresie s treac prin originea axelor?
k.

Determinai coeficientul de corelaie pentru perechile IR-GR, IR-ID, ID-GD i GR-

GD. Comentai corelaiile obinute i argumentai n legtur cu perechea de variabile a crei


ecuaie de regresie va da cele mai mici erori de estimare.
l. Ce s-ar ntmpla cu relaia nlime-greutate, reale i dorite, dac am mri mult eantioanele,
dup ce vom fi separat datele pentru genul masculin de cel feminin?

119

CAPITOLUL 9

TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT ( 2)


9.1. Teste nonparametrice, distribuii binomiale i multinomiale
Modalitile de testare a ipotezelor statistice prezentate anterior sub forma testelor t i
z, a testelor de corelaie r, R i rho, la care se adaug testele F (rezultat din analiza de varian
ANOVA, neprezentat n aceste volum) se mai numesc i teste parametrice. Ele se cheam
astfel deoarece pleac de la estimarea unor parametri ai populaiei din care a fost extras
eantionul considerat, cum ar fi media () i abaterea standard (). Dei mai precise i mai
ntemeiate matematic dect testele nonparametrice, de care vom vorbi n ultimele dou
capitole ale lucrrii de fa, acest tip de teste se sprijin pe supoziia normalitii distribuiei
pentru variabila msurat la nivelul populaiei, fiind nevoie ca aceasta s fie msurat pe scale
real numerice, tipice celor de interval sau de raport.
Testele nonparametrice sunt destinate de asemenea testrii ipotezelor statistice, dar
fr a mai face inferene asupra parametrilor populaiei i fr a testa ipoteze legate de acetia,
de unde i numele lor de tehnici/teste nonparametrice. Deoarece ele nu pleac de la premisa
normalitii distribuiei, acestea sunt teste independente de forma distribuiilor. Dar i
aceasta pare a fi diferena esenial fa de testele parametrice ele sunt aplicabile doar
datelor non-numerice de tip categorial i nominal, fiind prin aceasta utile n zone n care
testele parametrice nu mai sunt operaionale.
Distribuiile pe care le presupun testele nonparametrice sunt fie cele dihotomice (cu
doar dou categorii de valori, reciproc exclusive, de tipul admis-respins, masculin-feminin,
da-nu etc.), motiv pentru care se numesc binomiale, fie cele care, dei tot categoriale, pot
prezenta mai multe valori de scor, i care se numesc multinomiale. Aceste categorii sunt
rezultate fie n mod natural (grupele sanguine, anotimpurile anului, tipul de afiliere religioas
etc.), fie n urma unui proces de mprire n clase a unei variabile continue, dup anumite
criterii. n statistic, variabilele continue real-numerice sunt preferabile celor discontinuecategoriale pentru c permit tratamente mai puternice sau mai elaborate ale datelor. Dar cnd
distribuia unei variabile continue real numerice este una anormal (bimodal, adic cu o mare
eterogenitate provocat de acumularea valorilor variabilei n jurul a dou valori de scor, sau
este puternic asimetric sau chiar trunchiat), ori cnd exist alte motive ntemeiate, variabila
120

continu poate fi recodificat n una categorial. Acest fapt se ntmpl n mod curent cu
veniturile populaiei, cu numrul de igri fumate zilnic sau cu vrsta, pentru care este
preferabil utilizarea unui numr mai mic de categorii ce permit o autoraportare mai rapid a
populaiei unui studiu. Dei prin cagorizarea variabilei continue testul statistic pierde din
putere (din capacitatea de a reliefa diferene atunci cnd ele exist cu adevrat), unele tehnici
statistice nici nu sunt posibile dect dac nu exist cel puin o variabil categorial, cazul tipic
fiind al analizei de varian ANOVA.
Formula distribuiei chi-ptrat este cea de mai jos:
z2

( X N P)
N PQ

(9.1)

n care X este variabila, N volumul eantionului, P probabilitatea de apariie a


evenimentului/categoriei respective i Q complementul ei (Q = 1 - P). Aceast distribuie va
avea ntotdeauna originea n zero, cci ridicarea la ptrat desfiineaz diferenele negative, i
va genera o familie de distribuii a cror form va evolua de la o asimetrie iniial extrem de
marcat (distribuii trunchiate) spre distribuii care se normalizeaz progresiv, pe msur ce
numrul gradelor de libertate (df) crete, ncepnd de la df egal cu 10.

Figura 9.1. Curbele distribuiilor chi-ptrat pentru 1, 2, 4, 6 i 10 grade de libertate

9.2. Termeni cheie i definiii implicate n testele chi-ptrat


Chi-ptrat: modalitate de testare a ipotezelor utilizat pentru datele categoriale.

Cnd avem o singur variabil categorial, raportat la o distribuie teoretic sau la


frecvene de apariie dinainte tiute, chi-ptrat determin gradul de suprapunere al
distribuiei real observate (fo) peste cea expectat (fe). n acest caz avem de-a face cu
chi-ptrat pentru suprapunere (goodness of fit n englez).

n cazul a dou variabile categoriale chi-ptrat determin dac ele sunt independente
una n raport cu cealalt, sau dac sunt relaionate sau asociate, adic neindependente.
121

Acest tip de test se cheam chi-ptrat pentru asocierea datelor categoriale, n


efectuarea sa fiind necesar introducerea datelor ntr-un tabel de contingen.
Tabel de contingen: este un tabel bidimensional, adic cu dou intrri, n care fiecare
observaie este clasificat simultan pe baza celor dou variabile categoriale. ntr-un
asemenea tabel se trec obligatoriu frecvenele observate (fo) n mrime absolut (i nu
procentual) i, pe o linie separat sau n paranteze, frecvenele expectate (fe),
determinate dup un algoritm specific. Cnd se determin chi-ptrat, tabelul de
contingen are ntotdeauna o ultim linie i coloan pe care se fac totalurile
marginale, necesare determinrii frecvenelor expectate.
Variabil categorial: este o variabil discontinu care prezint dou sau mai multe categorii
distincte ce permit clasificarea fiecrei observaii n una dintre categorii. n acest fel se
poate determina frecvena observat pentru fiecare categorie.
Totaluri marginale: rezult din nsumarea totalurile nivelurilor unei variabile categoriale,
nsumarea fiind n funcie de nivelurile celeilalte variabile. Totalurile pe linii i
totalurile pe coloane dau prin nsumare toalul general, simbolizat prin N, ce reprezint
numrul tuturor evenimentelor sau grupurilor pe care se face analiza. N se raporteaz
cifric odat cu chi-ptrat.
Asociere: cuvntul asociere ne duce automat cu gndul la corelaie. Apare astfel inevitabil
ntrebarea dac chi-ptrat pentru asociere poate fi considerat tot un test de corelaie.
Rspunsul este afirmativ, fr nici un echivoc, cci:

chi-ptrat pentru asocierea variabilelor urmrete dac dou variabile sunt


independente sau asociate:

intensitatea asocierii este evaluat printr-o gril propus de Cohen, similar cu cea
destinat lui r;

i pentru acest tip de asociere a datelor categoriale se determin o mrime a efectului


(coeficientul fi) care, ridicat la ptrat i nmulit cu 100, determin variana comun
a celor dou variabile, explicat de asocierea chi-ptrat, exact ca n cazul
coeficientului de determinare asociat lui r.
Exist totui o multitudine de diferene dintre elementele comparate. Astfel, r se

bucur de o reprezentare grafic specific, care este scatterul, oferind o perspectiv mult mai
nuanat asupra caracteristicilor asocierii, cci se sprijin nu pe niveluri ale variabilelor, ci pe
variabile continue. Faptul c o variabil continu poate deveni una categorial, cu un numr
restrns de condiii, sugereaz ns c testul chi-ptrat pentru asociere poate fi folosit

122

substitutiv nu numai pentru r, ci i pentru ANOVA, atunci cnd violarea condiiei de


normalitate este una puternic.
9.3. Condiii i restricii pentru efectuarea testului chi-ptrat

Testul chi-ptrat se aplic doar pentru date indicnd frecvene. Aceast condiie nu
creeaz probleme practice deosebite cci acolo unde categoriile nu exist n mod
natural, ele pot fi create prin operaia de recodificare, utiliznd criterii clare de
categorizare. Atenie ns, cele dou variabile nu trebuie s se intersecteze, ceea ce
nseamn c fiecare observaie intr doar ntr-o singur celul de tabel.

A doua cerin este aceea ca observaiile individuale din componena categoriilor


variabilei s fie independente, fiecare n raport cu toate celelalte. De exemplu, n
loturile apariate datele provenite de la so i de la soie, de la primul nscut i de la al
doilea nscut nu sunt independente.

Dac nregistrm evenimente dihotomice, de tipul celor care apar i care nu apar,
trebuie s avem pentru fiecare frecvenele aferente, astfel ca suma lor s fie mereu
aceeai.

Frecvena ateptat s nu ia valori mai mici de 5 i nu n mai mult de o cincime din


celulele tabelului de contingen.

Nici o celul a tabelului nu trebuie s aib frecvena expectat mai mic de 1, cci
mprirea la zero (fe este numitor) nu are sens.
9.4. Utilizarea practic a testului chi-ptrat
n determinarea semnificaiei diferenelor dintre medii sau cuantumuri procentuale cel

mai adesea se face apel la corelaie, la testul z (cnd numrul cazurilor este mai mare de 30)
sau la testul Student al lui Gosset, pentru a-l determina sau t (cnd numrul cazurilor este mai
mai mic de 30). Un numr mare de tipuri de ipoteze adecvate datelor categoriale pot fi
verificate cu ajutorul distribuiei chi-ptrat ( 2), care nu este ns la fel de precis ca
procedeele enunate anterior, impunnd de aceea o serie de precauii tehnice.
n mod esenial distribuiile chi-ptrat msoar gradul de suprapunere dintre
frecvenele observate i frecvenele ateptate, pe baza unor anumite ipoteze, numite de aceea
frecvene teoretice, dar i frecvene expectate. Procedeul (matematic, statistic sau
probabilistic) al lui chi-ptrat determin dac abaterile constatate prin calcul de la aceste
distribuii sunt cuprinse n limitele fluctuaiei ntmpltoare (aceasta fiind ipoteza de nul), sau

123

dac dimpotriv le depete (ceea ce d ctig de cauz ipotezei specifice). Pentru a utiliza
corect procedeul chi-ptrat avem nevoie de eantioane suficient de mari (peste 30), ridicate la
ntmplare, dar care se pot clasifica n categorii separate, iar frecvenele nscrise n csuele
tabelului s nu fie prea mici (nu mai mici de 10 i n nici un caz sub 5, situaie n care se pot
comasa anumite clase pentru a depi acest numr critic).
n cazul n care frecvenele observate (fo) se compar cu frecvene dinainte cunoscute
printr-un model teoretic (fe), ce se bazeaz pe curba lui Gauss (stanine, note z, T, Hull, C, note
colare dup norma docimologic etc.), atunci comparaia prin testul chi-ptrat verific
gradul de potrivire (goodness of fit n englez) dintre distribuia teoretic i cea real
nregistrat. Aceast operaie a permis, de exemplu, depistarea unei fraude n cadrul unui
concurs unde divulgarea subiectelor de examen a condus la obinerea unui numr anormal de
mare de note mari. De cele mai multe ori proporiile teoretice nu sunt ns cunoscute i ceea
ce rmne de fcut este ca acestea s fie estimate plecnd de la datele eantioanelor
considerate.
Tehnica chi-ptrat pentru verificarea ipotezelor are o vechime de mai mult de o sut de
ani, fiind pus la punct de cel care a fundamentat corelaia i a fost precursorul analizei
factoriale, englezul Karl Pearson. La modul general metoda presupune doi pai: a. calculul lui
chi-ptrat; b. interpretarea semnificaiei valorii obinute cu ajutorul tabelului de distribuii 2.
Trebuie ns artat c n cazul lui chi-ptrat pentru asociere acest algoritm de lucru este
unul mai complex, el putnd fi desfcut n urmtoarea secven de pai:

Formularea lui H0 (ipoteza de nul): disponibilitatea spre voluntariat este independent


de apartenena de gen.

Formularea lui H1 (ipoteza specific): disponibilitatea spre voluntariat este asociat cu


apartenena de gen, fiind mai tipic genului feminin.

Se seteaz pragul pentru care s se rejecteje ipoteza de nul: de regul verificm cele
dou praguri, p < .05 i p < .01.

Se apeleaz la regula de rejectare: rejectm pe H0 dac 2calculat 2critic [df = (R-1)(C1)], unde R nseamn numrul de rnduri iar C numrul de coloane, dup care se caut
n tabel valorile lui 2critic pentru p < .05 i p < .01.

Se determin chi-ptrat dup formula indicat.

Se ia decizia respingerii/ nonrespingerii lui H0.

Se determin mrimea efectului ( sau Cramer).

124

Se concluzioneaz prin raportarea cifric i/sau narativ a rezultatului.


Exemplu: 2(1,

N=120)

= 6,66, p < .01, = 0,40. Persoanele de gen feminin au o

disponibilitate pentru voluntariat semnificativ mai mare dect cele de gen masculin, mrimea
efectului fiind semnificativ.
9.5. Exemple de aplicare a testului chi-ptrat pentru potrivire i pentru asociere
Exemplul 1
Conform normei docimologice 20% din notele unui profesor ar trebui s fie sub 5;
30% pn la 6,50; 30% pn la 8 i 20% mai mari de 8. La clasele I i a XIIa ale unei coli
cu trei cicluri de nvmnt s-au obinut urmtoarele distribuii ale notelor colare:
Tabel 9.1. Frecvenele brute pentru patru intervale de notare, la nceput i la sfrit de colarizare
Note
Sub 5
5 6,50
6,50 8
8 10

Clasa I
28
64
80
120

Clasa a XIIa
68
140
110
16

Se cere s se calculeze prin tehnica chi-ptrat dac cele dou distribuii se abat semnificativ de
la norma docimologic.
Tabel 9.2. Frecvenele observate i cele teoretice necesare pentru determinarea lui chi-ptrat
Note
<5
56,50
6,508
8-10
Total

Frecvene
fo
fe
28
64
80
120
292

58
88
88
58
292

fo - f e
-30
-24
-8
62

(fo-fe)
900
576
64
3844

(fo-fe) / fe
15,25
6,55
0,73
66,28
2=89,08

Frecvene
fo
fe
68
140
110
16

67
100
100
67

fo - f e
1
40
10
-51

(fo-fe)2
1
1600
100
2601

(fo-fe)2/ fe
0,02
16
1
38,82
2=55,84

Tabela nfieaz frecvenele observate (fo) i frecvenele teoretice/ expectate (fe),


deduse prin transformarea procentajelor normei docimologice n efective de subieci: regula
de trei simpl arat c dac la 100 de cazuri avem 20 de subieci cu note sub 5, la 292 vom
avea (29220):100 = 58. Coloana a treia face diferena fo - fe, iar coloana a cincea determin
raportul (fo-fe)2/fe. Chi-ptrat este suma acestei ultime coloane, fiind 89,08 pentru prima
coloan i 55,84 pentru cea de a doua.
Formula de calcul utilizat pentru determinarea chi-ptrat este urmtoarea:
( fo fe )2
fe
125

(9.2)
Interpretarea valorii lui chi-ptrat se face prin raportare valorii obinute la o tabel
construit de Fisher, asemntoare ca form cu tabelele de calcul pentru z, valorile fiind
exprimate tot n numere zecimale, iar coloana df dnd numrul gradelor de libertate (degree
of freedom). Acestea se determin dup formula df = (R-1)(C-1), n care R este numrul de
rnduri i C numrul de coloane. n cazul n care avem un singur rnd i mai multe coloane df
= C-1, iar cnd avem mai multe coloane i un singur rnd df = C-1. n situaia prezentat df =
(4-1) = 3. Pentru ambele exemple valorile obinute depesc cu mult pragul de semnificaie
cel mai exigent: pentru o probabilitate mai mic de unu la sut (p < 0,01), la trei grade de
libertate avem valoarea lui chi-ptrat critic de 11,345, comparativ cu care 89,08, respectiv
55,84, care sunt mult mai mari, ceea ce permite respingerea ferm a ipotezei de nul. Se poate
deci afirma c abaterea n notare de la norma docimologic nu este datorat hazardului. n
primul caz frecvenele observate sunt mult sub cele teoretice pentru notele mici, n cel de al
doilea pentru notele mari, ceea ce ne ndreptete s afirmm c notarea i stilul de evaluare
al profesorilor se modific odat cu vrsta elevilor.
Este tiut c mediile colare erau relativ mari la nceputul ciclului primar (media
mediilor unei clase fiind peste 9), avnd o descretere progresiv lent n primul i apoi n cel
de al doilea ciclu colar, pentru ca la liceu media mediile generale ale unei clase obinuite s
scad sub 7. Se pune problema atunci pentru care vrste, materii sau ani de studiu mai este
operaional norma decimologic, pentru c la vrste sau clase egale, la aceeai materie
profesori diferii au stiluri diferite de notare, unele materii dnd posibilitatea obinerii
ntregului spectru de note, n proporiile expectate, altele nu. Astfel, matematica avansat a
claselor terminale de liceu permite tot mai puin obinerea unei curbe simetrice n notare,
notele de 7, 8, 9 fiind mari, iar 10 extrem de rar obinut.
Ca i pentru tabelele z i t pragurile de semnificaie ce vor reime atenia sunt p de 0,05
(valoare peste care se admite valabilitatea ipotezei nule, sub aceasta ea respingndu-se) i de
0,01 (nivel de la care ipoteza nul este ferm respins, pentru a se admite ipoteza specific a
cercetrii). Zona dintre aceste dou repere (indicat n tabel de valoarea 0,02) este una
intermediar ntre cele dou praguri, fiind mai aproape de ipoteza specific dect de ipoteza
nul. Valorile excesiv de mici ale lui chi-ptrat (corespunznd unei probabiliti de eroare mai
mari de 95%) apar tot att de rar n urma variaiilor ntmpltoare ca i cele foarte mari i de
aceea ele pot constitui de asemenea temeiuri consistente pentru respingerea ipotezei de nul.

126

Dei testul matematic al lui chi-ptrat are foarte multe ntrebuinri speciale, el nu este
la fel de riguros ca cel bazat pe distribuiile z, mai ales cnd este aplicat distribuiilor
discontinue. Unul dintre punctele sale slabe al acestei tehnici este acela c, avnd nevoie de
frecvene teoretice mai mari de 5 (sau i mai sigur de 10), nu este operant pentru eantioanele
mici. Al doilea punct slab provine din aceea c procedeul nu poate ine cont de direcia
abaterilor frecvenelor observate de la cele teoretice, cci semnele minus din expresia f0 - fe
dispar prin ridicarea la ptrat. n al treilea rnd, determinarea gradelor de libertate nu este
ntotdeauna o chestiune aa de simpl sau de uor rezolvabil cum pare la prima vedere.
Exemplul 2
Decizia obligativitii nceperii colarizrii la 6 ani n urm cu peste dou decenii a dus
la nfiinarea unor comisii de amnare cu un an a debutului colarizrii pentru anumite
categorii de copii, considerai a fi nepregtii s nceap coala la aceast vrst. Pe parcursul
unui deceniu de activiate, doi psihologi din comisia judeean de amnare au examinat 4588
de copii, situaia acestora fiind rezumat n tabelul de mai jos.
Tabel 9.3. Situaia pe un deceniu a amnrilor colare funcie de QI la doi psihologi
ProQI
A fo1
fe
B fo2
fe
fo1+fo2

Frevene observate i estimate


70-79 80-89 90-99
69
358
644
1249
654
369
633
1232
696
174
268
526
349
163
279
543
307
532
912
1775 1003
206
680
1430
730

centaje
100
280
254
86
112
366
275

3185
3184
1403
1404
4588

2,2

6,7

16,1

25

50

69
358
70
174
31

70-79
644
213
268
94

80-89
1249
513
526
226

90-99
654
796
349
351

100
280
1593
86
702

Se cere s se determine:
1. dac cele dou distribuii sunt semnificativ diferite ntre ele;
2. dac cele dou distribuii se abat semnificativ de la distribuia gaussian, care indic
pentru QI sub 69 = 2,2 procente; ntre 70-79 = 6,70 procente; ntre 80-89 = 16,1 procente;
ntre 90-99 = 25 de procente; QI peste 100 = 50 de procente.
n prima jumtate de tabel avem doar frecvenele observate (fo) totalizate pe rnduri i
pe coloane, frecvenele expectate nefiind deduse din distribuii ideale sau din alte regulariti
prestabilite. Frecvenele expectate apar prin calculul efectuat asupra datelor tabelului nsui.
Astfel prima csu din stngasus (psihologul A) se prezint astfel: fo = 358

127

fe = ?

total rnd = 3185

total coloan = 532


fe

total general = 4588

532 3185
369,32 369
4588

(fiind vorba de persoane, care sunt indivizibile, se rotunjete). n acelai fel se calculeaz fe
pentru celelalte zone de QI ale rndului. Pentru rndul al doilea (psiholog B), prima csu din
stnga se prezint astfel: fo = 174.
fe = ?

total rnd = 1403

total coloan = 532

total general = 4588

fe

532 1403
162,68 163
4588

Pentru control se adun toate frecvenele teoretice i la psihologul A i la psihologul B


i se observ c totalul se apropie extrem de mult de totalurile frecvenelor observate, micile
diferene fiind date de rotunjire.
Pentru calculul lui chi-ptrat aplicm aceeai formul 9.2:

( f o f e )2
fe

Calculele implicate de formula de mai sus se fac pornind din celula din stnga-sus i
de la stnga la dreapta, pe primul, apoi pe cel de al doilea rnd:
2

358 369 2 644 633 2


369

633

...

86 112 2
112

0,33 0,19 .... 6,04 19,44

Deoarece avem 2 rnduri i 5 coloane df = (2-1)(5-1) = 4.


Cutnd n tabel gsim o valoare a lui p apropiat de 0,90, ceea ce ne permite s
respingem ipoteza de nul: variaiile de distribuie ale rezultatelor examinrilor efectuate de cei
doi psihologi nu sunt ntmpltoare. Valoarea obinut pentru chi-ptrat de 19,44 sunt cu mult
mai mare dect pragul critic (13,277), ceea ce ne permite s conchidem c putem respinge
ipoteza nul i accepta valabilitatea ipotezei specifice la un prag de semnificaie puternic (p <
0,01).
Dac obiectivul propus ar fi fost acela al verificrii gradului de suprapunere a
distribuiilor loturilor de amnai colar peste distribuia teoretic ideal (gaussian), atunci
modul de lucru va fi cel indicat mai jos:

128

358 70 2 644 213 2 ... 86 706 2


70

213

706

1184,9 872,12 ... 544,48 6133,57

n dreptul lui f = 4, pentru o probabilitate p < 0.01, este necesar un 2critic de 13,277,
deci valoarea gsit de noi (6133,57) este att de mare nct ipoteza de nul poate fi respins cu
fermitate. Cu o probabilitate apropiat de certitudine se poate deci afirma c eantionul de
copii amnai colar difereau foarte semnificativ ca dotare intelectual de eantionul normal,
deoarece principalul motiv al amnrii colare a fost chiar deficitul intelectual.

Exemplul 3
A fost investigat un numr de 270 de diabetici juvenil. Comparaia dup criteriul
apartenenei de gen i al echilibrriineechilibrrii medicale a bolii respective a dat
urmtoarea distribuie:
Biei

fo
fe
fo
fe

Fete
Total

Echil.
60
a
100
c
160

Neechil
100
b
10
d
110

Total
160
110
270

Biei
Fete

fo
fe
fo
fe

Total

Echil.
60
95
100
65
160

Neechil
100
65
10
45
110

Total
160
110
270

Prin procedeul clasic determinm doar prima frecven expectat (fe) de stnga sus, celelalte
deducndu-se automat prin diferena de pe total linie i coloan. Calculul se poate face clasic:
2

60 95 2 100 65 2 100 65 2 10 45 2
95

65

65

45

12,89 18,85 18,85 27,22 77,81

valoare care este foarte puternic semnificativ statistic, pentru df = (2-1)(2-1) = 1.


Formula de calcul cea mai uzitat n acest caz este ns urmtoarea:
2

ad bc 2 T
a b c d a c b d

129

(9.3)

n care T este totalul general, iar numitorul este produsul totalurilor marginale, adic 2 =
77,02, valoare aproape identic cu cea obinut anterior, mica diferen rezultnd din faptul c
n primul caz s-a efectuat rotunjirea.
Exemplul 4
Exemplul de mai jos se refer la utilizarea proporiilor i a cuantumurilor procentuale,
pentru a clarifica probleme ce au aprut nc de la exemplul 2. Reamintim c testele chi-ptrat
opereaz numai cu frecvene, unica cale corect de a le efecua fiind aceea a transformrii
proporiilor i procentelor n frecvene. Chiar dac am elimina zecimalele i am rotunji
numerele la ntreguri, proporiile procentuale nu sunt date legitime pentru acest tip de analiz.
Iat de ce procentele trebuie convertite obligatoriu n frecvene.
ntr-un grup de 1740 de persoane, din care 1040 sunt femei iar 700 brbai, o proporie
de 62,7% dorete s fac voluntariat, ceilali nu. Repartiia lor dup apartenena de gen i
dorina de a face voluntariat este indicat n tabelul de mai jos. Trebuie determinat dac exist
o asociere semnificativ ntre aprtenena de gen i faptul de a dori s fac voluntariat.
Apartenena de gen
Femei
Brbai
78%
40%
22%
60%
1040
700

Dispui la voluntariat
Nedispui la voluntariat
Numr

Tabelul de mai sus poate fi cu uurin convertit n frecvene, rezultnd un alt tabel, pe
care se poate face testul chi-ptrat.
Dispui la
voluntariat
Nedispui la
voluntariat
Total

Femei
811
(652)

Brbai
280
(439)

Total
1091

229
(388)

420
(261)

649

1040

700

1740

= 258,38.
2

811 652 2 280 439 2 229 388 2 420 261 2


652

439

388

261

38,77 57,59 65,16 98,86

Df este de 1 iar chi-ptrat critic pentru p = 0,05 este de 3,84, ceea ce nseamn
respingerea ipotezei nule. Pentru acest exemplu determinm i mrimea efectului dup
formula 9.4 ce va fi explicitat ulterior:

130

258,38
0,39
1740

9.6. Mrimea efectului pentru chi-ptrat al asocierii dintre variabile


Chiar i atunci cnd testul chi-ptrat indic o asociere foarte semnificativ statistic
ntre variabile, mrimea sa nu spune prea mult despre intensitatea relaiei dintre variabile.
Faptul se explic prin aceea c i aceast tehnic este sensibil la N (volumul eantionului),
ajungnd s indice semnificaii tot mai mari pe msur ce N crete. De aceea interpretarea lui
chi-ptrat al asocierii nu este complet fr un demers suplimentar care const n determinarea
mrimii efectului. n acest scop sunt disponibili doi indicatori, unul pentru tabelele de
contingen n care ambele variabile sunt dihotomice (tabele cu cte dou linii i dou
coloane) i altul pentru asocierea variabilelor cu numr diferit de categorii. Primul indicator
de numete coeficientul fi al doilea fi al lui Cramer, ei avnd are urmtoarele formule:

(9.4)

2
N

(9.5)

n ambele formule la numrtor apare 2 iar la numitor N pentru volumul eantionului,


n al doilea caz aprnd suplimentar i L, care este valoarea celui mai mic numr de linii sau
Cramer

2
N ( L 1)

coloane. De exemplu, ntr-un tabel 3x2, L+1 = 2+1 = 1, ceea ce transform formula 9.5 n
formula 9.4; ntr-un tabel 4x3, L-1 = 2 i numitorul va cpta valoarea 2N.
Interpretarea coeficienilor este similar pn la un punct cu cea a corelaiilor r,
sau R care prin ridicare la ptrat i nmulire cu 100 explic proporia comun din variana a
dou variabile prin coeficientul de determinare. Ca pentru toate celelalte determinri ale
mrimii efectului, Cohen a furnizat repere i pentru interpretarea lui sau Cramer: valorile sub
0,10 indic un efect foarte mic, n jur de 0,25 un efect mediu iar n jur de 0,40 un efect mare.
Raportarea rezultatelor chi-ptrat va include ntre paranteze numrul gradelor de
libertate i volumul eantionului, dup care urmeaz valoarea testului, pragul de semnificaie
i valoarea mrimii efectului. Ea poate arta astfel: 2(5, N=137) = 5, p > .05, extrem de mic,
indicnd faptul c frecvenele de apariie ale celor ase fee ale zarului nu sunt semnificativ
deprtate de cele ateptate prin ans i deci zarul nu este unul msluit. Aa cum se observ,
partea cifric a raportrii este urmat de un scurt comentariu care rezum n form narativ
datele cifrice obinute.

131

9.7. Exerciii i aplicaii practice


1. Un arbitru de fotbal a aruncat acelai ban de 100 de ori, ieind de 37 de ori cap i
de 67 de ori pajur. Se pune problema dac aceste rezultate sunt n limitele de variaie ale
normalitii ori banul este unul falsificat.
n exemplul de mai sus este evident faptul c frecvenele de apariie ale celor dou fee
ar fi trebuit s fie egale, sau foarte apropiate de 50 fiecare, i de aceea n tabelul de mai jos la
frecvene expectate apare numrul 50.
Cap
37
50

fo
fe

Pajur
63
50

Total
100
100

2. La un joc de noroc valorile obinute prin aruncarea unui zar sunt cele sumarizate n
tabelul de mai jos (fo). Dat fiind numrul relativ mare de aruncri se atepta ca frecvena de
apariie a celor ase fee s fie una foarte apropiat, adic n jur de 1/6 (16,67%). Trebuie s se
determine dac suspiciunea c zarul este unul trucat se poate susine cu argumente statistice.
Faa
fo
fe

3.

1
23
23

2
32
23

3
19
23

4
22
23

5
25
23

6
17
23

Total
138
138

Un numr de 80 de studeni ai facultii de psihologie au dat examen la cursul

de Statistic. Ipoteza de lucru a fost aceea c cei care provin din secii realiste ale liceelor
urmate vor trece examenul respectiv ntr-o proporie semnificativ mai mare prin comparaie
cu cei care au urmat secii umaniste. Cerine: parcurgei toi paii prezentai n curs pentru
testul chi-ptrat, de la formularea ipotezelor (de nul i specific), la efectuarea testului chiptrat, la determinare lui fi i la raportarea (cifric i narativ) a rezultatelor.
Real
Uman
Total

Trecui
42
19
61

Picai
8
11
19

Total
50
30
80

4. ntr-o anchet electoral ceteni cu diferite afiliaii religioase au fost chestionai n


legtur cu intenia lor de vot fa de partidele nscrise n competiie, recte Liberal,
Republican i Democrat. Rezultatele obinute au fost sumarizate n tabelul de mai jos.
Determinai dac afilierea religioas se asociaz semnificativ cu intenia de vot a cetenilor
chestionai.
Liberal

Republican

132

Democrat

Ortodox
Catolic
Protestant

240
280
354

222
288
200

400
150
150

5. Un studiu pe persoane dependente de alcool a intit s demonstreze asocierea


alcoolismului cu apartenena de gen i cu temperamentul. Rezultatele studiului sunt
condensate n tabelul de mai jos. Verificai ipotezele asocierii alcoolismului cu genul i apoi
cu cele patru temperamente clasice, innd cont c n populaia respectiv studii anterioare au
indicat proporiile de 19% melancolici, 29% colerici, 25% flegmatici i 27% sangvinici.
Nonalcoolic
Alcoolism uor
Alcoolism mediu
Alcoolism mare

M
56
29
21
18

F
41
24
18
12

Alcoolici
Populaia

Melancolic
32
19%

Temperament
Coleric
Flegmatic
41
23
29%
25%

Sangvinic
26
27%

de baz

6. ntr-un studiu pentru demonstrarea eficacitii unui nou antipsihotic, pacienii care au fost
tratai cu acest medicament au fost comparai cu cei care au primit doar placebo. Un
numr de 720 din totalul de 1058 al celor care au primit placebo au nregistrat recderi ale
bolii, n timp ce acest fenomen s-a petrecut doar pentru 625 dintre cei 2240 de pacieni
tratai cu medicamentul antipsihotic. Argumentai statistic dac acest medicament a fost
unul efectiv n prevenirea recderilor.

133

CAPITOLUL 10

TESTE DE SEMNIFICAIE NEPARAMETRICE


10.1. Teste de semnificaie parametrice i neparametrice
Multe dintre tehnicile statistice prezentate n capitolele precedente au implicat
estimarea parametrilor unei populaii (medii, abateri standard, diferene dintre medii sau
intensitatea asocierii dintre variabile), plecnd de la lotul sau eantionul particular de date pe
care s-a lucrat. Acest tip de teste statistice, ca testul t pentru diferene i r pentru asociere,
presupun ntotdeauna ndeplinirea unor condiii pentru aplicarea lor, legate fie de parametri, fie
de forma distribuiei populaiei. De aceea aceste teste se i numesc teste parametrice.
Prin contrast, testele neparametrice nu fac nici un fel de estimri ale parametrilor
populaiei din care a fost extras eantionul particular de date i de aceea ele se mai numesc i
teste non-distribuionale.9 Cel mai mare avantaj pe care acest tip de teste l au este acela de a nu
se sprijini pe asumpii legate de populaia din care a fost extras eantionul. Dei mai puin
puternice dect testele parametrice, literatura de specialitate le invoc cu o frecven mult prea
mare pentru a putea fi ignorate. Aceste teste sunt mai sensibile la median dect la medie ca
tendin central, fiind cu siguran mai robuste la violarea condiiilor de normalitate a
distribuiilor testate.
Marele dezavantaj al testelor de acest fel este acela c, fiind mai puin puternice statistic
dect testele parametrice, pentru a atinge o putere echivalent cu acestea ele reclam un numr
de date semnificativ mai mare dect testele parametrice. i totui, n mod paradoxal, ele sunt
utilizate preponderent pentru eantioane de volum mic, atunci cnd distribuiile sunt mai mari
de 20-30 de cazuri sau observaii fiind ntotdeauna preferate testele parametrice.
Pe de alt parte, valorile extreme sau aberante, care la testele parametrice au un impact
att de important prin modificarea inflaionist a variabilitii datelor, i implicit a factorului de
eroare10, au un efect foarte redus, practic neglijabil aupra testelor neparametrice. Aceasta
deoarece testele de acest tip se bazeaz pe ranguri (mult mai stabile), i nu pe valorile brute ale
scorurilor, ca n cazul testelor parametrice: prin rangare forma distribuiei devine mai puin
important.
9

Distribution-free tests n englez.


Error term n englez.

10

134

10.2. Testul U Mann-Whitney pentru eantioane independente


Aceast tehnic de testare a ipotezelor relative la diferene este o alternativ foarte
puternic la testul t pentru eantioane independente. Utilizarea sa presupune prezena a dou
condiii:
1. Nivelul minimal de msurtoare este scala ordinal, unde cel mai indicat lucru este rangarea
datelor.
2. Condiia de normalitatea pentru populaia din care a fost extras eantionul nu poate fi
susinut.
Singurele condiii presupuse de testul Mann-Whitney sunt acelea ca eantioanele testate
s fie independente i ca nivelul de msurtoare al scalei continue utilizate s fie cel puin unul
ordinal. Testul U este o alternativ valabil i pentru scalele de interval sau de raport n care
condiia de normalitate a distribuiei datelor este violat.
Vom porni de la urmtorul exemplu:
La dou secii de spital, una pentru bolnavi cardiaci i alta pentru renali, s-a aplicat
chestionarul de stres al evenimentelor de via (Holmes i Rahe). Se dorete verificarea
ipotezei ce a dus la crearea acestui instrument psihometric, ipotez potrivit creia bolile
cardiace sunt expresia stersului mai mare acumulat de persoane de-a lungul unei perioade de
timp de ordinul lunilor sau n ultimul an. Datele acumulate sunt sumarizate n tabelul de mai
jos.
Scoruri
la stres

Cardiaci
75 21 14 32 18
6
25 16

40

12

Renali
8
15 24

Inspecia vizual a celor dou distribuii arat c testul t pentru eantioane independente
nu poate fi aplicat pentru c numrul de cazuri este extrem de redus iar scorurile de 75 i de 40
sunt valori atipice, posibil chiar extreme. De aceea vom aplica testul U, echivalentul lui t
pentru date de acest tip. Primul pas n acest sens este operaia de atribuire de ranguri pentru
fiecare scor, la comun pentru cele dou loturi. n procesul de rangare, descris anterior n
capitolul dedicat determinrii corelaiei prin metoda rangurilor (rho al lui Spearman), se tie c
nu conteaz dac atribuirea rangurilor pornete de la valorile de scor mici sau invers (ascendent
sau descendent).
Singura situaie care trebuie rezolavat corect i unitar este aceea n care exist mai
multe valori de scor egale, situaie pentru care sunt posibile mai multe tipuri de rezolvri. 11 Ca
11

Vezi Popa, 2008, p. 197

135

i n cazul corelaiei rho, soluia cea mai frecvent adoptat de diveri autori este de a acorda
rangul intermediar pentru valorile respective de scor i de a sri apoi la rangul urmtor
nealocat, astfel ca n final numrul rangurilor alocate s coincid cu numrul datelor prezente.
Pentru a putea avea n orice moment o situaie clar a rangurilor care au fost deja acordate i a
celor care urmeaz s fie alocate se poate proceda astfel: se scriu pe orizontal, n ordine
cresctoare, rangurile ce vor fi atribuite, egale ca numr cu numrul datelor de rangat. n cazul
de fa vor fi scrise pe orizontal numerele de la 1 la 18 i, pe msur ce rangurile se vor aloca,
ele se vor i tia cu o bar, pentru a ti astfel n orice moment ce rang urmeaz s fie acordat.
Pentru cele dou scoruri de 8 ale stresului, n locul rangurilor 14 i 15 de alocat (care se i taie
de pe list), se d valoarea intermediar 14,5, urmtorul rang disponibil fiind deci 16. Dup ce
operaia de rangare va fi ncheiat, tabelul anterior va arta astfel:

Scor
Rang
Nr.
rang

75
1

21
6

14
10

1
2
3
Cardiaci = 68

Cardiaci
32 18
6
3
7 12,
4

25
4

16
18

8
14,

5
6
7
8
Renali = 103

5
9

40
2
10

4
16

12
11

3
17

11 12 13
Total = 171

Renali
8
15
14, 9
5
14

15

24
5
16

0
18

6
12

17

,5
18

Din acest tabel se observ cu uurin c suma rangurilor acordate cardiacilor i al celor
acordate renalilor este dinainte tiut (este 1+2+3+ ... +18 = 171), aadar putem determina doar
una din ele, cci cealalt putnd rezulta automat.
Secvena complet de urmat n cazul testului U al lui Mann-Whitney este urmtoarea:
1. Rangarea scorurilor pentru ambele grupe combinate, n ordine ascendent sau descendent.
2. Se nsumeaz rangurile primului grup, rezultatul fiind R1, i ale celui de al doilea grup (R2).
3. Dup obinerea lui R1 se aplic formula 10.1 de mai jos:
N ( N 1)
(10.1)
U N1 N 2 1 1
R1
2
4. Dup determinarea lui U se calculeaz U dup formula 10.2 de mai jos:
U ' N1 N 2 U

(10.2)

5. Dintre cele dou valori U i U se alege cea mai mic pentru a efectua testul de semnificaie.
6. Ipoteza nul H0 este aceea c ambele eantioane au fost extrase din aceeai populaie.
Ipoteza specific (H1) este aceea c cele dou populaii sunt diferite.
7. Cel mai mic dintre U i U este comparat cu valoarea critic a lui U din tabelul prezentat n
Anexa 17. Specificul acestui tabel este acela c ipoteze nul poate fi respins numai dac
valoarea obinut este mai mic sau egal cu valoarea tabelar.
136

De fapt, tot algoritmul de mai sus se reduce la dou comparaii: a lui U cu U i, dup
alegerea celui mai mic dintre acetia, comparaia valorii alese cu valoarea tabelar, pentru N1 i
N2 corespunztori situaiei concrete de testare la nivelul de semnificaie ales, de .05 sau de .
01. n tabelul respectiv cifrele boldate sunt pentru primul prag de semnificaie ( =.05).
Exemplificm cu cazul analizat:
10(8 1)
U 10 8
68 80 45 68 57
2

U = 57.

U 10 8 57 80 57 23.
Pentru celula corespunztoare din tabel la =.05, N1 = 10 i N2 = 8 valoarea U critic
este de 13, n raport cu care 23 este mai mare, ceea ce nu permite respingerea ipotezei de nul.
Se observ uor c pentru =.01 situaia este i mai conservatoare, deoarece valoarea critic
necesar (7) este de aproape dou ori mai mic dect anterior. Aceasta este raiunea pentru care
cercetm nti pragul de semnificaie p = .05, mai liberal, i numai dac avem motive ducem
comparaia i spre al doilea prag de semnificaie.
Cercetnd numrul valorilor critice afiate, tabelul 17 las s se ntrevad c el ar fi
operaional doar pn la N = 20. n realitate, testul U al lui Mann-Whitney poate fi utilizat i
pentru valori numerice mai mari, dar fr a mai face apel la acest tabel, ci la cel al distribuiilor
z. Procesul de interpretarea a lui z este cel cunoscut, dar acest lucru devine posibil numai dup
conversia n note z a celui mai mic dintre U i U , utiliznd urmtoarea formul:

N1 N 2
2
N1 N 2 ( N1 N 2 1)
12
U

(10.3)

S admitem c n cazul nostru valoarea reinut dup comparaia dintre U i U ar fi fost tot de
23, dar N1 ar fi fost de 30 i N2 de 25. n acest caz:
z

30 25
23 375 352
2

5,95.
30 25 (30 25 1)
750 56 59,16
12
12
23

Interpretarea lui z este urmtoarea: dac valoarea obinut este de cel puin 1,96, H 0 se
respinge pentru o probabilitate de p .05, iar dac ea este n jur de 2,58 respingerea este la un
prag mai sever (p .01). Aceasta este valabil n cazul ipotezelor bidirecionale, pentru ipoteze
unidirecionale pragurile fiind mai liberale. Astfel, pentru p .05 este nevoie de o valoare a lui
t de doar 1,64.

137

Logica alegerii valorii celei mai mici dintre U i U pare neobinuit n condiiile n
care la testele parametrice respingerea ipotezei nule este condiionat de valori mai mari dect
cele ale pragurilor critice din tabel. Pentru testul Mann-Whitney ipoteza de nul se sprijin pe
faptul c, atunci cnd volumul loturilor comparate este unul apropiat, suma rangurilor ar trebui
s fie ct mai apropiat, dac nu identic, pentru a putea susine c ele provin din aceeai
populaie. Cu ct una dintre valorile calculate U i U este mai mic, cu att cealalt este mai
mare, cci suma tuturor rangurilor rmne aceeai. Aadar, diferena dintre ele descrete pe
msur ce una dintre valori este mai mic i, n consecin, valoarea U sau U mai mic dect
cea tabelar justific respingerea ipotezei de nul.
O formul alternativ pentru determinarea lui z este cea de mai jos.

U Media
z

Eroarea _ sta

N1 ( N1 N 2 1)
30 56
23
2
2 13,81.

59,56
N1 N 2 ( N1 N 2 1)
12

(10.4)

10.3. Exerciii i aplicaii practice


Unei clase de elevi i s-a aplicat un test de vocabular, ale crui rezultate sunt sumarizate
n tabelul de mai jos.
Biei
Fete
Scortest 47 39 29 45 80 22 68 50 74 19 49 94 126 87 38
22 65 80 57
Rang
12 14,5 16 13 4,5 17,5 7 10 6 19 11 2
1
3 14,5 17,5 8 4,5 9
Nr.
1
2
3 4
5
6
7 8 9 10 11 12 13 14 15
16 17 18 19
Ranguribiei = 130,5;
Rangurifete = 59,5;
Ranguritotal = 190;
N1 = 11;
N2 = 8

1. Formulai ipoteza de nul i ipoteza specific (de cercetare) legat de diferenele de gen
privind performana la testul de vocabular, n dou forme: bidirecional i unidirecional.
2. Argumentai care sunt motivele pentru care este preferabil testul U ca alternativ la testul t
pentru eantioane independente.
3. Aplicai testul t pentru eantioane independente de volum mic (dispersii cumulate) i
determinai dac ipoteza de cercetare se confirm, n condiiile formulrii ei bidirecionale
i unidirecionale.

138

4. Percurgei paii prezentai n curs pentru determinarea lui U i luai decizia potrivit n
legtur cu respingerea ipotezei nule, cercetnd ambele praguri prezentate n tabel ( = .05,
= .01).
5. Raportai cifric i narativ rezultatele obinute.
6. Determinai-l pe z pentru situaia n care ambele efective comparate ar fi fost mai mari cu
15.

10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate


Aa cum testul U este alternativa neparametric pentru testul t aplicat eantioanelor
independente, testul semnului T al lui Wicoxon este alternativa nonparametric a testului t
pentru eantioane corelate. Cerinele pentru aplicarea acestui test sunt urmtoarele: a.
participanii s fi fost selecionai randomizat (aleator) i b. scala utilizat s fie cel puin de
nivel ordinal, pentru a putea ranga scorurile.
ntemeierea acestui test se sprijin pe supoziia potrivit creia dac distribuia
populaiilor din cele dou condiii experimentale este identic va exista un numr relativ
apropiat, aproximativ egal, al diferenelor negative i pozitive dintre perechi. n felul acesta
suma rangurilor dintre diferenele pozitive i negative nu va varia pe o extindere prea mare.
Dac totui distribuia celor dou eantioane nu este aceeai (adic ele nu reprezint o singur
populaie) se poate atepta s fie mai multe diferene de ranguri pentru un semn dect pentru
cellalt semn. Astfel, cu ct suma rangurilor ce apar mai puin este mai mic, cu att mai mult
populaiile reprezentate de cele dou condiii sunt mai diferite.
n exemplul de mai jos ipoteza specific H1 este acela c nivelul msurat al anxietii
generale va fi mai mare naintea unui examen important dect dup aceea. Aadar, pe prima
coloan a tabelului, dup numrul de ordine al perechilor, sunt scorurile brute la testul de
anxietate dinaintea examenului iar n coloana urmtoare acelai indicator, dar dup trecerea
examenului.

1
2
3
4
5
6
7
8

nainte
34
14
21
28
16
21
29
54

Dup
21
14
17
25
18
17
20
30

13
0
4
3
-2
4
9
24

139

||
13
0
4
3
2
4
9
24

Rang
2

Semn
+

5
7
8
5
3
1

+
+
+
+
+

9
10

6
18

7
14

Ranguri de acordat
1
Sume ranguri
= 17

-1
4
2

1
4
3

4 5
+ = 28

9
5
6

+
7 8 9
Total = 45

n tabel s-au introdus cteva coloane suplimentare, dintre care una d expresie
diferenei dintre cele 10 perechi de valori ale anxietii de dinainte i de dup examen. Atragem
atenia c, atunci cnd pentru o pereche se obine diferen nul (zero), aceasta se elimin din
calcul. n cazul analizat diferena de la perechea a doua este zero i de aceea ea se elimin, ceea
ce nseamn c vor rmne numai 9 ranguri de alocat i nu 10, cum era iniial. Cea de a patra
coloan red diferenele n modul i, eliminnd semnele plus i minus, acum devine mai uor
de alocat cele 9 ranguri. Rezultatul acestei operaii este prezentat n coloana a 5-a, ultima
coloan fiind cea care separ semnele plus de cele minus pentru a putea face mai uor suma
rangurilor la categoria cea mai mic. n cazul de fa exist 2 de minus i 7 de plus, deci pentru
categoria minus se vor aduna cele dou ranguri: 9 + 8 = 17. n anexa 18 n dreptul lui 9
(numrul de ranguri efectiv alocate) valoarea critic pentru p .05 este de 6. Valoarea obinut
de noi fiind mai mare, H0 nu poate fi rejectat i deci nu putem susine ntemeiat c nivelul
anxietii generale a diminuat semnificativ dup susinerea examenului.
Asemnrile testului T Wilcoxon cu testul U Mann-Whitney sunt evidente:
1. n ambele este implicat operaia de rangare.
2. n ambele ipoteza specific se susine cu att mai mult cu ct valoarea obinut la test este
mai mic dect valoarea tabelar pentru situaia respectiv.
3. Ambele sunt teste de putere mic, care n principiu ar avea nevoie de numere mari pentru a
fi mai concludente, dar n realitate se aplic pentru numere mici, de regul sub 20 de cazuri.
4. Pentru ambele, efectivele mai mari sunt aproximate prin distribuia normal z.
5. Pentru ambele exist programe statistice care uureaz considerabil volumul de munc
implicat, producnd date acurate, pentru care singura problem real rmne cea a
interpretrii i raportrii corecte a rezultatelor.
O parte dintre asemnrile semnalate anterior provin din aceea c ambele metode au
fost imaginate i create de acelai cercettor, Wilcoxon, testul U primind numele de la cei care
au perfecionat procedura (Mann i Whitney), pentru a-l putea distinge mai clar de regula
semnului, integral creditat lui Wilcoxon.
n cazul testului T al semnului pentru eantioane ce depesc ca volum numrul de 20
de cazuri, reprezentarea distribuiei normale z se face dup formula:
140

N ( N 1)
4
N ( N 1)(2 N 1)
24
T

(10.5)

Guilford (1978) apreciaz c punctul forte al acestei metode neparametrice este acela c
ea se poate aplica fr a mai ine cont de forma distribuiei i de egalitatea varianelor celor
dou serii se date. n acest caz diferena nu mai trebuie determinat cu acuratee, cci nu ea este
cea care conteaz, ci direcia n care aceasta se manifest. De aici provine ns i una dintre
slbiciunile metodei, care nu utilizeaz toat informaia disponibil de la cele dou variabile.
Astfel, dac msurtoarea s-a fcut pe o scal de interval (uniti de msur egale pe toat
scala), n care diferenele ar puteam fi comparate nu numai ca direcie, ci i ca mrime, testul
semnului va ignora acest fapt. Aa se face c, exceptnd eantioanele mici, acest test are doar
60% din puterea unui test t pentru eantioane corelate, atunci cnd ambele se aplic simultan.
Pentru creterea puterii testului T, astfel nct aceasta s devin comparabil cu a
testului parametric t corespondent, cercetrorul va fi obligat s creasc numrul subiecilor
investigai, dar n acest caz se ajunge s fie preferabil utilizarea distribuiilor z (formula 10.5).
Acest lucru devine aproape obligatoriu datorit faptului c diferena de sensibilitate n
detectarea unor efecte real existente (adic puterea testului statistic) este apreciabil de mult n
favoarea testului parametric pentru eantioane corelate, comparativ cu perechea sa
neparametric. Testul T poate rmne ns n continuare singura alternativ valabil i pentru
eantioanele mai mari, care ns se abat semnificativ de la condiia de normalitate a distribuiei.

10.5. Exerciii i aplicaii practice


Un grup de 13 cupluri de soi - soii a fost investigat cu un test destinat surprinderii
precocitii declanrii instinctului matern, comparativ cu cel patern, la scurt timp dup
naterea copilului. Tabelul de mai jos rezum datele acestui studiu ipotetic.
Scor total la devoiune pentru nou nscut
Mame
Tai

23 13 15 17 19
13 10 9 14 21

23
10

25 10
20 10

16
13

141

N
8
5

7
0

12 41
10 20

13

13

X
17,62 11,92
X
9,07
6,01
X
229
155
2
X
5021
2281
XY
3219

Rspundei urmtoarelor cerine:


1. Argumentai de ce este preferabil utilizarea testului semnului T n locul testului t pentru
eantioane corelate.
2. Parcurgnd etapele prezentate n curs, determinai valoarea testului T pentru cele 13 perechi
de date.
3. Stabilii semnificaia statistic a acestui test i concluzionai n legtur cu H0 i H1.
4. Efectuai corelaia rangurilor pentru cele dou seturi de date i explicai crui fapt se poate
datora valoarea foarte ridicat a lui rho.
5. Fornd nota, determinai i pe t pentru eantioane corelate, comparnd apoi rezultatul
obinut cu testul T al lui Wilcoxon.
6. Dac ai fi avut 25 de perechi, care ar fi fost scorul z al acestui test?
10.6. ANOVA pe o cale prin testul H Kruskal-Wallis
Analiza de varian pe o cale prin testul H al rangurilor a fost pus la punct de ctre
Kruskal i Wallis. Acesa tehnic este considerat a fi o generalizare a testului U Mann-Whitney
deoarece a fost conceput pentru compararea mediilor a mai mult de dou grupuri atunci cnd
ele au fost msurate pe o scal ordinal sau pe scale real numerice (de interval sau de raport),
dar datele nu ntrunesc condiiile pentru efectuarea testului ANOVA pe o cale. Deoarece
trateaz date msurate pe scale ordinale sau distribuii atipice, similitudinea cu testul U MannWhitney este evident, singura diferen major fiind aceea c acum pot fi comparate mediile a
mai mult de dou grupuri, rezultaltul testului (H) putndu-ne ajuta s decidem dac aceste
grupuri provin dintr-o aceeai populaie (ipoteza de nul H0).
Comparaia cu tehnica ANOVA pe o cale evideniaz o asemnare major cu aceasta n
sensul c rezultatul testului H Kruskal-Wallis este unul de tip omnibus, ca i F din analiza de
varian clasic. Ca i n analiza post-hoc din ANOVA, dac H este gsit semnificativ, atunci
pot fi desfurate mai departe analize de comparaie a grupurilor de cte dou prin testul U
Mann-Whitney, pentru a determina ntre care dintre variabilele analizate diferenele sunt
semnificative.
Pornind de la ipoteza de nul distribuiile grupurilor comparate sunt similare i deci ele
provin dintr-o aceeai populaie se poate infera c suma rangurilor este apropiat sau foarte
similar pentru toate grupurile comparate. Sumele rangurilor care sunt semnificativ diferite
ntre ele vor duce la rejectarea ipotezei nule i la admiterea ipotezei specifice (de cercetare).

142

Pentru a nelege mai bine similitudinile testului H cu testul U Mann-Whitney, dar i


specificul acestei metode, vom porni de la urmtorul exemplu: La un test de leadership, cei trei
candidai au obinut urmtoarele scoruri brute:
Candidat A
29
22
18
15
14

Candidat B
16
14
12
11
9

Candidat C
3114
27
24
16
13

Se cere s se determine dac cele trei serii de date reprezint o aceeai populaie sau
populaii diferite. Pentru a putea ilustra modul de lucru al testului H furnizm mai jos formula
sa:

12
Ri2
H

3( N 1)
N ( N 1) N i

n care:

(10.6)

N reprezint numrul total de observaii, rezultat prin combinarea celor trei situaii;
Ni reprezint numrul de observaii n fiecare dintre cele trei situaii;
Ri reprezint suma rangurilor din fiecare dintre cele trei situaii.
Din formul de mai sus rezult c operaia de debut a testului este aceea de rangare, dup
regulile cunoscute, a celor trei serii de date reunite. n aceast situaie tabelul de mai sus va
arta astfel:
Candidat A
Brut
Rang
29
14
22
11
18
10
15
7
14
5,5
ranguriA = 47,5

Candidat B
Brut
Rang
16
8,5
14
5,5
12
3
11
2
9
1
ranguriB = 20

Candidat C
Brut
Rang
31
15
27
13
24
12
16
8,5
13
4
ranguriC = 52,5

Putem determina acum valoarea testului H cu ajutorul formulei 10.6:


H

12
R2
12 47,52 202 52,52

3 16 0,5 1082,5 48 6,125.


i 3( N 1)

N ( N 1) N i
15 16 5
5
5

Valoarea tabelar se va identifica lund n calcul numrul gradelor de libertate, care este
este egal cu numrul de eantioane K, minus 1: df = K 1, adic 3 2 = 1. Pentru acest df

143

valoarea tabelar este de 5,99. Deoarece tabelul de referin este unul de tip chi ptrat (2)
valoarea testului H trebuie s fie mai mare sau egal cu cea tabelar pentru a fi semnificativ,
ceea ce n cazul nostru se i ntmpl. De aceea putem concluziona c cele trei serii de valori
ale candidailor nu reprezint o aceeai populaie de scoruri, deci ei sunt diferii. Pentru a
determina unde apar diferenele va trebui s aplicm suplimentar testul U pentru fiecare
pereche dar, cum se observ clar, similitudinea dintre scorurile primului i ale celui de al treilea
candidat este foarte mare, ceea ce ne rmne fiind s-l comparm pe al doilea (cazul cu cele
mai mici scoruri) cu fiecare dintre ceilali doi.
Pentru aceasta vom folosi formulele 10.1 i 10.2:

U N1 N 2

N1 ( N1 1)
56
R1 5 5
47,5 7,5 U ' N1 N 2 U 25 (7,5) 32,5
2
2

U N 2 N3

N 2 ( N 2 1)
56
R2 5 5
20 20
2
2

U ' N 2 N 3 U 25 20 5

Valoarea tabelar semnificativ este de 2, n raport cu care ambele valori ale testului de
mai sus sunt mai mari i deci nesemnificative. Aadar, ipoteza de nul nu poate fi respins la
nivelul comparaiilor pe perechi, probabil i datorit faptului c acestea sunt extrem de reduse
numeric.
Din exemplul anterior s-ar putea crede c grupurile comparate trebuie s fie unele egale
numeric, fapt care nu este real, grupurile comparate putnd diferi ca ordin de mrime.
Extinderea numeric a grupurilor comparate, dar i a numrului de grupuri implicate n acest
test statistic amplific mult volumul de munc i implicit probabilitatea de eroare, metoda
putnd fi considerabil simplificat prin utilizarea unui program statistic adecvat.
Prezentm mai jos un al doilea exemplu care pleac de la presupunerea c inteligena
emoional este asociat cu ordinea n fratrie. Pentru a verifica aceast ipotez s-a aplicat un
test sociometric unui numr de 21 de studeni, din care 7 au fost primi nscui, 8 al doilea
nscut i 5 de la al treilea nscut n sus. Rezultatele sunt ntabelate alocnd pentru fiecare
categorie o coloan cu scorurile brute obinute la test i una cu rangul alocat acestor scoruri,
dar numai dup cumularea celor trei efective.
Primul nscut
Brut
Rang
25
18
24
17
23
16
20
15
19
14

Al doilea nscut
Brut
Rang
30
21
27
20
26
19
18
12,5
15
10

144

Al treilea nscut
Brut
Rang
14
7,5
12
5,5
10
4
7
3
4
1,5

18
15

12,5
10

ranguriA = 102,5
ranguri_total=231

15
10
14
7,5
12
5,5
ranguriB = 105,5

1,5

ranguriC = 23
Ntotal = 21

Ca i n exemplul anterior, valoarea testului H se determin cu formula 10.5.


H

12 102,52 105,52 232

21 22
7
8
6

3(21 1) 0,026 2980,34 66 11,41.

Valoarea tabelar a lui H la df = 2 este de 5,99 pentru p = .05 i de 9,21 pentru p = .01.
Cum valoarea testului obinut de noi este mai mare, rezult c ipoteza de nul poate fi rejectat
cu o forte mic probalilitatea (sub un procent) ca aceste diferene s fi aprut din ntmplare.
Rmne de determinat n continuare care sunt grupurile ntre care aceste diferene ating pragul
semnificaiei statistice.
10.7. Exerciii i aplicaii practice
Unui grup de studeni li s-a aplicat un test de atenie distributiv cu o durat de 30 de
minute. Ipoteza cercetrii a fost aceea a existenei unor diferene semnificative de performan
a celor studeni n funcie de tipul de temperament al fiecruia, identificat cu un chestionar
adecvat. Datele brute ale cercetrii sunt sumarizate n tabelul de mai jos.
Sangvinic
32
19
26
28
24
21
17
33
29
27

Flegmatic
24
26
22
19
29
23
18
19

Coleric
33
28
12
17
24
15
29
31
14
17
26

Melancolic
28
19
17
23
15
16
10

Rspundei urmtoarelor solicitri:


1. Formulai ipoteza de nul i ipoteza specific a cercetrii.
2. Efectuai rangarea comun a datelor pentru cele patru temperamente.
3. Determinai valoarea testului H i comparai valoare obinut cu valoarea tabelar
adecvat (df = K - 1) argumentnd n legtur cu rejectarea sau nonrejectarea lui H0.

145

4. Selectai rezultatele pe perechi, dup criteriul extraversie-introversie i stabilitateinstabilitate emoional, utiliznd tabelul de mai jos. Formulai ipotezele specifice
pentru cele dou situaii i verificai-le parcurgnd toate etapele testului U MannWhitney.
5. Transformai valorile testului U n scoruri z dup formula de calcul corespunztoare.
Extraveri
32
19
26
28
24
21
17
33
29
27
33
28
12
17
24
15
29
31
14
17
26

Stabili
emoional
32
19
26
28
24
21
17
33
29
27
24
26
22
19
29
23
18
19

Introveri
24
26
22
19
29
23
18
19
28
19
17
23
15
16
10

Instabili
emoional
33
28
12
17
24
15
29
31
14
17
26
28
19
17
23
15
16
10

10.8. Testul rangurilor Friedman pentru msurtori repetate


Echivalentul testului ANOVA pentru msurtori repetate, pe date parametrice, este
testul Friedman, care utilizeaz diferena de ranguri n cazul msurrii acelorai subieci de
mai mult de dou ori. Fiind destinat msurtorilor repetate, acest test este considerat o
generalizare a testului semnului al lui Wilcoxon. Pentru a nelege mai bine modul de lucru
presupus de aceast tehnic statistic plecm de la urmtorul exemplu concret.
Un grup de 8 subieci au participat la un program de coaching, destinat ameliorrii
eficienei personale i a stimei de sine. Programul a durat timp de ase luni, determinarea
iniial a scorurilor la un chestionar de stim i eficien de sine fiind urmat la interval de
dou luni de alte determinri ale aceluiai construct. Se cere sr rspundem la ntrebarea dac
stima i eficiena de sine se amelioreaz prin parcurgerea acestui program de training.
Rezultatele celor 4 determinri sunt sumarizate n tabelul de mai jos.

146

Subiect
1
2
3
4
5
6
7
8

Stima_1
Brut
Rang
24
1
14
2
22
1
20
1
22
3
19
2
15
2
29
1
ranguri1 = 13

Stima_2
Brut
Rang
26
3
13
1
22
2
21
2
20
2
19
1
12
1
29
2
ranguri2 = 14

Stima_3
Brut
Rang
25
2
17
3
25
4
22
3
18
1
20
3
15
3
31
3
ranguri3 = 22

Stima 4
Brut
Rang
28
4
19
4
24
3
25
4
22
4
24
4
17
4
34
4
ranguri4 = 31

Ceea ce este specific acestei metode este n primul rnd modul de alocare a rangurilor.
Ele nu se mai acord prin punerea la comun a celor patru seturi de scoruri pentru a costrui o
singur colecie de date, numrul de ranguri alocate ne mai trebuind s fie suma celor patru
efective, ca n cazul celorlalte teste neparametrice prezentate anterior. Dimpotriv, se acord
ranguri doar de la 1 la 4 (numrul de ranguri fiind egal cu cte msurtori repetate au fost)
comparnd scorurile obinute de acelai subiect la cele 4 condiii i dnd rangul 1 scorului cel
mai mic, doi urmtorului .a.m.d. n pasul al doilea, suma acestor ranguri se face pe coloan,
totalurile trecndu-se n rubrica de jos. Deci scorurile se rangheaz pentru fiecare participant
separat i apoi se adun pe coloan pentru a obine totalurile fiecrei coloane n parte. Dup
aceea se evalueaz variabilitatea celor patru sume dup formula:
F 2

12
Ri2 3 N (k 1)
Nk (k 1)

(10.7)

n care:
N reprezint numrul de subieci;
k reprezint numrul de condiii (de msurtori repetate);
Ri reprezint suma rangurilor pentru fiecare din cele trei condiii.
n situaia analizat:
F2

12
12
Ri2 3 N (k 1)
132 142 222 312 3 8 5 137,75 120 17,75
Nk (k 1)
845

Consultnd tabelul de distribuii 2, pentru 4 - 1 = 3 grade de libertate, valoarea critic este de


7,81 pentru p = .05 i de 11,34 pentru p = .01. Valoarea de 17,75 a testului confirm la un prag
de semnificaie statistic foarte ridicat eficiena sedinelor se coaching asupra ameliorrii
sentimentului de stim i eficien de sine. Analiza sumei rangurilor pentru fiecare etap
indic faptul c aceast ameliorare a fost nesemnificativ n etapele premergtoare, dar
etapele a treia i a patra au dus la o ameliorare constant i puternic a variabilei investigate.
147

10.9. Exerciii i aplicaii practice


Patru profesori au primit spre evaluare independent un numr de 12 lucrri, notele
acordate fiind de la 1 la 10. Situaia celor 4 evaluri este cea prezentat n tabelul de mai jos.
Rezolvai urmtoarele cerine:
1. Determinai prin testul Friedman dac cei patru profesori au avut un sistem de evaluare
comun, sau dac diferenele de notare dintre ei au fost unele semnificative.
2. Folosind corelaia rangurilor rho a lui Spearman determinai gradul de asemnare dintre
notrile primului profesor cu urmtorii trei.
Lucrare
1
2
3
4
5
6
7
8
9
10
11
12

Prof_1
7,20
8,75
6,20
10
5,75
8,40
7,80
9,75
6,60
7,25
9,00
7,50

Prof_2
7,50
8,25
6,80
9,20
6,25
8,25
8,00
9,50
6,80
7,00
9,25
7,25

148

Prof_3
7,30
8,40
7,00
9,40
6,15
8,60
8,10
9,40
7
8,00
9,15
7,75

Prof_4
7,00
8,80
6,50
9,80
6,00
8,10
8,25
10
6,50
7,75
9,30
7,60

149

Test pentru verificarea de sintez


Aceast autoverificare const dintr-un numr de ntrebri la care trebuie s selectai doar o
variant de rspuns din cele propuse, sau s trecei n spaiul liber valoarea rezultat n urma
unui calcul matematic. ncercai s abordai fiecare problem n parte, dar unde nu tii este
preferabil s nu completai. Fiecare item se coteaz cu un punct.
I. Intrebri de verificare de ordin general
1. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel (5 000 de locuitori).
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
2. Definii pe scurt termenii de:
Date..............................................................................................................................................
Variabil.......................................................................................................................................
Eantion........................................................................................................................................
Populaie.......................................................................................................................................
3. Poate o variabil ordinal s fie msurat cu o scal continu?
Poate o variabil continu s fie msurat cu o scal ordinal?

a Da
a Da

b Nu
b Nu

4. Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de


date de la mic la mare sau invers.
a Da
b Nu
5. Inteligena nu are uniti de msur tipice scalelor de interval.

a Da

b Nu

6. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu
7. Numii tipul de scal utilizabil n msurarea categoriilor de mai jos, alocnd cifrele 1, 2, 3
i 4 pentru scalele nominal, ordinal, de interval i de raport:
scala Celsius
scala Kelvin numrul camerelor de hotel ordinea sosirii la maraton
scorul final la acest examen
presiunea sanguin
genul
greutatea.
8. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu
II. Statistici descriptive univariate
Privii cu atenie distribuia erorilor nregistrate de un psiholog la o prob de memorie, redat
n diagrama de mai jos, i rspundei la ntrebrile subiacente.

150

10

9
8

Frequency

3
2

2
1

6.0

7.0

8.0

9.0

0
0.0

1.0

2.0

3.0

4.0

5.0

9. Mediana numrului de erori este:


determina

a 2,50

b3

c2

d Nu se poate

10. Media are valoarea de:

a 2,54

b 2,63

c 2,71

d 2,66

11. Modul are valoarea:

a9

b6

c1

d 1,50

12. Eroarea standard a mediei (/N) este:

a 0.42

b 0.40

c 0.39

d 0.50

13. Amplitudinea nprtierii (Range) este de: .


14. Distribuia rezultat este una:

a asimetric negativ
b simetric
c indefinit
d asimetric pozitiv

15. Trecei n spaiul liber care este valoarea:a. abaterii intercuartilice


.
b. abaterii semiintercuartilice .
16. Diagrama de mai sus este:

Histogram

Diagram cu bare

Poligonul frecvenelor

17. La distribuia de mai sus tendina central e cel mai bine indicat de:
Medie
Median
Mod
III. Statistic bivariat i inferenial
Privii cu atenie cele dou scattere de mai jos i rspundei la ntrebrile formulate.
10

10

6
4

4
2

Viteza

Timp

-2
-2

10

0
-2

Erori

Erori

B
151

10

18. Corelaia din diagrama A este de aprox.:

a -0.60

b 0.70

c -0.80

d 0.90

d 0.95

19. Corelaia din diagrama B este de aprox.:

a -0.60

b 0.70

c -0.80

d 0.90

d 0.95

20. ncercuii n diagrama A cele trei puncte care mresc cel mai mult corelaia.
21. ncercuii n diagrama B cele trei puncte care coboar cel mai mult corelaia.
22. Adugai n spaiul diagramei A un punct astfel nct el s omoare maximal corelaia.
23. Adugai n spaiul diagramei B un punct care s umfle inflaionist maximal corelaia.
24. Desenai cu atenie, ct mai adecvat, linia de regresie pentru ambele diagrame A i B.
25. Studiind corelaiile dintre Erori-Timp i Erori-Vitez, corelaia dintre Timp i Vitez va fi:
a Negativ mic

b Negativ medie

c Spre zero

d Pozitiv medie

e Pozitiv mare

26. Cele mai sigure predicii ale lui Y n raport cu X se pot face din:
a Diagrama A

b Diagrama B

27. Argumentai rspunsul la ntrebarea de mai


sus: ................................................................... ...........................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
...........................................................................
28. Avei urmtoarele dou serii de valori, reprezentnd note la fizic i la matematic:
Fizic
Matematic

3 8 4 10 2 5 6 10 8 9 6 7 9 5 4 6 8 9
4 7 5 8 3 5 7 9 10 8 6 4 9 6 6 7 7 10

Ranguri de alocat:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
r = .........
= .........

29. Rangai corect cele dou serii de valori, folosind spaiul de deasupra i de dedesubt.
30. Determinai corelaia celor dou serii de valori prin metoda produselor a lui Pearson (r).
31. Determinai corelaia celor dou serii de valori prin metoda rangurilor a lui Spearman ().
32. Testai ipoteza existenei unei diferene semnificative a mediilor, ca i cum ar fi dou
distribuii de eantioane independente.
33. Evaluai, comentai i raportai corespunztor rezultatul obinut. .........................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.....................................................................................................................................................
152

Bibliografie
1. American Psychological Association (2001). Publication Manual of the American
Psychological Association. 5th Edition. Washington, DC.
2. Buchner, A., Erdfelder, E., & Faul, F. (2001). How to Use the G*Power,
http://www.psycho.uni-duesseldorf.de, accesat la 01.10.2010.
3. Chatfiled, C. (1985). The initial examination of data. In Journal of the Royal Statistical
Society; Series A (General), 148(3): 214-253.
4. Clark-Carter, D. (2004). Quantitative psychological research. A student's handbook. Hove
and New York: Psycholohy Press.
5. Clinciu, A. I. (2012). Statistici multivariate pentru psihologie. Braov: Editura Universitii
Transilvania.

6. Clinciu, A. I. (2006). Prelucrare computerizat a datelor cu SPSS. Braov: Editura


Universitii Transilvania.
7. Clinciu, A. I. (2012). Bateria memoriei de lucru. Cluj-Napoca: Sinapsis Publishing
Projects.
8. Clocotici, V., Stan, A. (2000). Statistic aplicat n psihologie. Iai: Editura Polirom.
9. Cohen, J. (1988). Explaining Psychological Statistics, 2nd edition. John Wiley & Sons,
Inc. Hoboken.
10. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hove and
London: Lawrence Erlbawm Associates, Publishers.
11. Coolican, H. (2004). Research Methods and Statistics in Psychology, 4th ed.. London:
Hodder & Stoughton.
12. Culic, I. (2004). Metode avansate n cercetarea social. Analiza univariat de
interdependen. Iai: Editura Polirom.
13. Everitt, B., Landau, S., & Leese, M. (2001). Cluster Analysis, 4th. ed., New York: Arnold
Publishers.
14. Eysenck, M. W., & Keane, M. T. (1995). Cognitive Psychology. A Students Handbook. 3rd
Edition. UK: Psychology Press.
15. Field, A. (2002). Dicovering Statistics Using SPSS for Windows. Sage Publications.
16. Gorsuch, R. L. (1997). Exploratory Factor Analysis: Its Role in Item Analysis. Journal of
Personality Assessment 68: 532-560.

153

17. Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of
component pattern. Psychological Bulletin, 103: 267-275.
18. Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education,
New York: McGraw Hill Book Company.
19. Havrneanu, C. (2000). Cunoaterea psihologic a persoanei. Posibiliti de utilizare a
computerului n psihologia aplicat. Iai: Editura Polirom.
20. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data
Analysis. Seventh Edition, New York: Pearson Prentice Hall.
21. Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained.
London and New York: Routledge, Taylor & Francis Group.
22. Howell, D. C. (2008). Fundamental Statisctics fot Behaviooral Sciences. Sixth Edition.
Thomson Wadsworth.
23. Howitt, D., & Cramer, D. (2008). Introduction to Reasearch Methods in Psychology.
Edinburgh Gate, Harlow: Pearson Education Limitid.
24. Hoyle, R. H. (1999). Statistical Strategies for Small Sample Research. Thousand Oaks,
London, New Delhi: Sage Publications.
25. Issac, S., W. B. Michael (1972). Handbook of Research and Evaluation. San Diego,
California, 92107: Robert R. Knapp Publisher.
26. Jaun, A. K., Murtz, M. N., & Flynn, P. J. (1999). Data Clustering: A review. ACM
Computing Surveys 31(3): 364-323.
27. Kinnear, P. R., & Gray, C. D. (2006). SPSS 14 made simple. Hove and New York:
Psychological Press. Taylor & Francis Group.
28. Labr, A. V. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
29. Lungu, O. (2001). Ghid introductiv pentru SPSS 10.0. Seria psihologie experimental i
aplicat. Iai: S.C. Erota Tipo S.R.L.
30. Mertler, C. A., & Vannatta, R. A. (2005). Advanced and Multivariate Statistical Methods.
Practical Applications and Interpretation. Third edition. Glendale: Pyrczak Publishing.
31. Milligan, G. (1980). An Examination of the Effect of Six Types of Error Perturbation of
Fifteen Clustering Algoritms. Psychometrika 45 (September): 325-342.
32. Milligan, G. W., & Cooper, M. C. (1985). An Examination of Procedures for Determining
the Number of Clusters in a Data Set. Psihometrika 50(2), 159-179.
33. Nicol, A. A. M., Pexman, P. M. (1999). Presenting your findings. A practical guide for
creating tables. Washinton DC, USA: American Psychological Association.

154

34. Pedhazur, E. J., Schmelkin, L. (1991). Mesurement, design and analysis: an integrated
approach. Hillsdale, USA: Lawrence Erlbaum Associates, Inc.
35. Popa, M. (2008). Statistic pentru psihologie. Teorie i aplicaii SPSS. Iai: Editura
Polirom.
36. Popa, M. (2010). Statistici multivariate aplicate n psihologie. Iai: Editura Polirom.
37. Quick, D. (2004). Making Tables and Figures. In G. A. Morgan, N. L. Leech, G. W.
Gloeckner, and K. C. Barrett, SPSS for Introductory Statistics. Use and Interpretation.
Second Edition. London: Lawrence Erlbaum Associates, Publishers.
38. Rateau, P. (2004). Metodele i statisticile experimentale n tiinele umane. Iai: Editura
Polirom.
39. Reuchlin, M. (1992). Introduction a la recherche en psychologie. Paris: Hathan Universit
40. Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and correlations in effectsize estimation. Psychological Sciences, 11(6), 446-453.
41. Sava, F. A. (2004). Analiza datelor n cercetarea psihologic. Metode statistice
complementare. Cluj-Napoca: Editura ASCR.
42. Sava, F. A., Mricuoiu, L. P. (2007). PowerStaTim. Manualul utilizatorului. Timioara:
Editura Universitii de Vest.
43. Sava, F. A. (2011). Analiza datelor n cercetarea psihologic. Cluj-Napoca: Editura
ASCR.
44. Sava, F. A. (2013). Psihologia valifat tiinific. Ghid practic de cercetare n psihologie.
Iai: Editura Polirom.
45. Stilis, D. L. (Ed.) (1989). International enciclopedia of the social sciences: Biographical
supplement (vol. 18). New York: Macmillan.
46. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth edition.
Boston, New York, San Francisco etc.: Pearson Education, Inc., Allyn and Bacon.
47. Thorne, B., & Giesen, G. M. (2003). Statistics for the Social Sciences. Boston, Burr Ridge
etc.: Mc Graw Hill.
48. Vogt, W. P. (1999). Dictionary of Statistics and Methodology. A Nontechnical Guide for
the Social Sciences, Second edition. Thousand Oaks, London, New Delhi: Sage
Publications.
49. Weaver, K. (2000). Basic Statistic Analysis. Sixth Edition. Study Guide. Boston, London
etc.: Allyn and Bacon. NeedhamHeights, Massachusetts.

155

A N E X E CU U T I L I T I S T A T I S T I C E
STATISTICA DESCRIPTIV
CENTRU

Tendina
central
Media
Mediana
Modul

FORM MPRTIERE

Crostabulare

Variabilitatea
AI=Range
Variana
Abaterea
standard

Corelaie

Diferene de medii

Tabele bivariate

Forma curbei
Simetria (Skewness)
Boltirea (Kurtosis)

Scatter-ploturi

Ploturi clasificatorii

Curba normal

Msuri ale gradului de asociere


r, r2, , 2, R, R2, phi, Lambda, C, V,
Gamma, Tau-b, Tau-c, d al lui Somer

Scorurile z
Distribuia normal standard

INFERENA STATISTIC
Eantionarea
distribuiilor

Eroarea
standard
Teorema limit
central

Nivelul de semnificaie
Ipoteza de nul

Testarea ipotezelor

Intervale de
ncredere

Ipoteze
alternative

Eroarea de tip I

Eroarea de tip II

Puterea cercetrii

Mrimea efectului

Diagrama 1. Domeniile statisticii descriptive i infereniale

156

Diferen
eantioane
corelate

Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Test t pentru
eantioane
corelate

Diferen
eantioane
independe
nte

Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Test t pentru
eantioane
independente

Dou
eantioa
ne

Diferen

Un
eantion

FENOMEN
UL DE
INTERES

Relaie

Media i SD
Mrimea

Diferena
pe un
eantion

Testul t pentru
un eantion

Relaie
utiliznd
ranguri

(rho)
Spearman
(tau) Kendall
Scatter-plot

Se examineaz
valoarea p
pentru sau

Relaie
liniar
utiliz.
scoruri

r al lui Pearson
Scatter-plot

Se examineaz
valoarea p
a lui r

STATISTICI
DESCRIPTIVE

STATISTICI
INFERENIA
LE

Diagrama 2. Arbore decizional pentru selecia procedeelor


descriptive i infereniale adecvate

157

Calitative
(categoriale)

Tip de
categorizar
e

Ovariabil
categorial

Potrivire
(g.o.f.) 2

Dou
variabile
categorial
e

Tabele de
contingen
2

Grad
relaie
Intere
s
prima
r
Continu

TIP DE
DATE

Relaii

Numr
de
predictori

Unul

Formarea
relaiei

Msur
Ranguri

Muli

Corelaie
r Pearson

Regresie
multipl

Regresie

Spearman
t pt.
dou
eantioan

Independ.

Cantitative
(de msur)

Tip de
ntrebare

Dou

Relaii
dintre

MannWhitney

eantioan

Ea Corel

One-way
ANOVA

Depend.
Wilcoxon

Diferene

Independ.

Numr de
grupuri
Mai
multe

Relaii
dintre

NrVariab.
Msurto
ri
repetate

eantioan
Depend.

KruskalWallis
Multe
ANOVA
factorial

Friedman

Diagrama 3. Arbore decizional pentru selecia celui mai


potrivit tip de test statistic de semnificaie
Sursa: Howell, D.C. (2008). Fundamental statistics for the behavioral sciences
.Belmont: Thomson Wadsworth, p. 520.

158

Un

159

Anexa 1. Tabelul distribuiei valorilor sub curba normal z


Valorile din tabel indic probabilitatea dintre 0 i z.
z
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,00000
0,03983
0,07926
0,11791
0,15542
0,19146
0,22575
0,25804
0,28814
0,31594
0,34134
0,36433
0,38493
0,40320
0,41924
0,43319
0,44520
0,45543
0,46407
0,47128
0,47725
0,48214
0,48610
0,48928
0,49180
0,49379
0,49534
0,49653
0,49744
0,49813
0,49865
0,49903
0,49931
0.49952
0,49966
0,49977
0,49984
0,49989
0,49993
0,49995
0,49997

0,00399
0,04380
0,08317
0,12172
0,15910
0,19497
0,22907
0,26115
0,29103
0,31859
0,34375
0,36650
0,38686
0,40490
0,42073
0,43448
0,44630
0,45637
0,46485
0,47193
0,47778
0,48257
0,48645
0,48956
0,49202
0,493%
0,49547
0,49664
0,49752
0,49819
0,49869
0,49906
0,49934
0,49953
0,49968
0,49978
0,49985
0,49990
0,49993
0,49995
0,49997

0,00798
0,04776
0,08706
0,12552
0,16276
0,19847
0,23237
0,26424
0,29389
0,32121
0,34614
0,36864
0,38877
0,40658
0,42220
0,43574
0,44738
0,45728
0,46562
0,47257
0,47831
0,48300
0,48679
0,48983
0,49224
0,49413
0,49560
0,49674
0,49760
0,49825
0,49874
0,49910
0,49936
0,49955
0,49969
0,49978
0,49985
0,49990
0,49993
0,49996
0,49997

0,01197
0,05172
0,09095
0,12930
0,16640
0,20194
0,23565
0,26730
0,29673
0,32381
0,34849
0,37076
0,39065
0,40824
0,42364
0,43699
0,44845
0,45818
0,46638
0,47320
0,47882
0,48341
0,48713
0,49010
0,49245
0,49430
0,49573
0,49683
0,49767
0,49831
0,49878
0,49913
0,49938
0,49957
0,49970
0,49979
0,49986
0,49990
0,49994
0,49996
0,49997

0,01595
0,05567
0,09483
0,13307
0,17003
0,20540
0,23891
0,27035
0,29955
0,32639
0,35083
0,37286
0,39251
0,40988
0,42507
0,43822
0,44950
0,45907
0,46712
0,47381
0,47932
0,48382
0,48745
0,49036
0,49266
0,49446
0,49585
0,49693
0,49774
0,49836
0,49882
0,49916
0,49940
0,49958
0,49971
0,49980
0,49986
0,49991
0,49994
0,49996
0,49997

0,01994
0,05962
0,09871
0,13683
0,17364
0,20884
0,24215
0,27337
0,30234
0,32894
0,35314
0,37493
0,39435
0,41149
0,42647
0,43943
0,45053
0,45994
0,46784
0,47441
0,47982
0,48422
0,48778
0,49061
0,49286
0,49461
0,49598
0,49702
0,49781
0,49841
0,49886
0,49918
0,49942
0,49960
0,49972
0,49981
0,49987
0,49991
0,49994
0,49996
0,49997

0,02392
0,06356
0,10257
0,14058
0,17724
0,21226
0,24537
0,27637
0,30511
0,33147
0,35543
0,37698
0,39617
0,41309
0,42785
0,44062
0,45154
0,46080
0,46856
0,47500
0,48030
0,48461
0,48809
0,49086
0,49305
0,49477
0,49609
0,49711
0,49788
0,49846
0,49889
0,49921
0,49944
0,49961
0,49973
0,49981
0,49987
0,49992
0,49994
0,49996
0,49998

0,02790
0,06749
0,10642
0,14431
0,18082
0,21566
0,24857
0,27935
0,30785
0,33398
0,35769
0,37900
0,39796
0,41466
0,42922
0,44179
0,45254
0,46164
0,46926
0,47558
0,48077
0,48500
0,48840
0,49111
0,49324
0,49492
0,49621
0,49720
0,49795
0,49851
0,49893
0,49924
0,49946
0,49962
0,49974
0,49982
0,49988
0,49992
0,49995
0,49996
0,49998

0,03188
0,07142
0,11026
0,14803
0,18439
0,21904
0,25175
0,28230
0,31057
0,33646
0,35993
0,38100
0,39973
0,41621
0,43056
0,44295
0,45352
0,46246
0,46995
0,47615
0,48124
0,48537
0,48870
0,49134
0,49343
0,49506
0,49632
0,49728
0,49801
0,49856
0,49896
0,49926
0,49948
0,49964
0,49975
0,49983
0,49988
0,49992
0,49995
0,49997
0,49998

0,03586
0,07535
0,11409
0,15173
0,18793
0,22240
0,25490
0,28524
0,31327
0,33891
0,36214
0,38298
0,40147
0,41774
0,43189
0,44408
0,45449
0,46327
0,47062
0,47670
0,48169
0,48574
0,48899
0,49158
0,49361
0,49520
0,49643
0,49736
0,49807
0,49861
0,49900
0,49929
0,49950
0,49965
0,49976
0,49983
0,49989
0,49992
0,49995
0,49997
0,49998

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

160

4,1
4,2
4,3
4,4
4,5
4,6
4,7
4,8
4,9
5
5,1
52
5,3
5,4
5,5
5,6
5,7
5,8
5,9
6

0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

Anexa 2.Valori critice ale lui t


N

.05

.02

.01

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

0
2
4
6
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
89

0
2
3
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77

0
2
3
5
7
10
13
16
20
23
28
32
38
43
44
55
61
68

0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

Surs: Table 1 din F. Wilcoxon, Some Rapid Approximate Statistical Procedures,


American Cyanamid Company, 1949, p. 13.
Anexa 3. Tabelul lui Fisher pentru determinarea semnificaiei lui t i z

161

0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000

Tabelul legii normale reduse


t
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
1,96
2,0
2,1
2,2
2,3
2,4
2,5
2,58
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,30
3,4
3,5
3,6
3,8
4,0
4,5
5,0

anse din
100
84
69
55
42
32
23
16
11
7
5.0
4,5
3,6
2,8
2,1
1,6
1,2
1,0
0,9
0,7
0,5
0,4
0,27
0,19
0,14
0.10
0,07
0,046
0,032
0,014
0,006
0,0006
0,00006

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

df

0,10
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,64485
0,10
0,10

1. Probabilitatea (anse din 100) ca o


valoare a lui t s apar ntmpltor

0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
1,95996
0,05
0,05

0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,781
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,32634
0,02
0,02

0,01
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,57582
0,01

2. Tabelul lui Fisher de valori ale lui z

162

Anexa 4. Tabelul valorilor critice pentru distribuia t Student (unilateral)


df

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

= 0,10
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,282

= 0,05
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,760
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645

= 0,025
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,980
1,960

163

= 0,01
31,821
6,950
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,528
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,358
2,326

= 0,005
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,102
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,617
2,576

=0,0005
636,620
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,291

Anexa 5. Valori critice ale testului t


df = N - 1 la testul t pentru un eantion, intervale de ncredere, i la testul t pentru eantioane
dependente (corelate); df = N1 + N2 2 la testul t pentru dou eantioane independente.
Nivel de semnificaie pentru test bidirecional
(Pentru testul unidirecional procentajele se mpart pe jumtate)

df

10%
p = .10

5%
p = .05

2%
p = .02

1%
p = .01

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
110
120

6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6869
1.6839
1.6794
1.6759
1.6706
1.6669
1.6641
1.6620
1.6602
1.6588
1.6577
1.6449

12.7062
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0301
2.0211
2.0141
2.0086
2.0003
1.9944
1.9901
1.9867
1.9840
1.9818
1.9799
1.9600

31.8207
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5177
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4377
2.4233
2.4121
2.4033
2.3901
2.3808
2.3739
2.3685
2.3642
2.3607
2.3598
2.3263

63.6574
9.9248
5.8409
4.6041
4.0322
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7238
2.7045
2.6896
2.6778
2.6603
2.6479
2.6387
2.6316
2.6259
2.6213
2.6174
2.5758

Surs: D.B. Owen, Handbook of Statistical Tables (1962), Reading, MA: Addison-Wesley, pp. 28-30.
Copyright 1962 by Addison-Wesley Publishing Company.

164

Anexa 6. Tabelul parial al distribuiei F pentru = 0,05


df
(within)
intragrup
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

df intergrup (between)
1

10

161,4476
18,5128
10,1280
7,7086
6,6079
5,9874
5,5914
5,3177
5,1174
4,9646
4,8443
4,7472
4,6672
4,6001
4,5431
4,4940
4,4513
4,4139
4,3807
4,3512
4,3248
4,3009
4,2793
4,2597
4,2417

199,5000
19,0000
9,5521
6,9443
5,7861
5,1433
4,7374
4,4590
4,2565
4,1028
3,9823
3,8853
3,8056
3,7389
3,6823
3,6337
3,5915
3,5546
3,5219
3,4928
3,4668
3,4434
3,4221
3,4028
3,3852

215,7073
19,1643
9,2766
6,5914
5,4095
4,7571
4,3468
4,0662
3,8625
3,7083
3,5874
3,4903
3,4105
3,3439
3,2874
3,2389
3,1968
3,1599
3,1274
3,0984
3,0725
3,0491
3,0280
3,0088
2,9912

224,5832
19,2468
9,1172
6,3882
5,1922
4,5337
4,1203
3,8379
3,6331
3,4780
3,3567
3,2592
3,1791
3,1122
3,0556
3,0069
2,9647
2,9277
2,8951
2,8661
2,8401
2,8167
2,7955
2,7763
2,7587

230,1619
19,2964
9,0135
6,2561
5,0503
4,3874
3,9715
3,6875
3,4817
3,3258
3,2039
3,1059
3,0254
2,9582
2,9013
2,8524
2,8100
2,7729
2,7401
2,7109
2,6848
2,6613
2,6400
2,6207
2,6030

233,9860
19,3295
8,9406
6,1631
4,9503
4,2839
3,8660
3,5806
3,3738
3,2172
3,0946
2,9961
2,9153
2,8477
2,7905
2,7413
2,6987
2,6613
2,6283
2,5990
2,5727
2,5491
2,5277
2,5082
2,4904

236,7684
19,3532
8,8867
6,0942
4,8759
4,2067
3,7870
3,5005
3,2927
3,1355
3,0123
2,9134
2,8321
2,7642
2,7066
2,6572
2,6143
2,5767
2,5435
2,5140
2,4876
2,4638
2,4422
2,4226
2,4047

238,8827
19,3710
8,8452
6,0410
4,8183
4,1468
3,7257
3,4381
3,2296
3,0717
2,9480
2,8486
2,7669
2,6987
2,6408
2,5911
2,5480
2,5102
2,4768
2,4471
2,4205
2,3965
2,3748
2,3551
2,3371

240,5433
19,3848
8,8123
5,9988
4,7725
4,0990
3,6767
3,3881
3,1789
3,0204
2,8962
2,7964
2,7144
2,6458
2,5876
2,5377
2,4943
2,4563
2,4227
2,3928
2,3660
2,3419
2,3201
2,3002
2,2821

4,2252
4,2100
4,1960
4,1830
4,1709

3,3690
3,3541
3,3404
3,3277
3,3158

2,9752
2,9604
2,9467
2,9340
2,9223

2,7426
2,7278
2,7141
2,7014
2,6896

2,5868
2,5719
2,5581
2,5454
2,5336

2,4741
2,4591
2,4453
2,4324
2,4205

2,3883
2,3732
2,3593
2,3463
2,3343

2,3205
2,3053
2,2913
2,2783
2,2662

2,2655
2,2501
2,2360
2,2229
2,2107

241,8817
19,3959
8,7855
5,9644
4,7351
4,0600
3,6365
3,3472
3,1373
2,9782
2,8536
2,7534
2,6710
2,6022
2,5437
2,4935
2,4499
2,4117
2,3779
2,3479
2,3210
2,2967
2,2747
2,2547
2,2365
2,2197
2,2043
2,1900
2,1768
2,1646

Not: Acest tabel este aplicabil pentru maximum 11 grupuri (dfBetween = 10 i dfWithin maxim = 30).

165

Anexa 7. Valori critice ale coeficientului de corelaie r al lui Pearson


Unilateral
p = 0,05

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100

p = 0,10
0,988
0,900
0,805
0,729
0,669
0,622
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,36
0,352
0,344
0,337
0,330
0,323
0,317
0,311
0,306
0,301
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164

p = 0,25
Bilateral
p = 0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,413
0,404
0,396
0,388
0,381
0,374
0,367
0,361
0,355
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195

166

p = 0,01

p = 0,005

p = 0,02
0,9995
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,482
0,472
0,462
0,453
0,445
0,437
0,430
0,423
0,416
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230

p = 0,01
0,9999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,479
0,471
0,463
0,456
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254

Anexa 8. Valori critice ale corelaiei r, df = N 2, unde N este numrul perechilor de scoruri.

df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

5%
.997
.950
.878
.811
.754
.707
.666
.632
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.433
.423
.413
.404
.396

df
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
1000

1%
1.000
.990
.959
.917
.874
.834
.798
.765
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
.549
.537
.526
.515
.505

5%
.388
.381
.374
.367
.361
.355
.349
.325
.304
.288
.273
.250
.232
.217
.205
.195
.174
.159
.138
.113
.098
.088
.062

1%
.496
.487
.478
.470
.463
.456
.449
.418
.393
.372
.354
.325
.302
.283
.267
.254
.228
.208
.181
.148
.128
.115
.081

Surs: Table VII din Fisher and Yates: Statistical Tables for Biological, Agricultural and Medical
Research. Longman Group Ltd., London.

167

Anexa 9. Valorile coeficientului | r | pentru patru praguri de semnificaie


N
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50

p=0,10

p=0,05

p=0,025

p=0,01

0,81
0,73
0,67
0,62
0,58
0,55
0,52
0,50
0,48
0,46
0,44
0,43
0,41
0,40
0,39
0,38
0,37
0,36
0,32
0,30
0,27
0,26
0,24
0,23

0,88
0,81
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,42
0,38
0,35
0,32
0,30
0,29
0,27

0,93
0,88
0,83
0,79
0,75
0,72
0,69
0,66
0,63
0,61
0,59
0,57
0,56
0,54
0,53
0,52
0,50
0,49
0,45
0,41
0,38
0,36
0,34
0,32

0,96
0,92
0,87
0,83
0,80
0,76
0,73
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
0,54
0,49
0,45
0,42
0,39
0,37
0,35

Anexa 10. Valori ale corelaiei rangurilor pentru dou praguri de semnificaie
Nr. perechi

5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30

p=0,05
1,000
0,886
0,786
0,738
0,683
0,648
0,591
0,544
0,506
0,475
0,450
0,428
0,409
0,392
0,377
0,364

168

p=0,01
-1,000
0,929
0,881
0,833
0,974
0,777
0,714
0,665
0,625
0,591
0,562
0,537
0,515
0,496
0,478

Anexa 11. Valorile critice pentru testul de corelaie a rangurilor (rho) al lui Spearman
Test unilateral
N
= 0,05
= 0,10
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0.900
0,829
0,714
0,643
0,600
0,564
0,523
0.497
0,475
0,457
0,441
0,425
0,412
0,399
0,388
0,377
0,368
0,359
0,351
0,343
0,336
0,329
0,323
0,317
0,311
0,305

= 0,025
= 0,01
Test bilateral
= 0,05
= 0,02
0,886
0,786
0,738
0,683
0,648
0,623
0,591
0,566
0,545
0,525
0,507
0,490
0,476
0,462
0,450
0,438
0,428
0,418
0,409
0,400
0,392
0,385
0,377
0,370
0,364

169

0,943
0,893
0,833
0,783
0,745
0,736
0,703
0,673
0,646
0,623
0,601
0,582
0,564
0,549
0,534
0,521
0,508
0,496
0,485
0,475
0,465
0,456
0,448
0,440
0,432

= 0,005
= 0,01

0,881
0,833
0,794
0,818
0,780
0,745
0,716
0,689
0,666
0,645
0,625
0,608
0,591
0,576
0,562
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,478

Anexa 12. Tabelul lui Fisher de transformare a valorilor corelaiei r n scoruri z


r

0,0000
0,0100
0,0200
0,0300
0,0400
0,0500
0,0600
0,0700
0,0800
0,0900
0,1000

0,0000
0,0100
0,0200
0,0300
0,0400
0,0500
0,0601
0,0701
0,0802
0,0902
0,1003

0,2600
0,2700
0,2800
0,2900
0,3000
0,3100
0,3200
0,3300
0,3400
0,3500
0,3600

0,2667
0,2769
0,2877
0,2986
0,3095
0,3205
0,3316
0,3428
0,3541
0,3654
0,3769

0,5200
0,5300
0,5400
0,5500
0,5600
0,5700
0,5800
0,5900
0,6000
0,6100
0,6200

0,5763
0,5901
0,6042
0,6184
0,6328
0,6475
0,6625
0,6777
0,6931
0,7089
0,7250

0,7800
0,7900
0,8000
0,8100
0,8200
0,8300
0,8400
0,8500
0,8600
0,8700
0,8800

1,0454
1,0714
1,0986
1,1270
1,1568
1,1881
1,2212
1,2562
1,2933
1,3331
1,3758

0,1100
0,1200
0,1300
0,1400
0,1500
0,1600

0,1104
0,1206
0, 1307
0, 1409
0,1511
0,1614

0,3700
0,3800
0,3900
0,4000
0,4100
0,4200

0,3834
0,4001
0,4118
0,4236
0,4356
0,4477

0,6300
0,6400
0,6500
0,6600
0,6700
0,6800

0,7414
0,7582
0,7753
0,7928
0,8307
0,8291

0,8900
0,9000
0,9100
0,9200
0,9300
0,9400

1,4219
1,4722
1,5275
1,5890
1,6584
1,7380

0,1700
0,1800
0,1900
0,2000
0,2100
0,2200

0,1717
0,1820
0,1923
0,2027
0,2132
0,2237

0,4300
0,4400
0,4500
0,4600
0,4700
0,4800

0,4599
0,4722
0,4847
0,4973
0,5101
0,5230

0,6900
0,7000
0,7100
0,7200
0,7300
0,7400

0,8480
0,8673
0,8872
0,9076
0,9287
0,9505

0,9500
0,9600
0,9700
0,9800
0,9900

1,8318
1,9459
2,0923
2,2976
2,6467

0,2300
0,2400
0,2500

0,2342
0,2448
0,2554

0,4900
0,5000
0,5100

0,5361
0,5493
0,5627

0,7500
0,7600
0,7700

0,9730
0,9962
1,0203

170

Anexa 13. Tabelul de transformare al lui r n note z


z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,07

0,08

0,09

0,0
0,1
0,2
0,3
0,4

0,0000
0,0997
0,1974
0,2913
0,3800

0,0100
0,1096
0,2070
0,3004
0,3885

0,0200
0,1191
0,2165
0,3095
0,3969

0,0300
0,1293
0,2260
0,3185
0,4053

0,0400
01391
0,2355
0,3275
0,4136

0,0500
0,1489
0,2449
0,3364
0,4219

0,0599
0,1586
0,2543
0,3452
0,4301

0,0699
0,1684
0,2636
0,3540
0,4382

0,0699
0,1684
0,2636
0,3540
0,4382

0,0699
0,1684
0,2636
0,3540
0,4382

0,0898
0,1877
0,2821
0,3714
0,4542

0,0
0,1
0,2
0,3
0,4

0,5
0,6
0,7
0,8
0,9

0,4621
0,5370
0,6044
0,6640
0,7163

0,4699
0,5441
0,6107
0,6696
0,7211

0,4777
0,5511
0,6169
06751
0,7529

0,4854
0,5580
0,6231
06805
0,7306

0,4930
0,5649
0,6291
0,6858
0,7352

0,5005
0,5717
0,6351
0,6911
0,7398

0,5080
0,5784
0,6411
0,6963
0,7443

0,5154
0,5850
0,6469
0,7014
0,7487

0,5154
0,5850
0,6469
0,7014
0,7487

0,5154
0,5850
0,6469
0,7014
0,7487

0,5299
0,5980
0,6584
0,7114
0,7574

0,5
0,6
0,7
0,8
0,9

1,0
1,1
1,5
1,3
1,4

0,7616
0,8005
0,8337
0,8617
0,8854

0,7658
0,8041
0,8367
0,8643
0,8875

0,7699
0,8076
0,8397
0,8668
0,8896

0,7739
0,8110
0,8426
0,8692
0,8917

0,7779
0,8144
0,8455
0,8717
0,8937

0,7818
0,8178
0,8483
0,8741
0,8957

0,7857
0,8210
08511
0,8764
0,8977

0,7895
0,8243
0,8538
0,8787
0,8996

0,7895
0,8243
0,8538
0,8787
0,8996

0,7895
0,8243
0,8538
0,8787
0,8996

0,7969
0,8306
0,8591
0,8832
0,9033

1,0
1,1
1,5
1,3
1,4

1,5
1,6
1,7
1,8
1,9

0,9051
0,9217
0,9354
0,94681
0,95624

0,9069
0,9232
0,9366
0,94783
0,95709

0,9087
0,9246
0,9379
0,94884
0,95792

0,9104
0,9261
0,9391
0,94983
0,95873

0,9121
0,9275
0,9402
0,95080
0,95953

0,9138
0,9289
0,9414
0,95175
0,96032

0,9154
0,9302
0,9425
0,95268
0,96109

0,9170
0,9316
0,9436
0,95359
0,96185

0,9170
0,9316
0,9436
0,95359
0,96185

0,9170
0,9316
0,9436
0,95359
0,96185

0,9201
0,9341
0,9458
0,95537
0,96331

1,5
1,6
1,7
1,8
1,9

2,0
2,1
2,2
2,3
2,4

0,96403
0,97045
0,97574
0,98010
0,98367

0,96473
0,97103
0,97622
0,98049
0,98399

0,96541
0,97159
0,97668
0,98087
0,98431

0,96009
0,97215
0,97714
0,98124
0,98462

0,96675
0,97269
0,97759
0,98161
0,98492

0,96739
0,97323
0,97803
0,98197
0,98522

0,96803
0,97375
0,97846
0,98233
0,98551

0,96865
0,97426
0,97888
0,98267
0,98579

0,96865
0,97246
0,97888
0,98267
0,98579

0,96865
0,97246
0,97888
0,98267
0,98579

0,96986
0,97526
0,97970
0,98335
0,98635

2,0
2,1
2,2
2,3
2,4

2,5
2,6
2,7
2,8
2,9

0,98661
0,98903
0,99101
0,99263
0,99396

0,98688
0,98924
0,99118
0,99292
0,99408

0,98714
0,98945
0,99136
0,99292
0,99420

0,98739
0,98966
0,99153
0,99306
0,99431

0,98764
0,98987
0,99170
0,99320
0,99443

0,98788
0,99007
0,99186
0,99333
0,99454

0,98812
0,90026
0,99202
0,99346
0,99464

0,98835
0,99045
0,99218
0,99359
0,99475

0,98858
0,99064
0,99233
0,99372
0,99485

0,98858
0,99064
0,99233
0,99372
0,99485

0,98881
0,99083
0,99248
0,99384
0,99495

2,5
2,6
2,7
2,8
2,9

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,07

0,08

0,09

171

Anexa 14. Valorile critice pentru distribuia chi-ptrat (extras).


df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100

p
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,11
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,29
95,02
106,63
118,14
129,56

0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27.59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,88
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34

172

0,01
6,64
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,80
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,42
100,43
124,12
135,81

Anexa 15. Quantilele distribuei 2, avnd probabilitatea 1 - p = de a fi depite (tabel extins)

0,995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0,99

0,975

0,95

0,9

0,0000 0,0002 0,0010 0,0039 0,0158


0,0100 0,0201 0,0506 0,1026 0,2107
0,072 0,115 0,216 0,352 0,584
0,207 0,297 0,484 0,711 1,064
0,412 0,554 0,831 1,145 1,610
0,676 0,872 1,237 1,635 2,204
0,989 1,239 1,690 2,167 2,833
1,344 1,647 2,180 2,733 3,450
1,735 2,088 2,700 3,325 4,168
2,156 2,558 3,247 3,940 4,865
2,603 3,053 3,816 4,575 5,578
3,074 3,571 4,404 5,226 6,304
3,565 4,107 5,009 5,892 7,041
4,075 4,660 5,629 6,571 7,790
4,601 5,229 6,262 7,261 8,547
5,142 5,812 6,908 7,962 9,312
5,697 6,408 7,564 8,672 10,09
6,265 7,015 8,231 9,390 10,86
6,844 7,633 8,907 10,12 11,65
7,434 8,260 9,591 10,85 12,44
8,034 8,897 10,28 11,59 13,24
8,643 9,542 10,98 12,34 14,04
9,260 10,20 11,69 13,09 14,85
9,886 10,86 12,40 13,85 15,66
10,52 11,52 13,12 14,61 16,47
11,16 12,20 13,84 15,38 17,29
11,81 12,88 14,57 16,15 18,11
12,46 13,56 15,31 16,93 18,94
13,12 14,26 16,05 17,71 19,77
13,79 14,95 16,79 18,49 20,60

0,1

0,05

0,025

0,01

0,005

0,001

2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26

3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77

5,024
7,378
9,348
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98

6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
33,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89

7,879
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67

10,83
13,82
16,27
18,47
20,51
22,46
24,32
26,12
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,31
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70

173

Anexa 16. Tabelul valorilor critice pentru testul U Mann-Whitney


NA/NB

10

12

14

16

18

20

0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01

0
1
2
0
3
1
6
2
8
4
11
6
13
7
15
9
18
11
20
13

1
2
0
3
1
5
2
8
4
11
6
14
9
17
11
21
13
24
16
27
18

2
4
1
6
2
8
4
13
7
17
11
22
15
26
18
31
22
36
26
41
30

3
0
5
2
8
4
11
6
17
11
23
16
29
21
36
26
42
31
48
37
55
42

4
1
7
3
11
6
14
9
22
15
29
21
37
27
45
34
53
41
61
47
69
54

5
1
9
4
13
7
17
11
26
18
36
26
45
34
55
42
64
50
74
58
83
67

6
2
11
5
I5
9
21
13
31
22
42
31
53
41
64
50
75
60
86
70
98
79

7
2
12
6
18
11
24
16
36
26
48
37
61
47
74
|58
86
70
99
81
112
92

8
3
14
8
20
13
27
18
41
30
55
42
69
54
83
67
98
79
112
92
127
105

4
5
6
8
10
12
14
16
18
20

174

Anexa 17. Valorile critice pentru testul Wilcoxon

7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Nivel de semnificaie pentru test unilateral


0,025
0,01
0,005
Nivel de seminficaie pentru test bilateral
0,05
0,02
0,01
2
0
4
2
0
6
3
2
8
5
3
11
7
5
14
10
7
17
13
10
21
16
13
25
20
16
30
24
20
35
28
23
40
33
28
46
38
32
52
43
38
59
49
43
66
56
49
73
62
55
81
69
61
89
77
68

175

Anexa 18. Funcia de repartiie normal standard N (0, l)


z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,6159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997

0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,3975
0,9982
0,9987
O.S991
0,9993
0,9995
0,9997

0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9893
0,9922
0,9941
0,9956
0,9967
0,9976
0,9932
0,9987
0,9991
0,9994
0,9995
0,9997

0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997

0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997

0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0,9992
0,9994
0,9996
0,9997

0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9965
0,9989
0,9992
0,9994
0,9996
0,9997

0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997

0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0,9997

0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0,9993
0,9995
0,9997
0,9998

176

GLOSAR DE SIMBOLURI I FORMULE DE CALCUL

CAPITOLUL 3. DISTRIBUII I FRECVENE


Simboluri i semnificaia lor
X

un scor; n general X este simbolul variabilei

frecvena unui scor

fb

frecvena brut

fr

frecvena relativ (rezult prin transformare procentual a fb)

fc

frecven cumulat

fbc

frecven brut cumulat

frc

frecven relativ cumulat

Xmin

cea mai mic valoare de scor

Xmax

cea mai mare valoare de scor

mrimea unui interval de grupare

Ci

centrul de interval

li

limita inferioar a unui interval

ls

limita superioar a unui interval

valoarea procentual a unei frecvene

AI=Range

amplitudinea mprtierii unei distribuii

CAPITOLUL 4. INDICATORI AI TENDIEI CENTRALE


Simboluri i semnificaia lor
Mo

modul

Md

mediana

media eantionului

media populaiei

sum de ceea ce urmeaz

X X

deviaia unui scor de la medie

Formule
X

177

X
N

Formula mediei pentru date negrupate


Formula mediei pentru date grupate
Formule pentru determinarea medianei

X
Md

N 1
2

kX
N

Md li (

N
i
fc )
2
fi

CAPITOLUL 5. MSURI ALE VARIABILITII


Simboluri i semnificaia lor
AI=R

amplitudinea mprtierii unei distribuii

Q1, Q2, Q3

cuartilul unu, doi i trei

IQR

abaterea intercuartilic

AQ

abaterea cuartilic

1,5 IQR

criteriu de detectare a valorilor atipice (outlieri)

AS=SD

abterea standard

abaterea standard a populaiei

abaterea standard a eantionului

dispersia sau variana populaiei

s2

dispersia sau varian eantionului

scoruri standard; scoruri sau note z

Formule
Formula pentru Amplitudinea mprtierii

AI = R (Range) = Xmax Xmin

Formula petru abaterea de la medie pentru date negrupate


Formula petru abaterea de la medie pentru date grupate

AM

AM

X X
N
k X X
N

( X ) 2
N
N 1

X 2

Formula varianei pentru date negrupate

s2

Formula varianei pentru date grupate

(fX ) 2
N
s2
2
N

1
( X )
X 2
N
s
N 1
fX 2

Formula abaterii standard pentru date negrupate


178

Formula abaterii standard pentru date negrupate

(fX )
N
N 1

fX 2

X X

Formul pentru determinarea lui z din date brute

Formul de determinare a scorurilor brute din z

X z X .

CURSUL 6. INFERENA STATISTIC


Simboluri i semnificaia lor
p

probabilitatea de eroare

p(A)

probabilitatea de a se produce evenimentul A

p(A sau B)

probabilitatea de a se produce evenimentul A sau B

p(A, B)

probabilitatea de a se produce evenimentul A i B

1,96

interval de ncredere pentru p = .05

2,58

interval de ncredere pentru p = .01

ES=SX

eroarea standard

Ep=Sp

eroarea standard a unui cuantum procentual

H0

ipoteza de nul

H1

ipoteza de cercetare

df

grade de libertate (degree of freedom)

CI

interval de ncredere (Confidence Interval)

nivelul alfa la care se testeaz H0

valoarea testului t de semnificaie

tX

X2

valoarea testului t de semnificaie a diferenei dintre dou medii

tcal

t calculat

tcrit

t critic din tabel (t tabelar)

X
sX

sX

X2

eroarea standard a mediei populaiei


eroarea standard a unei medii estimate
eroarea standard a diferenei dintre dou medii estimate.

Formule

179

Eroarea standard a unei medii de selecie

ES S X

Testul t pentru dou eantioane independente

tx

1 x2

s
N 1

X1 X 2
sX 1 X

Testul t pentru dou eantioane independente

X1 X 2
2

s1 s2

N1 N 2

Testul t pentru dou eantioane independente (dispersii egale, cumulate)

X1 X 2
( N1 1) s12 ( N 2 1) s2 2

N1 N 2 2

Testul t al lui Fisher pentru dou medii necorelate

1
1

N
N
2
1

X1 X 2
X 1 X 2 2

N N 2
1
2

Testul t pentru diferena a dou eantioane corelate

Testul t pentru un cuantum procentual

N1 N 2

N1 N 2

X
s
N

p1 p2
p1q1 p2q2

N1
N2

CAPITOLUL 7. STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE


Simboluri i semnificaia lor
r

corelaia Pearson prin momentul produselor

corelaia Spearman prin metoda rangurilor (rho)

rbis

coeficient de corelaie biserial

rpunctbis

coeficient de corelaie punct-biserial

rtris

coeficient de corelaie triserial

coeficient de corelaie multipl

180

coeficientul de corelaie fi

coeficientul de corelaie Kendall

zx, zy

scorurile z pentru variabilele X i Y

r2, 2

coeficienii de determinare ai lui r, respectiv

diferena dintre perechile de ranguri din formula lui rho

Formule
Formula de definiie a corelaiei r

rXY

Formula de calcul a corelaiei r

rXY

Formula pentru corelaia rangurilor rho

( X X )(Y Y )
( X X ) 2 (Y Y ) 2

N X

N XY X Y
2

( X ) 2 N Y 2 ( Y 2 )

6 d 2
N ( N 2 1)

CAPITOLUL 8. UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE


REGRESIA LINIAR SIMPL I MULTIPL
Simboluri i semnificaia lor
^Y

valoarea estimat pentru variabila Y de la variabila X

(^Y Y) reziduale (suma diferenelor dintre Y obinut i cel prezis)


b

panta; schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.

interceptul (valoare lui Y cnd X este zero)

coeficient de regresie nestandardizat

coeficient de regresie standardizat

Formule
^Y = B0 + B1X
^Y = B0 + B1X1 + B2X2 + ... + BnXn
zy = r z x
B0 y B1 x

sY Y

B1 r

(Y Y ) 2
N 2

y
x

181

CAPITOLUL 9. TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT ( 2)

valoarea testului chi-ptrat

2calc

chi-ptrat calculat

2critic chi-ptrat critic


R

numr de rnduri

numr de coloane

fo

frecvena observat

fe

frecvena expectat

df

grade de libertate

coeficientul fi, folosit ca mrime a efectului

Cramer coeficientul de corelaie fi al lui Cramer


Formule

z2

Formula distribuiei chi-ptrat

( X N P)
N PQ

Formula de calcul pentru chi-ptrat


Mrimea efectului fi i fi al lui Cramer

Formul pentru gradele de libertate

( f o f e )2
fe

2
N

Cramer

2
N ( L 1)

df = (R-1)(C-1)

CAPITOLUL 10. TESTE DE SEMNIFICAIE NEPARAMETRICE


Simboluri i semnificaia lor
U

testul Mann-Whitney pentru eantioane independente

valoarea testuluiMann-Whitney pentru cellalt eantion din pereche

N1, N2

numrul de subieci din primul i din al doilea grup

R1, R2

suma rangurilor pentru primul, respectiv cel de al doilea grup

diferena dintre perechi la testul Wilcoxon

suma rangurilor la semnul cel mai mic la testul Wilcoxon

analiza de varian neparametric Kruskal-Wallis

Ni

numrul de observaii

182

Ri

suma rangurilor opentru un eantion

numrul de eantioane

F2

testul Friedman pentru eantioanem corelate

Formule

N1 ( N1 1)
R1
2

Formula pentru testul U Mann-Whitney

U N1 N 2

Formula lui U pentru testul Mann-Whitney

U ' N1 N 2 U

Scorurile z pentru U cu eantioane mari

N1 N 2
2
N1 N 2 ( N1 N 2 1)
12

N ( N 1)
4
N ( N 1)(2 N 1)
24

Scorurile z pentru T cu eantioane mari

12
R2
i 3( N 1)
N ( N 1) N i

Formula pentru testul Kruskal-Wallis

Formula testului Friedman

F 2

183

12
Ri2 3 N (k 1)
Nk (k 1)

SERIA PSIHOLOGIE

Au aprut:
Elena Cocorad Didactica psihologiei
Aurel Ion Clinciu Statistici multivariate pentru psihologie
Ana-Maria Cazan Strategii de autoreglare a nvrii
Aurel Ion Clinciu Statistici aplicate n psihologie

n pregtire:

184

S-ar putea să vă placă și